a10y の実践 — 障害検知から自律回復まで。
物理的なファイバー切断がトランスポート層、IP 層、モバイルコア層にまたがるカスケードアラームを引き起こします。a10y はそれらを数秒で単一の根本原因に相関させます。
トランスポート層: インターフェース ge-0/0/1 で光パワー損失アラーム
IP 層: BGP neighbor down、3 リンクで OSPF adjacency lost
モバイルコア (free5GC): AMF registration failures が急増、UPF path unreachable
12 台のデバイスで 90 秒間に 47 件のアラート
Keep が 47 件のアラートを重複排除 → 8 種類のユニークなアラームタイプに
Qdrant が 3 か月前の類似インシデントを発見(同一区間のファイバー切断)
相関分析: 影響を受けたすべてのデバイスが共通のファイバーパスを共有
active-inventory に問い合わせ:「これらのデバイス間の物理トポロジーは?」
ファイバー区間 X を単一障害点として特定
RCA: ファイバー区間 X の切断 → トランスポート断 → IP 再経路失敗(代替パスなし) → モバイルコア到達不能
アクションプラン: バックアップパスへのトラフィック迂回、物理修理のため NOC に通知
NETCONF 経由でバックアップ MPLS パスを有効化
RCA サマリー付きのインシデントチケットを作成
NOC に通知:「ファイバー区間 X で切断、バックアップパス有効化済み、物理修理が必要」
バックアップパスで BGP セッションが再確立
AMF registration 成功率が 99.9% に回復
アラートストーム解消 — 47 件のアラート → アクティブ 0 件
RCA までの時間: 12 秒。復旧までの時間: 3 分。
研究拠点間で perfSONAR が検出した緩やかなレイテンシ増加。統計的 AI がしきい値アラートが発報する前に異常を特定します。
perfSONAR OWAMP テスト: パス A→B の片方向遅延が 2ms/時 で増加
しきい値アラームは未発報(まだ 50ms SLA 以下)
統計的異常検知がこのトレンドを異常としてフラグ
トポロジー問い合わせ: パス A→B は 4 ホップを通過、区間 2 に光増幅器あり
Qdrant: 昨年同様のパターンを確認 — 光増幅器の劣化
SNMP との相関: 区間 2 の光パワーが低下中(まだ仕様範囲内)
予測: 現在の速度では約 18 時間後に SLA 違反
根本原因: 区間 2 の光増幅器の経年劣化(故障前状態)
推奨: 予防保守ウィンドウの設定、プロテクションパスへの切替
予測故障ウィンドウ付きの保守チケットを作成
次回保守ウィンドウでのプロテクションパス切替をスケジュール
光チームにアラート:「区間 2 の増幅器が劣化、18 時間以内に交換を」
切替後: パス A→B のレイテンシがベースラインに復帰
perfSONAR テストで SLA 準拠を確認
ユーザー影響が出る前に問題解決。SLA 違反ゼロ。
オペレーターの典型的なワークフロー — 朝の概要確認からインシデント調査まで、すべて aether-ide ポータルから。
トポロジービューにすべてのネットワークノードが表示されます。緑 = 正常、黄 = 警告、赤 = 重大。2 つのノードが黄色です。
そのデバイスのログとメトリクスでフィルタリングされた OpenObserve が開きます。1 つのインターフェースでエラーレートの上昇を確認。
Keep ダッシュボードを開きます。このデバイスに対する 3 つの相関アラート — CRC errors、input drops、光パワー警告。Keep がすでにグループ化済みです。
「このパターンは過去にあった?」Qdrant ダッシュボードが 2 件の類似過去インシデントを表示 — いずれもファイバーコネクタの清掃で解決。
correlation-engine が RCA サマリー付きのフィールドテック派遣を提案。オペレーターが承認 → Keep workflow がディスパッチチケットを作成。