ユースケース

a10y の実践 — 障害検知から自律回復まで。

01

ファイバー切断がモバイルコアに影響

物理的なファイバー切断がトランスポート層、IP 層、モバイルコア層にまたがるカスケードアラームを引き起こします。a10y はそれらを数秒で単一の根本原因に相関させます。

Observe
Vector → OpenObserve

トランスポート層: インターフェース ge-0/0/1 で光パワー損失アラーム

IP 層: BGP neighbor down、3 リンクで OSPF adjacency lost

モバイルコア (free5GC): AMF registration failures が急増、UPF path unreachable

12 台のデバイスで 90 秒間に 47 件のアラート

Orient
Keep + Qdrant

Keep が 47 件のアラートを重複排除 → 8 種類のユニークなアラームタイプに

Qdrant が 3 か月前の類似インシデントを発見(同一区間のファイバー切断)

相関分析: 影響を受けたすべてのデバイスが共通のファイバーパスを共有

Decide
correlation-engine

active-inventory に問い合わせ:「これらのデバイス間の物理トポロジーは?」

ファイバー区間 X を単一障害点として特定

RCA: ファイバー区間 X の切断 → トランスポート断 → IP 再経路失敗(代替パスなし) → モバイルコア到達不能

アクションプラン: バックアップパスへのトラフィック迂回、物理修理のため NOC に通知

Act
Keep workflows

NETCONF 経由でバックアップ MPLS パスを有効化

RCA サマリー付きのインシデントチケットを作成

NOC に通知:「ファイバー区間 X で切断、バックアップパス有効化済み、物理修理が必要」

Verify
OpenObserve + engine

バックアップパスで BGP セッションが再確立

AMF registration 成功率が 99.9% に回復

アラートストーム解消 — 47 件のアラート → アクティブ 0 件

RCA までの時間: 12 秒。復旧までの時間: 3 分。

02

perfSONAR メッシュ上のレイテンシ劣化

研究拠点間で perfSONAR が検出した緩やかなレイテンシ増加。統計的 AI がしきい値アラートが発報する前に異常を特定します。

Observe
Vector (syslog) → OpenObserve

perfSONAR OWAMP テスト: パス A→B の片方向遅延が 2ms/時 で増加

しきい値アラームは未発報(まだ 50ms SLA 以下)

統計的異常検知がこのトレンドを異常としてフラグ

Orient
Keep + Qdrant + active-inventory

トポロジー問い合わせ: パス A→B は 4 ホップを通過、区間 2 に光増幅器あり

Qdrant: 昨年同様のパターンを確認 — 光増幅器の劣化

SNMP との相関: 区間 2 の光パワーが低下中(まだ仕様範囲内)

Decide
correlation-engine

予測: 現在の速度では約 18 時間後に SLA 違反

根本原因: 区間 2 の光増幅器の経年劣化(故障前状態)

推奨: 予防保守ウィンドウの設定、プロテクションパスへの切替

Act
Keep workflows

予測故障ウィンドウ付きの保守チケットを作成

次回保守ウィンドウでのプロテクションパス切替をスケジュール

光チームにアラート:「区間 2 の増幅器が劣化、18 時間以内に交換を」

Verify
OpenObserve

切替後: パス A→B のレイテンシがベースラインに復帰

perfSONAR テストで SLA 準拠を確認

ユーザー影響が出る前に問題解決。SLA 違反ゼロ。

03

aether-ide を使った日常運用

オペレーターの典型的なワークフロー — 朝の概要確認からインシデント調査まで、すべて aether-ide ポータルから。

1

aether-ide を開く

トポロジービューにすべてのネットワークノードが表示されます。緑 = 正常、黄 = 警告、赤 = 重大。2 つのノードが黄色です。

2

黄色のノードをクリック → OpenObserve

そのデバイスのログとメトリクスでフィルタリングされた OpenObserve が開きます。1 つのインターフェースでエラーレートの上昇を確認。

3

アラートを確認 → Keep

Keep ダッシュボードを開きます。このデバイスに対する 3 つの相関アラート — CRC errors、input drops、光パワー警告。Keep がすでにグループ化済みです。

4

履歴を検索 → Qdrant

「このパターンは過去にあった?」Qdrant ダッシュボードが 2 件の類似過去インシデントを表示 — いずれもファイバーコネクタの清掃で解決。

5

アクションを承認

correlation-engine が RCA サマリー付きのフィールドテック派遣を提案。オペレーターが承認 → Keep workflow がディスパッチチケットを作成。

オペレーターが見る画面

aether-ide :8080
ヘルスステータス付きのネットワークトポロジーマップ。任意のノードをクリックして OpenObserve や Keep のデータにドリルイン。
OpenObserve :5080
デバイスログ、インターフェースメトリクス、トレースデータ。ネットワーク層(トランスポート、IP、モバイルコア)ごとのカスタムダッシュボード。
Keep :3001
相関分析によりグループ化されたアクティブアラート。ワークフロー実行履歴。外部ツールとの連携状況。
Qdrant :6333
過去のインシデントデータベース。類似検索の結果。Runbook とドキュメントのエンベディング。