なぜこの構成か?

a10y はモノリシックな製品ではありません。それぞれ明確な理由で選ばれた、ベスト・オブ・ブリードのオープンソースコンポーネントの組み合わせです。このページではその選定理由とトレードオフを説明します。

OpenObserve 単体では足りない

OpenObserve はログ・メトリクス・トレースの保存とクエリにおいて卓越した性能を発揮します。しかし、オブザーバビリティデータとアラート管理は根本的に異なる問題です。

機能 OpenObserve Keep
ログ / メトリクス / トレース保存 優秀 対象外
SQL / PromQL クエリ ネイティブ対応 N/A
閾値ベースアラート 基本的 高度(マルチソース)
アラート重複排除 なし 組み込み
クロスソース相関 なし AIによるグルーピング
回復アラート管理 なし 解決済み / 未解決を追跡
自動復旧ワークフロー なし 宣言的YAML
マルチツール連携 限定的 110以上の双方向連携

OpenObserve は「何が起きたか?」に答えます。Keep は「何が問題で、何が残っているか?」に答えます。

Keep なしでは、オペレーターは生のテレメトリからアラートを手動で相関させ、どの問題が解決済みかを追跡し、手動で復旧作業をトリガーしなければなりません。これが TMF L3+ の自律性達成を阻むギャップです。

なぜ Datadog ではないのか?

Datadog は強力で成熟したプラットフォームです。しかし、テレコムの自律運用においては根本的な制約があります。

Datadog a10y (OpenObserve + Keep)
デプロイ形態 SaaS のみ セルフホスト / エアギャップ対応
データ主権 データが自社ネットワーク外へ 全データがオンプレミスに留まる
コストモデル ホスト単価 + GB 単価 インフラコストのみ
テレコム規模のログ量 大量データで高コスト ストレージコスト 140 分の 1
カスタム AI / LLM 連携 Datadog AI に固定 任意のモデルを利用可能
クローズドループ自動化 Workflow Automation(限定的) Keep ワークフロー + correlation-engine
ネットワークプロトコル対応 エージェント型、IT 中心 Syslog, SNMP, gNMI, カスタム VRL
ソースコードへのアクセス プロプライエタリ 完全 OSS

Datadog はIT / クラウド監視のために作られています。a10y はテレコムの自律運用のために作られています。

テレコム事業者にはデータ主権、エアギャップ対応、テレコムネイティブなプロトコルサポート、そしてペタバイト規模のログ量でのコスト予測可能性が求められます。これらはオプションではなく、規制上・運用上の必須要件です。

a10y 単体では Autonomous は実現できない

a10y は認知コアを提供します — ネットワークイベントを観測し、理解し、対処する能力です。しかし、自律運用にはインテリジェンスだけでなく、運用プラットフォームが必要です。

Aether Platform
自律性を実現する運用基盤
aether-ide
統合オペレーターUI — トポロジ、ダッシュボード、AI チャット
aether-term
CLI ファーストインターフェース(SSH 専用環境向け)
active-inventory
ライブトポロジグラフ — 影響範囲分析
Helm charts
本番グレードのデプロイ、スケーリング、ライフサイクル管理
統合
a10y
認知コア — 観測、理解、相関、対処
correlation-engine
LLM + 統計 AI による因果推論
OpenObserve + Vector
テレメトリ収集、保存、クエリ
Keep
アラートライフサイクル、相関、復旧
Qdrant + NATS
ナレッジメモリ + イベントバックボーン

Aether Platform が提供する価値

オペレーター体験

a10y はインサイトとアクションを生成します。Aether Platform はそれをコンテキストとともに提示します — トポロジビュー、インシデントタイムライン、自然言語インタラクション。このレイヤーがなければ、オペレーターは複数のダッシュボードを行き来し、情報を頭の中でつなぎ合わせなければなりません。

トポロジ認識

active-inventory はネットワーク機器、リンク、サービスのライブグラフを維持します。影響範囲の推定(「このルーターが故障したら、どのサービスが影響を受けるか?」)や、影響を考慮した復旧(「カードを交換する前にトラフィックを迂回させる」)に不可欠です。a10y の correlation-engine はこのコンテキストを利用しますが、所有はしません。

本番環境対応

Helm charts は Kubernetes デプロイ、リソース管理、シークレット注入、アップグレード戦略を担います。「ラップトップで動く」から「キャリアネットワークで稼働する」への移行には、インテリジェンスレイヤーとは別のインフラエンジニアリングが必要です。

クローズドループの完結

真のクローズドループ自動化にはフィードバックパスが必要です:対処 → 検証 → 調整。Aether Platform は復旧アクションをオブザーバビリティデータに接続し、回復を確認し、自動修復が失敗した場合にエスカレーションすることでこのループを閉じます。

a10y は脳。Aether Platform は身体。

運用コンテキストのないインテリジェンスは、単なる分析にすぎません。自律運用には両方が必要です — 何が起きているかを理解する能力と、その理解に基づいて安全に、スケールして、本番環境で行動するインフラストラクチャ。

TMF 自律性レベル — 各構成がどこに位置するか

TM Forum はネットワーク自律性の 6 段階(L0–L5)を定義しています。ツーリングの選択によって到達できるレベルは異なります。各アプローチが現実的にどのレベルに位置するかを示します。

L1
手動運用 + アドホックスクリプト
統合ツールなし
オペレーターは CLI アクセス、場当たり的なスクリプト、属人的な知識に依存します。アラート疲れが常態化し、すべてのインシデントが消火活動になります。多くのネットワークが今もここにあります — 選択ではなく、慣性によって。
L2
監視中心
OpenObserve / Datadog / Grafana(単体利用)
ダッシュボードはある。アラートは飛ぶ。しかし相関は手動で、重複排除は存在せず、復旧は「誰かがページングされて SSH でログインする」こと。問題は見える — ただ自動的に対処はできない。
L3
AI 支援運用
Aether Platform + a10y
AI がアラートを相関させ、根本原因を提案し、アクションを推奨します。オペレーターは完全なコンテキスト — トポロジ、履歴、因果分析 — を手元に持って最終判断を下します。ヒューマン・イン・ザ・ループですが、そのループはインテリジェントです。Aether Platform + a10y が今日提供する価値がここです。
L4
自律運用
a10y のビジョン — クローズドループ自動化
システムが検知し、理解し、対処し、検証する — 自律的に。オペレーターは運用するのではなく監督します。復旧ワークフローは影響範囲を考慮したセーフガード付きで自動実行されます。人間が介入するのは未知の状況のみ。これが a10y が目指すゴールです。

多くのネットワークは L1–L2 に留まっています。L3 へのジャンプには、より良いダッシュボード以上のものが必要です — アラートインテリジェンス(Keep)、トポロジコンテキスト(active-inventory)、AI 推論(correlation-engine)の連携が求められます。

L3 から L4 へのジャンプには信頼が必要です — 透明な AI 判断、検証可能な結果、そして自律範囲の段階的な拡大を通じて築かれる信頼。a10y はその信頼を段階的に獲得するよう設計されています。

まとめ

問い 回答
なぜ OpenObserve 単体ではだめか? テレメトリは保存できるが、アラートの重複排除・相関・自動復旧ができない。Keep がこのギャップを埋める。OpenObserve 単体では L2 止まり。
なぜ Datadog ではだめか? SaaS 限定、データ主権なし、テレコム規模では高コスト、AI は固定、テレコムプロトコル対応が限定的。L2 止まり — より高い請求書が来るだけ。
なぜ a10y 単体ではだめか? a10y は認知コア。Aether Platform がオペレーターインターフェース、トポロジ認識、本番インフラを提供し、L3 到達と L4 への前進を可能にする。