英国AI安全研究所(AISI)によるClaude Mythosのサイバーセキュリティ能力評価と技術的示唆
Claude Mythosのサイバー能力に関するAISIの評価フレームワークと脅威モデル
英国AI安全研究所(AISI)は、Anthropicが発表した次世代プレビューモデル「Claude Mythos」に対し、サイバー攻撃ライフサイクル全体における能力を評価した。この評価は、単なるコード生成能力の測定にとどまらず、**「自律的な脆弱性調査(Reconnaissance)」「エクスプロイトコードの作成」「標的型フィッシングの高度化」「インシデント後の横展開(Lateral Movement)」**といった攻撃フェーズごとの成功確率を定量化している。
特に注目すべきは、Mythosが「Project Glasswing」という限定的なパートナーシップスキーム下で運用されている点である。AISIは、このモデルが既存の汎用モデルと比較して、特定のゼロデイ脆弱性に対する推論能力が有意に高いことを示唆した。これは、モデルのトレーニングデータに最新のCVE(共通脆弱性識別子)データセットや、高度なセキュリティリサーチコードが最適化された重み付けで統合されていることを示唆しており、AIの「二重用途(Dual-use)」のリスク管理における新たな基準を提示している。
大規模言語モデルにおけるサイバー防御・攻撃能力の非対称性
Claude Mythosの評価を通じて浮き彫りになったのは、LLMが持つ「防御ツールとしての機能」と「攻撃ツールとしてのリスク」の間の微妙な境界線である。AISIの技術報告によれば、Mythosは複雑なコードベースの静的・動的解析において人間を上回る効率を見せている。
技術的なアーキテクチャの観点からは、Mythosは「長期的コンテキストの維持能力」と「段階的推論(Chain-of-Thought)の最適化」が大幅に改善されている。これにより、大規模なレガシーシステム内の脆弱性を特定する際に、依存関係の深いスタックを跨いだパス解析が可能となっている。AISIは、この能力が悪用された場合、防御側のパッチ適用速度を大幅に上回る攻撃ペースが構築されるリスクを指摘している。そのため、モデルのリリース前に「セーフガードによる出力の遮断」だけでなく、モデルの推論過程そのものをモニタリングする「AIネイティブな脅威検知レイヤー」の必要性が議論されている。
開発者・エンジニアのための技術的インサイト
-
インフラセキュリティの再定義(AI-Assisted Red Teaming): Mythosのような高性能モデルを「攻撃者視点」のツールとして活用し、継続的なCI/CDパイプライン上で「AI駆動型レッドチーミング」を実装すべきである。手動のペネトレーションテストを待つのではなく、モデルに自身のコードベースの脆弱性探索を自動化させることで、パッチサイクルの短縮を図る。
-
「プロジェクト・グラスウィング(Project Glasswing)」モデルの示唆: 汎用的なAPI公開ではなく、特定のコンソーシアム限定でモデルを解放するというAnthropicのアプローチは、高リスク・高能力モデルの標準的なリリース形態となる可能性がある。開発者は、将来的に「モデルへのアクセス権」そのものが、技術的スキルセットと同様に組織のセキュリティ競争力を左右する変数になることを前提としたアーキテクチャを設計する必要がある。
-
コード生成における「文脈汚染」の防御: Mythosクラスのモデルは、高度なコードを生成する一方で、悪意のある隠れた命令(インジェクション)を含めるリスクも高い。エンジニアは、LLMが生成したコードに対して、シグネチャベースのスキャンだけでなく、グラフニューラルネットワーク等を用いた意味論的解析(Semantic Analysis)を行い、コードの意図が開発者の想定と乖離していないかを検証する自動化フローを構築すべきである。


