Anthropic「Project Glasswing」とClaude Mythos:AIによる脆弱性自動検出とモデルアクセスの再定義
Claude Mythosのアーキテクチャと自律的脆弱性スキャンの高度化
Anthropicが発表した最新モデル「Claude Mythos」は、従来のLLMの推論能力を超え、高度なコード解析とセマンティックな脆弱性検出において飛躍的な進化を遂げた。技術的な核心は、コードベースの静的解析(SAST)と、実行環境を模倣した動的推論(DAST)を統合した「ハイブリッド・コンテクスト・エンジン」にある。
Mythosは、単にパターンマッチングで脆弱性を探すのではなく、制御フローグラフ(CFG)やデータフロー解析をトークンレベルで統合的に解釈する。これにより、複雑な依存関係を持つライブラリのゼロデイ脆弱性(Type-Confusion、Use-After-Free、論理欠陥)を、数千件単位で高精度に特定可能となった。特に、「Project Glasswing」の運用下では、このモデルが大規模なOSSエコシステムに対して自律的なスキャンを実行し、潜在的な攻撃経路をモデル内部でシミュレーションすることに成功している。
「Project Glasswing」によるアクセス制限の技術的妥当性
AnthropicがClaude Mythosへのアクセスを50の厳選されたパートナーに制限した決定は、AIの「能力」と「安全性」のトレードオフにおける新たなベンチマークとなる。これは単なるガードレールの追加ではなく、AIモデルの出力(Capability)そのものがセキュリティ上の脅威(Weaponization)となり得ることを認めた初めての事例である。
技術的には、以下の二点が制限の背景にあると推測される:
-
推論連鎖(CoT)の悪用リスク: モデルが特定の脆弱性を「発見」するプロセスを公開することは、そのまま高度なエクスプロイト(攻撃コード)作成の手順書を公開することと等価である。
-
モデル蒸留(Model Distillation)の防止: 脆弱性検出に特化した重みや推論パターンを蒸留技術によって他モデルへ転移させることを防ぐため、APIアクセス層での厳格なペイロード監視と、ハードウェアレイヤーでのセキュアなコンピュート環境が強要されている。
AI時代の脆弱性管理と開発者へのインサイト
今回の事態は、開発者やセキュリティエンジニアがLLMと共生する時代において、以下のパラダイムシフトを迫っている。
-
「AIによるコード監査」の日常化と依存リスクの再評価: 今後は、人間が書いたコードをAIが検証するだけでなく、AIが生成したコード自体が別のAIによって「潜在的脆弱性」としてフラグ立てされるエコシステムが主流となる。開発者は、静的解析ツールに加えて、最新の脆弱性検出AIとの継続的な対話(Red TeamingとしてのAI活用)を開発パイプラインに組み込むべきである。
-
ゼロトラストの再定義: AIが数千ものゼロデイを短時間で特定できる世界では、パッチ適用の遅延は致命的となる。Mythosのようなモデルを活用し、CI/CDプロセスにおいて「リリース前の自動脆弱性シミュレーション」をビルドの必須ステップとして自動化することが、企業にとっての最低防衛ラインとなる。
-
モデルの「能力分離」アプローチの採用: AnthropicのGlasswingプロジェクトが示したように、将来的なOSSモデルやローカルモデルの提供にあたっては、推論能力を「汎用」と「専門(攻撃/守備)」に分離し、API利用者の信頼度に基づいて段階的に機能を解放する「プログレッシブ・アクセシビリティ」モデルが、プラットフォーム事業者の標準戦略になると予想される。
🔗 Source / 元記事: https://www.youtube.com/watch?v=kYv9d-jGfH4


