Aikido

セキュリティの変容:自律型AI攻撃に対応したMythos対応アーキテクチャのチェックリスト

執筆者
Mike Wilkes

AnthropicGlasswingイニシアチブには、Amazon Web Services、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorganChase、Linux Foundation、Microsoft、NVIDIA、Palo Alto Networksがローンチパートナーとして参加しています。AnthropicがMythos Previewモデルを一般公開しないという決定は間違いなく大きな話題となっており、ソーシャルメディア上では多くの投稿や反応が見られます。 表向きは、主要なソフトウェアおよびセキュリティ企業に優先的なアクセス権を提供し、ウェブブラウザやオペレーティングシステム、あるいは同様の「難解な」リスク領域において発見・検証された数千もの脆弱性への対処を支援するためです。Anthropicがモデル機能において画期的な進歩を遂げたのか、それとも単なる見事なマーケティング戦略だったのか、その真偽はともかく、この話題について関連性があり、理にかなった意見を述べるというプレッシャーから逃れることはできません。

画像提供:Gemini(加工済み) Greta_oto.jpg David Tiller 作、 CC BY-SA 3.0

私としては、4月12日にCSAとその仲間たち(250名以上のCISOや著者たちが参加しており、それ自体が驚くべき共同作業であり、コミュニティの回復力を示すものとなっています)が発表した提言書をレビューし、寄稿する中で、「Mythos-ready」という用語を考案できたことを光栄に思います。私は、力強い印象を与えつつも、同時に、現時点ではどの組織もMythos-readyではないということを明確に示せるような用語を求めていました。 Anthropic社自身でさえも例外ではありません。 

しかし、本ブログ記事では、CSAの報告書とは異なるアプローチを採用し、機械並みの速度で脆弱性を発見・悪用する自律型AIの脅威という新たな時代を迎える中、「Mythos」に備える組織のための包括的なセキュリティフレームワークの骨格を概説することを試みる。 

セキュリティフレームワークのマッピングを作成・共有する目的は、単純なプロンプトベースのセキュリティから堅牢なアーキテクチャ制御への移行を促進することにあります。具体的には、厳格なセグメンテーション、最小権限のアクセス、および隔離された実行環境を推奨し、エージェント型侵害による潜在的な「被害範囲」を限定することを目指しています。これが、自律型脅威に対抗するためのアーキテクチャ設計のあり方です。

防御側の優位性を維持するため、企業はリリース前の敵対的テストを実施し、自動化されたレッドチームング・パイプラインを通じて「自らを先に攻撃する」ことが推奨されています。 セキュリティチームへの影響に関するAnthropic自身のガイダンスでは、脆弱性を単に修正待ちのリストに並べるだけでなく、判断を下し優先順位をつけることの重要性が強調されています(EPSS v4.1)。今日からこれを始めるのに、Mythos Previewへのアクセス権さえ必要ありません。お気に入りの最先端モデルならどれでも利用できますし、実を言えば、重み公開型の無料モデルでも構いません。 

最終的には、成熟度モデルの初稿と実用的なチェックリストを提示し、多段階の攻撃を連鎖させ、20年以上前のコードからわずか20分前に作成されたコードに至るまで、あらゆるコードの脆弱性を発見し得る高度なAIモデルに対して、社内システムが十分な耐性を備えていることを確認したいと考えています。

Mythosやそれに類するスキャンや攻撃に備えて組織を整えるために、皆さんが行うべき膨大なリストを挙げる前に、まずは以下の点を実装すべきです:

  • 機微なアクションに対する人的承認
  • すべての自律型ツールの操作について、高精度なログ記録を維持する
  • 爆発範囲の制限(最小権限、スコープ付きトークン)
  • キルスイッチと異常検知
  • システムとデータの間のセグメンテーションの改善
  • 入出力検証レイヤー(特にagentic)
  • 推論環境と実行環境の分離

つまり、もし「主体的な防衛能力を持つべきか」という問いから「主体的な防衛能力をいかにして最善の形で実現するか」という段階へと、世間の認識が移行しているとするなら、ここでいくつかの自明な原則や前提を明確にしておく必要がある。

エージェントベースのシステムにおいて、攻撃対象領域とは、エージェントがアクセス可能なすべてのものを指します。

以下のいずれかに当てはまる場合は、まだミソスへの準備ができていません:

  • エージェントは、広範なアクセス権限を持って本番環境にアクセスできます。
  • 1つの認証情報で複数の環境にアクセスできます。
  • 道具の使用状況の記録が不十分であるか、あるいは全く記録されていない。
  • 外部への投稿および外部ネットワークへのアクセスは、デフォルトで許可されています。
  • セキュリティテストでは、アーキテクチャや実行パスではなく、プロンプトに重点が置かれます。
  • 御社のインシデント対応計画は、攻撃者の行動速度が人間の速度に限定されていることを前提としています。

「AnthropicMythos Preview System Card」は、フロンティアエージェントが自律的に脆弱性を発見し、エクスプロイトを開発し、時には稀ではあるが影響の大きい無謀な行動をとることがあるという前提に基づいており、そのためアーキテクチャレベルでの制御が極めて重要となります。

ここでは、「Age of Mythos」時代に向けた実用的なセキュリティアーキテクチャ・チェックリストをご紹介します。これは初稿であり、フィードバックやさらなる議論を踏まえて修正が必要になる可能性がありますが、エージェント型攻撃や侵害頻度の増加に焦点を当て、攻撃者よりも自社のアーキテクチャ、システム連携、リリース時期を熟知しているという防御側の優位性を維持することに重点を置いています。このチェックリストは、本ブログの最後からダウンロードできます。

「……我々は、強力な言語モデルが
攻撃者よりも防御者により大きな利益をもたらし、
ソフトウェアエコシステムの全体的なセキュリティを向上させると考えている。」

プロジェクト・グラスウィングは、単なるAI防御の進化の一章に過ぎないわけではない。むしろ、複雑さ、ノイズ、そして事後対応的な思考の重圧の下で、静かに機能停止状態に陥っていたシステムへの電気ショックのようなものだ。 長年にわたり、アプリケーションセキュリティは、現代のソフトウェア開発が求めるスピードと規模の加速に追いつくことができずにいた。グラスウィングが象徴するのは、受動的な監視から能動的な蘇生への転換である。それは単なる脅威の検知にとどまらず、ソフトウェアの防御方法にリズムと明快さ、そして意図を取り戻す、いわばサイバー・除細動器なのだ。

多少の不安はありますが、そう遠くない将来の「パッチ・チューズデー」において、Mythos PreviewをMicrosoft Windowsのコードリポジトリに向けることで、脆弱性の新たな記録が更新されることはほぼ確実でしょう。私の記憶では、これまでの最悪の記録は脆弱性400件とゼロデイ脆弱性10件でした。 4月21日にリリースされたFirefox 150には271件の脆弱性が含まれていたことを踏まえると、その数字は4,000件の脆弱性と400件のゼロデイ脆弱性まで跳ね上がるだろうと私は予想する。

AIをAppSecの「血流」に直接注入することで、AIは単なる追加機能ではなく、絶え間なく適応し、迅速に対応する「脈動そのもの」となります。これは再生された分野であり、ついに保護対象のシステムと同じ速度で動作できるようになったのです。過去10年間のセキュリティが「生き残る」ことだったとすれば、Project Glasswingのような取り組みによって幕を開けたこの新たな時代は、「より強く、より鋭敏に、そして次の段階に向けて準備万端な状態で」蘇る時代なのです。

エージェント型AIによる脅威に備えるためのさらなるリソースをお求めの方は、 Aikido では、CTO向けのMythos対応セキュリティチェックリストも公開しています。ぜひご覧ください。

こちらのフォームにご記入いただくと、私の『Mythos Architecture セキュリティガイド』をダウンロードできます

共有:

https://www.aikido.dev/blog/metamorphosis-mythos-era

脅威ニュースをサブスクライブ

4.7/5
誤検知にうんざりしていませんか?
10万人以上のユーザーと同様に Aikido をお試しください。
今すぐ始める
パーソナライズされたウォークスルーを受ける

10万以上のチームに信頼されています

今すぐ予約
アプリをスキャンして IDORs と実際の攻撃パスを検出します

10万以上のチームに信頼されています

スキャンを開始
AI がどのようにアプリをペンテストするかをご覧ください

10万以上のチームに信頼されています

テストを開始

今すぐ、安全な環境へ。

コード、クラウド、ランタイムを1つの中央システムでセキュアに。
脆弱性を迅速に発見し、自動的に修正。

クレジットカードは不要です。 | スキャン結果は32秒で表示されます。