Aikido

設計上どのようにAikidoが、AIペネトレーションテストエージェントを確実に保護するのか

執筆者
Sooraj Shah

AIエージェントを巡る大騒ぎや、その限りなく広がる可能性については、もう十分耳にしているでしょう。そうした可能性は確かに素晴らしいものですが、あなたが本当に求めているのは、実際の問題を直接解決するエージェント型AIの能力に他なりません。

そして生産性の向上やROIのメリットを考えると、ふと立ち止まってこう思うのです。「確かにこれは素晴らしいが、もしこれらのエージェントが権限範囲を超えてしまったら?」と。これは、自社でAIエージェントを内部展開している場合でも、外部ベンダーのAIエージェント機能を利用している場合でも、同じことです。

それは正当な疑問だ。エージェントは他のAI機能と同様、制約が必要である。制約がなければ暴走する可能性がある 。エージェントは設計上好奇心が強い。幼児のように、手が届くドアは全て試すだろう。多くの場合、探索は求められるが、開けてはいけないドアは物理的にロックしておく必要がある。 

サイバーセキュリティにおいては、この点がさらに重要となる:AIエージェントに対する最低限の安全要件は、より厳格である必要がある。当社のAIペネトレーションテスト機能である「Aikido 」では、エージェントが範囲外に逸脱するのを防ぐため、あらゆる層を考慮している。これには、誤って本番環境をテストしたり制御を失ったりするといった要素も含まれる。

スコープ外への展開は、セキュリティリーダーやエンジニアからよく寄せられる主要な懸念事項の一つであり、当社プラットフォームの開発当初から考慮してきた課題です。当然ながら、サイバーセキュリティ企業として、この点を確実に実現する必要がありました。

エージェントには予想外の道やリスクの高い道に挑戦することが求められているが、ガードレールはその行動を封じ込めるためのものであって、阻止するためのものではないことを覚えておく価値がある。

Aikido 攻撃と無限の技は、ハードな境界とソフトな境界の両方を用いた多層的なアプローチで構成される。以下に、知っておくべき重要な要素を挙げる:

レイヤー1: ハードウェアレベルの分離: 制御プレーンと実行プレーン

Aikidoのシステムは、ペネトレーションテストを計画・評価するシステム(制御プレーン)と、実際にアクションを実行する環境(隔離された実行サンドボックス)を厳密に分離するアーキテクチャで設計されています。 

すべての推論、オーケストレーション、および機密データへのアクセスはコントロールプレーンで行われます。ツールの実行、ブラウザの自動化、ネットワークとのやり取りは別の環境で行われます。

分離が存在するのは、実行が不正動作する可能性があると想定しているためであり、したがって、あらゆる影響は封じ込められなければならない。この理由から、実行環境はオーケストレーションシークレット、内部インフラストラクチャ、またはコントロールプレーンシステムにアクセスできない。 

レイヤー2: 実行時スコープの強制

生産は決して範囲内とは見なされない

当社のシステムは、本番環境が攻撃対象範囲に含まれることを決して想定しません。ペネトレーションテストは、ステージング環境およびテスト環境に対してのみ実施されることが前提です。本番環境を対象範囲に含めるには明示的な設定が必要であり、その場合でも、テスト実行前に必ず審査と承認が行われます。 

当社のガードレールが実際に機能する事例を確認しています。あるケースでは、エージェントが本番インフラに到達する可能性のあるアプリケーション動作を実行しました。しかし、ネットワーク層に設定した厳格な境界によりリクエストはブロックされました。ただし、エージェントが試行した痕跡は確認できました。このブロックされた試行こそが、ガードレールが機能している証拠です。 

許可されたドメインのみアクセス可能です 

当社のエージェントは、明示的に設定されたドメインとのみ通信可能です。許可リストに登録されていないドメインは、ネットワークレベルでブロックされます。これはお客様自身で設定可能であり、攻撃対象またはアクセス可能なドメインを指定できます。簡単に言えば、エージェントが想定外のサーバーと通信するのを防ぐため、デフォルトでドメインをブロックしています。

これは、プロンプトや人間によるスコープの強制に依存しないことを意味します。 Aikido 技術的に自らそれを強制します。

偶発的なスコープドリフトはブロックされる

幼児の例えに戻ろう。他の安全対策の大半はエージェントが範囲外に逸脱しないようにしているが、それでも限られた数のエージェントは、まあ、どうしても逸脱してしまう。特に250体のエージェントが同時に稼働している場合にはなおさらだ。 

この典型的な例として、エージェントがリンク経由で外部アプリケーションにリダイレクトされた場合、彼らはまだ同じページにいると思い込むが、実際には別のウェブサイトにいる。突然XやRedditに飛ばされ、これがテスト範囲の一部だと勘違いするのだ。

だからこそ、エージェントを彼ら自身から守るための厳格なチェックが必要となる。ペンテスト フィリップ・ドゥラソフが言うように Aikido セキュリティのAIペネトレーションテストリーダー、フィリップ・ドゥラソフが言うように:

「常に良識ある行動を取らないエージェントが5%存在します。だからこそ、我々はこの5%に対処することを徹底しているのです」

レイヤー3:プロンプト注入とデータ漏洩 

プロンプトインジェクションは自律型AIシステムにおける主要なリスクであり、攻撃者がエージェントが読み取るコンテンツに悪意のある指示を挿入する手法である。エージェントはそれらの指示を正当な指示として解釈し、それに従う。

これは、エージェントにソースコードや内部データを本来あるべきでない場所に送信するよう促すコンテンツを意味する可能性があります。脆弱性 、信頼できないコンテンツに晒された後、それに基づいて動作することから脆弱性 。 Aikido は、これら両方の選択肢を排除します。

まず、 Aikidoのエージェントはインターネットに公開アクセスできません。つまりエージェントは、ある技術の仕組みを調べるためにGoogle検索を行ったり、Redditで危険な操作の指示を受けたりすることはできません。処理するコンテンツは、スコープされたアプリケーション内に存在するものに限定されます。 

第二に、たとえ何らかの方法で悪意のある命令がターゲットアプリケーション内に埋め込まれたとしても、エージェントは依然としてデータを外部に流出させることは許可されていません。ネットワークレベルの制限により、ランダムな宛先へのアウトバウンド接続が防止されるため、エージェントはソースコードをGoogle Driveにアップロードしたり、外部エンドポイントに投稿したり、攻撃者が制御するドメインにデータを送信したりすることはできません。

ネットワーク層において、エージェントからのHTTPおよびDNSトラフィックを傍受・制御することでこれを実施し、明示的に承認されていないドメインへの解決や通信を防止します。

最悪の場合、モデルが指示を誤って解釈しても、外部に何かを送信することは依然として不可能です。

特筆すべき例外ケースとして、顧客が意図的に自身の環境に悪意のある指示を注入した場合(なぜそのようなことをするのかは不明ですが?!)、エージェントがこれを処理する可能性があります。しかし、その場合でも影響は当該顧客自身のテスト環境に限定されます。テナント間のリスク、インフラの露出、データ漏洩は、顧客が既に管理している範囲を超えることはありません。 

レイヤー4:各エージェントごとの分離されたサンドボックス

各エージェントは独自の小さな隔離されたサンドボックス(例:ベビーサークルの中の幼児)を持っています。つまり、それらは両方から分離されているということです Aikidoの内部インフラストラクチャと、同時に実行中の他のエージェントの両方から分離されています。これは、彼らが Aikidoのネットワーク、インフラストラクチャ、データベースへのアクセスが制限され、他のアクティブなセッションに干渉したり影響を与えたりすることができません。

テスト中に何かが予期せぬ動作をした場合、その影響はその単一のサンドボックス内に封じ込められ、エージェント間への影響とテナント間への露出の両方を防止します。 

レイヤー5:運用上の安全対策

すべてのリクエストはレート制限と負荷監視が適用され、テストが対象システムを圧迫したり、大量のアラートを発生させたりしないよう保証されます。

さらに、テストはいつでも即時停止または終了が可能です。お客様はエージェントの動作をリアルタイムで確認でき、すべてのリクエストとアクションが可視化されます。これにより、チームは必要と判断した場合に介入できます。

設定の検証

設定ミスは悪意のある行為よりも起こりやすい。このため、テスト開始前に Aikido は事前チェックで認証と到達可能性を検証します。設定ミスや本番環境類似の兆候が見られる場合、早期に警告が表示されます。つまり、回避可能な設定ミスを実行時に修正する制御に頼るのではなく、実行開始前に人為的ミスを捕捉する安全策が設計されているのです。

柔らかい境界線

当社の階層型アプローチでは、ソフト境界も採用しています。これにより、エージェントが利用するためにドメインへのアクセス権が必ずしも必要とはなりません。 

例えば、認証ポータルがある場合、そのポータル内でエージェントが認証を利用してアプリケーションにログインすることは望ましいが、エージェントがポータル自体を攻撃することは望ましくない。

ソフト境界とは、エージェントが認証ポータルに到達できる状態でありながら、特に攻撃しないよう指示されている状態を指す。 

スコープの適用方法:人間対AIのペネトレーションテスト

従来のペンテストでは、範囲は文書化、契約、専門的判断によって管理される。テスターは対象環境について説明を受ける。これは実務上は有効だが、範囲内での実施はテスターの規律と経験に依存する。 

例えば、テスターがリダイレクトを辿って誤った環境に入り込んだり、システムを誤って識別したりした場合、その問題は通常、ログやレビューを通じて後になって発見される。

AIペネトレーションテストでは、技術的制御によってスコープが強制されます。ドメインが許可リストに登録されていない場合、接続はブロックされます。本番環境が明示的に選択されていない場合、アクセス不可となり、リダイレクトがスコープ外へ誘導した場合、リクエストは自動的に失敗します。 

両方のアプローチは効果的である。技術的執行の利点は、文書化と解釈への依存を減らすことである。 

AIペネトレーションテストは、重大な問題や高深刻度の問題を発見する点で、手動テストよりも優れた結果を既に示しています。その恩恵を得るために、 Aikido をお試しください。

共有:

https://www.aikido.dev/blog/ai-pentesting-agent-security

脅威ニュースをサブスクライブ

今日から無料で始めましょう。

無料で始める
CC不要

今すぐ、安全な環境へ。

コード、クラウド、ランタイムを1つの中央システムでセキュアに。
脆弱性を迅速に発見し、自動的に修正。

クレジットカードは不要です | スキャン結果は32秒で表示されます。