ミトス、どいてくれ。優れたハーネスを備えたモデルなら、どんなモデルでもやってくる。

ブログ

ニュース

ミトス、どいてくれ。さあ、登場するのは……まあ、ハーネスがしっかりした他のモデルならどれでも

執筆者

Dania Durnas

公開日：

2026年6月1日

『Mythos』を、その場でもっとも巨大で凶悪な存在として扱う必要はない。

誤解しないでほしい。評価の基準にもよるが、Mythosは現在入手可能なモデルの中でもトップクラスであり、推論能力に関しては概して最高レベルだ。しかし、他を圧倒するほどの差があるわけではない。

また、実用的なユースケースに関しては、一般的なモデル、たとえ最先端のモデルであっても、単に問題に当てはめただけでは最良の結果は得られません。また、スケーラビリティや費用対効果の面でも不十分です。脆弱性の発見においては、モデルそのものよりも、モデルに使用されるハーネスの方が重要です。そして、Mythosの公開版であるFable 5についてはどうでしょうか？サイバーセキュリティの分野には一切対応していません。

まず、Mythosがあらゆる問題を解決する万能のモデルではない理由について検討し、次に、優れたハーネスがどのようにして大規模な環境で高品質な結果を生み出すのかについて見ていきます。

ミトスはちょっと大げさなところがある

まず、いくつかの事実を確認しましょう。Mythosは優れたAIモデルであり、現時点で最高峰の一つに数えられ、ベンチマークテストでも常に高い性能を発揮し続けています。Mythosはエクスプロイト構築や概念実証（PoC）の生成に特に優れており、リリース以来、ゼロデイ脆弱性を多数発見してきた実績があります。

とはいえ、多少の不安や期待は当然のこととはいえ、これまでのモデルからの改良度合いに比べ、世間の反応は不釣り合いなほど大きかった。市場に投入される新しいフロンティアモデルは、常に前モデルより優れているが、その差はごくわずかなものだ。

そして現時点では、他の最先端モデルも概ね同等の水準にあり、特に4月にGPT-5.5が登場してからはその傾向が顕著です。英国のAIセキュリティ研究所によるベンチマークでは、GPT-5.5のサイバー能力レベルはMythosとほぼ同等と評価された。同研究所の評価スイートで最も難易度の高いカテゴリーにおいて、GPT-5.5は71.4%の正答率を記録したのに対し、Mythosは68.6%だった。MythosとGPT-5.5のどちらが優れているかは、タスクによって異なる。

Mythosは完璧ではなく、それ単体ですべてのセキュリティ脆弱性を発見できる万能薬というわけではありません。例えば、あるユーザーがcURLライブラリのコードベースに対してMythosを実行し、その結果をその創設者兼メンテナーであるダニエル・ステンバーグ氏にメールで送りました。Mythosは5つの「確認済みのセキュリティ脆弱性」を検出しました。しかし、ステンバーグ氏のチームがこれらを精査したところ、3件は誤検知、1件はセキュリティとは無関係のバグであり、真脆弱性だったのは1件のみであることが判明しました。数日後、ステンバーグ氏は他のAIツールを実行した人々から17件の脆弱性報告を受け取りました。彼はLinkedInで「Mythosはこのレースのゴールには程遠い」と述べ、この経験について記したブログ記事では、Mythosに対する過度な期待は「主にマーケティングによるもの」だと考えていると記しました。

Anthropic社は先日、「Fable 5」をリリースしました。これは「Mythos 5」に安全策が施されたものです。この安全策により、サイバーセキュリティや生物学に関連するリクエストに遭遇すると、モデルは動作を停止します。そのため、このモデルを用いてベンチマークを実施したり、脆弱性の発見に活用したりすることは一切できません。

モデルよりもハーネスの方が重要だ

現在、さまざまなモデルが多くの異なるタスクで優れた性能を発揮し、最上位モデル間の能力差も縮まりつつある中、脆弱性最適化において最大の変数となるのは、その活用方法である。

ハーネスとは、1つ（または複数の）モデルを包括するオーケストレーション層のことです。これには、どのエージェントをいつ実行するか、エージェントにどのようなコンテキストを渡すか、結果の検証方法、そしてより高度なモデルへのエスカレーションのタイミングを決定するロジックが含まれます。これは、コード、ワークフロー設計、プロンプトアーキテクチャが連携して機能するものであり、モデルはあくまでそれらの構成要素の一つに過ぎません。

ハーネスは、LLMを汎用的なものから、特定の領域やタスクに極めて適したものへと特化させます。また、 LLMの非決定性という特性も活用しており、これによりLLMは実行のたびにわずかに異なる結果を出力するようになります。ハーネスを使用すると、複数のエージェントがコードベースをレビューすることになりますが、どのエージェントも（Mythos上で動作するエージェントを含め）脆弱性を100%発見できるわけではないという前提で運用されます。

脆弱性文脈において、Cloudflareの研究では、堅牢なハーネス構成が一般的にどのようなものかについて、具体例を紹介しています：

リポジトリを読み取り、下流のすべての処理に対してタスクキューを作成するリコンステージ
多数のエージェントが並行して動作し、それぞれが脆弱性を探すハンティングステージ
検証段階において、別のプロンプトを使用し、独自の知見を生成する能力を持たない独立したエージェントが、探索エージェントが発見した内容を反証しようと試みる
リポジトリ全体で確認された発見事項を追跡し、攻撃者が制御する入力がシステム外部から実際にそのバグに到達できるかどうかを判断する段階
同じ根本原因を持つ所見を統合するための重複排除ロジック

ハーネスの設計は極めて重要であり、モデル自体の選択よりも影響が大きいことがよくあります。UCSBの研究者たちは、同じタスクに対して異なるハーネスを適用した「Claude Opus 4.6」を実行したところ、最も優れたハーネスでは、最も劣るハーネスに比べて4倍のテストに合格することが判明しました。比較のために言えば、標準的なコーディングベンチマークにおけるOpus 4.6やGPT-5.4といった最先端モデル間の成績の差は、わずか1パーセントポイント程度に過ぎない。つまり、どのモデルを使うかばかりにこだわっているチームは、間違った変数を過度に最適化していることになる。

ニールス・プロヴォスは、この概念を逆の角度から実証した。彼は、脆弱性 18年間脆弱性発見するハネスを構築し、その後、オープンソースのGLM 5.1に置き換えても同等の結果が得られることを示した。彼は、強力なハネスがあれば、モデルを主たる推進力ではなく、交換可能なコンポーネントとして扱えることを実証したのである。

Mozillaのセキュリティチームによる調査では、ハーネスの設計に投資することが長期的に見ていかに有益であるかが説明されています。ハーネスのパイプラインが確立されると、新しいモデルを導入するたびに、アーキテクチャの再構築を行うことなく、バグの発見、概念実証（PoC）の作成、および影響分析が即座に改善されました。Mythosが利用可能になった際、彼らはこれを組み込むだけで、すぐにその恩恵を受けることができました。ハーネスを適切に構築しておけば、モデルの進化は、慌てて導入する必要のあるものではなく、自然と享受できるものとなるのです。

金こそが物を言う

Mythosをあらゆる用途に用いることに関するもう一つの問題は、経済的な側面です。大型モデルは常に高性能ですが、その分、はるかに高価でもあります。

Mythosを1回実行するには、リポジトリを徹底的にスキャンして数件の脆弱性を検出するだけで、数万ドルという実費がかかります。Mythosを1回実行するのと同じコストで、Opus 4.6やGPT-5.4 nanoを10回実行すれば、通常はより多くの脆弱性が見つかります。コストと性能は1対1で比例するわけではありません。例えば、GPT-5.4の入力と出力のコストはGPT-5.5の半分ですが、前者の推論能力は後者の半分ではありません。内部検証では、場合によっては8つのGPT-5.4-miniエージェントが1つのGPT-5.5エージェントを上回る性能を発揮することが判明しており、コストもほぼ同等です。低コストなモデルであれば、エージェントの数を強みに変えることができます。

ある男性が1ドル札を手に持ち、それを持って踊っている。そして、その1ドル札を手のひらから弾き飛ばす。札束をばら撒く様子をパロディ化したものだ。

規模の小さいモデルは、精度が低い分、一般的にフロンティアモデルよりも多くの誤検知を発生させます。しかし、この稀なケースにおいては、可能な限り多くの脆弱性を確実に捕捉する必要があるため、質と同様に量も重要となります。ここで、ハーネスを活用して余分なノイズを除去したり、他のエージェントにエクスプロイト検証やクリーンアップを行わせたりすることが有効であり、Mythosやフロンティアモデルを稼働させてすべてを検出しようとするよりも、はるかに経済的です。

攻撃者は実際に何を使うことになるのでしょうか？Mythosではありません。そもそも、彼らにはその環境がありません。そもそも、Fable 5は、まさにこうしたグループがアクセスできないようにするために性能が抑えられています。いいえ、攻撃者が求めているのは、低コストで、繰り返し、大規模に実行できるものであり、彼らは順番待ちなどしないでしょう。適切なハーネスを備えたオープンウェイトモデルは効果的であり、おそらく彼らは今まさにそれを使っているはずです。

では、組織にとって何が持続可能なのでしょうか？コードの変更のたびにフロンティアモデルを実行することは、間違いなく持続可能ではありません。安価なモデルを定期的に、高価なモデルを的確に活用する多層的なオーケストレーションを実行すること……それこそが持続可能なのです。

カーテンの後ろにいるモデルには気にするな

Mythosは、私たちの歴史において非常に興味深い出来事でした。これにより、現在のモデルがどのようなことができるのかについて、人々の関心を集めました。しかし、高品質で高性能な自律型脆弱性、MythosやProject Glasswingに限定されることなく、他のより安価な手段でも実現可能です。

特定のモデルに縛られているベンダーは、その1つのモデルを完璧に仕上げなければなりません。ベンダーに依存しないプラットフォームであれば、用途に応じて最適なツールを選定することができます。小規模なモデルは広範囲を網羅して候補を抽出でき、一方、高性能なモデルは興味深く、より高度な推論能力を必要とする候補を深く掘り下げることができます。AppSecやAIペネトレーションテストで最良の結果を得るには、最も洗練されたモデルを採用しているかどうかに過度にこだわるのではなく、適切なモデルを活用する高度なハネスを備えたシステムを優先すべきです。

『オズの魔法使い』：緑のカーテンの後ろで、男が大きな装置を操作している。犬のトトがカーテンを引きはがすと、その男の姿が現れる。

で Aikidoでは、量、オーケストレーション、そして状況に応じて最適なツールを選べる自由こそが、単に「最も高額なツール」を追いかけることよりも重要だと、早い段階で気づきました。AppSecプロバイダーとして、私たちは、モデル層がその下で進化し続けられるようなオーケストレーションを構築することが自らの責任であると考えています。当社のペネトレーションテストが、お客様のアプリケーションのセキュリティ強化にどのように役立つかについて詳しく知りたい方は、ぜひ今すぐお問い合わせください。

追伸：また、Mythos対応のチェックリストも作成しました。これは、エージェント型AI（Mythosを基盤とするものであれ、多数のGPT 5.4 miniを基盤とするものであれ）による脅威に備えるためのチーム支援を目的としています。

最終更新日:

2026年6月18日

共有: