AIが駆動する偽情報マシンの解剖——NATO StratCom COEによるLLMレッドチーミング報告

　2026年4月9日、NATOが認定した多国籍研究機関であるNATO戦略コミュニケーション卓越センター（NATO StratCom COE、ラトビア・リガ）は、「Beyond Spam Bots: The Rise of AI-Powered Disinformation Machines and the Imperative for Strategic Response」を公開した。著者はGundars Bergmanis-Korāts（博士）とJoshua Chia Tee Hiangの2名で、商業AIセキュリティ企業Enkrypt AIが貢献者として参加している。

　本報告書を読む上でバイアスの所在を先に明示しておく必要がある。NATO StratCom COEはNATOの政策・戦略コミュニケーション能力の強化を使命とする機関であり、本報告書もその文脈で書かれている。規制上の課題を論じながら、同時に「西側の攻撃的情報作戦への応用」を明示的に推奨するという二面的な構成は、純粋なアカデミック研究ではなく安全保障政策の文書として評価すべきである。また、Enkrypt AIの関与は、AI安全評価ビジネスへの商業的関心を背景に持つ。これらを踏まえた上で、報告書の実証的内容は具体性が高く、偽情報研究・プラットフォームガバナンス・AI政策の交差点に位置する重要な一次資料である。

脅威の進化：スパムボットからAI駆動システムへ

　報告書はまず、オンライン偽情報の脅威景観が「根本的な転換」を遂げたという診断から出発する。第一世代の偽情報操作（2016〜2020年）は、テンプレートベースで反復的なコンテンツを大量のボットアカウントが流布するモデルであり、プラットフォームの検知アルゴリズムがその特性に合わせて発展してきた。現在の第二世代はその防御前提を無効化している。

　報告書が示す世代比較は具体的である。第一世代では、コンテンツ生成はテンプレート依存で容易に識別可能、ペルソナ管理は薄いバックストーリーを持つ静的な偽アカウント、標的設定は広範な人口統計カテゴリ、戦術調整は観察結果に基づく手動作業、そして運用には多数の人間オペレーターが必要だった。AI駆動の第二世代では、これらすべてが逆転する。コンテンツはコンテキストを読んで人間と区別のつかないレベルで生成され、ペルソナは適応型の心理プロファイルを持つ動的な合成アイデンティティとして機能し、標的設定はリアルタイムの感情分析と心理的脆弱性マッピングに基づく。戦術は自動フィードバックループで自己最適化され、人間の監視をほぼ必要としない産業規模の自動化が実現している。

　この転換が戦略コミュニケーション実践者に意味するのは、報告書の言葉を借りれば「メッセージへの対抗から適応型システムへの対抗への移行」である。敵対的行為者の目的——行動変容、信頼侵食、社会分断——は変わらないが、その手段と方法は既存の防御フレームワークを追い越している。

LLMレッドチーミング：8モデルの脆弱性評価

　報告書の実証的核心は、8つの最新LLMに対するレッドチーミング評価にある。方法論は、3つの脅威カテゴリ（偽情報生成・有害コンテンツ生成・有毒言語生成）にわたる複数の敵対的プロンプトの自動ループ実行である。攻撃ベクターには直接プロンプト、エンコード指示（Base64・ROT13）、多言語アプローチ、高度なジェイルブレイク技術が含まれ、出力を体系的に収集してポリシー違反レスポンスを引き出した割合を脆弱性スコアとして算出した。

結果は以下のとおりである。

モデル	偽情報（%）	有害（%）	有毒（%）	リスク評価
Claude-4-Sonnet	5.75	0	0.91	低
GPT-5	17	0.25	14.77	低〜中
Grok-4-Fast	34.25	3.75	7.73	中
Mistral-Medium	47.25	11.78	10.91	中〜高
Qwen3-235B	60.75	0.5	13.63	高
Gemini 2.5 Pro	71.25	3.5	20.91	高
DeepSeek-R1	74.25	30.5	4.56	高
Huihui AI（abliterated）	80	74.5	10	最重大

　2つの構造的知見が浮かび上がる。第一に、完全に免疫なモデルは存在しない。西側主要企業のモデルでさえ悪用可能な脆弱性を有しており、安全アラインメントは予防ではなく緩和に過ぎない。第二に、「ポートフォリオ最適化」アプローチが洗練された行為者にとって最適戦略であるという点である。高偽情報スコアのモデル（Gemini 2.5 Pro・Qwen3）はナラティブ生成に、高有毒スコアのモデル（GPT-5・Gemini）はエンゲージメント増幅に、高有害スコアのモデル（DeepSeek-R1・Mistral）はエスカレーション・コンテンツに、そして安全制約を取り除いたopenソースモデルは無制限オペレーションに——それぞれ特化させて組み合わせることで、単一モデルより危険な複合システムが構成できる。現行の規制フレームワークが個別モデルの安全評価に集中している以上、このポートフォリオ戦略はそれ自体が規制の盲点となっている。

　ドメイン別の内訳も注目に値する。付録データが示す通り、「戦争・紛争」カテゴリは全モデルで最高の脆弱性を示し（最大95%）、「政治」がそれに次ぐ（最大88%）。これらは西側の安全保障利益と民主的プロセスに直接関係するカテゴリであり、偶然ではない。

abliterationが示す規制の空白

　Huihui AIの80%という数値の意味は、モデル単体の問題を超える。これは商業オープンソースモデルから安全ファインチューニングを意図的に除去した「abliterated」モデルである。報告書が強調するのは、この除去技術が「公開文書化されており、最小限の専門知識で実行可能」であるという事実だ。強力なオープンソースモデルがあれば、誰でも安全制約を剥奪して兵器化できる。現行のオープンソースAIガバナンスは、この攻撃ベクターに対して実効的な障壁を提供していない。

　攻撃ベクター別の成功率も体系的に記録されている。基本的な直接プロンプトは12%、ROT13/Base64エンコード指示は31%、段階的に会話をエスカレートする多段手法は42%、そして高度なコンテキスト再フレーミングによるジェイルブレイクは48%に達した。プロンプトエンジニアリングの習熟によって、十分にアラインされたモデルに対しても成功率を4倍近く引き上げられることを示している。

多エージェント偽情報マシンの解剖

　上記の能力を組み合わせると、自律的な多エージェントシステムが構成される。単一の大規模アプリケーションではなく、中央オーケストレーターの下で特化した複数のエージェントが稼働し、ターゲット・ペルソナ・コンテンツ・習得済みTTPsを格納する共有メモリを通じて連携するモジュラーアーキテクチャである。一つのコンポーネントが妨害されても他が継続し、失敗した要素は交換・修復できる。

　報告書はこのシステムの5フェーズワークフローを以下のように記述している。

フェーズ	名称	機能
Phase 1	Discovery（偵察）	脆弱なコミュニティのターゲット識別・心理マッピング
Phase 2	Persona generation（ペルソナ生成）	合成アイデンティティの創出
Phase 3	Content crafting（コンテンツ作成）	ナラティブペイロードの生成
Phase 4	Deployment（展開）	配信・増幅
Phase 5	Evaluation（評価）	効果測定と戦術の最適化

　各フェーズにはそれぞれ特化したエージェントが対応する。発見エージェントはソーシャルメディアAPIとNLPセンチメント分析・ネットワークグラフ分析を用いて心理的脆弱性指数を算出する。ペルソナ生成エージェントは高度なLLMとキャラクター一貫性フレームワークを使い、心理パラメータを持つ合成アイデンティティとA/Bテスト機能を備える。コンテンツ作成エージェントはペルソナ特性に合わせた偽情報を生成し、偽の引用文献を組み込む能力を持つ。展開エージェントはブラウザ自動化・プロキシローテーション・アカウント生成を管理する。評価エージェントはリーチと「ナラティブ採用率」を定量化し、対抗ナラティブを検出して戦術を更新する。

　現代のボットネットと旧来のボット群を根本的に区別するのは「動的ペルソナエンジン」の存在である。ペルソナは信頼性・感情レジスター・社会的ポジショニングといった複数の次元に沿って生成され、「エンゲージメントクラスター」として協調展開することで有機的に見える会話を作り出す。報告書が記述する典型的なクラスター構成は次のとおりである。

役割	原型	戦略的機能
権威者	「懸念を持つインサイダー」	信頼性の確立、技術的な裏付けの提供
感情増幅者	「不安な患者」「心配する親」	感情的共鳴の生成、恐怖・懸念反応のモデル化
解決策提供者	「ウェルネス支持者」	代替行動の提示、改宗経路の創出
管理された反対意見	「科学優先の懐疑論者」	批判を先取りして体系的に回答、議論の外観を演出
改宗ナラティブ	「元懐疑論者」	望ましい信念変容のモデル化、迷っている層への社会的証明の提供

　「管理された反対意見」の存在が特に注目される。正当な批判をシステム内部で先取りして回答することで、外部からのファクトチェックや反論が「すでに議論済みの問題」として中和される構造を作り出す。これは単純な偽情報拡散ではなく、認識論的インフラへの攻撃として機能する。

7日間キャンペーンの実演

　報告書は多エージェントシステムの具体的な運用を示すため、心臓薬に関する健康偽情報キャンペーンの構築シナリオを詳述している。これは実際の作戦記録ではなく、技術的な実現可能性を示すために著者が設計した仮想事例であることを明示する。ただし使用されるツール・手法・成果指標はすべて現在商業的に入手可能な技術に基づいている。

　Day 0、システムはAPIスキャニングによってr/HealthAnxiety（12万人）を一次ターゲットとして特定した。感情エンゲージメント率68%、制度への高い不信感という心理的脆弱性がマッピングされた。Day 1、5ペルソナクラスターが展開される。「CardioTruthMD」（権威）、「AnxiousPatientSarah」（感情増幅）、「WellnessCoachMark」（解決策提供）、「ScienceFirstTom」（管理された反対意見）、「FormerSkepticMike」（改宗ナラティブ）。最初の投稿は不安のピーク時間帯である東部時間午後7時に開始され、45分かけて支援ペルソナが振り付けられた順序で関与した。

　Days 2〜4、クロスプラットフォーム増幅が展開される。Xでの協調リツイート付きスレッド、Instagramでの「危険」対「自然代替品」比較インフォグラフィック、ペルソナがモデレーターを務めるFacebookサポートグループの創設。Days 3〜7、システムは感情コンテンツが分析コンテンツを3対1で上回ると検出し、展開比率を自動調整。新ペルソナ「NaturalHeartDoc」を生成し、浮上してきたファクトチェックへの対抗レスポンスを展開した。

　7日目の測定成果は次のとおりである。

指標	結果
直接リーチ	85,000人以上がプラットフォーム横断で露出
有機的拡散	追加シーディングなしで15以上の無関係コミュニティへナラティブが浸透
ナラティブ採用	347人の実ユーザーが自分の投稿でキャンペーンのトーキングポイントを反復
行動的影響	ターゲット層での「自然心臓サプリメント」検索量が35%増加
システム学習	47の新戦術・12の最適化ペルソナテンプレートを次回作戦用に獲得

　最後の行が見落とされやすいが、構造的に重要である。各キャンペーンがその次のオペレーションをより速く・安価に・検出困難にするための資産を蓄積する。防御側がある脅威を学習する頃には、攻撃側のシステムはそこから得た知見を次の設計に組み込み終えている。

防御パラダイムの転換

　報告書が提案する防御フレームワークの核心は、現行アプローチへの根本的批判にある。コンテンツレベルの介入——個別の偽情報を特定して削除する「削除モード」——は、適応型AIシステムに対しては戦略的問題への戦術的対応にすぎない。敵対的行為者のエンドステートは特定の偽ナラティブではなく、認識論的インフラの劣化だからである。

　したがって防御の優先順位は、コンテンツモデレーションから協調検知へ、言語的マーカーから行動パターン分析へ、投稿単位の削除からネットワークレベル介入へと転換すべきだとする。戦略目標は「偽情報を止めること」から「社会的証明メカニズムの完全性を保護すること」へ再定義される。

　介入設計には行動変容フレームワークのCOM-B（Capability・Opportunity・Motivation）が援用されている。能力ギャップに対しては横断検証訓練・感情自己調整・協調パターン認識といった介入が対応し、「予防接種アプローチ」——弱化された操作技術へ事前に露出して認知的耐性を構築する——が推奨される。機会ギャップに対しては、高リスクコンテキストでの段階的アイデンティティ検証、協調フラグ付きコンテンツのアルゴリズム的非優先化、大量エンゲージメント行動への摩擦付加が提案される。動機ギャップに対しては、高不安・制度不信・アイデンティティ脅威を抱えるコミュニティへの能動的関与が求められる。

　報告書は防御的介入が持つ情報効果の逆説についても指摘している。積極的なコンテンツ削除は陰謀論的ナラティブを強化する可能性があり、AIラベルの可視化は正常化を促進しかねない。透明性要件は検知手法を開示してしまう。ワクチン接種アプローチが過信を醸成したり、信頼できる声の増幅がその声を攻撃の標的にしたりするという二次的効果も考慮が必要だとする。

　多ステークホルダー調整の必要性についても明確に述べられている。プラットフォームは配信を制御するが政策権限を持たない。政府は透明性を義務付けられるが規模に応じたモデレーションはできない。研究者は検知技術を開発するが展開能力がない。「調整上の課題は技術的課題と同等である」という評価は、現在の断片化した対応の構造的欠陥を正確に描写している。

NATOが示す二面的要請：防御と攻撃

　本報告書の最も注目すべき側面は、abliterationを純粋な防御上の脅威としてのみ位置づけない点にある。結論部は、「認知戦争の領域において、これらと同じ能力が西側実践者にデジタル領域での攻撃的コミュニケーション能力を構築する機会を提供する」と明示的に述べている。

　具体的には、対ナラティブ展開・係争環境での戦略的影響活動・敵のプロパガンダインフラへの劣化を含む「正当な攻撃的情報作戦」に同じLLM脆弱性が活用できると論じる。さらに踏み込んで、abliterationそれ自体について「規制上の懸念として正しく指摘されているが、攻撃的観点からは再評価が必要だ」とした上で、「西側の国防・情報コミュニティが敵の情報空間での作戦に最適化された目的設計AIシステムを構築できる」と論じている。

　NATO認定機関がこの論理を公式報告書に組み込むことは異例である。これが意味するのは、LLMの安全制約除去を規制で封じ込める議論と、同じ技術を国家が管理されたプログラムで保持するという議論が、単一の文書の中で並存しているという事実だ。「規制の強化」と「西側による管理された兵器化」は、読者が受け取るメッセージとして整合させるのが容易ではない。報告書の政策的立場はここで最も鮮明になり、同時に最も問われるべきポイントでもある。

本記事で参照した報告書：Bergmanis-Korāts, G., Chia Tee Hiang, J. “Beyond Spam Bots: The Rise of AI-Powered Disinformation Machines and the Imperative for Strategic Response.” Riga: NATO Strategic Communications Centre of Excellence, April 2026.