近年、偽情報キャンペーンは「サイバー脅威」として正面から扱われるようになりつつある。だが従来のサイバー脅威インテリジェンス(CTI)の手法──ドメイン名やSNSアカウントといった低レベルのIoC(Indicator of Compromise)に基づく追跡──は、偽情報の現場では役に立たないことが多い。攻撃者は容易に新しいアカウントやドメインを立ち上げ、監視をすり抜けてしまうからだ。
この問題に対し、ナポリ大学の研究チームが発表した論文 Elevating Cyber Threat Intelligence against Disinformation Campaigns with LLM-based Concept Extraction and the FakeCTI Dataset(2025年5月)では、CTIの着眼点を「低レベルの技術的指標」から「物語構造そのもの」へと移すアプローチを提示している。
Pyramid of Pain の応用──技術的IoCからナラティブへ
CTIの分野で知られる Pyramid of Pain では、攻撃者が変更しやすいIoC(ハッシュ値、IPアドレス、ドメインなど)は下層に置かれ、変更が難しい戦術や行動様式(TTPs)は上層に位置付けられる。この発想を偽情報に適用すると、ドメイン名やアカウントは「簡単に入れ替え可能」な下層に過ぎない。むしろ攻撃者が繰り返し用いる核となる物語(ナラティブ)やテーマこそが上層の難攻不落な部分に当たる。
本研究が狙うのは、まさにこの「再利用されるナラティブ」を抽出し、偽情報対策に活かすことだ。
コンセプトベースのCTI指標
提案された方法は、偽ニュース記事のテキストから「<主語, 関係, 目的語>」という三つ組(トリプル)を抽出することにある。例えば「Country X funds Organization Y to spread misinformation」という文は <Country X, funds, Organization Y>
というトリプルに変換される。
この形式は次の特徴を持つ。
- 不揮発性:ドメイン名やSNSアカウントが消えても、物語の骨格は変わりにくい。
- 解釈可能性:人間のアナリストにも機械学習モデルにもわかりやすい。
- 帰属可能性:異なる記事に現れる共通のトリプルを比較することで、どのキャンペーンに属するかを推定できる。
さらに、複数のトリプルを組み合わせて関係グラフを構成すれば、「どの人物・組織がどのテーマを繰り返し扱っているか」といった構造的特徴が浮かび上がる。
FakeCTI データセット──初めての「帰属」指向リソース
この手法を実証するために、研究チームは FakeCTI という新しいデータセットを構築した。
- 記事数:12,155
- キャンペーン数:43
- 脅威アクター数:11
- ソース数:149
既存のデータセット(Fakeddit, LIAR, Pushshiftなど)は真偽判定やユーザ行動分析に重きを置いており、「誰が仕掛けたか」「どのキャンペーンに属するか」を明示的に結びつけていなかった。FakeCTIはここを埋める初の体系的リソースである。
例を挙げると、Alex Jonesによる「Covidが神経変性疾患を引き起こす」といった典型的な健康系偽情報キャンペーンや、2016年米大統領選の「Pope Francis endorses Trump」といった選挙系フェイクが含まれている。
実験結果──94%の帰属精度
研究チームはこのデータセットを用い、3種類の帰属手法を比較した。
- TF-IDFによる文法的類似度:正解率56%
- SBERTによる意味的類似度:正解率67.5%
- DistilBERTをファインチューニングしたLLM分類器:正解率94%
結果は明確で、LLMをファインチューニングすることで従来法を大幅に上回る帰属精度が得られた。特に、言い回しが変えられても同じナラティブを見抜く力が高い。
意義と今後の課題
この研究の意義は三つある。
- CTIの視点転換:IoC中心からナラティブ中心へ。
- データ基盤の整備:FakeCTIにより「キャンペーン単位での研究」が可能に。
- LLMの有効性実証:従来NLPを大きく超える精度。
ただし課題も残る。トリプル抽出では「幻覚」が発生しやすく、原文にない関係を生成することがある。また、アクセスできない記事も多く、データセットの網羅性は限定的である。
まとめ
本研究は、偽情報対策におけるCTIの在り方を大きく変える提案をしている。従来の「ドメイン名をブロックする」発想ではなく、「攻撃者が繰り返す物語構造を捕捉する」方向に進むべきだという示唆である。FakeCTIのような帰属指向データセットと、LLMによるナラティブ抽出を組み合わせれば、偽情報キャンペーンをより長期的かつ体系的に追跡することが可能になる。
コメント