偽情報対策における新しいCTIの方向性──FakeCTIデータセットとLLMによる概念抽出

偽情報対策における新しいCTIの方向性──FakeCTIデータセットとLLMによる概念抽出 論文紹介

 近年、偽情報キャンペーンは「サイバー脅威」として正面から扱われるようになりつつある。だが従来のサイバー脅威インテリジェンス(CTI)の手法──ドメイン名やSNSアカウントといった低レベルのIoC(Indicator of Compromise)に基づく追跡──は、偽情報の現場では役に立たないことが多い。攻撃者は容易に新しいアカウントやドメインを立ち上げ、監視をすり抜けてしまうからだ。

 この問題に対し、ナポリ大学の研究チームが発表した論文 Elevating Cyber Threat Intelligence against Disinformation Campaigns with LLM-based Concept Extraction and the FakeCTI Dataset(2025年5月)では、CTIの着眼点を「低レベルの技術的指標」から「物語構造そのもの」へと移すアプローチを提示している。


Pyramid of Pain の応用──技術的IoCからナラティブへ

 CTIの分野で知られる Pyramid of Pain では、攻撃者が変更しやすいIoC(ハッシュ値、IPアドレス、ドメインなど)は下層に置かれ、変更が難しい戦術や行動様式(TTPs)は上層に位置付けられる。この発想を偽情報に適用すると、ドメイン名やアカウントは「簡単に入れ替え可能」な下層に過ぎない。むしろ攻撃者が繰り返し用いる核となる物語(ナラティブ)やテーマこそが上層の難攻不落な部分に当たる。

 本研究が狙うのは、まさにこの「再利用されるナラティブ」を抽出し、偽情報対策に活かすことだ。


コンセプトベースのCTI指標

 提案された方法は、偽ニュース記事のテキストから「<主語, 関係, 目的語>」という三つ組(トリプル)を抽出することにある。例えば「Country X funds Organization Y to spread misinformation」という文は <Country X, funds, Organization Y> というトリプルに変換される。

 この形式は次の特徴を持つ。

  • 不揮発性:ドメイン名やSNSアカウントが消えても、物語の骨格は変わりにくい。
  • 解釈可能性:人間のアナリストにも機械学習モデルにもわかりやすい。
  • 帰属可能性:異なる記事に現れる共通のトリプルを比較することで、どのキャンペーンに属するかを推定できる。

 さらに、複数のトリプルを組み合わせて関係グラフを構成すれば、「どの人物・組織がどのテーマを繰り返し扱っているか」といった構造的特徴が浮かび上がる。


FakeCTI データセット──初めての「帰属」指向リソース

 この手法を実証するために、研究チームは FakeCTI という新しいデータセットを構築した。

  • 記事数:12,155
  • キャンペーン数:43
  • 脅威アクター数:11
  • ソース数:149

 既存のデータセット(Fakeddit, LIAR, Pushshiftなど)は真偽判定やユーザ行動分析に重きを置いており、「誰が仕掛けたか」「どのキャンペーンに属するか」を明示的に結びつけていなかった。FakeCTIはここを埋める初の体系的リソースである。

 例を挙げると、Alex Jonesによる「Covidが神経変性疾患を引き起こす」といった典型的な健康系偽情報キャンペーンや、2016年米大統領選の「Pope Francis endorses Trump」といった選挙系フェイクが含まれている。


実験結果──94%の帰属精度

 研究チームはこのデータセットを用い、3種類の帰属手法を比較した。

  1. TF-IDFによる文法的類似度:正解率56%
  2. SBERTによる意味的類似度:正解率67.5%
  3. DistilBERTをファインチューニングしたLLM分類器:正解率94%

 結果は明確で、LLMをファインチューニングすることで従来法を大幅に上回る帰属精度が得られた。特に、言い回しが変えられても同じナラティブを見抜く力が高い。


意義と今後の課題

 この研究の意義は三つある。

  1. CTIの視点転換:IoC中心からナラティブ中心へ。
  2. データ基盤の整備:FakeCTIにより「キャンペーン単位での研究」が可能に。
  3. LLMの有効性実証:従来NLPを大きく超える精度。

 ただし課題も残る。トリプル抽出では「幻覚」が発生しやすく、原文にない関係を生成することがある。また、アクセスできない記事も多く、データセットの網羅性は限定的である。


まとめ

 本研究は、偽情報対策におけるCTIの在り方を大きく変える提案をしている。従来の「ドメイン名をブロックする」発想ではなく、「攻撃者が繰り返す物語構造を捕捉する」方向に進むべきだという示唆である。FakeCTIのような帰属指向データセットと、LLMによるナラティブ抽出を組み合わせれば、偽情報キャンペーンをより長期的かつ体系的に追跡することが可能になる。

コメント

  1. drover sointeru より:

    Appreciate it for this terrific post, I am glad I observed this internet site on yahoo.

  2. Hey would you mind letting me know which webhost you’re using? I’ve loaded your blog in 3 different internet browsers and I must say this blog loads a lot quicker then most. Can you suggest a good hosting provider at a fair price? Kudos, I appreciate it!

  3. bandar slot より:

    Fantastic beat ! I wish to apprentice while you amend your web site, how can i subscribe for a weblog web site? The account helped me a appropriate deal. I had been a little bit acquainted of this your broadcast provided shiny transparent idea

  4. nextogel より:

    I am really loving the theme/design of your website. Do you ever run into any internet browser compatibility problems? A number of my blog audience have complained about my website not working correctly in Explorer but looks great in Safari. Do you have any solutions to help fix this issue?

  5. Gelatin Trick より:

    This is really fascinating, You’re an excessively skilled blogger. I’ve joined your rss feed and look forward to in quest of more of your magnificent post. Additionally, I have shared your website in my social networks!

タイトルとURLをコピーしました