2024年11月15日に開催された第7回FEVERワークショップで、ファクトチェックシステムの評価に焦点を当てた参加21チームによる共有タスクAVeriTeCの結果が発表されました。
AVERITEC共有タスクの概要
ワークショップの中心的なイベントとなったAVERITECでは、以下の能力が求められました:
- 証拠収集: ウェブまたは提供された知識ストアから関連する証拠を検索。
- 真偽判定: 主張を「Supported」「Refuted」「Not Enough Evidence」「Conflicting Evidence/Cherry-picking」のいずれかに分類。
- 証拠の質と判定の正確性: 両方を評価する「AVERITECスコア」で測定。
上位5チームのアプローチ
1位: TUDA_MAI (INFACTシステム)
TUDA_MAIのINFACTは、6段階のパイプラインを採用しました。質問生成や証拠収集、大規模言語モデル(GPT-4O)の活用による推論能力が特長で、63%のスコアを記録しました。特に、セマンティック検索技術の利用が証拠収集の精度向上に寄与しました。
2位: HUMANE (HerOシステム)
HerOは、公開されている大規模言語モデル(LLM)のみを使用し、仮想的な質問生成と証拠強化が特徴です。コードをオープンソース化し、57%のスコアを達成しました。低コストかつアクセス可能な設計が注目されています。
3位: AIC CTU
AIC CTUは、Retrieval-Augmented Generation(RAG)をベースにしたシンプルなパイプラインで、BM25を活用して証拠検索を効率化しました。50%のスコアを記録し、コスト効率の良さが評価されました。
4位: Dunamu-ml
Dunamu-mlは、LLMと非パラメトリック手法(BM25)を融合し、質問と回答のペアを生成して検索精度を高めました。50%のスコアを達成し、柔軟なデータ補完アプローチが強みです。
5位: Papelo
Papeloは、マルチホップエビデンス追求を採用し、追加の質問を生成しながら証拠を収集する独自の方法を使用しました。48%のスコアを記録し、複雑な証拠探索に対応しました。
自動ファクトチェック技術の考察
1. 少数クラスへの対応力不足
自動ファクトチェックの現在のシステムが直面する大きな課題の一つは、「Not Enough Evidence」や「Conflicting Evidence」のような少数クラスへの対応力不足です。これらのクラスはデータセット内でも発生頻度が低いため、モデルが十分に学習できず、予測精度が低くなる傾向にあります。
この問題は、上位5チームすべてに共通しており、特に「Conflicting Evidence」はファクトチェックの質を左右する重要な要素であるにもかかわらず、予測が困難です。こうした課題を克服するには、少数クラスを含む多様なデータセットを構築したり、それらに特化した学習アルゴリズムを開発する必要があります。
2. 計算コストと効率性
現在の多くのファクトチェックシステムでは、大規模言語モデル(LLM)を使用しています。特にGPT-4Oのようなモデルは、推論能力が高い一方で、コストが非常に高いのが現実です。例えば、TUDA_MAIのシステムでは1つの主張を処理するのに約0.46ドルのコストがかかるとされています。
計算コストの高さは、システムの大規模運用における障壁となります。この問題に対応するため、軽量なモデルを組み合わせたハイブリッドなシステムや、タスクに特化した効率的なモデルの開発が求められています。
3. 証拠収集の正確性と網羅性
ファクトチェックの信頼性を確保するには、正確で網羅的な証拠収集が不可欠です。しかし、現在のシステムでは、証拠を収集する際にいくつかの制限が存在します。例えば:
- ウェブスクレイピングの失敗により、重要な証拠を取得できない。
- スニペットや断片的な情報に依存しており、十分な文脈を得られないケースがある。
- Dunamu-mlのようにYouTubeのトランスクリプトやPDFのデータを取り込む工夫がなされていても、情報源の多様性には限界がある。
これらの課題を解決するには、ウェブ上の多様なデータソースに対応できる堅牢な証拠収集機能の開発が必要です。
4. データセットの限界
多くのチームが指摘しているように、AVERITECデータセットは約3,000件の主張しか含まれておらず、モデルを十分にトレーニングするにはデータが不足しています。また、英語のみを対象としているため、多言語対応が必要な現実世界の問題には対応しきれていません。
この問題に対応するには、より大規模で多様性のあるデータセットを構築する必要があります。特に、多言語や異なる文化圏でのファクトチェックに対応するデータセットの拡充が求められます。
5. 人間との協働の重要性
完全な自動化には限界があり、人間との協働が重要です。現在のシステムでは、生成された証拠や判定結果を人間が確認することで、誤判定のリスクを軽減する仕組みが求められています。また、システムが提供するエビデンスの説明可能性を高めることで、透明性を確保することも重要です。
コメント