言語モデルはなぜハルシネーションを起こすのか──統計的必然と評価設計の歪み

言語モデルはなぜハルシネーションを起こすのか──統計的必然と評価設計の歪み 論文紹介

 2025年9月に公開された Why Language Models Hallucinate は、言語モデル研究にとって長らく未解決だった「なぜもっともらしい誤答が避けられないのか」という問いに対して、明快な理論的説明を与える論文である。著者は Adam Tauman Kalai、Ofir Nachum(いずれもOpenAI)、Santosh Vempala(ジョージア工科大学)、Edwin Zhang(OpenAI)であり、機械学習理論の古典的枠組みと現代のLLM開発を接続し、ハルシネーションが単なる偶発的失敗ではなく、学習と評価の仕組みに組み込まれた必然であることを示している。

ハルシネーションとは何か

 言語モデルは「知らない」と言えばよい場面でも、あたかも正しいかのように具体的な誤答を返すことがある。論文の冒頭では、著者自身の誕生日や学位論文タイトルを尋ねたときに、複数の最新モデルがすべて誤答を返した実例が紹介される。こうした「もっともらしい虚構」は利用者の信頼を大きく損なう。論文はこれを人間の知覚における幻覚とは区別しつつ「hallucination」と呼び、計算学習理論の言葉に置き換えて分析を始める。

誤分類問題としての定式化

 核心は、ハルシネーションを「二値分類の誤り」に還元する視点だ。すなわち、ある生成が有効(valid)か誤り(error)かを判定する問題(Is-It-Valid, IIV)を考えれば、言語モデルの生成誤り率はこの分類誤り率の少なくとも2倍になることを示す。つまり、分類器として誤りが避けられないなら、生成系でも必然的に誤り=ハルシネーションが生じる。これにより、LLMの誤答は「ブラックボックス的な謎の振る舞い」ではなく、古典的な学習理論が予見していた構造に収まる。

プレトレーニングにおける必然的誤り

 学習データに誤情報が含まれていなくても、誤りは避けられない。特に重要なのは「一度しか出てこない事実(singleton)」だ。たとえば有名人の誕生日は複数の資料に現れるためモデルも正答しやすいが、無名の人物の誕生日が訓練データに一度しか現れなければ、その事実は「統計的に学習され得ない」領域となる。Alan Turingの「missing mass」推定に基づき、ハルシネーション率の下界はsingleton比率で決まることが導かれる。つまり、訓練コーパスの中に珍しい事実が一定割合含まれている限り、モデルは必然的にその割合に応じて誤答を生み出す。

モデルの不適合と表現の限界

 誤りはデータの希少性だけではなく、モデルそのものの表現力不足からも生じる。古典的なトライグラム言語モデルが文法的に不自然な文を生成したように、現代のモデルでもトークン化の単位のために「文字数を数える」といった単純な課題で失敗する。表現能力が概念に適合しない場合、誤分類率は高止まりし、そこから生じる生成誤りも不可避となる。

追加の要因

 論文はさらに三つの要因を指摘する。第一に計算困難性──暗号解読のように原理的に効率的解法が存在しない問題は、どんなモデルでも誤る。第二に分布シフト──訓練データに存在しない問いかけ(例:「羽毛1ポンドと鉛1ポンドはどちらが重いか」)は誤答を誘発する。第三にGIGO(Garbage In, Garbage Out)──大規模コーパスに含まれる誤情報は、そのまま再生産される。これらはいずれも統計的誤分類と同じ構造を持ち、生成誤りの根源となる。

ポストトレーニング後も残る理由

 では、RLHFやDPOといったポストトレーニングで誤りを減らせないのはなぜか。著者らは「評価設計」に原因を求める。人間の試験で、空欄は0点だが誤答しても減点がない場合、学生は分からなくても推測する。同様に、言語モデルの多くのベンチマークも正誤二値で採点し、「わからない」と答えることに一切の得点を与えない。結果として、モデルは「推測してでも答えた方がスコアが高い」方向に最適化され、ハルシネーションが温存される。

提案:信頼度ターゲットの明示

 著者らは解決策として「信頼度ターゲットtを明示した評価」を提案する。採点方式を「正答+1点、誤答−t/(1−t)点、IDK 0点」とすれば、モデルは自信度がtを超えるときだけ答えるのが最適戦略となる。たとえばt=0.75なら、誤答は大きく減点されるため「四分の三以上の自信があるときのみ答える」行動が奨励される。これを既存の主流ベンチマークに組み込めば、推測偏重の構造を転換できる。

限界と射程

 論文は「もっともらしい誤答」に射程を絞り、ナンセンスな文字列や長文生成における部分的誤りは扱っていない。また、IDK以外の曖昧表現や言及回避などの多様な不確実性表現も統計的単純化のために省かれている。それでも、ハルシネーションを「誤分類誤りの必然」と「評価設計の歪み」という二つの視点に集約したことは大きな貢献である。

まとめ

 Why Language Models Hallucinate は、ハルシネーションを神秘的な現象としてではなく、学習と評価の制度設計から必然的に生じる誤りとして解き明かした。プレトレーニング段階ではsingleton事実に起因する統計的下界があり、ポストトレーニング段階では評価法が「推測」を奨励する。真に信頼できるモデルを得るには、ハルシネーション専用の評価を追加するのではなく、主要ベンチマーク自体を修正し、適切に不確実性を表現することに報酬が回る仕組みを作る必要がある。本論文はその方向性を明快に示し、研究と実務双方に強いインパクトを与えるものである。

コメント

タイトルとURLをコピーしました