科学するAIはどこで失敗したのか。
Sakana AIが発表した「The AI Scientist-v2」は、仮説の生成から実験の設計・実行、データ分析、そして論文の執筆まで、研究の全工程をAIが担うとするプロジェクトである。その成果物はICLR 2025のワークショップで査読を通過したとされ、研究の自動化が現実のものとなったかのように広く報じられた。
だがSakana AIのこの主張は、再現性や実行可能性といった科学の根幹に関わる視点を欠いている。紹介する論文《AI Scientists Fail Without Strong Implementation Capability》は、このような「AIが研究をする」システムの妥当性を精査し、科学の形式だけを模倣した出力がいかに危ういかを実証的に論じている。
関連記事: Sakana AI の技術と誇張:AI 研究の信頼性を問う
AI Scientistとは何か
この論文では、AI Scientistという用語を単なる研究補助ツールとは明確に区別して定義している。AI Scientistは、研究課題を自律的に設定し、実験を設計・実行し、仮説を検証して新たな知識を生成する存在であり、人間が担ってきた科学的探究のプロセス全体を代替するものである。これはAlphaFoldのようなツールとは異なり、「研究を行う主体としてのAI」を意味している。
評価の観点と対象
筆者らは、AI Scientistが科学的に成立しているかを判断するために、以下の4点を評価軸として設定している:
- 構文的正しさ:コードに文法的誤りがないか
- 実行可能性:コードがエラーなく動作するか
- 再現性:記載された結果が再現できるか
- 結論の妥当性:主張が結果と整合しているか
これらを基準に、The AI Scientist-v2を含む5つのAI Scientistシステムが出力した28本の論文を対象に評価が行われた。
論文は書けても実験はできない
結論から言えば、すべての論文において再現性が確認できなかった。The AI Scientist-v2の論文も例外ではなく、コードは動作せず、記載された実験結果は再現されなかった。グラフも出力されず、そもそもデータ処理が最後まで通らないものすら含まれていた。
コード生成においては文法的には正しい出力が多かったが、環境構築、依存ライブラリ、データ処理の整合性といった実装の要となる部分での破綻が目立つ。つまり、「動くように見えるコード」は書けても、「動くコード」は生成できないのである。
科学として成立していない出力
再現できないというだけではない。査読モデルDeepReviewer-14Bによる評価では、28本中すべての論文において、実験設計の弱さ、方法論の不明瞭さ、理論的貢献の欠如といった問題が指摘されている。The AI Scientist-v2も含め、実質的に科学として成立していないと評価された。
論文としての体裁は整っており、主張も流暢だが、それを支えるデータと分析が不十分である。科学的議論に必要な「問いと証拠の往復運動」が行われておらず、研究としての意味が成立していない。
科学の制度が偽情報の通路になるとき
このような論文が査読を通過したこと自体が、本論文で問題視されている。科学的価値を査読制度が保証するという前提が、形式だけ整えられた情報を「科学として認定してしまう」温床になりかねない。AIが自動で論文を量産する時代にあって、制度が形式主義に流れれば、「科学風」偽情報は加速度的に拡散されうる。
重要なのは、The AI Scientist-v2の出力がそうした構造に乗ってしまっている点である。それはもはや技術的な問題ではなく、科学という制度の情報的脆弱性の露呈に他ならない。
「過去のAI論文生成」と本質は変わらない
AIが論文を書いて査読を通過したという話はこれまでも散発的に報じられてきたが、それらは執筆補助にとどまるか、あるいは査読制度をからかうための風刺的実験に過ぎなかった。
Sakana AIのThe AI Scientist-v2が異なるのは、それを正式な科学的成果として主張したという点にある。しかし、本論文が示しているように、実行不能で再現もできず、主張に根拠が伴っていないという点では、本質的に過去の自動論文生成と何ら変わらない。違うのは、その「見せ方」と「主張の強さ」だけだ。
科学と偽情報の境界が自動化で失われる
AIが科学を模倣する能力を持ったことは明らかだ。しかし模倣はあくまで模倣であり、それが「科学」であるかどうかは再現性と検証可能性によって決まる。Sakana AIのように、それを科学であるかのように提示し、制度がそれを通してしまえば、それは「科学の姿をした偽情報」になる。
そして、それが制度的に受け入れられたとき、科学と偽情報の境界は曖昧になる。AIが科学的情報の「形式的正しさ」を再現できるようになった今、その信頼性を担保する基準は、形式ではなく検証に基づいて再構築されなければならない。
コメント