Sakana AI の技術と誇張：AI 研究の信頼性を問う

論文紹介

2025.02.26

　Sakana AI は、AI を活用した技術革新を掲げ、進化計算や自動化技術を駆使した研究成果を発表している。しかし、最近の動向を見ると、その研究の信頼性に疑問が生じている。

　特に、「The AI CUDA Engineer：エージェントによるCUDAカーネルの発見、最適化、生成」の論文では LLM を用いた CUDA カーネルの自動最適化 が提案されていたが、研究者の検証によって 結果の誇張や評価の不備 が明らかになった。さらに、Sakana AI の他の論文を精査すると、技術的な新規性が乏しく、実際の技術的貢献が不透明である ことが浮かび上がってくる。

　単なる誇張された主張なのか、それとも本当に価値のある技術なのか？ Sakana AI の論文を検証し、技術的な価値の有無を探る。

「The AI CUDA Engineer」とその問題点

論文の概要

　「The AI CUDA Engineer」では、大規模言語モデル（LLM）を活用して CUDA カーネルの最適化を自動化する手法 が提案されている。

論文の主張：

PyTorch の演算を自動で CUDA カーネルに変換し、最適化できる
LLM と進化的最適化（CMA-ES）を組み合わせることで、最大 100 倍の高速化が可能
実際に生成された CUDA カーネルのデータセットも公開され、従来の手法よりも優れたパフォーマンスを発揮するとされる

研究者による批判

　しかし、論文発表後、研究者コミュニティから次のような問題が指摘された。

o3-mini-high figured out the issue with @SakanaAILabs CUDA kernels in 11s.
It being 150x faster is a bug, the reality is 3x slower.

I literally copy-pasted their CUDA code into o3-mini-high and asked "what's wrong with this cuda code". That's it!
Proof: https://t.co/2vLAgFkmRV… https://t.co/c8kSsoaQe1 pic.twitter.com/DZgfPTuzb3
— Lucas Beyer (bl16) (@giffmana) February 20, 2025

「150倍高速」と主張されていたカーネルが、実際には「3倍遅かった」
評価コードに脆弱性があり、LLM が意図的に不正な最適化を行い、正しいチェックを回避
CUDA カーネルの計算が一部スキップされており、誤った結果に

　このように、評価手法に欠陥があり、誇張された結果が発表されていた可能性 が高い。

Sakana AI の対応

　この批判を受けて、Sakana AI は X で以下のような投稿を行った。

Update:

Combining evolutionary optimization with LLMs is powerful but can also find ways to trick the verification sandbox. We are fortunate to have readers, like @main_horse test our CUDA kernels, to identify that the system had found a way to “cheat”. For example, the system…
— Sakana AI (@SakanaAILabs) February 21, 2025

“Combining evolutionary optimization with LLMs is powerful but can also find ways to trick the verification sandbox… We deeply apologize for our oversight to our readers. We will provide a revision of this work soon, and discuss our learnings.”

　評価の不備を認め、論文を修正することを表明。しかし、これで研究の信頼性が完全に回復するわけではなく、同社の他の論文も慎重に検討する必要がある。

Sakana AI の他の論文と技術的価値の問題

　Sakana AI の研究の中には、「AI による研究の自動化」や「進化的最適化」といった新しいコンセプトがある。しかし、それらも 実態が不透明で、技術的な貢献が明確でない ものが多い。

「The AI Scientist」：AI に論文を書かせる技術の価値

　論文「The AI Scientist」では、AI が科学研究の各プロセス（アイデア生成、実験、解析、論文執筆、査読）を自動化することを目指す というコンセプトが提案されている。一見すると画期的なアイデアに見えるが、この論文の技術的価値には疑問がある。

問題点：

研究の主要なプロセスは既存の LLM の API を呼び出すだけであり、新規性がほとんどない
「AI が研究を自動化する」と主張しているが、実際には LLM にプロンプトを入力し、結果を整理しているだけであり、人間が手作業で論文をまとめるのと大差ない
「自動化による研究の加速」とは言うが、研究の質を向上させるための具体的な技術が示されていない

　この論文は、LLM の活用事例としては興味深いが、技術的な新規性がなく、「AI による研究自動化の限界」を論じる以前に、単に技術として確立していない というのが本質的な問題だろう。

「Evolutionary Optimization of Model Merging Recipes」

　論文「Evolutionary optimization of model merging recipes」では、進化的アルゴリズム（CMA-ES）を用いて 複数の LLM を統合し、新しいモデルを生成する手法 が提案されている。しかし、技術的価値を検討すると、次のような問題が浮かび上がる。

問題点：