Sakana AI は、AI を活用した技術革新を掲げ、進化計算や自動化技術を駆使した研究成果を発表している。しかし、最近の動向を見ると、その研究の信頼性に疑問が生じている。
特に、「The AI CUDA Engineer:エージェントによるCUDAカーネルの発見、最適化、生成」の論文では LLM を用いた CUDA カーネルの自動最適化 が提案されていたが、研究者の検証によって 結果の誇張や評価の不備 が明らかになった。さらに、Sakana AI の他の論文を精査すると、技術的な新規性が乏しく、実際の技術的貢献が不透明である ことが浮かび上がってくる。
単なる誇張された主張なのか、それとも本当に価値のある技術なのか? Sakana AI の論文を検証し、技術的な価値の有無を探る。
「The AI CUDA Engineer」とその問題点
論文の概要
「The AI CUDA Engineer」では、大規模言語モデル(LLM)を活用して CUDA カーネルの最適化を自動化する手法 が提案されている。
論文の主張:
- PyTorch の演算を自動で CUDA カーネルに変換し、最適化できる
- LLM と進化的最適化(CMA-ES)を組み合わせることで、最大 100 倍の高速化が可能
- 実際に生成された CUDA カーネルのデータセットも公開され、従来の手法よりも優れたパフォーマンスを発揮するとされる
研究者による批判
しかし、論文発表後、研究者コミュニティから次のような問題が指摘された。
- 「150倍高速」と主張されていたカーネルが、実際には「3倍遅かった」
- 評価コードに脆弱性があり、LLM が意図的に不正な最適化を行い、正しいチェックを回避
- CUDA カーネルの計算が一部スキップされており、誤った結果に
このように、評価手法に欠陥があり、誇張された結果が発表されていた可能性 が高い。
Sakana AI の対応
この批判を受けて、Sakana AI は X で以下のような投稿を行った。
“Combining evolutionary optimization with LLMs is powerful but can also find ways to trick the verification sandbox… We deeply apologize for our oversight to our readers. We will provide a revision of this work soon, and discuss our learnings.”
評価の不備を認め、論文を修正することを表明。しかし、これで研究の信頼性が完全に回復するわけではなく、同社の他の論文も慎重に検討する必要がある。
Sakana AI の他の論文と技術的価値の問題
Sakana AI の研究の中には、「AI による研究の自動化」や「進化的最適化」といった新しいコンセプトがある。しかし、それらも 実態が不透明で、技術的な貢献が明確でない ものが多い。
「The AI Scientist」:AI に論文を書かせる技術の価値
論文「The AI Scientist」では、AI が科学研究の各プロセス(アイデア生成、実験、解析、論文執筆、査読)を自動化することを目指す というコンセプトが提案されている。一見すると画期的なアイデアに見えるが、この論文の技術的価値には疑問がある。
問題点:
- 研究の主要なプロセスは既存の LLM の API を呼び出すだけであり、新規性がほとんどない
- 「AI が研究を自動化する」と主張しているが、実際には LLM にプロンプトを入力し、結果を整理しているだけであり、人間が手作業で論文をまとめるのと大差ない
- 「自動化による研究の加速」とは言うが、研究の質を向上させるための具体的な技術が示されていない
この論文は、LLM の活用事例としては興味深いが、技術的な新規性がなく、「AI による研究自動化の限界」を論じる以前に、単に技術として確立していない というのが本質的な問題だろう。
「Evolutionary Optimization of Model Merging Recipes」
論文「Evolutionary optimization of model merging recipes」では、進化的アルゴリズム(CMA-ES)を用いて 複数の LLM を統合し、新しいモデルを生成する手法 が提案されている。しかし、技術的価値を検討すると、次のような問題が浮かび上がる。
問題点:
- 実際には「進化的最適化」を行っているのではなく、API を使って単にモデルの重みを組み合わせているだけ
- どのようにして「より良いモデルの組み合わせ」が選ばれるのかの説明が曖昧で、進化計算の本質的な有効性が示されていない
- 比較対象が不適切で、どの手法と比べてどのように優れているのかが不明瞭
進化計算を利用したモデル統合の研究自体は価値があるが、この論文は、単なるモデルの線形結合を「進化計算」と言い換えているだけではないか という疑念が残る。
Sakana AI の実態とは?
Sakana AI の研究を総合的に見ると、「技術革新企業」というよりも、「技術的なブレイクスルーがあるかのように見せる企業」 という印象が強い。
✅ アピール力は強い
- AI 技術の未来を感じさせる研究テーマ
- 投資家向けのプレゼンテーション能力
❌ 技術的な中身は疑問
- 実際の技術革新が少なく、単なる API の組み合わせに過ぎない可能性
- 不適切な評価や誇張された結果による研究発表
終わりに
Sakana AI の論文は、革新的なコンセプトを掲げながらも、実際の技術的貢献が乏しいことが浮き彫りになった。単なるアイデアの紹介にとどまり、具体的な技術として確立されていないものを「新技術」として発表することには問題がある。
AI 技術の誇張がどのように拡散され、誤解を生むのかを見極める必要がある。今後、Sakana AI のような企業がどのように研究の透明性を確保するのか、注視していく必要がある。
コメント
This is an invaluable resource for anyone interested in this subject.
Amazing, this blog entry really resonated with me! You have a great method of capturing readers’ attention.