
AIが数学研究の「作業場」になる。AI Co-Mathematicianが示す次のステップ
数学の未解決問題をAIに解かせる場面で、「解こうとした記録」まで引き受けてくれるとしたら何が変わるか。その問いに正面から取り組んだ研究論文が、2026年5月7日にarXivで公開されました。 Google所属の研究者らによる査読前の公開論文(preprint)で、タイトルは「AI Co-Mathematician: Accelerating Mathematicians with Agentic AI」。査読済みではなく、現時点では研究プロトタイプとして限定公開されているシステムの報告です。 🔬 一問一答ではなく「プロジェクト」として動くAI AIチャットに慣れた人なら、こんな使い方をしているはずです。疑問を入力して、答えが返ってきたら次の疑問を入力する。一回一回がリセットされる、積み上がらないやりとり。 AI Co-Mathematicianはそこから大きく外れた設計になっています。複数の作業流を束ねるプロジェクト調整役エージェントが中心に置かれ、アイデア出し、文献探索、計算探索、定理証明、理論構築といった作業を並行して進められます。 中心にあるのは「状態を持つ」設計です。途中で出た仮説、却下した試み、見つけた文献、失敗したアプローチ。 これらが同じワークスペース内に残ります。次のセッションでゼロから始め直さなくていい。 この設計が、一問一答との本質的な違いです。 📊 「48%」という数字の読み方 論文がベンチマークとして使ったのは「FrontierMath Tier 4」という評価セットです。数学の専門家でも解くのが難しい問題群で、AI研究の進捗を調査するEpoch AIという独立機関がブラインドで採点しました(開発者は問題内容を見ていません)。 公開サンプル2問を除いた48問中23問を正答。正答率は48%でした。 この数字には比較対象があります。ベースのGemini 3.1 Proは同条件で19%。AIエージェントの設計を重ねたことで、単体モデルの2倍以上の正答率になりました。 さらに、過去にどのシステムも解けていなかった3問を含んでいます。 ただし、この評価には重要な注釈があります。論文には、モデル呼び出し回数やトークン数の上限を設けていないと明記されています。つまり推論にかかるコストを度外視した条件での結果です。 実運用を念頭に置くなら、コストの評価は別途必要です。 ⚠️ 論文が正直に書いた「三つの落とし穴」 ちょっと気になったのは、限界の書き方が妙に具体的な点です。研究論文はよく「将来の課題」として曖昧に終わらせますが、この論文は実際に観察された失敗パターンを名前付きで挙げています。 false consensus(偽の合意): 複数のエージェントが互いにレビューしながら、誤りを含む議論に合意してしまう状態。AIが「自分たちで検討したから正しい」という空気を作り出す問題です。人間が介在しないと見抜けない場合があります。 death spiral(無限ループ): 修正と却下が止まらず、エージェントたちが迷子になる状態。長時間の自律作業中に、どの方向へ進むべきか見失います。 制御の難しさ: 長時間にわたる自律作業では、人間が介入するタイミングの設計が難しいと述べられています。 ...



