2026年7月5日のAIニュース要点
- MistralがLeanstral 1.5を無償公開: Lean 4形式証明に特化した119B(有効6B)の開放モデル。PutnamBench 587/672問を解き、Rustコードで未報告バグ5件を検出。
- Anthropicが自己申告でOpenAI超え: 年商換算$47B対$25〜33B。Google/Broadcomと数ギガワット規模のTPU増強も締結。
- 米ホワイトハウスがAI自主基準を協議: OpenAI・Google・Anthropicと協議中で来週にも発表の可能性(FT報道)。
2026年7月上旬のAI業界は、汎用チャットモデルの発表ラッシュがひと段落し、専門領域に特化したモデルと、事業・インフラの勢力争いが主戦場に移りつつあります。本日はその象徴的な動きを整理します。
Mistralが数学証明特化モデル「Leanstral 1.5」を無償公開
フランスのMistral AIが、形式証明支援システム「Lean 4」に特化した開放モデル「Leanstral 1.5」を公開しました。ライセンスは商用利用も可能なApache-2.0で、パラメータは総数119B・有効6BのMoE(Mixture of Experts、専門家混合)構成です。実験フェーズ中はAPI・Mistral Vibe・Hugging Faceを通じて無償で利用できます(Mistral公式)。
ベンチマークでは、大学数学の難問集PutnamBenchで672問中587問を解き、miniF2Fは検証・テストの両セットで100%(飽和)、FATE-Hで87%を記録したとされます。注目すべきは応用面で、Rustコードの検証パイプラインに投入したところ、57リポジトリの中から未報告のバグを5件検出し、そのなかにはzigzagデコード関数のオーバーフロー不具合も含まれていたと公表されています(同Mistral公式、MarkTechPost)。
Lean 4とは、数学の定理やソフトウェアの正しさを機械が厳密に検証できる形で記述する言語・証明支援システムです。従来のLLMが「もっともらしいコード」を返すのに対し、Lean上での証明は誤りが機械的に排除される点が本質的に異なります。
で、どうなるの? 「バグが原理的に混入しない」形で検証できるAIは、金融・インフラ・セキュリティなどミスが許されない領域のコード検証に効いてきます。Apache-2.0で無償公開されたことで、研究機関や企業が自社環境に取り込んで試しやすくなりました。すぐ日常業務に効くものではありませんが、「AIの出力を人手で全部チェックする」から「機械が正しさを保証する」への移行を占う動きとして押さえておく価値があります。
Anthropicが自己申告ベースでOpenAIを逆転、Google/Broadcomと数GWのTPU締結
AIモデル「Claude」を手がけるAnthropicが、自己申告(非監査)ベースの年商換算(run-rate)でOpenAIを上回ったと複数の報道が伝えています。Anthropicは年商換算$47B規模に向かうとし2029年の黒字化を見込む一方、OpenAIは直近開示で$25〜33B規模とされます。両社ともIPO前の非監査数値である点には注意が必要です(Fortune)。決済プラットフォームRampのデータでは、Anthropicは5月に法人サブスクでもOpenAIを逆転したと報じられています。
Anthropic自身も、公式発表でrun-rate revenueが$30Bを突破(2025年末の約$9Bから急伸)し、年$1M以上を支払う法人顧客が1,000社超に達したと明らかにしました。あわせて、GoogleおよびBroadcomと「複数ギガワット規模の次世代TPU(Tensor Processing Unit)容量」を確保すると発表。同社史上「最大の計算資源コミット」と位置づけ、2027年から順次稼働、その大半を米国内に設置する計画です(Anthropic公式)。
で、どうなるの? ここでの教訓は「勝者は一社に固定されない」ことです。アナリストは利用者がモデルを気軽に乗り換えるようになっていると指摘しています。加えて、数GW級の計算基盤を長期確保できる企業ほど、需給逼迫時でも大口顧客へ安定供給しやすくなります。自社の業務にAIを組み込む際は、特定ベンダー一択で設計するより、用途ごとに最適なモデルへ差し替えられる構成にしておくのが、この変動期の堅実策です。
ホワイトハウスがAI自主基準を協議、その他の動きも活発
Financial Times の報道によれば、米ホワイトハウスがOpenAI・Google・Anthropicと、AIモデルの自主的なリリース基準について詰めの協議に入っています。レビュー期間や「フロンティア」モデルの閾値定義などを扱い、早ければ翌週にも発表される可能性があるとされます(AI Tools Recap(FT報道の要約))。Sam Altman氏はFTへの寄稿で、標準を定め能力とリスクを中立に分析する「米国主導の国際フォーラム」構想を提唱しました(前掲Fortune)。
そのほか、7月上旬は事業面の動きも活発でした。以下は各社の公式・一次寄りの発表です。
- xAIがGrok Voice Agent Builder(ベータ)を公開: 音声・電話エージェントをノーコードで構築できる基盤。音声認識・推論・音声合成・電話接続を束ねる(xAI公式)。
- Together AIが$800MのシリーズCを調達: Aramco Ventures主導、評価額$8.3B。NVIDIA等も参加し、オープンモデル推論への企業需要の高まりを示すとされる(BusinessWire)。
で、どうなるの? 自主基準づくりは規制の話に見えて、企業ユーザーには「安心して業務に組み込める土台」が整う前向きな動きでもあります。リリース前レビューの標準化が進めば、モデル挙動の予測可能性が上がり、社内導入の稟議も通しやすくなります。音声エージェント基盤やオープンモデル推論への投資が続く点も、AIを実務へ組み込む選択肢が広がっていることの表れです。
【未確定だけど気になる】今週のAIリーク・噂まとめ ※確定情報ではありません
※以下は未確定情報です。一次資料の確認まで「気になる動き」として読んでください。
OpenAIがGPT-5.6を来週にも広く提供か
信頼度:中 / 情報源:TestingCatalog
TestingCatalogは、アプリ内文字列やプレビューの兆候から、OpenAIがGPT-5.6をより広い層へ提供する準備を進めている可能性を報じている。推論の強弱を切り替えるスライダーの存在も指摘されているが、公式アナウンスは記事時点で出ていない(TestingCatalog)。
Googleが新しいGemini Flashチェックポイントを検証中との観測
信頼度:中 / 情報源:TestingCatalog(LM Arena観測)
公開ベンチ環境で、現行Flashを上回る成績を示す新Gemini Flashチェックポイントが確認されたとリークされている。改良版の提供が近い可能性が指摘されるが、Googleは正式な位置づけを公表していない。
xAIがGrok 4.5を社内ベータで評価中との噂
信頼度:低 / 情報源:単独報道・本人発言
xAIが次期モデルGrok 4.5を社内で評価中で、Musk氏は内部評価で「Opusに近い、あるいは上回る」可能性に言及したとされる。ただし第三者ベンチマークは公開されておらず、性能主張の裏取りはできていない。
よくある質問(FAQ)
Leanstral 1.5は普通のコーディングAIと何が違うのですか?
一般的なコーディングAIは「もっともらしいコード」を生成しますが、Leanstral 1.5はLean 4という証明支援システム上で正しさを機械的に検証することに特化しています。誤りが機械的に排除される点が本質的な違いで、ミスが許されない領域の検証に向きます。
AnthropicはOpenAIを「完全に」抜いたのですか?
いいえ。逆転しているのは自己申告(非監査)の年商換算と、一部データによる法人サブスクの指標です。両社ともIPO前で数値は監査されておらず、利用者数など他の指標では拮抗しています。「事業指標の一部で先行した」と理解するのが正確です。
これらの動きは、日本企業のAI活用にどう影響しますか?
直接の影響は限定的ですが、モデルの供給安定・料金の予見性・安全基準の整備・オープンモデルの選択肢拡大という点で追い風になり得ます。特定ベンダー一択に固定せず、用途ごとに最適なモデルへ差し替えられる設計にしておくと、業界変動に強い運用ができます。
まとめ
2026年7月上旬のAI業界は、汎用モデルの性能競争から「特化モデル・収益・計算資源・ガバナンス」という多面的な競争へと軸足が移りました。Mistralの証明特化モデル、Anthropicの躍進と数GW級TPU確保、政府を巻き込んだ自主基準づくりは、いずれも「AIをどれだけ正確に、大規模に、安全に届けられるか」という同じ問いの別の側面です。
業務でAIを使う立場からは、勝者予想に一喜一憂するより、用途ごとに最適なモデルへ乗り換えられる柔軟な構成を組んでおくことが、この変動期の最も堅実な打ち手になります。
AIの最新動向を自社の業務にどう取り入れるか迷われている方は、Mihataの AI導入支援もご活用ください。用途整理からモデル選定・運用設計まで、御社の実務に合わせて伴走します。