グーグルが正式に宣戦布告
本文作者:城北徐公 データサポート:勾股大データ
2026年Google I/O開発者会議、感じるのはただ二文字:傲慢。
AI知能体を検索、ブラウザ、スマートフォン、スマートグラスなどすべてのコアトラフィック入口に無縫に詰め込むだけでなく、Gemini 3.5 Flash、動画モデルOmni、新しいAIアシスタントSparkの三つの王炸を連続で発表した。
筋肉を見せた後、伐採者は誇示するかのように、Geminiの月間アクティブユーザーが9億を突破したと発表し、大幅な値下げを同時に公式発表した。
意味は非常に明白だ:私はあなたより優れていて、さらに安い。
これは宣戦布告ではないのか?
01
会議で最も驚かされたのは、間違いなくGemini 3.5 Flashの登場だった。
通常、"Pro"は中堅の力を表し、"Flash"は軽量で速いことを意味する。
モデルのパラメータ量から見ると、3.5 Flashは確かに3.1 Proよりも小さいが、ほぼすべての推論とコーディングのベンチマークテストで、前者のパフォーマンスが驚くほど優れている:
複雑な数学推論のGSM8Kテストで、3.5 Flashは95.8%のスコアを獲得し、3.1 Proの93.2%を上回った;コード生成能力のSWE-bench完全版では、3.5 Flashの解決率は38.4%に達し、3.1 Proの32.1%を大きく超えた……
なぜ?
DeepMindが発表した『Gemini 3.5 Technical Report』によると、最も重要なコア技術は二つある。
極限知識蒸留:Googleは今回、単純に計算力を積み上げてFlashを訓練するのではなく、未公開の"Gemini 3.5 Ultra"を教師モデルとして使用し、Flashに次元削減の蒸留を行った。
DeepMindのチーフサイエンティストであるJeff Deanのツイート解析によると、3.5 Flashは高品質な論理チェーンデータセットでの微調整比率が、前世代に比べて400%向上した。
これは、超大規模モデルの"論理脳"を継承し、単なる暗記の"知識庫"ではないことを意味する。
全く新しいMoEアーキテクチャ(混合専門家モデル):3.5 Flash内部では、Googleはより細かい粒度の専門家ネットワークを採用した。
従来のMoEは8または16の専門家しか持たず、毎回1-2個だけを活性化させることで、万億規模のパラメータをサポートするのに十分だった。
しかし、a16zの2026年AIインフラ投資メモによると、3.5 Flashは256のミニ専門家を採用し、毎回推論時に最も効率的な4つを活性化できる。
そのため、極めて低い活性化パラメータ量を維持しながら、非常に広大なマルチモーダル特徴空間をカバーできる。
TTFT(Time to First Token、最初のトークン出力時間)指標では、3.5 Flashは65ミリ秒以内に達している。
人間が一度まばたきするのに100-150ミリ秒かかる。
簡単に言えば、これが知能体として動作する際には、人間の生理的視点からは、全く停滞を感じることができない。
頻繁にツールを呼び出し、多段階の反省を行い、極めて低い遅延を必要とする開発者にとって、これは真に完璧なスーパーエージェントの基盤である。
このような極限のエンジニアリング最適化に依存することで、競争の激しい環境の中で"エッジ側の支配力"を築くことが可能になる。
最初のものは、ネイティブマルチモーダルGemini Omni Flash。
Omniの意味は全能で、以前のGPT-4oに対抗するもので、名前を見るだけで火薬の匂いが感じられる。
少なくともパフォーマンスから見ると、Gemini Omni FlashはGPT-4oよりも"o"という文字を使う資格がある。
初期のSoraやGemini 1.5は基本的に縫合怪で、音声をテキストに変換し、テキストを視覚に変換するだけだった。
しかし、今回発表されたOmniは、真にネイティブなエンドツーエンドのマルチモーダル整合性を持っている。動画内の時間の連続性や物理法則をネイティブに理解できるだけでなく、遅延も業界平均の400-600ミリ秒から120ミリ秒に短縮された。
発表会での例を挙げると、ユーザーがカメラをつけて水を注ぎ、水杯が満杯に近づくと、Omniは水が溢れる前の0.5秒で"止まれ!"と言うことができる。
この現実世界の物理状態に対するリアルタイム推論は、一見単純だが、重要な意味を持つ:AIは画面の中のチャットボットから、現実世界の補助ツールへと正式に進化した。
たとえそれが初級段階であっても。
第二のものは、スマートアシスタントSpark。
The VergeのAndroidエンジニア副社長のインタビューによると、SparkはAndroid 17システムの基盤となるネイティブAPIの操作権を与えられた。
簡単に言えば、以前は多くのアプリを開かなければならなかった複雑なプロセスが、今では手を動かさずに、Sparkに指示するだけで全てを完了でき、さらにはあなたの口調や好みに応じてメッセージを送信したり、メールを整理したり、スケジュールをまとめたり、ウェブの動向を追跡したり、請求書の隠れた課金を識別したり、文書を一括処理したりすることができる。
言い換えれば、今後AIアシスタントがあれば、基本的にアプリを使う必要がなく、あらゆる複雑な操作が一つに簡素化される。
第三のものは、スマートグラス。
なぜまた眼鏡なのか?
少なくともGoogleにとっては、視覚と聴覚のシームレスな接続が、マルチモーダル大モデルの最終的な宿主であると考えられている。
この眼鏡は派手な外観はなく、すべて実用能力に焦点を当てている:
重量わずか4グラムのMicro-OLEDフルカラー光波導レンズ、透過率85% ;
自社開発の軽量Geminiエッジ側チップを搭載し、ローカル推論の遅延は≤12ms、ネットワークに接続せずにリアルタイム翻訳、画像認識、シーン分析を完了できる;
ネイティブでSpark知能体と連動し、スマートフォンやクラウドデータを同期し、スケジュールのリマインダー、リアルタイム翻訳、環境警告などのパーソナライズされたサービスを実現。
簡単に言えば、スマートフォンの画面を越えて、知能体を眼鏡を通じて人間の第一視点に押し込むことだ。
内容があまりにも多く、Googleは一度にすべての大技を放出し、市場に真理を宣言した:
入口のないアルゴリズムは、何もない。
大モデルのパラメータを巻き上げ、スコアを競う時代は終わり、単純なモデル提供者にはもはや城壁がない。未来は"エッジ+クラウド+エコシステム+ハードウェア"の四次元空間戦争である。
AIを全家桶に詰め込むことは、実際にはインターネット全体のトラフィック配信ロジックを再構築することだ:"ユーザーが能動的に検索/クリックする"から"AI知能体が能動的にサービスを配信する"へと変わる。
広範な開発者や中小企業にとって、これは非常に良いことである。なぜなら、基盤の計算力とモデルが極めて安価になり、皆がアプリケーション層の革新に専念できるからだ。
しかし、他の競合他社は、今この瞬間、ただ罵倒したいだけだろう。
02
伐採者がステージ上で淡々と"Geminiの月間アクティブユーザーが正式に9億を突破した"と発表したとき、観客席ではかなりの騒動を引き起こした。
9億は、アメリカのすべての競合のMAUを合わせた数よりも多い。
どうやって実現したのか?
答えは単純で粗暴だ:無理やり押し込む。
Googleは独立したAI企業のように広告費を使って顧客を獲得する必要はなく、Chromeブラウザのアドレスバーの横にアイコンを追加し、30億台のAndroidスマートフォンの下部ナビゲーションバーにショートカットキーを統合し、Google Workspaceで全量更新をプッシュするだけで済む……
顧客獲得コストはほぼ0に等しい。
さらに重要なのは、しばらくの間、9億のアクティブユーザーがスマートグラスで商品を見ているときの視線、Sparkでの処理中に修正される論理、Omni視覚モデルとのインタラクションから生まれる膨大な高品質でマルチモーダルなリアルワールドフィードバックデータが、すべてGemini 4の栄養となる。
これは非常に堅固な壁である:モデルが使いやすい->使う人が増える->生成されるデータが増える->モデルがさらに使いやすくなる。
この閉ループを迅速に強化するために、Googleはすべての競合に価格戦争を宣言した:AI Ultraパッケージを249.99ドル/月から99.9ドル/月に引き下げた。
3.5 Flashの百万トークン入力価格は0.02ドル、百万トークン出力価格は0.08ドルに達した。
これはどんな神のような価格なのか?
比較すると、業界の同等モデルの平均価格はそれぞれ0.15-0.2ドルと0.6-1ドルである。
伐採者は計算をした:主要顧客は毎日約1兆トークンを処理している。80%の作業負荷をGemini 3.5 Flashに切り替えれば、年間で10億ドル以上の節約が可能だ。
なぜAIを白菜のような価格で売ることができるのか?
最大の根拠は:垂直統合された計算力インフラ。
OpenAIやAnthropicなどの巨頭は、一見華やかだが、本質的には"計算力の借り手"であり、MicrosoftやAmazonから計算力を購入し、後者は老黄にお金を支払わなければならない。
一方、Googleは自社のTPUを持ち、3.5 Flashの非常に異常なMoEスパースアクティベーション効率により、計算力コストを極限まで圧縮している。
完全に重資産の優位性を利用して、単純なアルゴリズム会社に対して次元を下げて打撃を与えることができる。
論理は非常に明確だ。
基盤となる大モデルは急速に商品化されている。水や電気のように、暴利を得ている水道会社を見たことがあるだろうか?
Googleは大モデル自体が利益を上げなくても心配しない。なぜなら、検索広告、クラウドサービス、Androidエコシステムの手数料でお金を取り戻すことができるからだ。
しかし、純粋に大モデルAPIの販売で生計を立てているOpenAI、Anthropic、Cohere、Mistralにとっては、それは不可能である。
投資家は今、ウルトラマンの頭を押さえつけて尋ねたいだろう:"GoogleのAPI価格はあなたの十分の一、性能もあなたより優れている。あなたのビジネスモデルはどうやって成り立つのか?"
複数の業界の競争構造は、これにより加速的な再編期に入る。
AI企業は多くを語る必要はなく、より安価な計算力の供給源を早急に見つけるか、自らチップを作る必要がある。
次に、まだ閉じた扉の中で車を作っているAppleがある。
スマートグラス+ Omni動画大モデル+ Sparkネイティブシステムによる完全な接管の組み合わせは、間違いなくiPhoneに脅威を与えている。
マッコーリーの『消費電子トレンド予測レポート』によると:今後3年間で、視覚/音声に基づく無画面インタラクションの時間比率は、現在の8%から35%に跳ね上がると予測されている。
もしユーザーが眼鏡と音声を使って日常の仕事や娯楽を完了することに慣れれば、画面の使用時間は必然的に大幅に圧縮される。
Appleが十分に驚くべきウェアラブルデバイスを反撃として出さなければ(Vision Proは重すぎて高すぎるため、少数の人の玩具に過ぎない)、そのモバイルインターネット時代の入口独占権は前例のない挑戦を受けることになる。
これは進化ではなく、革命である。
Googleは技術、トラフィック、価格の三つの刀で、すべての競合に戦状を宣言した。
今この瞬間、まだ彼らが大企業病にかかっていると嘲笑う人はいるのか?














