Gemini 3.5 Pro 跳票:Google I/O 承諾的六月 GA,工程師等了六週
重點摘要
Google 在 5 月 19 日的 I/O 承諾 Gemini 3.5 Pro「下個月」全面開放,六月二十四日仍只在 Vertex AI 企業預覽階段,正式定價都未公開。預測市場估本月底前發布機率 50-55%。2M token context、Deep Think、估算每百萬 token $15/$60 的成本,這個等待值多少?
我的判斷是:Gemini 3.5 Pro 六月跳票讓 Google 在 Q3 企業採購周期上處於不利位置,因為同一週 Claude Fable 5 轉成付費、OpenAI 也在調整 o3 的計價策略,這個窗口對 Google 來說很難填補。如果你現在在企業裡評估旗艦大型語言模型,你的計劃是繼續等 Pro 出來,還是已經把這個延遲排除在評估選項之外了?
五月十九日,Google I/O 的發表會結束時,Sundar Pichai 告訴台下的開發者:Gemini 3.5 Flash 當天就能用,Gemini 3.5 Pro「下個月」全面開放。從那天到今天,整整六週過去了。六月二十四日,Gemini 3.5 Pro 仍然只在 Vertex AI 的企業限量預覽階段,連正式定價都還沒公開。
預測市場 Polymarket 目前估算本月三十日前發布的機率在 50-55% 之間。
承諾與現狀
Gemini 3.5 Flash 在 I/O 當天上線,這部分如期履行。Flash 版本目前已部署到 Gemini API、Google 搜尋 AI Mode、Google Antigravity 等多個管道。根據 Google 官方發布說明,Flash 在 Terminal-Bench 2.1 上達到 76.2%、CharXiv 多模態推理 84.2%,這些數字是 Google 自家量測的結果,尚未有獨立機構驗證,但 Flash 至少已在真實環境裡跑了六週。
Pro 的情況不同。根據 TechTimes 六月六日的報導,Pro 版本六月初仍在接近上線的階段,但截至六月二十四日,仍只有 Vertex AI 上的企業限量預覽。六月三十日是「下個月」承諾的最後期限,現在只剩六天。
Gemini 3.5 Pro 三個讓外界期待的設計
200 萬 token 的 context window 是已公開規格裡最受關注的一個。在量產模型裡,Claude Opus 4.8 的上限是 200K,GPT-4.5 是 128K。Gemini 3.5 Pro 如果能做到 2M 且品質不退化,在需要處理完整代碼庫、法律文件或長版財報的企業工作流程裡,這是一個結構性的差異,不只是帳面數字的比較。
Deep Think 推理模式是 Google 對「慢思維」這個品類的詮釋,在回覆之前先規劃、反思、再輸出。這個機制在設計上與 OpenAI o3 的 chain-of-thought 和 Claude 的 extended thinking 類似。實際推理品質的差異需要上線後的獨立 benchmark 才能比較,在那之前,Deep Think 還停在技術文件層面。
前沿多模態理解是 3.5 系列的定位核心。根據 Flash 的 CharXiv 成績,3.5 系列在理解科學圖表這類結構化多模態資訊上有明確進步。Pro 版本預計在這個方向更強,但具體能力差異同樣需要等上線後驗證。
數字背後的真相
估算定價:報導指出 Gemini 3.5 Pro 的 input token 費用約為 3.5 Flash 的十倍,換算下來大約是每百萬 input token 15 美元、output token 60 美元。
把這個數字具體化:填滿一次 200 萬 token 的 context,input 成本就是 30 美元。一個每天跑一百次長 context 呼叫的企業場景,每月成本粗估落在 9 萬美元左右。這個定價讓 Gemini 3.5 Pro 更接近「每次重要決策才用一次」的定位,而不是日常對話的主力工具。
Flash 的 benchmark 數字值得拆解一下。Terminal-Bench 76.2%、GDPval-AA Elo 1656、MCP Atlas 83.6%,這些都是 Google 自家量的。對外的 LMSYS Chatbot Arena Elo 排名通常更接近真實的使用者體驗,Pro 上線後一到兩週,這個數字才是最值得看的比較基準。
還有一個工程師實際會碰到的問題:2M context 在接近上限時的品質是否衰退?現有 128K-200K 的模型在超過 80% 的 context 填充率後,普遍有 retrieval precision 下降的紀錄。如果 Google 沒有在架構上解決這個問題,那 2M token 的帳面數字和真實可用範圍可能差距很大。
延遲本身也有競爭成本。六月二十三日 Claude Fable 5 轉成付費制,部分企業客戶開始重新評估供應商組合。Q3 採購周期的決策窗口正在縮小,Gemini 3.5 Pro 的空缺越留越久,可替代方案就越容易先入為主。
接下來值得觀察的指標
六月三十日是第一個可以直接驗證的節點:Gemini 3.5 Pro 有沒有在月底前全面開放 API?如果跳過六月,Google 需要在七月對齊一個新的說法。
Pro 上線後的首個月,有三個具體的數字值得追蹤。LMSYS Chatbot Arena 整體 Elo 排名是第一個:Gemini 3.5 Pro 能不能超過 Claude Opus 4.8 和 GPT-4.5?這個數字在社群裡的影響力遠超過任何官方 benchmark。第二個是長 context 的獨立測試,超過 100 萬 token 的 retrieval precision 有沒有系統性下降,需要研究機構的獨立驗證。第三個是企業採購的風向,Q3 財報季開始時,Fortune 500 的 AI 採購決定在哪裡集中,是 Gemini 3.5 Pro 重要性的代理指標。
如果六月三十日還沒出,這個延遲就在已有的負面背景下再加一筆。Google DeepMind 六月這幾週損失了兩位標誌性研究員,競爭對手的旗艦模型正常交付,Gemini 3.5 Pro 的空缺越留越久,對企業採購周期的影響就越難用技術語言解釋過去。
如果這篇對你有幫助,訂閱電子報 可以第一時間收到 AI PM 實戰洞察與 GenAI 落地案例。
相關文章
Google Antigravity CLI 正式上線:Gemini CLI 今日停服
Google Antigravity CLI 6 月 18 日正式取代 Gemini CLI,免費用戶即時失去訪問。Apache 2.0 開源工具在一年多後走入歷史,AI 編程工具市場全面進入閉源時代。
Noam Shazeer 加入 OpenAI:Google 花 27 億買回的 Transformer 共同作者再度出走
Transformer 共同作者、Gemini 前期訓練負責人 Noam Shazeer 宣布加入 OpenAI。Google 兩年前花 27 億美元把他從 Character.AI 買回,如今人才再度出走,OpenAI IPO 前的人才爭奪正式進入新局面。