8月2日報道,昨夜,谷歌推出其迄今最強推理模型Gemini 2.5 Deep Think。
這是最近在今年國際數(shù)學(xué)奧林匹克(IMO)上“拿金牌”的模型的變體。近期高級版Gemini Deep Think完美解答了IMO 6道題目中的5道,總分35分(滿分42分),達到金牌水平。
該模型需要幾個小時才能推理出復(fù)雜的數(shù)學(xué)問題。新發(fā)布的版本在日常使用中速度更快、更易用,根據(jù)內(nèi)部評估,在2025年IMO基準(zhǔn)測試中仍達到銅牌水平。
谷歌在今年5月的I/O開發(fā)者大會上首次預(yù)覽了Gemini 2.5 Deep Think。新版本進行了“重大改進”。在具有挑戰(zhàn)性的編程、科學(xué)、知識、推理基準(zhǔn)測試中,與OpenAI o3、Grok 4等其他不使用工具的模型相比,Gemini 2.5 Deep Think在LiveCodeBench V6和Humanity’s Last Exam均取得最佳性能。
Gemini app中的Deep Think模型,使用思考技巧來提供更詳細、更有創(chuàng)意和更周到的回答,甚至可以幫助數(shù)學(xué)家來測試數(shù)學(xué)猜想,還能提高Web開發(fā)任務(wù)的美觀性。
Deep Think支持文本、圖像、音頻、視頻等輸入和1M tokens上下文窗口,輸出長度為192K tokens。
其工作原理是利用谷歌的并行思維技術(shù),能同時生成多個想法,并同時進行思考,甚至隨著時間的推移不斷修改或整合不同的想法,最終得出最佳答案。
此外,通過延長推理時間或“思考時間”,谷歌給了Gemini更多的時間來探索不同的假設(shè),并為復(fù)雜問題找到創(chuàng)造性的解決方案。
谷歌還開發(fā)了新穎的強化學(xué)習(xí)技術(shù),鼓勵模型利用這些擴展的推理路徑,從而使Deep Think隨時間推移成為更好、更直觀的問題解決者。
Deep Think可以幫助人們解決需要創(chuàng)造力、戰(zhàn)略規(guī)劃和逐步改進的問題,例如:
迭代開發(fā)和設(shè)計:在需要逐塊構(gòu)建復(fù)雜事物的任務(wù)上的表現(xiàn)出色,比如可以提高網(wǎng)絡(luò)開發(fā)任務(wù)的美學(xué)和功能。
科學(xué)和數(shù)學(xué)發(fā)現(xiàn):可推理出高度復(fù)雜的問題,通過復(fù)雜的科學(xué)文獻幫助制定和探索數(shù)學(xué)猜想或推理,可能加速發(fā)現(xiàn)之路。
算法開發(fā)和代碼:在棘手的編碼問題上特別出色,其中問題制定和仔細考慮權(quán)衡和時間復(fù)雜性是最重要的。
目前僅有最高級別的Google AI Ultra訂閱者可選用“Deep Think”,每月訂閱費為249.99美元(約合人民幣1803元)。
Deep Think自動與代碼執(zhí)行和谷歌搜索等工具配合使用,并能產(chǎn)生更長的響應(yīng)。
同時,達到IMO金牌水平的Deep Think模型將進一步測試,并向一小部分?jǐn)?shù)學(xué)家和學(xué)者分享,用于輔助研究。谷歌計劃利用這些反饋來完善該模型的未來版本。
谷歌還正在努力在未來幾周內(nèi)通過Gemini API向一組受信任的測試人員發(fā)布帶和不帶工具的Deep Think,以更好地了解其對開發(fā)者和企業(yè)用例的可用性。