Google發布Gemini 3 新世代人工智能模型推理能力創業界新高

Google正式推出旗下迄今最智能的人工智能模型Gemini 3，標誌著該公司在人工智能技術上邁向新的里程碑。這款全新模型結合了Gemini系列的所有強大功能，旨在協助用戶將創意構思化為現實。Gemini 3具備業界頂尖的推理能力，能進行深層次的細膩剖析，無論是細緻地留意到創意概念中的微妙線索，還是抽絲剝繭地處理複雜難題。憑藉卓越的理解能力，該模型能精準捕捉用戶的請求意圖，能夠僅憑簡潔的提示生成具高準確度的結果回應。

Google及Alphabet行政總裁Sundar Pichai表示，「大約兩年前，我們展開Gemini時代，這是Google有史以來其中一項最大規模的科研與產品發展項目。自Gemini面世以來，用戶對它的積極回應令我們十分鼓舞。目前，每個月有20億用戶使用人工智能摘要，Cloud客戶中超過七成都正在用我們的人工智能方案，1,300萬開發人員正使用我們的生成模型來建構。」他進一步指出，Google與別不同的是以全方位的策略部署各項人工智能創新，從領先的基礎設施、世界級研究項目，以至人工智能模型和工具，再到惠及全球數十億人的產品，都能快速地推向全世界。

推理能力突破多項基準測試創新高

Gemini 3 Pro預覽版今日正式推出，標誌著Gemini 3時代的正式開啟。該模型具備業界頂尖的推理和多模態能力以實現無窮創意。在各大主要人工智能基準測試中，Gemini 3 Pro的表現均顯著超越Gemini 2.5 Pro。具體而言，它以突破性的1501 Elo分數高踞LMArena排行榜，展現出強勁的綜合推理能力。在「人類的最後考試」（Humanity’s Last Exam）中，Gemini 3 Pro以博士級別的推理能力在沒有使用任何工具下取得高達37.5%的分數，在GPQA Diamond中獲得91.9%的成績，顯示其在複雜學術問題上的卓越表現。

在數學領域方面，Gemini 3 Pro為數學前沿模型樹立新標準，在MathArena Apex基準測試取得了最先進的23.4%成績。這些數字背後代表的是模型在處理數學推理問題時的顯著進步。除了文字推理以外，Gemini 3 Pro亦以突破性的分數重塑多模態推理領域。它在MMMU-Pro基準測試中獲得81%的分數，並在Video-MMMU中達到87.6%，展現出強大的視覺和視像理解能力。

在事實準確性方面，Gemini 3 Pro於SimpleQA Verified測試中獲得最先進的72.1%成績，這代表著該模型在解決科學和數學等廣泛領域的複雜問題時能夠以極高的可靠性提供答案。用戶使用Gemini 3 Pro時將體會到比以往更深層更細膩的互動體驗。其回應精準、簡潔而直接，務求每次都給予真知灼見，省卻了冗餘的客套說話，只提供用戶需要知道的回應。該模型能透過生成高保真圖像化的編碼、以視像轉譯深奧的科學概念，甚至激發創意靈感，帶來嶄新理解資訊和表達自我的方式，成為與真人用戶一起思考的夥伴。

推出Deep Think升級推理模式加強解題能力

Google同時推出Gemini 3 Deep Think — 升級推理模式，激發Gemini 3最強效能。該模式在各項測試中的表現都超越Gemini 3 Pro，進一步展現了該模型系列的強大能力。在「人類的最後考試」中，Gemini 3 Deep Think在沒有使用任何工具下取得41%分數，較Gemini 3 Pro的37.5%有明顯提升。在GPQA Diamond測試中更達到93.8%的分數，較Pro版本的91.9%再進一步。

最為值得關注的是，Gemini 3 Deep Think在ARC-AGI-2測試中達到史無前例的45.1%準確度（附帶程式碼執行，已獲ARC獎項驗證），展示了其解決嶄新挑戰的非凡能力。目前Google向安全測試人員開放Gemini 3 Deep Think的試用權限，稍後將開放予Google AI Ultra訂閱用戶使用。

全新Google Antigravity平台革新開發者體驗

智能模型隨Gemini 3面世而加速發展，Google乘勢推出全新代理開發平台Google Antigravity，讓開發人員能夠在更高層次、以任務為導向的層面進行操作。Google Antigravity利用Gemini 3先進的推理、使用工具和代理編碼能力，將人工智能助理從開發人員的「工具」升格為主動的「搭檔」。

該平台的核心保留了熟悉的整合開發環境體驗，但其「代理」已被提升到專用的介面，並具有編輯器、終端機和瀏覽器的直接存取權限。現在，代理能代表用戶自主規劃和執行複雜、端到端的軟件任務，同時自行驗證其程式碼，大幅提升開發效率。除了運用Gemini 3 Pro，Google Antigravity亦與最新的Gemini 2.5 Computer Use控制電腦使用模型及領先的圖像編輯模型Nano Banana緊密結合，形成完整的開發生態。Google Antigravity與MacOS、Linux及Windows兼容，今日起免費公開預覽。

開發構建能力突出編碼性能領先業界

建基於Gemini 2.5 Pro的成功，Gemini 3兌現助開發人員實現無窮創意的承諾。它在零樣本生成方面表現卓越，在處理複雜的提示和指令的同時，為用戶呈現更豐富、互動性更強的網頁使用者介面。Gemini 3是Google迄今為止最優秀的氛圍編碼和代理編碼模型，使該公司的產品更具自主性，從而提升開發人員的生產力。

具體的成績數據顯示，Gemini 3以令人矚目的1487 Elo分數高踞WebDev Arena排行榜。它亦在檢測模型透過終端機操作電腦工具使用能力的基準測試Terminal-Bench 2.0中獲得54.2%的分數，並在衡量編碼代理能力的SWE-bench Verified基準測試中獲得76.2%的分數，展現出遠超Gemini 2.5 Pro的能力。用戶現時可在Vertex AI和Gemini CLI，以及全新推出的代理開發平台Google Antigravity，以及第三方平台包括Cursor、GitHub、JetBrains、Manus、及Replit等使用Gemini 3進行建構。

代理規劃能力強化多步驟工作流程自動化

Google當年以推出Gemini 2開啟代理時代，自此不但提升了Gemini的代理編碼能力，亦強化了該模型在更長的時間範圍內進行可靠預先規劃的能力。Gemini 3在Vending-Bench基準測試中出色的表現便是最佳證明。該測試透過管理模擬自動售賣機業務來衡量其隨時間推移的穩定性，Gemini 3在整個模擬的營運年度中始終保持工具使用和決策的一致性，並在不偏離任務的情況下實現更高的回報。

這意味著Gemini 3能更有效地協助用戶處理日常生活中各項事務。透過結合更深入的推理能力、更進階、更一致連貫的工具使用，Gemini 3可以從開始到結束，自動地為用戶代為執行如整理Gmail郵箱或計劃旅行行程等更複雜的多步驟工作流程。相比以往模型需要頻繁用戶介入，新一代模型展現出更強的自主性和持續性。

多模態學習功能升級百萬詞元上下文長度

Gemini自面世以來，以無縫整合各題材的文字、圖像、影片、音訊和程式碼等多模態訊息而見稱。Gemini 3在此基礎上進一步拓展多模態推理的界限，它結合最頂尖的推理、視覺和空間理解、領先的多語言性能，以及100萬個詞元的元脈絡長度。這龐大的上下文窗口允許用戶輸入更多資訊，模型能夠理解和處理更複雜的場景。

假如開發人員想學習新編碼架構，他只需上載深奧學術論文、講座影片或教學課程，Gemini 3能生成程式碼製作互動活動卡、視覺化圖表或以其他形式呈現資訊，方便學習。它甚至可識別需要改進的範圍，繼而生成一套技能提升計劃。這種個性化學習方案的生成能力，對於知識工作者和學習者而言具有重大價值。

強化Google搜尋體驗動態生成視覺介面

多得Gemini 3的先進推理能力，Google搜尋的「查詢扇出」技術得以重大提升。如今它不僅能執行更多搜尋以發掘相關的網絡內容，而且由於Gemini 3能更具智慧地精準理解用戶的意圖，因此得以找到往往會錯過的新資訊。這意味著Google搜尋能夠為用戶的每項問題找到更多可信且高度相關的內容。

而為了進一步幫助用戶掌握網絡資訊，Google搜尋的人工智能模式利用Gemini 3開拓全新的生成式用戶介面體驗，能根據用戶的查詢，動態生成理想的視覺佈局，並透過互動工具和模擬功能，實現定制化的資訊呈現。由今日起，Google AI Pro和Google AI Ultra美國訂閱用戶可在人工智能模式的下拉式模型選單點選「Thinking」，就可使用Gemini 3 Pro。未來數星期內，Gemini 3將加入Google AI Pro和Google AI Ultra美國訂閱用戶的Google搜尋內的自動模型選擇功能，Google搜尋將智能地按用戶問題的複雜性自動在人工智能模式及人工智能摘要中導向至Gemini 3 Pro處理。

安全評估全面負責任開發原則

Gemini 3是Google目前最安全的模型，亦是Google目前多個人工智能模型中，接受過最全面安全評估的一款。該模型展現更低的奉承傾向，對提示注入有更強的抵抗力，能更有效地防禦經由網絡攻擊所導致的濫用。Google除了按照自家「前沿安全框架」針對關鍵領域進行內部測試外，亦與世界頂尖學科專家合作進行評估，向英國的AISI等機構提供早期使用權限，並從Apollo、Vaultis、Dreadnode等行業專家獲得對Gemini 3的獨立評估。

分階段推出計劃逐步開放使用

Gemini 3時代正式揭幕，推出計劃涵蓋多個平台和用戶群體。Gemini 3現已逐步在Gemini on Google Workspace Enterprise用戶、開發人員透過Gemini API、全新代理開發平台Google Antigravity、及Gemini CLI，以及企業客戶透過Vertex AI及Gemini Enterprise等平台推出。Google目前正投放額外時間對Gemini 3 Deep Think進行安全評估，再聽取安全測試人員的回饋，未來數星期內將向Google AI Ultra訂閱用戶推出該升級推理模式。

V!ZZ !nnovation 融合 AI 創新與以客戶為中心的思維，助力品牌重塑未來。我們憑藉集團過去 20 年專業經驗，匯聚香港與廣州逾 100 名專注團隊成員，我們引領各行業客戶邁向開創性突破。

想了解在 Gemini 3 的推動下，如何利用 AI 優化您的品牌行銷並提升轉換率？歡迎聯絡我們！

Google發布Gemini 3 新世代人工智能模型推理能力創業界新高

推理能力突破多項基準測試創新高

推出Deep Think升級推理模式加強解題能力

全新Google Antigravity平台革新開發者體驗

開發構建能力突出編碼性能領先業界

代理規劃能力強化多步驟工作流程自動化

多模態學習功能升級百萬詞元上下文長度

強化Google搜尋體驗動態生成視覺介面

安全評估全面負責任開發原則

分階段推出計劃逐步開放使用

About Us

Contact Us

Google發布Gemini 3 新世代人工智能模型 推理能力創業界新高

推理能力突破 多項基準測試創新高

推出Deep Think升級推理模式 加強解題能力

全新Google Antigravity平台 革新開發者體驗

開發構建能力突出 編碼性能領先業界

代理規劃能力強化 多步驟工作流程自動化

多模態學習功能升級 百萬詞元上下文長度

強化Google搜尋體驗 動態生成視覺介面

安全評估全面 負責任開發原則

分階段推出計劃 逐步開放使用

About Us

Contact Us

Google發布Gemini 3 新世代人工智能模型推理能力創業界新高

推理能力突破多項基準測試創新高

推出Deep Think升級推理模式加強解題能力

全新Google Antigravity平台革新開發者體驗

開發構建能力突出編碼性能領先業界

代理規劃能力強化多步驟工作流程自動化

多模態學習功能升級百萬詞元上下文長度

強化Google搜尋體驗動態生成視覺介面

安全評估全面負責任開發原則

分階段推出計劃逐步開放使用