目錄
- 前言
- 製作的交互遊戲
- 搭建的實用工具
- 構建的windows系統
- 小結
之前反推圖片和視頻、識別AI內容創作的時候,Gemini 2.5 pro就向大家展示了它脱穎而出的實力——模態識別多、細節判斷強、專業程度深、文筆人味兒濃。
現在Gemini 3 Pro在18日晚正式上線了。這一場“甄嬛回宮”,帶着它強得離譜的跑分和眾對手、眾戰友見面了。
幾乎所有的指標,都是斷層領先,除了軟件工程能力比GPT-5.1和Claude Sonnet 4.5差一點。能力優秀到每項講不完,這裏就單拎2個出來講。
第一行,把各種學科裏最變態、最抽象的題合並在一塊的Humanity’s Last Exam,Gemini 3 Pro未開工具使用37.5%,開了工具使用之後達45.8%!而Claude Sonnet 4.5是13.7%,GPT-5.1是26.5%。
第五行類似超難奧賽壓軸題專場的MathArena Apex,Gemini 3 Pro得23.4分,而GPT 5.1只拿了1分,Claude Sonnet 4.5也僅得1.6分。
Gemini 3 Pro yyds,説具體一點,是它的前端設計yyds,後端能力相對其他龍頭工具領先,但離用户預期還差一些距離。
話不多説,先上它的作品給大家瞧瞧。
一、製作的交互遊戲
交互遊戲的效果是前端設計能力的典型體現,考驗的是模型的邏輯構建與狀態管理、創意與UI生成、用户體驗與引導的能力。
比如這個領跑者遊戲。
(原遊戲界面)
(Gemini 3 Pro製作的遊戲界面)
(GPT 5 Thinking製作的遊戲界面)
我是通過上傳視頻文件,讓Gemini 3 Pro 和GPT 5 Thinking(沒有5.1權限,因此用5來對比)分別參照而生成的。
可以發現前者會仿照附件視頻,且整體穩定性挺好,基本都能跑通。不過UI元素設計low了些,即便指明寶藏需要具象化,它也不會做得精美。
後者倒是恰好相反。UI元素設計精良,但不會參考附件視頻製作畫面,遊戲整體運行還不穩定,運氣好能絲滑玩耍,運氣不好就只能乾瞪眼。
兩者都能用鍵盤按鍵控制遊戲,但都不會自動為遊戲加入音樂、音效。
再來一個,比如枱球遊戲。
(Gemini 3 Pro製作的遊戲界面,此處錄屏,所以模糊,但原版清晰)
看到Gemini 3 Pro,讓人不禁懷疑,這真是一句話生成的效果嗎?!這個完成度,是真叫人驚訝!雙人對局功能實現了,枱球走向很自然真實,這模擬真實世界的物理引擎吊炸天了!
GPT 5 Thinking 就是一張靜態圖,只有界面設計,沒有功能運行。説好的遊戲呢,結果就只送來了原型設計圖。
(GPT 5 Thinking製作的遊戲界面)
另外大家需要注意一點,就是“Gemini中文、英文提示詞的效果不相上下”的特點同樣適用於Gemini 3 Pro,不過GPT在編程方面,尤其是複雜的設計,還是用英文提示詞效果更好。
二、搭建的實用工具
AI視頻鑑別工具
這個工具主要考驗的是模型的後端開發能力,具體考驗模型的細粒度視覺感知、物理規律與時序連貫性、跨模態對齊能力、工具調用與代碼執行,以及批判性推理與解釋等邏輯層。
和測試交互遊戲不一樣的是,這裏提示詞越具體,工具的功能性和操作性都會更好。
(短版提示詞:上為AI視頻分析,下為實拍視頻分析)
(長版提示詞:上為AI視頻分析,下為實拍視頻分析)
短版提示詞搭建的工具,沒有視頻刪除鍵,重新傳視頻需關閉網站並重新開啓。檢測一頓亂分析,真實和AI生成都一樣的分析內容和結果。
但長版的提示詞搭建的工具是完全可用的,沒有了上面的問題,設置項變得更多,視頻尺寸和框能完全對應上。
在我看到Gemini生成的直接可用的AI視頻鑑別工具時,心裏冒出N個詞,高效、大大省時、內耗解除、不麻煩人、商機等等。
鬼知道我被無批量處理的工具、四處求人、漫長的等待、人工一個個處理折磨了多久!
幾年之前雖沒接觸AI視頻,也不會有鑑別AI視頻的需求,但類似鑑別的實用類工具,比如格式轉換、修圖、數據整理等,卻可以現在由我自己藉助AI搭建,不用求人給工具,不用到處留錢買工具,更不用雙手死扛加班導致內耗,甚至可以給自己開闢出一條“做工具-賣工具賺錢”的路子。
文檔格式轉換器
現在算是直面AI遍地開花之前的心結了。
不過這次還是未徹底解決。Gemini 3 Pro和GPT 5 Thinking幫我留下了一半問題。
(Gemini 3 Pro製作的工具成效)
(GPT 5 Thinking的工具成效)
這個任務主要考驗後端與系統架構能力,以及前端的考驗交互和狀態管理。
Gemini 3 Pro勝在流程都能跑通、顏值高,但可能因配置複雜、網址防護功能無法真正轉換格式,具體表現如下:
1.除png、JPG、JEPG格式能互轉外,圖片其餘格式都轉換失敗。
2.文檔轉換隻能跑通流程,但沒法真正轉換。
3.下拉框選項多,但大部分都無法真正轉換,不符合指令要求。
4.無法批量轉換。
GPT 5 Thinking勝在功能實用性高,但流程不一定跑通,顏值低。具體表現如下:
1.下拉框出現的選項都能轉換成功。圖片能實現png、JPG、JEPG、webp互轉,可以批量轉換。文檔中,word文檔可以轉3類,xlsx可轉6類,pdf能轉2類。
2.網址無法實現格式轉換,放入鏈接根本不能選格式。
3.圖片尺寸無法修改。
所以目前看來,光靠“90%的AI魔法,10%的個人努力”解決心結還是不太現實,根據目前測試結果解決剩下的難題要靠譜些~
三、構建的windows系統
不是我吹,Gemini 3 Pro這個功能是真的非常炸裂!
對於“系統”,我第一反應是“只是還原系統的界面,應用打不開,即便只涉及前端”。
沒想到,Gemini 3 Pro火速打了我的臉。
(Gemini 3 Pro製作的系統)
(GPT 5 Thinking製作的系統)
它的windows系統界面,不僅可以打開桌面各個快捷方式,還能使用、運行前端類的應用,比如畫圖工具、代碼編輯器。
儘管它涉及後端的應用無法使用,比如網頁搜索,但相比GPT 5 Thinking界面啥也沒有的結果,還是吊打。
我相信,最多再過幾個月,Gemini 3 Pro連後端問題也給解決了。到時候,真的就是“人人都是應用開發工程師”!
四、小結
這裏簡單總結一下Gemini 3 Pro的特點與使用技巧:
1.前端設計能力絕絕子。無論是交互遊戲還是全視圖瀏覽,應用界面還是系統界面,顏值都在線。唯一不足的就是UI元素設計不精美。
2.後端構建能力領先。高效產出,流程通暢,運行穩定,即便達不到用户預期,也擔得起眾模型的領頭羊。
3.語義理解和創新能力出眾。一句話即可順利完成任務,甚至超出你的預期。
4.對於複雜的任務,尤其重實用的任務,還是需要更為詳細的提示詞。
5.國內用户輸入中文提示詞即可開啓Gemini 3 Pro的奇妙之旅。
反正,我是被Gemini 3 Pro的能力震驚到了。
那些腦子裏的東西正在被一點一點翻譯成可見、可聽、可操作的具象化物品,我們嘴裏説着的、腦海裏暢想着的科幻未來,快到我們的腳下了......
今天的分享就到這裏了。若你對Gemini 3 Pro也有一番感悟,歡迎在評論區分享,我們一起討論哦~
關注ChooseAI,和我們一起探索AI時代!