今日焦點

Google推出「會看會聽」的機器人Gemini,ChatGPT九大測試輸慘了

Gemini比ChatGPT贏在哪?科技巨頭軍備競賽的下一步又是什麼?

Google-AI-Gemini 圖片來源:Shutterstock
其他
  • 天下Web only

去年底,Open AI憑著聊天機器人ChatGPT橫空出世,令Google等巨頭措手不及。過去一年來,Google一直致力於開發可以與ChatGPT一較高下的武器。

年初,初試啼聲的機器人Bard反應普通,Google下定決心整併了兩個AI實驗室——Google Brain和DeepMind,匯集了2,000多名研究員與工程師,終於在年末的本週三(12/6),發布最新的聊天機器人Gemini,並宣稱它將是目前為止最強的聊天機器人。

Gemini哪裡厲害?

Gemini和ChatGPT一樣,是大型語言模型(LLM),可以透過分析大量資料(包括數位書籍、維基百科文章和網路論壇)來學習技能。語言模型透過識別文本中的模式,最終自己生成文本,也就是說,它可以寫論文、寫程式,和進行對話。

Gemini將有三種不同強度的版本,最強的「Ultra」能解決複雜任務,中端的「Pro」會和Bard一起應用到許多Google服務中,而最小的「Nano」版本,將會在智慧型手機中使用,可以摘要錄音和在WhatsApp中提供建議文字回應。

《Fast Company》分析,Gemini的強大技術,可能讓Google重回AI軍備競賽的最前線。

根據Google工程師達斯(Debarghya Das),Gemini Ultra在性能和效率上都超越了競爭對手,包含驅動ChatGPT的GPT-4。在測試語言模型的9大指標如閱讀理解、數學能力、寫程式等項目中,Gemini Ultra幾乎樣樣都超越GPT-4,只有常識推理(HellaSwag)測試小幅落後。

其中,贏GPT-4最多的是寫Python程式的能力(HumanEval)。

廣告

更特別的是,Gemini不只會生成文字,還會看圖片和聽聲音。

Google使用圖像、影片與音頻對Gemini進行訓練,也就是說,如果提供它一個包含線條、幾何形狀的數學問題,它能像高中生一樣作答。而安裝在手機的Nano版本,也可以使用相機和麥克風來處理現實世界的影像與聲音。

眾多科技媒體預測,倘若搭配更進步的AR耳機技術,Gemini機器人將可能「看到」現實世界的物體,替使用者解決更多問題。

不過,就如業界和Google一直擔心的,怕機器人的「幻覺」問題嚴重,因此Gemini部分技術要測試到明年才上路。

AI軍備競賽,愈演愈烈

Gemini的成本預計上看數億美元,但對於科技公司來說,潛在收益也十分巨大。艾倫人工智慧研究所前CEO伊奇奧尼(Oren Etzioni)指出,「這是一場不擇手段、必須勝出的戰爭。」

廣告

當AI日漸融入各行各業,Google的Gemini戰略標誌著該公司在應用上邁出了重要一步,也展現了新的可能性,「我們對即將推出的產品感到興奮,Google仍處於早期階段,後續發展執得期待,」Google CEO皮采(Sundar Pichai)放話,「這是Gemini時代的開端。」

當Open AI一枝獨秀,加上後進者Google的強勢來襲,IBM、Meta和其他約50家科技公司和大學成立了一個新組織「AI聯盟」來推廣「開源」,希望開放眾多AI技術來造福市場與社會。

(延伸閱讀:OpenAI不Open?Meta、IBM成立AI聯盟對抗

而對自家研究變得更加保密的Open AI,現在的當務之急是重新取得客戶信任。在上個月短暫的撤換CEO鬧劇之後,該公司經歷了一段動盪。如果不上緊發條,預期Gemini和其他後進者將會帶著更強勢的技術超越它。

上個月,亞馬遜推出了新的聊天機器人Amazon Q,微軟也發布了名為Copilot的生成式AI助理。

《華爾街日報》總結,「這個產業的位階排行遠未確定。」

廣告

(資料來源:Hindustan Times, Engadget, NYT, Fast Company, WSJ)

你可能有興趣
#Shorts|光與鹽管理顧問創辦人陳淑芬:天下學習幫助我們的學員,更加進步和成長。
最新訊息
你是學生嗎?限定優惠$99/月
訂閱天下雜誌電子報

天下雜誌當期內容的精華與延伸,每周三發送最具時效性的深度內容