谷歌又沒能“遙遙領先”
作者|畢安娣 來源|字母榜(ID:wujicaijing)
千呼萬喚始出來,谷歌終于釋放了大模型的新大招——Gemini。
當地時間12月6日,谷歌正式發布了Gemini大模型。在一份聲明中,谷歌CEO桑達爾·皮查伊(Sundar Pichai)稱,這是谷歌迄今為止“功能最強大、最通用”的模型。
對于Gemini,谷歌就差說出“遙遙領先”四個大字。皮查伊描述其意義是人工智能發展的一個重要里程碑,也是谷歌新時代的開始:“這個新時代的模型代表了我們作為公司所進行的最大的科學和工程努力之一。我對即將到來的發展和Gemini為全球人民帶來的機遇感到無比激動。”
演示視頻中Gemini的表現的確稱得上“驚艷”。在一段視頻中,谷歌的人員用視頻給Gemini 畫畫、展示物品,并和它對話。Gemini用語音和文字進行回答,不僅可以識別出工作人員手繪的簡筆畫是什么,還能“看”出其手持的玩具鴨子的材質是“橡膠”,并且還和其玩起了互動小游戲。甚至在工作人員詢問鴨子一詞的普通話發音時,Gemini也精準讀出,還順帶科普了普通話的四個音調。
這則演示之所以驚艷,是因為它融合展示了Gemini不俗的多模態能力。在圖像、視頻、音頻等的輸入和輸出中,Gemini不需要特別做切換,更貼近人與人交互的體驗。皮查伊在一篇博文中提到:“Gemini一開始就是為多模態打造的,這意味著它可以生成并理解、操作和組合成不同類型的信息,包括文本、代碼、音頻、圖像和視頻。”
谷歌也拿出數據展示Gemini的能力,比如在MMLU多任務語言理解數據集測試中,Gemini Ultra不僅超越了GPT-4,也比人類專家強。
眼尖的朋友不會忽略后綴“Ultra”。這次Gemini發布提供了三個版本,分別是輕便的Gemini Nano,可以在安卓設備上原生離線運行;Gemini Pro,已經接入Bard;Gemini Ultra,本次發布的最強版本。
實際上,這次發布Gemini最亮眼的表現由Gemini Ultra貢獻,也是這個版本對標了GPT-4,但這個版本計劃2024年才會正式推出。而Gemini Pro已經接入Bard,但目前只可在英文交互中被調動,該模型對標GPT-3.5,后者是OpenAI在2022年初就釋放的模型。至于Gemini Nano,“谷歌親兒子”Pixel手機的最新版Pixel 8 Pro的用戶將很快體驗到。
總而言之就是,Gemini挺好的,就是“但是”有點多,承諾也多于當下的應用。更要命的是,在Gemini發布不久,就被外界扒出展示視頻疑似拼接剪輯的產物、Gemini Ultra和GPT-4的測試疑似被谷歌“雙標”等問題。
Gemini也許真的強,但是否達到了谷歌需要的“遙遙領先”?
一
先來看看Gemini在發布之后遭遇了什么質疑。
首先是那個頗為驚艷的展示視頻,視頻中Gemini流暢地與工作人員對話,用多模態的方式進行著交互。
但很快,展示視頻的聲明就被關注到了。聲明是這樣說的:“為了演示的目的,(視頻中)延遲已經減少,Gemini的輸出已經進行精簡。”而這個聲明并沒有放在顯眼的位置,而是在谷歌發布的YouTube視頻的描述文本中,不仔細看很容易忽略。
難道谷歌的展示視頻并不是實時錄制,而是經過編輯的?可能更糟。彭博社(Bloomberg)的專欄作家奧爾森(Parmy Olson)就此事問詢谷歌,得到了一位發言人的回應:這段視頻是通過“使用視頻中的靜態圖像,并通過文字提示”制作的。
也就是說,演示視頻雖然給人一種人類和Gemini“視頻通話”暢聊的感覺,但這只是感覺,實際上視頻中工作人員所說的話,是在念給Gemini的文字提示,而展示的也不是視頻,而是靜態圖像。
另有谷歌員工匿名向彭博社吐槽,對演示視頻并不感到驚訝,因為他們已經習慣了某種程度的營銷炒作:“我認為,大多數使用過LLM(大語言模型)技術的員工都知道,要對這一切持保留態度。”
面對外界的質疑,谷歌選擇放低姿態,不僅放出了演示視頻背后詳細的交互過程,谷歌DeepMind的產品副總裁伊萊·柯林斯(Eli Collins)還明確表示,畫鴨子的演示展示的是一種研究層面的努力,至少目前不在谷歌的產品中。
其次是Gemini Ultra在測試中的表現。依據谷歌的展示,Gemini Ultra在大規模多任務語言理解測試MMLU中,得分高達90%,是首個在該測試中超越人類專家的模型。MMLU綜合運用了數學、歷史、法律、物理、醫學和倫理等57個科目,是測試AI世界知識和問題解決能力的重要工具。
其中,谷歌展示的一張圖令人印象深刻,圖中Gemini的得分“遙遙領先”于GPT-4和人類專家,圖中GPT-4的得分在最底部,人類專家的得分大約在中間的位置,而Gemini Ultra的得分在頂部。
但人們很快就發現不對,GPT-4在MMLU中的得分為86.4%,人類專家是89.8%,而Gemini Ultra的得分為90%,何至于在折線圖中展示出均分畫面的效果?
這不是縱軸尺度不均的把戲嗎?這個把戲騙不了打工人,畢竟大家在工作匯報的時候都熟練運用了。
當紅的AI初創公司HuggingFace的CEO菲利普·施密德(Philipp Schmid)在社交平臺上吐槽“永遠別相信營銷”,并貼出了他幫谷歌修正后的折線圖,Gemini Ultra的領先優勢立刻變得不那么明顯了。
此外,施密德還發現了一個關鍵點,雖然同樣是對MMLU的測試,但GPT-4和Gemini的“待遇”不大相同。Gemini Ultra的得分是基于CoT思維鏈提示技巧,嘗試32次后取的最佳得分,但GPT-4是在無提示詞技巧下,嘗試了5次拿到的得分。
施密德也提到,其實同樣是用CoT@32(思維鏈提示技巧下嘗試32次),GPT-4的得分為87.29%,的確不如Gemini Ultral;但要是同樣在無提示詞技巧下嘗試5次,Gemini Ultra的得分其實只有83.7%,低于GPT-4的86.4%。
相當于Gemini Ultra和GPT-4分別參加了兩場考試,都拿到了兩個分數。明明是各自贏了一場考試,谷歌宣傳自己贏的那場考試就算了,還偏偏用自己在一場考試中的高分,去對陣GPT-4在另一場考試中的低分,怎么看都有點“不講武德”了。
二
自從ChatGPT出現,谷歌踏入尷尬之境。
一方面,谷歌在AI領域的野心與成就有目共睹。早在2011年,谷歌大腦Google Brain就已經成立,目標是研究深度學習和神經網絡。次年,谷歌大腦由1.6萬臺電腦集群組成的人工神經網絡,在學習了10萬個YouTube視頻后,沒有學習“貓”為何物而自行精準識別出“貓”,震驚四座。
2014年,谷歌又以6億美元價格收購DeepMind,當時后者還是僅有50名員工的小公司。谷歌對AI如此舍得下血本,也直接促成了馬斯克等人應激式地成立OpenAI,以對抗谷歌未來在AI領域可能形成的壟斷局面。
僅僅兩年后,已經被谷歌收入麾下的DeepMind就推出了AlphaGo,擊敗圍棋頂尖選手李世石,一炮而紅。谷歌就此成為AI領域不可忽視的、第一梯隊的力量。
其后數年,做研究、發論文、推產品,谷歌沒有停下在AI領域的腳步。OpenAI的GPT模型之“T”,正是Transformer模型之意。Transformer模型是一種用于自然語言處理中的神經網絡模型,是由谷歌的研究人員在2017年提出的,那一年皮查伊喊出“從移動優先轉向AI優先”的口號。當年寫就Transformer論文的研究人員,也被冠以“Transformer八子”的稱號,可見其分量之重。
但另一方面,ChatGPT推出之后,谷歌就陷入了被動。
如果說幾年前做“誰會造出一個轟動世界的大模型驅動的聊天機器人”,那谷歌八成是猜測的大熱門。但這并不是故事的走向,OpenAI推出了ChatGPT,而谷歌至今沒有能與之抗衡的產品。
今年2月,在外界的矚目下,谷歌推出了聊天機器人Bard。作為ChatGPT的直接競品,Bard被寄予厚望,卻不如預期。先是演示中出現事實錯誤,讓谷歌母公司一夜之間市值蒸發千億美元。而后也沒能以性能表現吸引足量用戶,據Similarweb的數據,Bard全球月訪問量只有2.2億次,僅為ChatGPT的八分之一。
谷歌在AI領域明明素有“遙遙領先”之態,為什么這次不能“遙遙領先”了,問題到底出在哪兒?
“Transformer八子”也許能掀開谷歌難題的一角。這八子目前已經全部從谷歌出走,其中1位加入OpenAI,其余7人創業。彭博社引用谷歌科學家和工程師稱,谷歌規模龐大,任何創意都要經過多層確認。就算創意通過,從創意到產品的門檻也很高。在谷歌,高級研究人才想將想法變為現實,難度頗大。
換句話說,谷歌多少有點“大公司病”,這也可以解釋為何谷歌在應對OpenAI和微軟的挑戰時顯得有些“遲緩”。
ChatGPT的推出,使得AI的戰場更加瞬息萬變,看看OpenAI和微軟過去一年對模型和產品的迭代速度就知道了——今年2月微軟推出新必應,3月OpenAI就正式推出了GPT-4,9月微軟推出微軟“智能副駕”Microsoft Copilot,10月就開始向Windows 11用戶推送更新,11月OpenAI又推出了GPT-4 Turbo。況且OpenAI每次的發布會還會有真槍實彈的演示,動輒就是“即日起可用”。在這樣的競爭環境下,谷歌的“謹慎”就變成了一種詛咒。
三
谷歌有足夠的理由著急。
在AI驅動的云計算競賽中,谷歌一直落后于微軟。今年兩大巨頭多次同日發布財報,讓對比更加明顯。截至9月底的2023年第三季度財報顯示,谷歌云營收低于華爾街預期,且為11個季度以來增長最慢的一季。而微軟同樣截至9月底的2024財年第一財季業績報告則顯示,微軟智能云部門收入同比增長19%,其中Azure更是同比增長29%。
在Bard效果不佳的情況下,Gemini是谷歌尋求突破的一枚關鍵棋子,這也是Gemini還沒推出就備受矚目的原因。
今年4月,谷歌將谷歌大腦Google Brain和DeepMind合并,成為新的部門谷歌DeepMind。此前谷歌原生孵化的谷歌大腦與收購而來且一直享有高度自主權的DeepMind之間,一直有資源搶奪和內部競爭的問題,這與“Transformer八子”出走暴露出的谷歌的問題一致。
而合并二者,顯示出了谷歌從組織層面上入手,掃清AI競賽上的障礙之決心。合并之后,DeepMind聯合創始人德米斯·哈薩比斯(Demis Hassabis)成為谷歌DeepMind的CEO。
不出兩個月,哈薩比斯就在采訪中透露了Gemini項目,并放出豪言,稱Gemini的能力將強過OpenAI的GPT-4。
在今年年中的谷歌I/O開發者大會上,谷歌共提及143次AI,皮查伊首次承認Gemini的存在。從那時起,全世界都在等著谷歌“憋大招”。
如此看來,就能理解谷歌為什么在那么多“但是”的情況下,就發布Gemini,又為什么要如此用力地營造“遙遙領先”的形象。
好消息是,盡管外界質疑頗多,但市場對谷歌Gemini的發布給出了正反饋。當地時間周四,谷歌母公司Alphabet的股價大幅上漲了5.3%,市值上漲800億美元。巧合的是,今年9月傳出的OpenAI最新估值正在800億美元到900億美元之間。谷歌一夜漲出了一個OpenAI。
壞消息是,承諾大過落地的Gemini,需要實實在在地兌現承諾,2024年Gemini Ultra的正式推出將是一個關鍵節點。
而在那之前,只能默默祈禱OpenAI的GPT-5來得慢一些。就在上個月,OpenAI的CEO山姆·阿爾特曼(Sam Atlman)透露,GPT-5正在開發中。
參考資料:
1、新浪科技:《兩個小時:谷歌說了143次AI,股價連漲兩天》
2、財聯社:《OpenAI承認正開發GPT-5 終極目標是相當于人腦的超級AI》
3、極客公園:《谷歌 25 周年|3.0——從 AI 弄潮兒到追趕者》
4、北京商報:《同日發財報:微軟贏了谷歌》
編者按:本文轉載自微信公眾號:字母榜(ID:wujicaijing),作者:畢安娣 編者按:本文轉載自微信公眾號:字母榜(ID:wujicaijing),作者:畢安娣
前瞻經濟學人
專注于中國各行業市場分析、未來發展趨勢等。掃一掃立即關注。