3 月 16 日下午 2 點,,百度北京總部的發(fā)布廳內(nèi),,李彥宏邁著急促的步伐走上臺,和大家公布了最近一段時間備受關(guān)注的產(chǎn)品——文心一言,。
盡管這位科技巨頭創(chuàng)始人登過《時代》周刊封面,,見過無數(shù)大場面,但發(fā)布會中,,他的神態(tài)里都透露了些許緊張和局促,。
我可以這么說,這是百度自創(chuàng)建以來關(guān)注度最高的發(fā)布會之一,,所有人都在等著這款對標(biāo) ChatGPT 的產(chǎn)品,。
有人滿懷期待,但也有很多人,,只是單純想看它出丑,。
會上,,百度共在 5 個場景下,,展示了文心一言的能力。
在文學(xué)創(chuàng)作方面,,文心一言可以總結(jié)出《三體》內(nèi)容,,也可以在哲學(xué)角度續(xù)寫《三體》。
在商業(yè)文案創(chuàng)作這塊,,它可以根據(jù)公司的業(yè)務(wù)類型取名,,生成 Slogan ,以及撰寫幾百字的新聞稿,。
同時,它也可以做一些數(shù)理邏輯推算,,比如雞兔同籠,,還可以判斷出題目錯了。
除此之外,,文心一言可以給用戶反饋圖像,,語音和視頻。
比如它可以為 2023 世界智能交通大會創(chuàng)作一張海報,,也能用四川話回答你的問題,,甚至是生成視頻。
不過,,想實現(xiàn)這些功能其實并不難,,百度做的也許就是把這幾項服務(wù)融合了一下。
可惜的是,,發(fā)布會上所有素材都事先錄好的,并非現(xiàn)場實操,,所以對于文心一言的真實能力,,很多人都表示懷疑。
好在我搞到了內(nèi)測賬號,,現(xiàn)在就看看,,文心一言的能力到底如何,,它和搭載 GPT-4 的 New Bing 比,誰又更強,?
我們先測試了一些日常問題:如何做一份好吃的松鼠桂魚,?
這是文心一言的回答。
這是 New Bing 的回答,。
雖然我們沒有時間測出誰的菜譜味道更好,,但能看出百度文心一言的回答要優(yōu)質(zhì)一些,。
它按照標(biāo)準(zhǔn)的菜譜格式,分別給出了備料,,步驟以及注意事項,。
隨后,我們又問了一個經(jīng)典的帶有思維陷阱數(shù)學(xué)問題:一個青蛙掉到了一個 10米深的井里,,它每天晚上向上跳 3 米但會滑下來 2 米,,請問他第幾天能跳出井里?
文心一言的回答是 8 天,,這是正確答案,。
而 New Bing 的回答是 5 天,。
但 New Bing 一共有三種模式,,在切換了精確模式后,,New Bing 也給出了正確回答。
接著,,我們測試了大家比較關(guān)心的敲代碼能力,讓它們幫忙寫了一個漸變色按鈕的 CSS ,。
這是文心一言給的代碼,。
在實測后發(fā)現(xiàn)可以跑出來,,但它把“漸變色”理解成了鼠標(biāo)指上去后,,顏色發(fā)生變化。
而 New Bing 給出的代碼顯示,,它成功理解了漸變色。
文心一言是在試圖完成用戶的指令,,而 New Bing 有點在炫技的味道了,。
我要的是 CSS ,它給了一份完整代碼,,還自己加了“點擊我”的提示,。
后來,我們又測試了取名,, NewBing 給的是:麻晨曦,、麻晴雯、麻璇璣,、麻云舒,,似乎挺有新意。
但文心一言的建議,,說實話,我一眼就覺得好像在“中國新生兒最熱姓名”里看過,。
隨后,我又提了一些節(jié)選自弱智吧的問題,,測試下他們的“智商”,。
比如:把加特林從冰箱拿出來算冷兵器嗎?
兩者都講解了什么是冷兵器后,,給出了正確答案:不是,。
我們又接著問了另外一個問題“為什么貝多芬不出新歌了,?”
New Bing 在簡單介紹后,回答因為已經(jīng)去世 200年了,。
但文心一言似乎陷入了圈套,分析了一堆可能導(dǎo)致貝多芬不出歌的原因,。
當(dāng)然,測試 AI 智商肯定離不開數(shù)學(xué)題:請用 1 , 2 , 3 , 4 四個數(shù)字計算 24 點,,每個數(shù)字只能用一次,。
對于這個問題,一開始,,文心一言似乎把自己的 CPU 干燒了,。
后來我們又測試了一下,,雖然這次不燒了,,但不知道它在回答什么東西,。
這是 New Bing 的回答,。
接著對于中文互聯(lián)網(wǎng)黑話的理解能力,我們也測試了一下,,但讓人失望的是,,這方面文心一言表現(xiàn)還不如 New Bing 。
比如雞你太美的梗,,它并沒給出一個滿意的答復(fù)。
而 New Bing 的回答,,雖然也有錯誤,但起碼比文心一言更接近答案,。
對于差評 925 的梗,文心一言可能因為訓(xùn)練語料的原因,,沒給到我們想要的答案,,而是放出了一個非常古老的諧音梗。
New Bing 則近乎完美解釋了我們 925 的梗,。
在信息搜索的問題上,,我們也進行了提問:理想汽車過去五個月銷量,,請逐月列出。
文心一言的答案是:
New Bing 的回答是:
這兩個答案看下來,,文心一言表現(xiàn)地非常拉胯,,不僅沒有拉取正確數(shù)據(jù),甚至還沒給出符合條件的月份,。
最后,,我們測試了文心一言獨有的畫圖能力。我們先讓它生成一只刺猬在敲鍵盤的圖片,,這個效果算挺不錯的,。
但在讓它生成了一只小馬拉大車的圖片后,,我們顯然是高興早了,,這 TM 是真馬車啊,。
OK ,,以上就是給大家做的文心一言測試,。
其實這段時間,互聯(lián)網(wǎng)上大家對文心一言都帶著點嘲諷的味道,,前兩天,,微信群里就流傳著一個嘲諷表情包。
甚至還有聊天記錄形式的段子,,說一旦文心無法正確答復(fù),要用員工頂上,。( 明顯是假的 )
發(fā)布會直播間里,質(zhì)疑和嘲諷的彈幕也隨處可見,。
的確,,對比New Bing來說,文心一言表現(xiàn)是挺一般,,不少方面甚至可以用“拉”來形容,。
百度自己也知道,文心一言還差了不少火候,。
在測試中,,它就像個不自信的小孩。
不管答案怎樣,,只要你一否認(rèn),,他就一邊向你承認(rèn)錯誤,一邊保證自己會變得更好,,給他點時間,。
說句實在話,,我覺得這次百度,,可以說是勇氣可嘉。
一方面,,雖然大廠們都在說自己搞了類似的東西,,但是在 ChatGPT 如日中天的這會兒,百度還是敢頂住壓力,,發(fā)布了文心一言,。
而且,作為一家搞搜索引擎的,文心一言也很可能會顛覆自己的核心業(yè)務(wù),。
畢竟咱們之前也和大家聊過,,傳統(tǒng)的搜索引擎與其廣告模式,很可能會被類似的產(chǎn)品干掉,。
百度這波啊,,多少是有股激流勇進的味道。
體驗完這波產(chǎn)品,,我覺得百度最應(yīng)該做的,,還是盡快迭代,抓緊時間把用戶體驗拉上來,。
不然就現(xiàn)在這個狀態(tài),,別說是 GPT-4 和 New Bing 了,擺到 GPT-3.5 面前,,還是有待增強,。
至于咱們,也可以耐心一點,,給這個初出茅廬的,、不自信的小孩多一點時間。
萬一哪天,,它突然就把事干成了呢,?
文章出處:差評