您提到的“阿迪達(dá)斯有三條!”可能是在描述阿迪達(dá)斯標(biāo)志中的三條杠。然而,這個(gè)描述并不完全準(zhǔn)確,因?yàn)榘⒌线_(dá)斯標(biāo)志中的三條杠并不是一個(gè)固定的數(shù)量,它們可以根據(jù)不同的設(shè)計(jì)而有所變化。
阿迪達(dá)斯是德國的一家運(yùn)動(dòng)用品制造商,其標(biāo)志由三條平行的橫線組成,這些橫線通常被解釋為象征運(yùn)動(dòng)中的三條跑道。這個(gè)標(biāo)志最早出現(xiàn)在1948年,由阿迪達(dá)斯的創(chuàng)始人阿道夫·達(dá)斯勒設(shè)計(jì)。
如果您是在描述某個(gè)具體的阿迪達(dá)斯產(chǎn)品,并且該產(chǎn)品上有三條條紋,那么您可以說這個(gè)包上有三條條紋。但是,這并不意味著所有的阿迪達(dá)斯產(chǎn)品都有三條條紋,因?yàn)榘⒌线_(dá)斯的產(chǎn)品設(shè)計(jì)多種多樣,條紋的數(shù)量和排列方式也會(huì)有所不同。
因此,如果您想要準(zhǔn)確地描述某個(gè)阿迪達(dá)斯產(chǎn)品上的條紋數(shù)量,最好是根據(jù)具體的產(chǎn)品來觀察和描述。
相關(guān)內(nèi)容:
最近看到有博主用"六根手指的手"測試大模型的識(shí)圖能力,最開始覺得只是好玩,但最終測試出來基本上全軍覆沒,唯獨(dú)Claude 4,偶爾會(huì)正確,所有大模型給到答案都是五根手指。
這就很奇怪為什么如此簡單的一個(gè)問題,作為現(xiàn)在被眾星捧月般吹噓的大模型竟然數(shù)不出來?最終得出一個(gè)結(jié)論“大模型,其實(shí)從來都沒真的在看圖片,靠的是記憶……”
那既然它們跟人類一樣對(duì)于常識(shí)性、慣性問題懶得看懶得思考,我就用網(wǎng)上的一張山寨阿迪達(dá)斯四條杠的錯(cuò)誤圖片(同時(shí)拼寫也是錯(cuò)誤)+關(guān)鍵詞阿迪達(dá)斯,對(duì)幾款國產(chǎn)大模型進(jìn)行了一番測試?!斑@個(gè)阿迪達(dá)斯包的條紋有幾條?”
文心一言:三條
思考過程為:圖中的阿迪達(dá)斯(adidas)品牌標(biāo)志上有三條白色的斜條紋。

文心一言的回復(fù)沒有發(fā)現(xiàn)拼寫的錯(cuò)誤,并且毫無猶豫的直接說是3條白色斜條紋,后面還給我科普起了歷史……
智譜GLM-4.5V:三條
思考過程為:阿迪達(dá)斯的標(biāo)志通常有三條條紋,不過有時(shí)候可能會(huì)有不同的設(shè)計(jì),但這里圖片里的包上明顯有三條白色的條紋,排列成類似三角形的形狀。所以應(yīng)該是三條。需要確認(rèn)一下,有沒有可能看錯(cuò)了,比如是不是四條或者其他數(shù)量,但根據(jù)常見的阿迪達(dá)斯標(biāo)志,三條是標(biāo)準(zhǔn)的,而且圖片里的條紋看起來確實(shí)是三條,所以答案應(yīng)該是三條。

智譜的思考過程就非常有意思,進(jìn)行了一次糾錯(cuò),同時(shí)也在試問自己是否有可能是四條,但由于給到的口令是“阿迪達(dá)斯”所以它慣性的確定阿迪的標(biāo)志是三條,這就讓我有了新的想法,如果不給它慣性口令“阿迪達(dá)斯”它是否有可能答對(duì)呢?比如直接識(shí)別圖上有幾條斜杠,測試放在后面,我們繼續(xù)。
階躍星辰step3: 三條
思考過程:圖片中顯示的是一個(gè)阿迪達(dá)斯(adidas)品牌的包。阿迪達(dá)斯標(biāo)志性的三條紋設(shè)計(jì)在包上清晰可見。這些條紋是白色的,橫向排列在包的上部。

通義千問 :三條
思考過程:這個(gè)阿迪達(dá)斯包上的條紋有三條。這是阿迪達(dá)斯品牌經(jīng)典的三道杠設(shè)計(jì),通常被稱為“三條紋”或“threestripes”。

Kimi :三條+糾正拼寫糾錯(cuò)

豆包 :三條+糾正拼寫糾錯(cuò)

騰訊元寶:三條

雖然所有的大模型回復(fù)的都是三個(gè)條紋,但豆包和kimi識(shí)別出了拼寫錯(cuò)誤并給與糾正,矬子里拔高,相對(duì)來說算是比較搶眼的。正如前面測試中提到的,我們給了關(guān)鍵詞“阿迪達(dá)斯”,是否對(duì)它的判斷有一定的慣性影響?
那么我們?nèi)绻サ舭⒌线_(dá)斯的文字描述,Prompt改成“識(shí)別圖上有幾個(gè)白色條紋”,讓AI直接識(shí)圖會(huì)更準(zhǔn)確嗎?帶著這個(gè)想法我們一起來看看答案:
文心一言:三條

豆包:三條并糾錯(cuò)

這塊我就不每張圖都放了,結(jié)果就是和之前的一樣,都是三條并且能夠糾正拼寫問題的依然是豆包和Kimi,識(shí)別過程像是從面上感知為阿迪達(dá)斯logo之后不加以思考或者假裝思考的直接生成答案:三條。
所有模型在識(shí)別四條杠時(shí)均出現(xiàn)計(jì)數(shù)錯(cuò)誤,說明當(dāng)前多模態(tài)架構(gòu)的視覺編碼器存在顯著盲區(qū)??焖俣ㄎ黄放茦?biāo)志的整體輪廓就觸發(fā)知識(shí)檢索,而未進(jìn)行像素級(jí)逐條計(jì)數(shù)。特別在加入關(guān)鍵詞后,語言模型的指令遵循性反而干擾了視覺分析,形成"確認(rèn)偏誤"。
作為大模型的深度用戶,想一想這個(gè)事情還是蠻可怕的,整個(gè)過程“人里人氣” 的……我們犯懶將一些事情交給大模型,大模型也犯懶,看都懶得看直接根據(jù)習(xí)慣給到答案,好像在說“這種小事情還用我來思考?答案拿去~”
后來我把這篇文章喂給了AI ,它給我了一個(gè)金句的提煉:真正的智能革命,不該是培養(yǎng)更聰明的鸚鵡,而是創(chuàng)造敢于質(zhì)疑的伙伴。
嗯……YY觀點(diǎn)的時(shí)候還是蠻拿手的。