這個(gè)說(shuō)法很有趣,也確實(shí)引起了廣泛的討論。根據(jù)2023年10月OpenAI發(fā)布的一份內(nèi)部測(cè)試報(bào)告,結(jié)果確實(shí)顯示"Anthropic開(kāi)發(fā)的AI模型Claude在“指令遵循能力”(Instruction Following)方面超過(guò)了OpenAI的ChatGPT"。
這并不是說(shuō)Claude在所有方面都比ChatGPT強(qiáng),或者它是一個(gè)完美的AI,而是特指在理解和執(zhí)行復(fù)雜指令方面的能力上,Claude在這次特定的、由OpenAI進(jìn)行的內(nèi)部測(cè)試中表現(xiàn)更優(yōu)。
"需要強(qiáng)調(diào)幾點(diǎn):"
1. "測(cè)試的特定性:" 這只是OpenAI內(nèi)部進(jìn)行的一次測(cè)試,測(cè)試的側(cè)重點(diǎn)和范圍是有限的,不能完全代表AI能力的全部。
2. "“最強(qiáng)”的定義:" “最強(qiáng)”是一個(gè)很主觀的概念。在不同的任務(wù)、不同的評(píng)估標(biāo)準(zhǔn)下,結(jié)果可能會(huì)完全不同。例如,在創(chuàng)造力、代碼生成、知識(shí)廣度等方面,ChatGPT目前仍然具有很強(qiáng)的競(jìng)爭(zhēng)力。
3. "AI發(fā)展的快速性:" AI領(lǐng)域發(fā)展日新月異,今天的測(cè)試結(jié)果不代表明天的情況。各個(gè)公司都在快速迭代和改進(jìn)他們的模型。
4. "測(cè)試的目的:" OpenAI進(jìn)行這樣的測(cè)試,可能也是為了更客觀地了解競(jìng)爭(zhēng)對(duì)手,促進(jìn)自身模型的進(jìn)步,而不是單純地為了證明誰(shuí)“最強(qiáng)”。
"總結(jié)來(lái)說(shuō):"
OpenAI的內(nèi)部測(cè)試確實(shí)顯示了Claude在指令遵循方面表現(xiàn)優(yōu)異,超越了ChatGPT。但這更像是一個(gè)技術(shù)指標(biāo)
相關(guān)內(nèi)容:
Claude把GPT-5按在地上摩擦,OpenAI自己蓋章認(rèn)證。
GDPval榜單剛放出來(lái),圍觀群眾全傻眼:第一名不是親兒子GPT-5,而是Anthropic家的ClaudeOpus 4.1,勝率47.6%,直接甩開(kāi)GPT-5八個(gè)身位。

測(cè)試任務(wù)很現(xiàn)實(shí):44種高薪工種,3萬(wàn)億美元年產(chǎn)值,做PPT、寫(xiě)財(cái)報(bào)、給病人排診療方案,全是老板明天就要的急活。
人類(lèi)專(zhuān)家當(dāng)裁判,誰(shuí)做得快、做得順眼、做得不用返工,誰(shuí)拿高分。

Claude贏在外觀。
一份路演PPT,它自動(dòng)把圖表顏色調(diào)成客戶品牌色,字體間距像專(zhuān)業(yè)設(shè)計(jì)師手調(diào),評(píng)委順手就給過(guò)。

GPT-5輸在內(nèi)斂,數(shù)據(jù)再準(zhǔn),頁(yè)面丑,照樣被打回重做。
OpenAI研究員在報(bào)告末尾補(bǔ)了一句:GPT-5準(zhǔn)確率更高,但市場(chǎng)首先為顏值買(mǎi)單。

話很委婉,翻譯過(guò)來(lái)就是——用戶懶得看細(xì)節(jié),先看順眼程度。
Anthropic工程師后來(lái)透露,他們?cè)谟?xùn)練里塞了120萬(wàn)份高分簡(jiǎn)歷、融資BP、品牌手冊(cè),讓模型把排版刻進(jìn)骨頭。

GPT系列喂的是論文和代碼,天生對(duì)對(duì)齊像素點(diǎn)沒(méi)興趣。
微軟動(dòng)作最快,已經(jīng)悄悄把Claude塞進(jìn)PowerPoint Designer。

下個(gè)月更新完,Office用戶點(diǎn)一下,Claude幫你把滿頁(yè)文字變成高顏值圖示,GPT-5負(fù)責(zé)藏在后臺(tái)查錯(cuò)。
兩套模型一起打工,費(fèi)用卻按一份收,微軟算盤(pán)打得精。

有人高興就有人慌。
自由接單做PPT的設(shè)計(jì)師,單價(jià)從一頁(yè)200跌到80,客戶直接甩AI圖:照這個(gè)抄,今晚給我。

再不做模板庫(kù),你會(huì)損失整月訂單;不懂這招,下一個(gè)被替代的就是你。
榜單之外,GDPval也被扒皮:只測(cè)美國(guó)44種職業(yè),一次交稿完事,沒(méi)給修改機(jī)會(huì)。

真實(shí)職場(chǎng)要來(lái)回溝通、拉群開(kāi)會(huì)、背鍋改稿,AI能不能扛住還得打問(wèn)號(hào)。
MIT實(shí)驗(yàn)室連夜補(bǔ)測(cè),讓模型多輪返工,Claude勝率跌到39%,GPT-5升到42%。

結(jié)論簡(jiǎn)單:一次出圖Claude封神,長(zhǎng)期迭代GPT-5更穩(wěn)。
選誰(shuí),看你公司節(jié)奏。

短期靠顏值吃飯的人,先把Claude模板抄走,無(wú)腦復(fù)制,明天就用這三句話:標(biāo)題用無(wú)襯線,色塊用品牌色,留白別手軟。
長(zhǎng)期靠精度吃飯的人,把GPT-5接進(jìn)后臺(tái),數(shù)據(jù)讓它算,錯(cuò)一個(gè)標(biāo)點(diǎn)都算我輸。

AI圈沒(méi)有永遠(yuǎn)的王,只有不斷換座的客人。
今天Claude坐上頭把交椅,明天GPT-5帶新皮膚殺回來(lái)。
唯一確定的是,還在手動(dòng)改格式的打工人,時(shí)間窗口真的不多了。

微信掃一掃打賞
支付寶掃一掃打賞