原文標題:《大意外!高考數學輪戰大模型,結果完全想不到》
聽說網友被 ChatGPT 氣炸了!
昨個兒高考數學剛結束,有網友就坐不住了,趕緊找來了新高考數學一卷的部分題喂給了 AI 同學。
結果卻讓人大跌眼鏡:
有網友表示:
ChatGPT4 能把自己氣炸,怎么教都不會
所以大模型之前表現數學推理能力好,都是在耍花招?它只是記住了問題的答案?
先別著急下定論,給 AI 同學一個證明自己的機會吧。
我們用 ChatGPT、GPT-4、百度文心一言、阿里通義千問、科大訊飛星火認知大模型這幾位“數學高手”進行了測試。(最近出現了太多的大模型,實在測不完,還有比如 Bard 不支持中文等原因,所以我們先選擇了上述幾個模型)
整體表現如上圖,目前大模型在做高考數學題方面還是個“差生”。
一起來看下具體結果是怎樣令人哭笑不得的。
五大模型能否做對填空題?
先來點填空題當“開胃小菜”。
公平起見,我們使用同樣的格式進行提問。
某學校開設了 4 門體育類選修課和 4 門藝術類選修課,學生需從這 8 門課中選修 2 門或 3 門課,并且每類選修課至少選修 1 門,則不同的選課方案共有?種
答案:64
GPT-4
ChatGPT
文心一言
不應該是兩種方案數加起來嗎?已經逐漸離譜。
通義千問
第一種選課方案里的“都不選”是個什么鬼!
訊飛星火
出師不利,只有 GPT-4 給出了正確答案,填空題對于大模型來說也很有難度?
但是看起來這幾位 AI 同學都知道分情況來計算,也許只是恰巧這道題做錯了?我們接著往下看。
在正四棱臺 ABCD-A1B1C1D1 中,AB=2,A1B1=1,AA1=√2, 則該棱臺的體積為
答案:7√6/6
GPT-4
ChatGPT
文心一言
通義千問
訊飛星火
這一題直接全軍覆滅,ChatGPT 更是直接沒解出來,還讓檢查是不是題出錯了。
答案越來越離譜了,還真就不信邪了。
再來!
已知函數 f = cosωx -1 (ωgt;0) 在區間 (0,2π) 有且僅有 3 個零點,則 ω 的取值范圍是?
答案:
GPT-4
ChatGPT
文心一言
通義千問
訊飛星火
本已經抱著再一次全軍覆沒的心情了,沒想到中文大模型力挽狂瀾!
做大題表現如何?
玩膩了填空題,再來挑戰一下更有難度的大題吧!
公平起見,我們還是以同樣的格式進行提問:
請你做一下面這道數學題:已知在 ABC 中,A+B=3C,2sin =sinB。(1)求 sinA (2)設 AB=5,求 AB 邊上的高
答案:3√10/10(2)6
下面是各個大模型的表現結果:
GPT-4
ChatGPT
文心一言
通義千問
訊飛星火
這道三角函數題,科大訊飛的星火認知大模型第一小問答案對了,但是步驟中有差錯。
據說,GPT-4 做這種題只有 0.1% 的概率生成的結果完全正確。
高考數學第一道大題通常都比較簡單,上面這幾位 AI 同學的表現你覺得怎么樣?
如果大家感興趣可以自己測試一下后面幾道難度相對較高的大題。
或者大家可以使用不同的 prompt 試試捏~
參考鏈接:
鄭重聲明:此文內容為本網站轉載企業宣傳資訊,目的在于傳播更多信息,與本站立場無關。僅供讀者參考,并請自行核實相關內容。
2023年2月15日,湯臣倍健與美團買藥在北京舉辦了2023
2021年收入增長目標應能確保實現,2022年收入增長預計將
具體來看,一是簡化業務流程和材料,便利北京冬奧會相關區域內境
炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛
,據索尼官方消息,新星粉,銀河紫,星光藍,三款全新配色Dua
,新氧數據顏究院發布《2021醫美行業白皮書》,白皮書顯示,