你可能不相信,一個AI剛剛被證明,它處理語音的方式和大腦拼圖差不多即使在結(jié)構(gòu)上,它們也可以相互對應(yīng)——科學(xué)家已經(jīng)直接定位了AI中的視覺皮層
Meta AI等機(jī)構(gòu)的這項研究一發(fā)表,立刻在社交媒體上炸開了鍋一大波神經(jīng)科學(xué)家和AI研究人員前去觀看
LeCun稱贊這是出色的工作:自我監(jiān)控變壓器的分層活動和人類聽覺皮層的活動之間確實存在密切的相關(guān)性。
有網(wǎng)友趁機(jī)調(diào)侃:對不起馬庫斯,但AGI真的快到了。
可是,這項研究也引起了一些學(xué)者的好奇。例如,麥吉爾大學(xué)的神經(jīng)科學(xué)博士Patrick Mineault問道:
在NeurIPS發(fā)表的一篇論文中,我們也試圖將fMRI數(shù)據(jù)與模型聯(lián)系起來,但當(dāng)時我們并不認(rèn)為兩者之間有任何關(guān)系。
那么,這是一個什么樣的研究,又是如何得出這個AI像大腦一樣工作的結(jié)論的呢。
人工智能學(xué)會像人腦一樣工作
簡單來說,在這項研究中,研究人員專注于語音處理,并將自我監(jiān)測模型Wav2Vec 2.0與412名志愿者的大腦活動進(jìn)行了比較。
在412名志愿者中,351人說英語,28人說法語,33人說漢語研究人員聽了大約1個小時的有聲書籍,并在此過程中用功能磁共振成像記錄了他們的大腦活動
在模型方面,研究人員使用了超過600小時的未標(biāo)記語音來訓(xùn)練Wav2Vec 2.0對應(yīng)志愿者的母語,模型也分為英語,法語,漢語三種,另一種用非語音聲學(xué)場景數(shù)據(jù)集訓(xùn)練
然后這些模特還聽了志愿者的同款有聲讀物研究人員提取了模型的激活
x是模型激活,y是人腦活動,w是標(biāo)準(zhǔn)編碼模型。
從結(jié)果來看,自我監(jiān)督學(xué)習(xí)確實使Wav2Vec 2.0產(chǎn)生了類似大腦的語音表征。
從上圖可以看出,AI明顯預(yù)測了一級和二級聽覺皮層中幾乎所有皮層區(qū)域的大腦活動研究人員進(jìn)一步發(fā)現(xiàn)了AI的聽覺皮層和前額葉皮層分別在哪一層
圖中顯示聽覺皮層與《變形金剛》第一層最為一致,而前額葉皮層與《變形金剛》最深層最為一致此外,研究人員定量分析了人類感知母語和非母語音素能力的差異,并與Wav2Vec 2.0模型進(jìn)行了對比
他們發(fā)現(xiàn),AI和人類一樣,對母語的辨別能力更強(qiáng)比如法國模式比英國模式更容易感知來自法國的刺激
以上結(jié)果證明,600個小時的自我監(jiān)督學(xué)習(xí)足以讓W(xué)av2Vec 2.0學(xué)會語言的具體表征——這相當(dāng)于嬰兒在學(xué)習(xí)說話的過程中接觸到的數(shù)據(jù)量。
要知道,根據(jù)之前的DeepSpeech2論文,建立一個好的語音轉(zhuǎn)文本系統(tǒng)至少需要10000小時的語音數(shù)據(jù)。
再次引發(fā)了神經(jīng)科學(xué)和AI界的討論。
對于這項研究,一些學(xué)者認(rèn)為,它確實取得了一些新的突破例如,來自谷歌大腦的杰西·恩格爾表示,這項研究將視覺過濾器提升到了一個新的水平
例如,前MILA和谷歌研究員Joseph Viviano認(rèn)為,這項研究也證明了fMRI中的靜息狀態(tài)成像數(shù)據(jù)是有意義的。
可是,在一次討論中,也出現(xiàn)了一些質(zhì)疑的聲音比如神經(jīng)科學(xué)博士帕特里克·米諾爾特指出,他也做過類似的研究但沒有得出結(jié)論,但也給出了自己的一些疑問
他認(rèn)為,這項研究并沒有真正證明它測量的是語音處理的過程與人說話的速度相比,fMRI實際上測量信號的速度非常慢,所以急于得出Wav2vec 2.0已經(jīng)學(xué)會了大腦的行為的結(jié)論是不科學(xué)的
另外,也有網(wǎng)友認(rèn)為Wav2vec和人腦的輸入是不一樣的,一個是處理過的波形,一個是原始波形。
模擬人類智能還有很長的路要走但至少現(xiàn)在,我們可能走在正確的道路上
你認(rèn)為呢。
論文地址:
參考鏈接:
鄭重聲明:此文內(nèi)容為本網(wǎng)站轉(zhuǎn)載企業(yè)宣傳資訊,目的在于傳播更多信息,與本站立場無關(guān)。僅供讀者參考,并請自行核實相關(guān)內(nèi)容。