讀取大腦重建高清視頻，StableDiffusion還能這么用

來源：IT之家作者:張璠發布時間：2023-05-25 11:56 閱讀量：7701

現在，AI 可以把人類腦中的信息，用高清視頻展示出來了！

例如你坐在副駕所欣賞到的沿途美景信息，AI 分分鐘給重建了出來:

看到過的水中的魚兒、草原上的馬兒，也不在話下:

這就是由新加坡國立大學和香港中文大學共同完成的最新研究，團隊將項目取名為 MinD-Video。

這波操作，宛如科幻電影《超體》中 Lucy 讀取反派大佬記憶一般:

引得網友直呼:

推動人工智能和神經科學的前沿。

值得一提的是，大火的 Stable Diffusion 也在這次研究中立了不小的功勞。

怎么做到的？

從大腦活動中重建人類視覺任務，尤其是功能磁共振成像技術這種非侵入式方法，一直是受到學界較多的關注。

因為類似這樣的研究，有利于理解我們的認知過程。

但以往的研究都主要聚焦在重建靜態圖像，而以高清視頻形式來展現的工作還是較為有限。

而 fMRI 這項技術的本質是測量血氧水平依賴信號，并且在每隔幾秒鐘的時間里捕捉大腦活動的快照。

相比之下，一個典型的視頻每秒大約包含 30 幀畫面，如果要用 fMRI 去重建一個 2 秒的視頻，就需要呈現起碼 60 幀。

因此，這項任務的難點就在于解碼 fMRI 并以遠高于 fMRI 時間分辨率的 FPS 恢復視頻。

為了彌合圖像和視頻大腦解碼之間差距，研究團隊便提出了 MinD-Video 的方法。

整體來看，這個方法主要包含兩大模塊，它們分別做訓練，然后再在一起做微調。

這個模型從大腦信號中逐步學習，在第一個模塊多個階段的過程，可以獲得對語義空間的更深入理解。

具體而言，便是先利用大規模無監督學習與 mask brain modeling來學習一般的視覺 fMRI 特征。

然后，團隊使用標注數據集的多模態提取語義相關特征，在對比語言-圖像預訓練空間中使用對比學習訓練 fMRI 編碼器。

在第二個模塊中，團隊通過與增強版 Stable Diffusion 模型的共同訓練來微調學習到的特征，這個模型是專門為 fMRI 技術下的視頻生成量身定制的。

而且在場景連續變化的過程中，也能夠呈現高清、有意義的連續幀。

研究團隊

這項研究的共同一作，其中一位是來自新加坡國立大學的博士生 Zijiao Chen，目前在該校的神經精神疾病多模式神經成像實驗室。

另一位一作則是來自香港中文大學的 Jiaxin Qing，就讀專業是信息工程系。

除此之外，通訊作者是新加坡國立大學副教授 Juan Helen ZHOU。

據了解，這次的新研究是他們團隊在此前一項名為 MinD-Vis 的功能磁共振成像圖像重建工作的延伸。

MinD-Vis 已經被 CVPR 2023 所接收。

參考鏈接:

鄭重聲明：此文內容為本網站轉載企業宣傳資訊，目的在于傳播更多信息，與本站立場無關。僅供讀者參考，并請自行核實相關內容。

即時閱讀