漁雪提示您:看後求收藏(貓撲小說www.mpzw.tw),接着再看更方便。
“而且,自注意力模型必然因爲序列中每對元素計算的注意力權重而有巨大的參數量,這極可能導致過擬合。”
他這邊剛說話,谷歌自家DL的席爾瓦也反駁了烏思克爾特提出的新路線,其中一個重要原因在於RNN的循環結構太符合大家對序列數據處理的理解,即當前狀態依賴於過去的信息,而自注意力的全局依賴一看就不如RNN直觀。
易科與谷歌的兩大領導者都批評了自注意力Self-attention,但烏思克爾特並不服氣,他直接登臺闡述自己更多的想法。
而且,針對吳恩達與席爾瓦抨擊的缺點也給出一些解決思路,比如,引入位置編碼,比如,進行多頭注意力的研究。
有人覺得眼前一亮,有人覺得異想天開,還有人現場進行快速的分析和演算。
第一排的方卓極其茫然,他扭頭詢問旁邊沉思的英偉達掌門人黃仁勳:“他們在討論什麼?”
“烏思克爾特說,GPU是最適合深度學習技術的硬件。”黃仁勳給出一句總結。
方卓:“???”
他納悶道:“我怎麼完全沒聽到類似的表述?”
“因爲自注意力Self-Attention更加強調並行處理,這是GPU更擅長的。”黃仁勳笑道,“至於其他的,不重要,我們只要提取對我們有利的就好。”