琅翎宸提示您:看後求收藏(貓撲小說www.mpzw.tw),接着再看更方便。
樣本?就是說你要1201同本地人多交流是嗎?”尹秋並沒有學過這些東西,因此聽起來雲裏霧裏的,“可這樣必然進入惡性循環——1201聽不懂,不回應,缺乏與本地人的互動,交流減少,而越不交流,1201就越聽不懂。”
1201所使用的學習方式,是比較新穎的“小樣本學習”(Few-shot learning)。這種樣本學習方式,不僅對機器學習領域有着重大意義,也同樣具有挑戰性。能否從少量樣本中學習和概括的能力,是將人工智能和人類智能進行區分的明顯分界點。因爲人類可以僅通過少量示例就可以輕鬆地建立對新事物的認知,而機器學習算法通常需要大量的有監督樣本來保證泛化能力。
但由於隱私,安全性等一系列因素,許多現實的場景,例如醫學,軍事等領域,根本無法收集到足夠的帶標籤的訓練樣本。因此,徐遠風才決定讓1201使用這種尚未完善的“小樣本學習”(Few-shot learning)訓練方法。
徐遠風當然不會跟尹秋說這些涉及專業知識的方面,他要用更簡單的方法來解釋。
“樣本,我需要各類方言的樣本,你要知道,我們訓練AI不是憑空訓練的,樣本非常重要。”徐遠風一邊解釋,一邊拿起紙筆,在紙上畫着,好讓尹秋能理解他說的話。
“比如,有些公司做的是繪畫的AI,就需要將很多畫作當做樣本給AI做訓練。”徐遠風在紙上簡單地畫了個思維圖,“而有些創作者,爲了省力,他們會將自己的畫作作爲樣本,這種行爲,有些人會稱爲‘喂’,比如說,把自己的畫‘喂’給AI,這樣AI就能以你的畫風來進行AI作畫。”
“同樣的道理,想要AI理解方言,也是需要將各種不同地區的方言,甚至於各種語速、情緒來‘喂’給AI。”
“所以你需要一個能涵蓋當地各種方言,甚至各種年齡段、各種情緒的樣本是嗎?”尹秋聽了,只是覺得這樣難度過高,而且別人也不是閒的沒事幹,把鄉親們從日常生活中拉出來跟1201說話,怕不是要不少經費。
“我知道你在想什麼,你可能覺得需要經費,但實際上不需要,因爲目前這個階段我們的數據模型只負責接受各種方言,然後進行分析就好,而不是方言方面的輸出。這也就是前些天明明出了方言不能識別那種事,我還要將1201帶出去測試的原因——它需要足夠的積累。”
“年輕人工作重要,但身體也重要,來新疆要好好調整作息,才能勞逸結合。”阿依莎大嬸站在門口,出聲提醒二人,免得二人因爲天還亮着就不去睡覺,導致明天工作出問題。