百度IDL研究員徐偉、余昊男、張海超提出了一個新的框架,通過多任務(wù)強(qiáng)化學(xué)習(xí)和零數(shù)據(jù)學(xué)習(xí),讓智能體在沒有先驗(yàn)知識的情況下,自己學(xué)會了結(jié)合語言和視覺兩種信號在迷宮中導(dǎo)航并定位物體。這項(xiàng)研究是百度在通用AI研究中交互式學(xué)習(xí)上的突破,有助于研發(fā)在現(xiàn)實(shí)世界中完成任務(wù)的機(jī)器人。
百度這次開發(fā)的AI需要完成的任務(wù)是在二維迷宮里找東西,但與以往大多數(shù)研究讓AI自己去探索新環(huán)境不同,百度研究人員使用了一個“教練”算法,使用語言命令A(yù)I去到不同的地方做事情。
在這里,AI要完成任務(wù),除了自己處理視覺信號導(dǎo)航,還需要學(xué)會理解語言信號并將這些語言信號與視覺信息對應(yīng)起來。這種結(jié)合了圖像分析、自然語言處理以及現(xiàn)實(shí)世界行動的能力,正是人類使用語言命令機(jī)器人去完成任務(wù)所不可或缺的。由此,這項(xiàng)研究對于機(jī)器人應(yīng)用有很大的潛力。
論文作者、百度深度學(xué)習(xí)研究院杰出科學(xué)家徐偉在接受外媒采訪時表示,他們希望教會機(jī)器人用人的方式做事情,這樣對人類用戶而言更加方便,而“語言則是知識交流很重要的部分”。
百度的這個AI具體怎么工作呢?在一個7×7的迷宮中,AI需要找到水果,找到了以后有獎勵,碰壁或者走錯方向則會受處罰。論文里的AI算法由四個部分組成:一個語言模塊,用于理解命令和生成答案;一個識別模塊,用于明確關(guān)鍵詞(比如蘋果);一個視覺模型,用于“看”迷宮;還有一個決策模型,用于決策。
上文提到的那個“教練”算法會發(fā)出指令(英語),比如“往蘋果的東邊移動”,經(jīng)歷數(shù)百萬次的迭代以后,AI就能學(xué)會什么是“東”、什么是“蘋果”,以及這兩個概念如何關(guān)聯(lián)。
不僅如此,研究人員還發(fā)現(xiàn),實(shí)驗(yàn)中AI通過強(qiáng)化學(xué)習(xí),在接收到以前沒有接觸過的語言命令后,也能正確執(zhí)行任務(wù)。
雖然目前論文里AI能夠完成的任務(wù)還十分簡單,算法也不能生成完整的句子響應(yīng),但徐偉表示,這項(xiàng)研究是一項(xiàng)“概念證明”(proof of concept),用于探索算法能否同時學(xué)會語言和在迷宮中導(dǎo)航。
研究人員在論文中表示,他們接下來計(jì)劃將實(shí)驗(yàn)拓展到三維環(huán)境。
值得一提,系統(tǒng)是使用百度PaddlePaddle框架寫的。
這個實(shí)驗(yàn)與徐偉的研究目標(biāo)十分呼應(yīng)。3月2日,深度學(xué)習(xí)技術(shù)及應(yīng)用國家工程實(shí)驗(yàn)室學(xué)術(shù)研討會在京召開(李彥宏稱百度要做女排那樣的人工智能國家隊(duì)),徐偉在現(xiàn)場表示:“現(xiàn)在我們的機(jī)器和人還是有著非常大的差距,我們應(yīng)該從一個非常簡單的學(xué)習(xí)場景開始,讓機(jī)器像兒童一樣,通過在環(huán)境中的互動去學(xué)習(xí)感知、行動、語言這樣一些基本的能力。”
當(dāng)天,徐偉發(fā)表了關(guān)于通用AI的演講,談?wù)摿巳绾未蛟焱ㄓ萌斯ぶ悄艿难芯科脚_。徐偉在演講中說:“我在這里和大家分享的是我們對于以后人工智能發(fā)展的希望和我們現(xiàn)在做的一些工作。我特別要強(qiáng)調(diào)的是,我們現(xiàn)在考慮的是通用人工智能的技術(shù)發(fā)展。”
下面,我們具體來看看這項(xiàng)研究。
虛擬環(huán)境中類似人類語言習(xí)得的深度組合性框架(A Deep Compositional Framework for Human-like Language Acquisition in Virtual Environment)
我們讓一個智能體在一個被稱為 XWORLD 的 2D 迷宮環(huán)境中學(xué)習(xí)導(dǎo)航任務(wù)。在每個回合,智能體得到一個原始像素幀的序列,一個由指導(dǎo)者(teacher)發(fā)出的命令,以及一組獎勵。智能體需要從零開始學(xué)習(xí) teacher 的語言,以在經(jīng)過訓(xùn)練后能夠正確執(zhí)行 zero-shot 的命令:1)命令語句中出現(xiàn)的詞組從未在先前出現(xiàn)過;和/或 2)命令語句包含從另一個任務(wù)中學(xué)習(xí)到的新的對象概念(new object concepts),但這些概念從未在導(dǎo)航(navigation)任務(wù)中學(xué)過。
我們對智能體的深層框架的訓(xùn)練是端到端的:它同時學(xué)習(xí)環(huán)境的視覺表示,語言的句法和語義,以及用于輸出行動的動作模塊(action module)。該框架的 zero-shot 學(xué)習(xí)能力來自其具有參數(shù)約束(parameter tying)的組合性(compositionality)和模塊化(modularity)。我們對該框架的中間輸出進(jìn)行了可視化,證明智能體真正理解如何解決問題。我們相信,我們的結(jié)果提供了對在3D環(huán)境中訓(xùn)練具有類似能力的智能體的初步啟發(fā)。
復(fù)雜語言系統(tǒng)的發(fā)展是實(shí)現(xiàn)人類水平的機(jī)器智能的關(guān)鍵。語言的語義來源于感知經(jīng)驗(yàn),可以編碼有關(guān)感知世界的知識。這種知識能夠從一個任務(wù)遷移到另一個任務(wù),賦予機(jī)器泛化的能力(generalization ability)。有研究認(rèn)為,機(jī)器必須經(jīng)歷物理的體驗(yàn),才能學(xué)習(xí)人類水平的語義[Kiela et al., 2016],即,必須經(jīng)歷類似人類的語言習(xí)得過程。然而,目前的機(jī)器學(xué)習(xí)技術(shù)還沒有能以高效率實(shí)現(xiàn)這一點(diǎn)的方法。因此,我們選擇在虛擬環(huán)境中對這個問題進(jìn)行建模,作為訓(xùn)練物理智能機(jī)器的步。
在通過自然語言的指導(dǎo)學(xué)習(xí)新的概念和技能時,人類是能夠非常好地舉一反三、推廣泛化的。我們能夠?qū)⒁延械募寄軕?yīng)用到新學(xué)會的概念上,而且毫不費(fèi)勁。例如,當(dāng)一個人在學(xué)會如何執(zhí)行“用刀切 X”,X 等于蘋果這個命令后,當(dāng) X 是其他這個人知道的東西,例如梨或橙,或者甚至X是其他他從未被問過的東西時,他都能夠正確執(zhí)行這個命令。
這篇論文介紹了一個框架,該框架演示了一個智能體在特定任務(wù)中的 zero-shot 學(xué)習(xí)能力,即,在名為 XWORLD 的類似迷宮的環(huán)境中學(xué)習(xí)導(dǎo)航(圖1)。我們試圖解決的問題與嬰兒牙牙學(xué)語時在學(xué)習(xí)走路和導(dǎo)航中所遇到的問題類似。父母可能會給出一些簡單的指導(dǎo)性的命令,其中初只包含兩三個單詞,然后隨著時間的推移命令逐漸變得復(fù)雜。同時,父母也會在其他一些任務(wù)中教孩子語言,例如識別物體的任務(wù)。在嬰兒理解了語言并掌握了導(dǎo)航的技巧后,他能夠馬上把在物體識別中學(xué)到的新概念應(yīng)用到導(dǎo)航任務(wù)中,即使這些概念從未出現(xiàn)在父母的導(dǎo)航命令中。
我們在 XWORLD 中用多個學(xué)習(xí)回合訓(xùn)練我們的嬰兒智能體。在每個回合,智能體得到一系列的原始像素圖像用以感知環(huán)境,一個由 teacher 發(fā)出的自然語言形式的命令,以及一組獎勵。當(dāng)某些條件被觸發(fā)時,智能體也偶爾會接到來自 teacher 的有關(guān)對象識別的問題。通過探索環(huán)境,智能體同時學(xué)習(xí)環(huán)境的視覺表示,語言的句法和語義,以及如何在環(huán)境中給自己導(dǎo)航。智能體的整個框架使用梯度下降端到端地從零開始訓(xùn)練。我們在三個不同的命令條件下測試智能體表現(xiàn),其中兩個要求智能體能夠推廣去解釋從未見過的命令和詞匯,而且框架的結(jié)構(gòu)是模塊化的,以便其他模塊(如視覺感知模塊和動作模塊)在這種情況下仍然可以正常工作。我們的實(shí)驗(yàn)表明,該智能體在所有條件下表現(xiàn)得差不多好(平均成功率約 90%)。此外,簡單學(xué)習(xí)圖像和語言的聯(lián)合嵌入的幾個基線框架的結(jié)果很差。
概況而言,我們的研究的主要貢獻(xiàn)是:
一種將視覺和語言整合到一起的新的導(dǎo)航任務(wù),使用深度強(qiáng)化學(xué)習(xí)(RL)。此外,該語言沒有被預(yù)解析(pre-parsed)[Sukhbaatar et al., 2016]或被鏈接到環(huán)境中 [Mikolov et al., 2015, Sukhbaatar et al., 2016]。相反,智能體必須從零開始學(xué)習(xí)所有內(nèi)容,并將語言置于視覺的基礎(chǔ)上。
語言的多任務(wù)遷移學(xué)習(xí)加速了 RL。輔助任務(wù)中的語言習(xí)得可以幫助智能體更快地理解導(dǎo)航命令,從而更快地掌握導(dǎo)航技巧。
通過利用語言和模型架構(gòu)的組合性(compositionality)得到 zero-shot 學(xué)習(xí)能力。我們認(rèn)為這種能力是人類水平的智能的關(guān)鍵要素。
首先,讓我們簡單介紹一下 XWORLD 的環(huán)境。更多細(xì)節(jié)請參見論文附錄 8.3。XWORLD 是一個 2D 的柵格(grid)世界(圖1)。一個智能體在多個時間步長 T 中與環(huán)境進(jìn)行交互,其中有4個動作:上,下,左,右。訓(xùn)練過程有許多個回合。每個回合開始時,指導(dǎo)者(teacher)啟動計(jì)時器并發(fā)出一個自然語言形式的命令,要求智能體到達(dá)環(huán)境中特定對象的位置。其中可能會有其他物體作為干擾物出現(xiàn)。因此,智能體需要區(qū)分不同的對象,并導(dǎo)航到正確的位置。智能體通過具有自我中心視圖的 RGB 像素感知整個環(huán)境(圖2c)。如果智能體在時間結(jié)束前正確執(zhí)行了命令,則會得到積極的激勵R +;每當(dāng)它碰到墻壁,或者到達(dá)的位置不是目標(biāo)對象時,分別會得到消極的激勵R- w或R- o;假如智能體在徘徊不前,會得到消極獎勵 R ? t。在每個回合結(jié)束后,環(huán)境和智能體都會被重置。
下面是一些示例命令(括號里包含從智能體中保留的環(huán)境配置,下同)
這個導(dǎo)航任務(wù)的難點(diǎn)在于,一開始,智能體對這種語言是一無所知的:每個字似乎都沒有意義。經(jīng)過試驗(yàn)和犯錯后,智能體必須弄清語言的句法和語義,以正確地執(zhí)行命令。
我們添加一個輔助的對象識別任務(wù)來幫助智能體學(xué)習(xí)語言。在探索環(huán)境的同時,當(dāng)某些條件被觸發(fā)時,teacher 會詢問一些與對象有關(guān)的問題,問題的答案都是一個詞匯,并且答案也由 teacher 提供。下面是一些 QA 示例:
我們希望智能體在這個輔助任務(wù)的幫助下,能夠更快地學(xué)習(xí)語言。
我們的框架包含四個主要模塊:語言模塊,識別模塊,視覺感知模塊和動作模塊。框架的設(shè)計(jì)主要受需要導(dǎo)航到新的物體的影響(圖1b),這些新的物體概念不會出現(xiàn)在命令語句中(僅出現(xiàn)在識別模塊中作為答案顯示,而不會出現(xiàn)在圖2a的語言模塊)。
這個框架有三個關(guān)鍵屬性:
語言模塊必須是組合性的(compositional)。該模塊需要處理句子,同時保留(主要的)句子結(jié)構(gòu)。例子之一是輸出語法分析樹(parse tree)的語法分析器(parser)。
歸納偏向(inductive bias)[Lake et al., 2016]必須從現(xiàn)有的句子中學(xué)習(xí)。語言模塊知道如果用完全新的單詞填充到已知結(jié)構(gòu)里的單詞位置時,應(yīng)該如何解析句子。
語言接地(language grounding)(圖2a)和識別(圖2b)必須縮減成(大約)相同的問題。這樣可以確保用n-1個單詞訓(xùn)練的語言接地在從識別任務(wù)中訓(xùn)練的第 n 個單詞上仍然能正常工作。
我們使用了Adagrad,讓隨機(jī)梯度下降(SGD)的學(xué)習(xí)率達(dá)到10-5。在所有的實(shí)驗(yàn)中,我們把Batch 的大小設(shè)定在16,并且訓(xùn)練200k 的 batches。目標(biāo)參數(shù)θ - 在每一個J=2k batches 中都會被更新。所有的參數(shù)都有一個默認(rèn)權(quán)重衰退,相當(dāng)于10-4x Bath 大小。對于神經(jīng)網(wǎng)絡(luò)中的每一層,通過默認(rèn)其參數(shù)為0,以及一個標(biāo)準(zhǔn)的派生1/ √ N,其中N是每一層的參數(shù)數(shù)量。智能體總共擁有500k個探索步驟,探索率(exploration rate)α 的降低是線性的,從1到0。我們修正了編程步驟的數(shù)量S作為3。我們使用了4個隨機(jī)的初始化來訓(xùn)練每一個模型。整個框架都使用PaddlePaddle 4來端到端的部署和訓(xùn)練。更多的部署細(xì)節(jié)會在附錄8.1中進(jìn)行描述。
zero-shot 導(dǎo)航
我們的主要問題是智能體是否具有執(zhí)行以前從未遇過的命令的“零樣本”(zero-shot)導(dǎo)航能力。我們設(shè)計(jì)了4個命令條件來訓(xùn)練智能體:
標(biāo)準(zhǔn)(Standard)。訓(xùn)練的命令集與測試的命令集具有相同的分布。
NC。在訓(xùn)練的命令集中刪除某些詞匯組合,雖然訓(xùn)練命令集中仍包含所有單詞。具體來說,我們考慮了三種類型的詞匯組合:(object,location),(object,color)和(object,object)。我們列舉了美中類型的所有組合,并隨機(jī)在 teacher 的導(dǎo)航命令集中刪除了10%的組合。
NWNav 和 NWNavRec。一些物體詞(object words)被排除在導(dǎo)航訓(xùn)練之外,而且僅出現(xiàn)在識別任務(wù)的訓(xùn)練中,作為新的概念。NWNavRec 保證新詞不會出現(xiàn)在問題中,而只能出現(xiàn)在答案中;NWNav 則不出現(xiàn)在答案中。我們隨機(jī)排除了10%的物體詞。
我們的框架在不容的訓(xùn)練環(huán)境下都有相同的超參數(shù)。在測試中,我們把留存( held-out)綜合物/詞語 拉回到命令中(例如,標(biāo)準(zhǔn)的條件),并且測試了10k 的session,用于四個導(dǎo)航的次級任務(wù): nav_obj, nav_col_obj, nav_nr_obj, and nav_bw_obj (Appendix 8.3).
在每一個步驟中,程序會關(guān)注不同的句子中的不同部分。詞語的attention 通過彩色線條進(jìn)行可視化,其中,越亮的部分代表更多的attention。在左邊,每一個彩色線條代表的相應(yīng)的attention 地圖和當(dāng)下的環(huán)境,以及此前儲存的一個(圖2 右)。后的attention地圖被用作程序的輸出。
我們計(jì)算了成功率,其中成功指的是智能體要在每一個session規(guī)定的時間內(nèi)抵達(dá)目標(biāo)定位。圖3a 展示了訓(xùn)練的回報(bào)曲線,表1a 包含了成功率。曲線之間彼此很接近,這和期待的一致,因?yàn)橹噶睿╟ommands)10%的減少幾乎不會改變學(xué)習(xí)的難度。我們在所有的環(huán)境下都獲得了幾乎相同的成功率,并且獲得了高的zero-shot 成功率。NWNavRec 的結(jié)果顯示,雖然一些新的對象概念是從一個完全不同的問題中進(jìn)行學(xué)習(xí)的,但是它們也能夠在不需要任何模型訓(xùn)練和調(diào)參的傾向下,在導(dǎo)航這一方面進(jìn)行測試。
本文展示了虛擬智能體的一個端到端的組合框架,能夠?qū)⒁褜W(xué)會的技能推廣到新的概念,而無需建模再訓(xùn)練或微調(diào)。這種推廣能力是通過重新利用在其他任務(wù)中學(xué)到的,并由自然語言編碼的知識實(shí)現(xiàn)的。通過以不同的方式組合詞匯,智能體能夠應(yīng)對新的任務(wù),同時利用現(xiàn)有的知識。這種能力對于快速學(xué)習(xí)和更好地泛化至關(guān)重要。我們在框架實(shí)際中反映了這些重要觀點(diǎn),并將其應(yīng)用于具體的例子:在 XWORLD 中執(zhí)行 zero-shot 導(dǎo)航。
我們的框架只是一個可能的實(shí)現(xiàn)。框架的一些組件仍存在改進(jìn)的空間。我們的主張并不是一個智能體必須像論文中展現(xiàn)的那樣具有心智模型(mental model),但是必須具有在第1節(jié)和第4節(jié)所討論的幾個關(guān)鍵屬性。目前,智能體還只是在 2D 環(huán)境中進(jìn)行了探索。未來,我們計(jì)劃將該智能體放到例如 Malmo [Johnson et al。,2016]那樣的 3D 環(huán)境中。這將會提出一些新的挑戰(zhàn),例如,視覺感知和幾何變換將更加難以模擬。我們希望目前的框架為如何在 3D 環(huán)境中訓(xùn)練類似的智能體提供一些初步的思考。
本站文章版權(quán)歸原作者及原出處所有 。內(nèi)容為作者個人觀點(diǎn), 并不代表本站贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé),本站只提供參考并不構(gòu)成任何投資及應(yīng)用建議。本站是一個個人學(xué)習(xí)交流的平臺,網(wǎng)站上部分文章為轉(zhuǎn)載,并不用于任何商業(yè)目的,我們已經(jīng)盡可能的對作者和來源進(jìn)行了通告,但是能力有限或疏忽,造成漏登,請及時聯(lián)系我們,我們將根據(jù)著作權(quán)人的要求,立即更正或者刪除有關(guān)內(nèi)容。本站擁有對此聲明的最終解釋權(quán)。