隨著(zhù)Google、Microsoft和Facebook等巨頭的大力投入,深度學(xué)習正在超越機器學(xué)習,人工智能來(lái)勢兇猛。那么,如今人工智能最熱門(mén)的技術(shù)趨勢是什么?
黑匣認為,復雜神經(jīng)網(wǎng)絡(luò )、LSTMs(長(cháng)短期記憶網(wǎng)絡(luò ))、注意力模型(AttentionModels)等十大趨勢將塑造人工智能未來(lái)的技術(shù)格局。
上述判斷來(lái)自NIPS(神經(jīng)信息處理系統)2015大會(huì )。NIPS始于1987年,是人工智能領(lǐng)域兩大重要學(xué)習會(huì )議之一,由于A(yíng)I的爆炸式發(fā)展,近年來(lái)逐漸成為許多硅谷公司必須參加的年度會(huì )議。
在蒙特利爾召開(kāi)的NIPS2015吸引了眾多AI學(xué)界與業(yè)界的頂級專(zhuān)家,與會(huì )人數接近4000。大會(huì )總共收錄了403篇論文,其中深度學(xué)習課題約占11%。來(lái)自Dropbox的高級軟件工程師BradNeuberg分享了他所注意到的十大技術(shù)趨勢,黑匣將對每種趨勢做了詳細分析。
1、神經(jīng)網(wǎng)絡(luò )的架構正變得越來(lái)越復雜
感知和翻譯等大多數神經(jīng)網(wǎng)絡(luò )的架構正變得越來(lái)越復雜,遠非此前簡(jiǎn)單的前饋神經(jīng)網(wǎng)絡(luò )或卷積神經(jīng)網(wǎng)絡(luò )所能比。特別需要注意的是,神經(jīng)網(wǎng)絡(luò )正與不同的技術(shù)(如LSTMs、卷積、自定義目標函數等)相混合。
神經(jīng)網(wǎng)絡(luò )是多數深度學(xué)習項目的根基。深度學(xué)習基于人腦結構,一層層互相連接的人工模擬神經(jīng)元模仿大腦的行為,處理視覺(jué)和語(yǔ)言等復雜問(wèn)題。這些人工神經(jīng)網(wǎng)絡(luò )可以收集信息,也可以對其做出反應。它們能對事物的外形和聲音做出解釋?zhuān)€可以自行學(xué)習與工作。
?。ㄈ斯つM神經(jīng)元試圖模仿大腦行為)
但這一切都需要極高的計算能力。早在80年代初期,GeoffreyHinton和他的同事們就開(kāi)始研究深度學(xué)習。然而彼時(shí)電腦還不夠快,不足以處理有關(guān)神經(jīng)網(wǎng)絡(luò )的這些龐大的數據。當時(shí)AI研究的普遍方向也與他們相反,人們都在尋找捷徑,直接模擬出行為而不是模仿大腦的運作。
隨著(zhù)計算能力的提升和算法的改進(jìn),今天,神經(jīng)網(wǎng)絡(luò )和深度學(xué)習已經(jīng)成為人工智能領(lǐng)域最具吸引力的流派。這些神經(jīng)網(wǎng)絡(luò )還在變得更復雜,當年“谷歌大腦”團隊最開(kāi)始嘗試“無(wú)監督學(xué)習”時(shí),就動(dòng)用了1.6萬(wàn)多臺微處理器,創(chuàng )建了一個(gè)有數十億連接的神經(jīng)網(wǎng)絡(luò ),在一項實(shí)驗中觀(guān)看了千萬(wàn)數量級的YouTube圖像。
2、酷的人都在用LSTMs
當你閱讀本文時(shí),你是在理解前面詞語(yǔ)的基礎上來(lái)理解每個(gè)詞語(yǔ)的。你的思想具有連續性,你不會(huì )丟棄已知信息而從頭開(kāi)始思考。傳統神經(jīng)網(wǎng)絡(luò )的一大缺陷便是無(wú)法做到這一點(diǎn),而遞歸神經(jīng)網(wǎng)絡(luò )(RNN)能夠解決這一問(wèn)題。
RNN擁有循環(huán)結構,可以持續保存信息。過(guò)去幾年里,RNN在語(yǔ)音識別和翻譯等許多問(wèn)題上取得了難以置信的成功,而成功的關(guān)鍵在于一種特殊的RNN——長(cháng)短期記憶網(wǎng)絡(luò )(LSTMs)。
普通的RNN可以學(xué)會(huì )預測“thecloudsareinthesky”中最后一個(gè)單詞,但難以學(xué)會(huì )預測“IgrewupinFrance…IspeakfluentFrench.”中最后一個(gè)詞。相關(guān)信息(clouds、France)和預測位置(sky、French)的間隔越大,神經(jīng)網(wǎng)絡(luò )就越加難以學(xué)習連接信息。這被稱(chēng)為是“長(cháng)期依賴(lài)關(guān)系”問(wèn)題。
?。ㄩL(cháng)期依賴(lài)問(wèn)題)
LSTMs被明確設計成能克服之一問(wèn)題。LSTMs有四層神經(jīng)網(wǎng)絡(luò )層,它們以特殊的方式相互作用。這使得“能記住信息很長(cháng)一段時(shí)間”可以被視作LSTMs的“固有行為”,它們不需要額外學(xué)習這一點(diǎn)。對于大多數任務(wù),LSTMs已經(jīng)取得了非常好的效果。
3、是時(shí)候注意“注意力模型(attentionmodels)了
LSTMs是人們使用RNNs的一個(gè)飛躍。還有其他飛躍嗎?研究者共同的想法是:“還有注意力(attention)!”
“注意力”是指神經(jīng)網(wǎng)絡(luò )在執行任務(wù)時(shí)知道把焦點(diǎn)放在何處。我們可以讓神經(jīng)網(wǎng)絡(luò )在每一步都從更大的信息集中挑選信息作為輸入。
例如,當神經(jīng)網(wǎng)絡(luò )為一張圖片生成標題時(shí),它可以挑選圖像的關(guān)鍵部分作為輸入。
?。〒碛?ldquo;注意力”的RNN在圖像識別中的成功運用)
4、神經(jīng)圖靈機依然有趣,但還無(wú)法勝任實(shí)際工作
當你翻譯一句話(huà)時(shí),并不會(huì )逐個(gè)詞匯進(jìn)行,而是會(huì )從句子的整體結構出發(fā)。機器難以做到這一點(diǎn),這一挑戰被稱(chēng)為“強耦合輸出的整體估計”。NIPS上很多研究者展示了對跨時(shí)間、空間進(jìn)行耦合輸出的研究。
神經(jīng)圖靈機(NeuralTuringMachine)就是研究者們在硅片中重現人類(lèi)大腦短期記憶的嘗試。它的背后是一種特殊類(lèi)型的神經(jīng)網(wǎng)絡(luò ),它們可以適應與外部存儲器共同工作,這使得神經(jīng)網(wǎng)絡(luò )可以存儲記憶,還能在此后檢索記憶并執行一些有邏輯性的任務(wù)。
?。7氯祟?lèi)短期工作記憶的神經(jīng)圖靈機)
2014年10月,GoogleDeepMind公布了一臺原型電腦,它可以模仿一些人類(lèi)大腦短期工作記憶的特性。但直到NIPS2015,所有的神經(jīng)圖靈機都過(guò)于復雜,并且只能解決一些“小玩具”問(wèn)題。在未來(lái)它們或將得到極大改進(jìn)。
5、深度學(xué)習讓計算機視覺(jué)和自然語(yǔ)言處理不再是孤島
卷積神經(jīng)網(wǎng)絡(luò )(CNN)最早出現在計算機視覺(jué)中,但現在許多自然語(yǔ)言處理(NLP)系統也會(huì )使用。LSTMs與遞歸神經(jīng)網(wǎng)絡(luò )深度學(xué)習最早出現在NLP中,但現在也被納入計算機視覺(jué)神經(jīng)網(wǎng)絡(luò )。
此外,計算機視覺(jué)與NLP的交匯仍然擁有無(wú)限前景。想象一下程序為美劇自動(dòng)嵌入中文字幕的場(chǎng)景吧。
6、符號微分式越來(lái)越重要
隨著(zhù)神經(jīng)網(wǎng)絡(luò )架構及其目標函數變得日益復雜和自定義,手動(dòng)推導出“反向傳播”(backpropagation)的梯度(gradients)也變得更加苦難而且容易出錯。谷歌的TensorFlow等最新的工具包已經(jīng)可以超負荷試驗符號微分式,能夠自動(dòng)計算出正確的微分,以確保訓練時(shí)誤差梯度可被反向傳播。
7、神經(jīng)網(wǎng)絡(luò )模型壓縮的驚人成果
多個(gè)團隊以不同方法大幅壓縮了訓練一個(gè)良好模型所需的素材體量,這些方法包括二值化、固定浮點(diǎn)數、迭代修剪和精細調優(yōu)步驟等。
這些技術(shù)潛在的應用前景廣闊,可能將會(huì )適應在移動(dòng)設備上進(jìn)行復雜模型的訓練。例如,不需要延遲就可以得到語(yǔ)音識別結果。此外,如果運算所需要的空間和時(shí)間極大降低,我們就可以極高幀率(如30FPS)查詢(xún)一個(gè)模型,這樣,在移動(dòng)設備上也可以運用復雜神經(jīng)網(wǎng)絡(luò )模型,從而近乎實(shí)時(shí)地完成計算機視覺(jué)任務(wù)。
8、深度學(xué)習和強化學(xué)習繼續交匯
雖然NIPS2015上沒(méi)有什么強化學(xué)習(reinforcementlearning)的重要成果,但“深度強化學(xué)習”研討會(huì )還是展現了深度神經(jīng)網(wǎng)絡(luò )和強化學(xué)習相結合的前景。
在“端對端”(end-to-end)機器人等領(lǐng)域出現了令人激動(dòng)的進(jìn)展,現在機器人已經(jīng)可以一起運用深度和強化學(xué)習,從而將原始感官數據直接轉化為實(shí)際動(dòng)作驅動(dòng)。我們正在超越“分類(lèi)”等簡(jiǎn)單工作,嘗試將“計劃”與“行動(dòng)”納入方程。還有大量工作需要完成,但早期的工作已經(jīng)使人感到興奮。
9、難道你還沒(méi)有使用批標準化?
批標準化(batchnormalization)現在被視作評價(jià)一個(gè)神經(jīng)網(wǎng)絡(luò )工具包的部分標準,在NIPS2015上被不斷提及。
10、神經(jīng)網(wǎng)絡(luò )研究與優(yōu)化齊頭并進(jìn)
創(chuàng )造新的神經(jīng)網(wǎng)絡(luò )方法需要研究者,還需要能將它們迅速付諸實(shí)踐的方法。谷歌的TensorFlow是少數能夠做到這些的庫:使用Python或C++等主流編程語(yǔ)言,研究者可以迅速創(chuàng )作新的網(wǎng)絡(luò )拓撲圖,接著(zhù)在單一或多個(gè)設備(包括移動(dòng)設備)上進(jìn)行測試。