Google Brain團隊親述:改變世界的技術與願景

Google Brain團隊親述:改變世界的技術與願景 (兩萬字全錄)

Google Brain 的研究科學家和工程師組團在 Reddit 上開 Q&A,並於今日釋出了所有的回答。其中主要回答機器學習和團隊工作方面的問題,並且對人工智慧領域的一些最新問題進行了探討。由於回答的問題存在一問多答、問題駁雜混亂的情況,機器之心對所有問題進行了分類、整理、編輯。

機器之心編譯
作者:Google Brain團隊
本文目錄:
一、Geoffrey Hinton問答集
二、Jeff Dean問答集
關於TPU/FPGA/CPU/GPU
Google Brain與DeepMind
機器學習、量子計算、演算法
團隊、研究與文化
三、Google Brain 團隊其他成員
Google Brain 開展自己工作的方式:
發表相關研究論文;
建立並開源 TensorFlow 這樣的軟體系統;
與Google和 Alphabet 其他團隊合作,將我們的研究成果推廣到大眾;
通過實習和 Google Brain Residency 項目訓練新的研究人員;

 

 

google-brain

一、Geoffrey Hinton

1.Dropout 是如何構想出來的?是否曾有過頓悟(aha)的那一刻?

Geoffrey Hinton:確實有三個頓悟的時刻。一次發生在2004年,當時 Radford Neal 對我說,大腦規模可能會很大,因為它正在學習一個大型模型系統。我認為,既然相同的特徵需要被不同模型分別創造,這是一種非常低效的硬體使用方式。然後,我意識到,所謂的「模型」可能僅僅是活躍神經元的子集。這使得許多模型成為可能,也有可能解釋為什麼尖峰脈衝中的隨機性是有幫助的。

不久之後,我去了一趟銀行。出納員不停在換,我問為什麼。其中一位回答說,他也不知道,但是他們變動很大。我猜原因可能是為了防止員工之間通過合作來欺詐銀行。這讓我意識到,根據每個樣本,隨機移除一個不同的神經元子集可以防止共謀,也會因此減少過度擬合。

2004年,我相當草率地嘗試了一下(那時我還沒有導師),結果似乎並不理想,採用維持較小平方權重的方法也可以得到這個結果,因此,我也就淡忘了這個想法。

2011年, Christos Papadimitriou 在多倫多發表了一次談話,談及性繁殖的整個要點在於打破複雜的相互適應(co-adaptations),或許言者無心,但作為聽者,我就是這樣理解的。這個思想和隨機去除神經元子集這一抽象觀念一樣。因此,我又返回去更加努力地嘗試,並與我們的研究生們一起合作,結果證明這個方法真的管用。

2.按照 Khaneman 的快速思考和慢速思考的比喻,深度學習無疑是快速思考。有什麼方法可以用來對慢速思考建模嗎?
Geoffrey Hinton:研究視覺感知的心理學家過去常常使用一種被稱為 tachistoscope(視覺記憶測試鏡)的設備來在短時間(brief time)內顯示影像。這意味著受試者不能使用多次眼睛注視來理解影像。我認為可以說單次通過前饋神經網路的工作方式類似於視覺記憶測試鏡( tachistoscope )感知。

過去幾年,在如何使用多次注視( multiple fixations)以及如何整合每一次注視的資訊以進行學習來提升神經網路的性能表現方面有大量的研究工作。 Larochelle 和 Hinton (2010) 做了一篇早期的論文,你可以使用Google學術搜到相關的一些近期的論文。

使用多次注視的一個巨大進步是:在每次注視時的注視點(fixation point)附近使用高解析度像素,而在更遠的位置則使用分辨率遠遠更低的像素。這極大地減少了需要處理的像素的數量。一個巨大的複雜之處是:如果注視點是根據所獲得的資訊智慧地選擇的,那麼多次注視就會非常有用。這就進入到了強化學習領域。

除了感知之外,即時的直觀推理和需要許多步驟的推理之間也存在相當明顯的差異。如果我問「意大利相當於巴黎的城市是?」羅馬(或者米蘭)立即就出現在我們的腦海裡。學到的詞嵌入可以支持這種類型的即時推理(Mikolov et. al. 2012)。你只需要拿出巴黎的嵌入向量,減去法國的向量,加上意大利的向量,然後你就得到了羅馬。 (事實上,你沒有得到,但你可能能夠得到一個與羅馬很近的向量,比其它任何詞的向量都近。)

我認為在我們得到一個很好的故意的序列推理的神經網路模型之前,我們還有很長的路要走,但我認為在「思想向量(thought vectors)」上的研究是一個很有前途的開始。如果我們可以使用循環神經網路將一個句子轉換成一個包含其含義的思想向量,我們應該就能學習思想向量的模型序列了。那會是一種自然推理的模型。

3.在 capsule-based 神經網路上的研究做到哪一步了?

Geoffrey Hinton:過去3年中,我在Google投入大量的精力想要在 capsule-based neural network 上取得重要成果。如今還未能做到,這是由於基礎研究的問題。即使它們看起來是可行的,但該想法還是沒有保證。可能目前最好的成果就是 Tijmen Tieleman 的博士論文中所介紹的。但在 Terry Sejnowski 和我創造出玻爾茲曼機器學習演算法之後,花費了 17 年的時間我才找到一個它能有效工作的版本。如果你真的相信該思路,你要做的就是繼續嘗試。

4.你如何看待記憶體增強神經網路(MANNs):以他們目前的表現,有哪些不足?未來的方向又是什麼?你認為 MANNs 與你和 Schmidhuber 關於「Fast Weights」的想法相似嗎?你如何看待 Lake 等人的「One Shot Learning」論文以及他們提出問題的長期相關性?你如何看待上述三種技術的結合?

Geoffrey Hinton:由於 NTMs 的成功,最近人們再度燃起對神經網路額外記憶體形式的興趣,這份姍姍來遲的復甦讓人激動不已。我一直相信,突觸強度的臨時改變是實現一種工作存儲器的顯著方法,也因此為表徵系統當前正在思考的內容而釋放出了神經活動。現在,我認為,我們還沒有做出足夠的研究來真正理解 NTMs,MANNs ,Associative LSTMs 以及 fast weight 關聯記憶體的相對優點。 One shot learning 非常重要,但我認為它不是神經網路不可克服的難題。

5.你在YouTube 視頻上的一個演講中描述過在前向和反向傳播中用不對稱關係對網路進行測試,另外還描述了這些測試對神經科學的意義,你能分享一下你對大腦理論的看法嗎?

Geoffrey Hinton:如果反向連接只有固定的隨機權重,反向傳播或許會仍然起作用。這個想法來源於牛津大學的 Tim Lillicrap 及其合作者。他們稱它為「反饋比對(feedback alignment)」,因為前向權重某種程度上是在學習與自己的反向權重比較,因此,由反向權重計算的梯度是大致正確的。 Tim 偶然發現了這個奇怪的現象。它一定消除了關於大腦為什麼無法做一個反向傳播的形式,以調整早期的特徵探測器,從而使它們的輸出對後期的感知路徑是更加有用的。

之後,MIT 的人發現這個想法能用於比 Tim 嘗試的更複雜的模型。 Tim 和我目前正在合作一篇相關論文,裡麵包含了很多我們目前關於大腦工作方式的想法。

二、Jeff Dean

關於 TPU/FPGA/CPU/GPU

1.關於 TPU 看到的都是碎片資訊,你們能系統的介紹下嗎? TPU 運行什麼演算法?當新演算法出來時要再製備晶片嗎?相比於 CPU/GPU ,有沒什麼性能或能量節約上的數字說明?

Jeff Dean:不久之後,TPU 團隊打算寫一個關於該晶片架構的詳細技術論文。目前解答如下:

TPU 的設計是為了完成深度神經網路中的計算。它沒有那麼專門化,只運行一個特定模型。但也針對神經網路中的密集數字運算進行過調整,像矩陣相乘、非線性啟動函數。我們同意為一個特定模型製備一個晶片可能過於專門化了,但這不是 TPU 做的事。

關於最後一問,Sundar Pichai 在Google I/O 2016 的 keynote 中,分享了一些高層次的數字。尤其是,Sundar 提到,「比起商業化的 GPU 和 FPGA,TPU 在每瓦特能耗的情況下能提供高出一個量級的性能。」

2.對於未來Google TPU ASIC 的發展有什麼看法?可能用於移動設備嗎?

Jeff Dean:一般來說,能便宜和/或更少功耗地運行深度神經網路的硬體肯定是一個讓人感興趣的領域。比如說,有很多創業公司在從事這方面的研發,也有很多有趣的不同的設計思路(數據中心可以有高通量和更高的功耗,手機和其它移動設備需要更低功耗的組件等等)。

3.IIRC Inception 是首個完全在 CPU 上訓練的 ImageNet 冠軍嗎?作為能耗/性能上的明智選擇,CPU 是完全不可行的嗎?我們會看到每個人都跳到專門硬體上嗎?

Jeff Dean:我不太確定。但我懷疑,早於 2012 年 ImageNet 獲勝者(AlxeNet 之前的)的一些模型會是在 CPU 上訓練的,所以我不認為 Inception 是首個在 CPU 上訓練的 ImageNet 冠軍。 2011 年 ImageNet 的獲勝者在 PPT 中沒提到 GPU,2010 年的提到在 100 個工作人員參與下使用 Hapoop,大概是在 CPU 上訓練的。我打算用更多的關於使用 CPU 訓練計算密集型深度神經網路的內容回答你這個問題。

我認為 ,CPU 訓練這樣的系統並非完全不可行。但是,實際情況是,在性價比和能耗上,CPU 可能不是相當好的選擇,而且在擴展到一個更大的低FLOP 設備集群上相比於擴展到一個更小的高FLOP 設備集群上時,它面臨的挑戰也更大,其他方面基本對等。

4.你認為機器學習能成為一個真正的即插即用的( plug-and-play)的商業工具嗎?讓很多門外漢能挑選演算法並使用 AWS、TensorFlow、Algorithimia 等工具即插即用的能力運行這些演算法?如果是,短期內能否實現?如果不是,為什麼?

Jeff Dean:答案是肯定的。在很多案例中,Google的機器學習研究員已經開發出針對一類問題的新型的、有趣的演算法和模型。創造這樣的演算法和模型需要考慮機器學習專業知識和洞見,但它們一旦在一個領域展現出好的能力,採用同樣通用的解決方案就變得很簡單,並且可以將它們應用到完全不同的領域。

此外,從研究角度來看,我認為一個相當有潛力的領域是在學習合適的模型結構的同時能學習如何解決任務的演算法和方法(這與如今的大部分深度學習工作大相庭徑,如今是一個人專門化使用的模型架構,然後根據架構所在的環境,在連接上通過優化流程調整權重)。我們團隊的一些初始工作有(論文): Net2Net: Accelerating Learning via Knowledge Transfer。我們也開始探索一些變革性的方法加快模型架構的發展。

如果我們能夠開發出有效的方法,這將真的打開一扇大門,讓有較少機器學習專業知識的人能更直接的應用機器學習。
Google Brain 與 DeepMind

1.你如何對比 Google Brain 和 DeepMind?你們和 DeepMind 合作嗎?

Jeff Dean:我們與 DeepMind 有一些合作與交流。

至於如何對比,Google Brain 和 DeepMind 都專注於同樣的目標,就是建立智慧機器。有點不同的是研究的途徑,但我相信兩個團隊都在做優秀的、互補性的工作。不同之處:

DeepMind 傾向於在可控環境中做大部分研究,像遊戲模擬、圍棋,然而我們傾向於在現實的、真實世界難題和數據集上做研究。

某種程度上,我們的研究路線圖發展基於研究興趣以及我們集體認為值得努力的登月(moonshot)領域,因為我們相信它們將為智慧系統帶來新的功能。在建造通用智慧系統的道路上,DeepMind 研究的驅動力更多來自一張自上而下的難題線路圖,他們相信通過打造通用人工智慧,就能解決這些難題

我們更強調將世界一流的機器學習研究員與一流的系統構建者結合起來,規模化解決機器學習問題中的困難。我們也專注於構建大規模工具和基礎設施(比如 TensorFlow)來支持我們的研究以及研究社區,也和Google硬體設計團隊合作幫助指導建立機器學習硬體,解決正確的難題。

由於在山景城,我們能夠與眾多不同的產品團隊密切合作,將我們的研究成果傳遞給產品團隊和Google用戶手中。
DeepMind 的招聘流程是獨立的,也與Google的招聘流程不同。

2.Google大腦、 DeepMind 和Google量子人工智慧實驗室團隊的關係是什麼?特別是:這三個團隊之間有多少交流/合作?在作出決策時你們會考慮彼此的工作,還是你們相當獨立地工作、各行其事?

Jeff Dean:我們與量子人工智慧實驗室沒有太多合作,因為他們從事的是與我們的相當不同的研究。

我們與 Deepmind 分享構建智慧機器的研究願景,我們緊跟彼此的工作,而且我們在各種項目上有大量合作。例如,AlphaGo 一開始就是Google大腦與 DeepMind 合作的項目。其它合作還包括我們共同發表的論文「 Continuous Deep Q-Learning with Model-based Acceleration 」。Google大腦的人經常去參觀 DeepMind ,DeepMind 的人也是一樣。最近 DeepMind 要從 Torch 切換到 TensorFlow ,Google大腦的成員前去 DeepMind 幫助他們完成這次過度。在應用機器學習於醫療方面,我們都積極開展項目,並且會定期舉辦會詳細議討論我們的研究路線和下一步計劃。

總之,Google大腦和量子人工智慧實驗室沒有太多合作,而Google大腦和 DeepMind 以各種形式密切合作著。

3.你們仍然在使用 luaJIT/Torch 嗎? DeepMind 呢?

Jeff Dean:我們的團隊(Brain)從來沒有非常依賴於使用 Torch。 DeepMind 倒曾是 Torch 的重度用戶,但最近也已經決定轉到 TensorFlow。過去幾個月來,他們基本上已經完成了對他們的大量代碼的遷移,但是我敢肯定 Torch 還有一些用法目前還不能遷移。

機器學習、量子計算、演算法

1.你們如何展望用於機器學習(通用機器學習,以及特別是深度學習)量子計算的未來?

Jeff Dean:我的個人觀點是,量子計算幾乎不會對深度學習造成特別明顯的影響,特別是在中短期內(比如接下來十年)。對其他機器學習類別來說,可能會有影響,如果能利用量子計算優勢的機器學習方法能夠以足夠吸引人的規模影響到真實難題的解決。我認為,用深度學習晶片(比如 Tensor Processing Unit ,簡稱 TPU )構建出來的新的硬體平台會對深度學習產生更為巨大的影響。不過,我可不是一位量子計算的行家。

Vincent Vanhoucke:我有預感卻無證據支持這一點,深度學習實際上可能真的會成為一個特別好的量子退火法( quantum annealing )試驗場:製造適合量子晶片的中等規模、重要的深度學習問題,似乎是合乎邏輯的,而且我們樂於使用的架構和優化方法會與Ising 模型有各種自然聯繫。我密切留意Hartmut 的團隊(Google量子人工智慧實驗室)的工作,不過實際上,我認為,我們還無法就以下情況進行預測:在可預見的未來,這類方法是否會對機器學習造成任何顯著的影響。

2.大腦是一個量子計算機嗎?

Jeff Dean:個人相信量子計算在中短期內不會對機器學習產生重大的影響(大概是十年內)。我十分肯定真實的大腦不是量子計算機,神經科學裡也沒有證據顯示這一點。

Brain matters in MS infographic

3.你認為反向傳播演算法在 10 年內將成為訓練神經網路的主要演算法嗎?

Jeff Dean:我認為是這樣。從 20 世紀 80 年代末到現在,反向傳播演算法就一直是訓練神經網路的主要演算法。期間許多人曾試著提出表現更好的替代方案,但反向傳播演算法長盛不衰,這已經預示著反向傳播演算法很可能將持續鞏固重要地位。

4.你認為演化計算(evolutionary computation),比如遺傳演算法、神經演化、novelty search 等,在商業化/主流人工智慧中是否有未來? (特別是有大量不可微分組件的難題,在這裡反向傳播沒用)。是否可以認為,在未來架構工程將被一個更系統的方法取代?我認為不可微分是其核心,演化計算是否可能會提供幫助?

Jeff Dean:我非常相信演化方法將在未來扮演一定角色。確實,我們正在開始探索一些演化方法學習模型架構(還處於早期階段,所以還沒有報告成果)。我相信對大型模型而言這會起作用,我們可能需要大量的計算。想一下訓練的內循環,在數百個計算機上訓練數天,這對我們的大型模型而言是不正常的。然後,在這種大小的模型的每一代上做演化是必然相當困難的。

5.你們都是怎麼涉足機器學習的?你們第一個涉及機器學習的項目是什麼?

Jeff Dean:我必須寫一篇論文才能以優異的成績從明尼蘇達大學畢業,所以我和我的導師Vipin Kumar 一起工作,在我們學院的一台64 位處理器的立體機器上,解決了探索神經網路的並行訓練(parallel training)的問題。由於神經網路是計算密集型的,並行訓練在更早的時候也是一個有吸引力的概念,它能擴展到更現實的問題上。神經網路的計算模型有著多層次抽象,每層建立在另一層之上,在當時真的很吸引我,我走進學校想要學習並行計算,但最終被編寫高級面向對象的語言的編譯器的吸引力所誘惑,並完成了我在那個領域的博士研究工作。然而那一絲覺得神經網路很有意思的感覺從來沒有真正消失過,而大約五年前,我覺得它似乎值得再次探索,現在無論是計算能力還是有趣的數據集,在過去的20 年裡,都已經大幅增長。這導致了 Google Brain 項目的起源(最初由我、吳恩達以及 Greg Corrado 共同發起)。

6.機器學習中,除了人工神經網路,還有哪些領域也受益於 當前「深度學習」的熱度?

Jeff Dean:總的來說,機器學習領域在過去的 5、6 年裡極大地增長了。更多的人們想要學習機器學習,NIPS 和 ICML 的參加者快頂破屋頂了。深度學習無疑是人們開始對此感興趣的原因之一,通過吸引更多的人進入該領域,就會有更多的不僅限於深度學習的研究。例如,更多的人開始對強化學習、非凸函數的優化技術、高斯過程,深度理解理論,非凸模型和數十種其它領域感興趣。人們對解決各種機器學習問題的計算機系統的興趣也與日俱增,另外,還有建造專門的硬體,用於機器學習計算(在深度學習的驅動下,但是該硬體也可能幫助其它機器學習演算法)。

7.在性能的提升上,每天都有不同的改進和技巧出現。你認為在推動學習的準確度增長之外,深度學習還有哪些需要重點關注的領域?

Jeff Dean:如果你有一個你關心的單個任務,使用了大型且強大的深度神經網路的監督學習的效果可以做到很好。但是,真實世界真的是一團糟,如果我們想要得到能在一團糟的真實世界環境之中運行的智慧系統,我們要關心的就不是什麼單個任務了。這意味著需要遷移學習、多任務學習、無監督學習、強化學習、通過生成模型的想像等等;我們需要所有這些都集中到一起來構建出靈活的、可適應的智慧與解決問題的技巧,而不是為在單一的任務上做得極其好而進行優化。在目前,靈活性和適應性還是區分人類智慧和機器智慧的顯著特點。

8.最近的一篇論文(Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings)表明,Word2vec 用於量化單詞意義和關係的方法,將文化和語言的偏見編碼進了它們的詞向量表徵之中。在這篇論文中,他們將這種性別偏見視為向量空間的扭曲,並且向空間應用變換來「矯正(unwrap)」詞空間,從而消除模型的性別偏見。我很好奇,你會如何看待一個人訓練某個模型的責任(該模型可能會被數以百萬計的人所使用)來優先處理並輔助決策以確保系統沒有傳播那些可能會在訓練數據中顯現出來的歧視。尤其當它是這種有爭議的閉源模式,被用於罪犯再犯的可能性預測。第二點,我很好奇你如何處理深度神經網路這樣的問題,其訓練結果比一些像是可轉化的向量空間要含糊得多。

Jeff Dean:是的,這篇論文很有趣。最根本的問題是,機器學習模型是從數據中學習,它們將如實嘗試著去捕捉它們在數據中所觀察到的相互關係。大多數的這些相關性是好的,而且給了這些類型的模型以權力。然而有些則反映了「世界是什麼」而非「我們希望的世界是什麼」。我認為這個方向的研究是為了「保留好的偏見」,卻刪除模型中那些我們寧願不存在而偏偏存在於現實中的偏見,是一個相當有趣的研究方向。決定我們需要消除哪種偏見以及想保留哪種偏見,這不是一個簡單的問題。例如在預印本中他們提到:

男人:電腦程式設計師::女人:家庭主婦

這種偏見存在於龐大的自然語言文本語料庫中,而這是用於詞向量訓練的地方,但是就我個人而言,我寧願它不存在(而且預印本展示了一些技術來消除部分偏見,但是保留了單詞向量的其他有用的特性)。

但是要說哪些偏見應該被保留而哪些應該被淘汰,這有點困難,更別說裁決它是否正將一種編輯偏見的形式引入系統中。比如這種像是「蹣跚學步:學齡前兒童::孩子:學校」的關係,它們看起來並不那麼可怕。又比如年老 vs 年輕的關係呢?可能更含糊了。

事實上當出自同一作者的較早預印本於今年六月下旬出版時,在我們Google員工內部的 Google+系統中,有一個關於這些特殊話題熱烈討論,那絕對是一個棘手而復雜的領域。我同意你的看法,在更複雜的深度模型中消除不必要的或有害的偏見形式可能更難,而其解決方案或許比一個簡單的向量空間扭曲來得更複雜。

團隊、研究與文化

1.想更多了解Google大腦團隊文化、戰略以及願景。最重要的問題,你們準備完成的長期規劃是什麼?為什麼?你們有什麼樣的權利?Google大腦團隊成員可以設置自己的日程,權利範圍很大:)你們能分享年度預算嗎?團隊能作為一個整體共享 KPI 嗎?你們有任何與收入掛鉤的目標嗎?另外,共享文化對你們有幫助嗎?對Google和 Alphabet 有幫助嗎?

Jeff Dean:我們的權力其實是相當廣泛的。基本上,我們想從事能幫助我們構建智慧機器的研究,還想使用智慧機器改善人們的生活。

我不會披露我們預算的細節。

我們真的沒有 KPI ,也沒有任何與收入相關的目標。我們顯然要做有科學價值或商業價值的研究,但是,只要研究成果促進了科學進步,有沒有商業價值不是那麼重要(因為什麼研究將有商業價值,並非一目了然)。我們只是想從事現在或將來對世界有益的事業。與Google許多團隊合作得到的研究成果,已經在諸多方面產生實質性效益,比如語音識別、Google圖片、 YouTube 、Google搜索、 Gmail 、 Adwords 和 AlphaGo 等。這些產品有關的各種指標,已經表明我們的工作對Google帶來顯著影響。

我們堅信開放文化的力量,因為這利大於弊。例如,通過開源工具 TensorFlow ,外來參與人員也能與我們一起工作,讓它變得更好。這也讓我們與Google外部的人開展研究合作變得更加容易,因為我們可以經常彼此分享代碼。發表我們的研究成果,研究社區就會給予我們有價值的反饋,還能向世界證明我們在做有趣的工作,這有助於吸引更多想從事類似工作的人。有些研究,我們也沒必要披露其細節(比如,搜索排名和廣告系統的機器學習研究工作)。

2.你們能預測一下,Google大腦團隊在接下來幾年如何發展嗎?

Jeff Dean:展望接下來幾年Google大腦的發展,一種方法是回顧最近幾年我們團隊發生的改變:

我們從事機器學習領域的許多研究,包括機器學習演算法、新模型、知覺、語音、語言理解、機器人、人工智慧安全等許多方面,並在NIPS、ICML、ICLR、CVPR、和ICASSP 等會議上發表了我們的研究。

我們開啟機器學習研究培訓項目,期待在接下來幾年發展壯大,從而幫助培養新一代機器學習研究員。

我們設計、構建和開源 TensorFlow ,並且正在與越來越多的研究員和開發者一起工作,持續改進這個系統,還與我們Google云服務的同事一起工作,讓 TensorFlow 成為Google云機器學習平台的基礎。

在機器學習研究問題上,我們已經與其他研究和產品團隊的同事合作,讓我們的科研成果觸及數十億人(這些成果有RankBrain、Smart Reply、Google圖片、Google語音識別和Google雲視覺等。 )

我們開始了一項針對機器人研究的機器學習。

我們圍繞將機器學習應用於醫療而開始付出極大的努力。

2.在研究和構建系統的五年時間裡,你們研究和應用的方法經歷了怎樣的轉變?

Jeff Dean:根據學習內容的情況,我們的研究方向肯定也會變化和演進。例如,與五年前相比,現在,我們更加頻繁地使用強化學習,尤其是將強化學習和深度神經網路結合起來。較之最初開啟這個項目時,現在,我們更加強調深度遞歸模型,因為我們要努力解決更多複雜的語言理解問題。另一個例子就是我們從 DistBelief 轉移到 TensorFlow 。建構 TensorFlow 主要就是為了回應DistBelief 程序設計模型欠缺靈活性所帶來的教訓,當我們邁向一些新的研究方向(如前文所提及的),這些問題就會呈現出來。在過去幾年中,我們在醫療和機器人方面的工作受到的重視要多得多,而且我們經常摸索新的研究路線,比如人工智慧安全問題。

3.近期發表的成果/自己研究工作,團隊創業精神或者定義更為寬泛的公司業務需求所揭示出的一些尚未得到充分開發的應用研究領域,是不是就是你們主要的探索領域?

Jeff Dean:我們嘗試找到哪些領域顯然存在開放研究問題,以及解決這些問題能有助於打造更加智慧代理和系統的領域。我們有一套登月(moonshot)研究領域,將我們的一些研究項目集中在了很棒的主題下。比如,該登月研究之一就是開發能真正理解,總結和回答長文本問題的學習演算法(長文件,收集數百個文件,等等)。這樣的工作在沒有任何想好的產品雛形下完成,儘管很明顯的是,如果我們成功了,它會在很多不同語境中,它會很有用。

其他的研究僅僅處於好奇心。因為全年都有很多讓人興奮的年輕研究人員到我們這裡來,有的成為固定成員,有的是實習,我們也常常談到能讓大部分機器學習社群中的人興奮的方向。

最後,我們的某些研究是與我們的產品團隊合作完成的,這裡面有很多機器學習方面的難題。我們持續與我們的翻譯,機器人和自動駕駛汽車團隊合作,過去也與語音團隊、搜索排名團隊以及其他團隊有類似的合作。這些合作通常涉及開放的未解決的研究問題,解決這些問題將會賦予這些產品新的能力。

在接下來幾年,我希望我們繼續發展和擴大團隊規模,以多種形式影響世界:通過學術論文、開源軟體以及在機器學習研究方面解決困難的開放問題等。有很多事亟需去做。所以,我們正在招聘全職研究員、軟體工程師、研究實習生等。

4.你能教一個學習機器創造另一個學習機器嗎,也就是說,創造一個能夠創造其它人工智慧的人工智慧?

Jeff Dean:我確實相信這是一個非常有前景的方法。有一些不同的超參數調諧系統和演算法(tuning systems and algorithms)在向這個方向發展。本質上看,這是人類在機器學習上的精巧設計和計算之間的權衡。

這個方面一個更有雄心的方向是在學習合適的模型結構的同時學習完成各種各樣的任務,這是目前一個開放的研究問題。目前大部分深度學習模型和演算法本質上都依賴人類機器學習專家來特定模型之間的連接,而優化過程實際上只是在這些連接中沿著邊(edge)調整權重,這讓我很困擾。而人類呢,在童年的早期階段,我們的大腦每秒都會形成 700 個新的神經連接(或者說每年 220 億)。

5.大腦的能量效率 vs 用於傳統深度學習模型的大量電力和計算資源,這經常被用於去做更多「激發大腦的學習」的論據:這是一個公平比較嗎?如果公平的話,你認為是什麼導致了二者的根本性差異?能源效率是 Google Brain 團隊目前正在試圖解決或是想於未來解決的一個目標嗎?如果是的話,你可以在這個主題的不同方向上闡述一下嗎?

Jeff Dean:關於能源效率,真正的大腦肯定更節能,而且比目前的機器有更多的計算能力。但是二者的差距也許並不像看起來那麼大,因為真正的大腦需要大約 20 年來「訓練」,而鑑於我們是一幫不耐煩的機器學習研究人員,因此想在一周內就完成實驗。如果我們願意讓自己的實驗週期時間是 20 年而非 1 週,我們顯然可以得到更好的能源效率,但我們傾向於更短的實驗週期,即使它會花費我們的能源效率。

6.Brain Residency 項目可能招本科生嗎?

Jeff Dean:Brain Residency 項目實際上接受各種教育背景的人,包括一些剛走出大學校園的本科生。我們最關心的是一個人是不是有學習如何研究機器學習的強烈興趣,以及他們是否有做研究所必需的背景(合適的數學和編程技能)。對於 2016 年 Brain Residency 最早的這個 27 人班來說,差不多一半有本科學位、一半有碩士和博士學位。在這 27 個人中,大約有一半一畢業就直接來找我們了,另一半有一些工作經驗。

如果你正要結束本科學習,如果有興趣,你應該考慮申請下一年的這個項目:g.co/brainresidency(明年的項目申請在今年秋天開放,項目預計將在2017 年7 月開始,儘管我們仍在確定具體的日期)。我們的團隊還有實習項目,這主要招研究生,但我們常常有一些本科的實習生。

三、Google Brain 團隊其他成員

1.在人工智慧領域中看起來有很多的充滿了直覺性方法( hackiness)。有一段時間 dropout 不錯,但現在過時了,無監督預訓練也是這樣。你認為什麼時候理論將趕上實踐?這很重要嗎?

Martin Abadi:同意直覺性方法( hackiness)的觀點,這可能很重要。

現實進展飛速。另一方面,偶然會有一些領域理論走在了實踐的前面。機器學習中,在隱私上的研究可能就是這樣一個例子。另一個可能就是在數據流計算,這是一個很老的領域,但是,現在有時候它與我們在 TensorFlow 上的工作非常相關。

Samy Bengio:如今在深度學習中,理論落後於實踐,但越來越多的人對縮減理論與實踐的差距感興趣,這明顯是好的,因為理論經常(並非總是)幫助指導新的實踐。理論和實踐都需要,但是,一個不需要「等」另外一個。
2.目前自然語言處理中最激動人心的事是什麼?

Quoc Le:在我看來,神經機器翻譯是目前最激動人心的。我們開始見證機器翻譯方面取得了重大進展,因為這一方法及其formulation 已經足夠通用,可用於其他任務。

其他令人激動的事情:在改進監督學習上,無監督學習和多任務學習所帶來的好處。

這是一個有著大量優秀想法,發展迅速的領域。其他激動人心的事情包括在神經網路中使用記憶(DeepMind、FAIR)和外部函數(Google Brain、DeepMind)。

3.我們的很多文本推理都是來自於對場景的視覺理解。經典的例子是:一個物體無法放進書包,因為物體太大或者書包太小。我們從場景視覺推理中知道大這個詞指的是物體, 小指的是書包。可以肯定是,推斷這些知識或許是可能的,給出足夠的文本例子,一個人可能會對我們的世界和它的物理定律有一個相當合理的理解。然而,似乎更可能的是,我們(人類)使用我們的視覺理解世界來對文本資訊進行推理,是這樣嗎?

Quoc Le:你的問題很有意義,所以我的回答很長。第(3)部分可能是你最關心的,但是(1)和(2)可以提供一些背景資訊。

(1)將一些句子映射到一些嵌入(「記憶」)中,這些記憶會被解碼回到原來的句子。這個想法與「序列自編碼器」類似,這篇論文裡有描述:Semi-supervised Sequence Learning 。

序列自編碼器基於另一種叫用神經網路進行序列到序列學習的技術:Sequence to Sequence Learning with Neural Networks ,這個技術學習將一條英語句子映射到一條法語句子上,

(2)從你的評論看出你關心的是視覺方面的模型。研究者們已經整合了多個神經網路進行跨領域工作。比如,將影像映射到文本上。這裡有一些使用卷積或循環網路自動生成影像字幕的相關研究。例如,
Explain Images with Multimodal Recurrent Neural Networks;
Show and Tell: A Neural Image Caption Generator;
Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models;
Long-term Recurrent Convolutional Networks for Visual Recognition and Description;
Deep Visual-Semantic Alignments for Generating Image Descriptions

(3)我們 Google Brain 團隊也將許多視覺、非視覺的任務(翻譯、影像描述、序列自編碼器)整合到了一起:Multi-task Sequence to Sequence Learning。我們通過聯合訓練( joint training)模型而在單個任務的精確度上取得了一些溫和的進步。所以這意味著使用視覺資訊提昇文本資訊是可能的。

這些網路一般有一個編碼器(卷積網路或循環網路)和一個解碼器(循環網路)。編碼器可將輸入(影像、句子)映射到密集向量( dense vector,),而解碼器可將密集向量映射到一些輸出句子。但這個例子中的「記憶(memory)」是該密集向量,人類並不能輕易理解它。換句話說,你不能在這個向量中看見「物體(objects)」和「位置(locations)」。但這個向量可被很好地解碼為原句子。

就我所知,在深度學習領域,還沒有什麼把句子映射到一個稀疏的、人類可讀的向量中的研究(該向量可被解碼成原句子)。而這可能是一個很好的未來研究主題。

然而我很擔心:因為我們不能輕易理解編碼器和解碼器之間的密集向量,所以我們就不知道模型做了哪種類型的推理。
儘管聯合訓練( joint training)有我在(3)中提到的那樣的好處,但我認為使用視覺資訊學習「常識」和改進文本資訊的想法仍然是一個仍待研究的開放領域。

4.在開發 TensorFlow 時,為什麼選擇 Python 進行圖形構建(graph construction)、選擇 C++ 庫進行執行(execution)?為什麼不使用 Go 語言呢?你們考慮過使用 Go 語言嗎?

Vijay Vasudevan:我認為我們選擇 C++ 作為核心有以下一些原因:
1)大部分 TensorFlow 的開發者在他們的職業生涯中都一直在使用 C++,所以這對我們來說是最俱生產力的語言。這可能是最重要的原因——真的沒什麼更重要的。
2)我們所使用的高性能的數學庫也是 C++ 的(Eigen、CuDNN 等)——儘管你可以將一些 C++ 庫和其它一些語言結合起來。
3)大部分核心開發者都不精通 Go 語言,儘管我們現在有一些人有 Go 語言開發經驗了。

也就是說, TensorFlow 的目標一直都是將多種前端語言與 C++ 內核結合起來。目前在 Python 上有全功能的支持(這是我們的內部和外部用戶喜歡的一點),但我們也在努力開發以便支持更多的前端語言。比如說,我們有基本的 C++ 圖形構建 API,可以讓那些只想用 C++ 的人使用。我們在 GitHub 上有一個 Go 語言前端的分支:
https://github.com/tensorflow/tensorflow/tree/go;儘管目前它只能用於運行圖形,而不能構建圖形。
類似地,我們希望能看到開發出大量的結合了 C++ 內核的前端,我們正在努力讓這項工作變得更簡單!

5. 大多數圖形用戶界面( GUI )專注於幫助解釋機器學習流程期間或結束時的結果,你是否看到過任何面向專注於 pipeline 本身 GUI 的工作?

Fernanda Viegas:是的。我們已經開始將訓練數據可視化,通過這種方法來理解深度學習網路在訓練之前所攝取的內容。機器學習的許多問題來源於不能輕易地檢查輸入系統的數據,那會使得讓其成為可能的前端工具變得相當重要。
6.在強化學習方面 Rich Sutton 曾預言,強化學習將把對價值函數的關注轉移到對實現價值函數估計的結構的關注;即其所謂的建構主義(constructivism)。如果你們對這個概念很熟悉,能推荐一些有關此類主題的研究工作嗎?
Sergey Levine:廣義價值函數(generalized value functions)原則上有兩個好處:(1)事件預測的一般框架;(2)無需昂貴的策略學習就能夠拼湊新任務行為的能力。

(1)到目前為止還沒有在實踐中成功過,因為經典的完全監督預測模型很容易使用反向傳播和SGD 來訓練,但是(2)實際上相當重要,因為離策略學習(off-policy learning )對於樣品有效的強化學習是至關重要的,它將使得強化學習被運用於現實世界的真實物理系統之中(比如機器人、你的手機等等)。

麻煩的是即使在理論上,「離策略(off policy)」方式在實踐中也只是有點離策略而已,而當你太過離策略時,則會快速下降。這是一個正在進行的研究領域。關於廣義價值函數的一些最近工作,我推薦這篇論文:Successor Features for Transfer in Reinforcement Learning。

7.你們認為現在這一領域最讓人興奮的事情是什麼?第二,你們認為這裡領域什麼東西被低估了?可能是一些大家不熟悉或者很管用但並不流行的技術方法。

Dan Mané:最讓人興奮的事情:個人來看,是增強人類創造力的潛在技術(尤其是生成模型)。例如,神經塗鴉(neural doodle),藝術風格轉換(artistic style transfer) ,現實的生成模型,Megenta 即將完成的音樂生成模型。

現在的創新需要一定的品味和視野,但是也需要很多技術技巧,例如需要擅長在小規模的影像上PS,還要招聘大量的做過大片的動畫製作人員和工程師。我認為人工智慧有潛力大大減少這些技術壁壘,釋放更多的創造力。

Vincent Vanhoucke:令人興奮的事情:機器人!我認為不被環境約束的機器人是當下被忽視的,缺少深度學習技術讓它無法在現實世界中發揮強大作用。

被低估的:好的舊的 Random Forests 和 Gradient Boosting 沒得有得到應有的重視,特別是在學術界。

Doug Eck:讓人興奮的事情:超越監督學習。我對還沒有一個明確數字衡量成功的領域裡的研究特別感興趣。但是,我現在做的是 Magenta 的工作,Google大腦的一個研究,用深度學習和強化學習來生成藝術和音樂作品。被低估的問題:認真清理數據,例如,投入大量精力用元數據找出系統性問題。機器學習的實踐包括了三個同等比例的部分:數據接口,數據質量,演算法開發。 (那比較樂觀。確實有很多下面的數據接口工作和數據:)

8.你們做的研究和工作與大學裡教授做的有什麼不同?是不是你們的工作比較關注應用而不太關注理論?還是說你們做的工作幾乎是一樣的?

George Dahl:我們做的工作幾乎一樣,包括基礎研究或者我們認為更偏向應用的研究。 (學院派也做應用研究!)和學院派很像的是,我們也會發表論文,與研究社群互動,我們也參加各種大會和Workshop,並在那裡展示我們的工作成果,有時也會和其他機構同行合作研究。

可以這麼說,我們與學界研究有一些不一樣的地方,這會影響到我們選擇研究項目,以及我們如何做項目。例如,與大多數學院派團隊相比,我們有更多的計算資源,包括全新的硬體(比如,TPU)。在團隊組合上,我們很容易就能合併不同的團隊一起做項目,無論他們是高級研究員還是普通研究員或者工程師,只要需要他們,都可以參與進來。跟大學一樣,我們在訓練很多能力強的初級研究員,他們能給我們團隊帶來許多新的想法和能量。在我們的團隊中,有固定的成員也有實習生。此外,我們能接觸到很多實際應用中的問題,有機會通過 Alphabet 的產品產生實際的影響;另一方面,大學通常走的是另外一條我們很少考慮的路。例如,參與政府項目並培訓下一代研究員(我們的實習生和固定成員項目也有一個訓練過程,所以或許更大不同是我們在其他地方不會培養太多的本科生)。

考慮這些因素後,我們還是喜歡發揮我們自己的優勢,在我們所處的獨特位置上 ,來解決大問題。

9.你們與神經科學家(尤其是理論上的/偏計算機方向的)有多少合作?機器學習和神經科學是否都能從日益增多的合作中收益,或者你覺得現有的合作水平已經是足夠了?你們計劃用新創造出來的 Galvani Bioelectronics 進行任何研究工作嗎?

Greg Corrado:我們團隊中只有幾個人有計算神經科學/理論背景,但是現在這兩個領域分歧很大,各執一詞:計算神經科學的任務是理解生物學上的大腦如何計算,而人工智慧的任務是建構智慧機器。例如,機器學習研究員可能設計一條可以在計算硬體中實際運行的學習規則,而研究突觸可塑性的神經科學家卻想要從生物化學角度發現真實大腦的學習規則。這兩種學習規則相同嗎?實際上沒人知道。

因此,雖然長遠看來,兩個領域存在相互學習借鑒的機遇,但是,目前未知情況太多,兩個領域仍舊處在相互啟發的交流層面,而不是可測試的研究假設階段。

10.要在人工智慧上取得成功,需要很擅長數學嗎?

Greg Corrado:這要看「擅長數學」和「在人工智慧上取得成功」是什麼意思了。

if “在人工智慧上取得成功" == “使用機器學習開發出一些有趣的東西":
then assert “擅長數學" >= “知道向量、矩陣和梯度並知道它們的使用方法"
else if “在人工智慧上取得成功" == “在頂級機器學習大會上發表論文":
then assert “擅長數學" >= “線性代數、矢量微積分和優化上研究生水平的教育"
else if “在人工智慧上取得成功" == “開發出世界上第一個通用人工智慧":
then “非常擅長數學" is 保守估計還要十年的學習.
else:
請明確.

11.在人工智慧安全問題上,Google大腦會有值得期待的進一步研究嗎?在不久的將來有哪些特別的研究方向值得追逐?另外,你們對 Effective Altruism Global (簡稱 EA Global )有什麼印像或評論嗎?

Chris Olah:Dario 和我發表了論文「Concrete Problems in AI Safety 」,我們對自己在這些問題上取得進步感到非常興奮,Google大腦和 OpenAI 的其他成員也很興奮。在探索可擴展監督的方法方面,我們尚處於早期階段,我們也在思考其它一些問題。更廣泛地說,就此安全問題展開合作,Google大腦和 OpenAI 都對此抱有極大熱情:我們都真正想解決這些問題。我也對此很興奮。

至於 EA Global ,我是 GiveWell 的狂熱粉絲,也是抗瘧疾基金會的捐助者。在這場大會上,因為一些人對人工智慧安全非常感興趣,我做了關於那篇論文的簡短演講,我認為我們表達了相當與眾不同的觀點。

12.有個問題我很好奇:你的團隊裡有誰的機器學習背景是非典型的嗎?非典型是指那些雖然不是真正的計算機科學家、數學家或統計學家,卻在這些方面有某項很強的基礎,因而有不同的關注點/技能集/背景的人。

Geoffrey Hinton:我不喜歡實驗心理學。他們想研究的那種理論太簡單了。所以我當了一年木匠。我不是很擅長做木匠活,所以我念了一個人工智慧的 PhD。不幸的是,我關於人工智慧的想法是一個能從數據中進行學習的大型神經網路。儘管那個時候它還無法真正進行學習,但是,據我判斷,它就是圖靈所堅信的那個東西。

Chris Olah:好吧,我沒有任何大學學位,所以我猜是下面這幾點令我與眾不同。總的來說,我就是這麼走到今天的:
在高中,我旁聽了很多數學課並寫了很多程式。

我在多倫多大學學了一年純數學。然而,我的一個朋友因為在多倫多G20 峰會做安全研究而被捕了——警察在他家找到了一個作為業餘愛好的科學實驗室,並認定他在做炸彈——所以,我花了很多時間為我的朋友提供法庭支援。到那年年末,我已經花了一年的時間支持我的朋友,同時研究 3D 打印機(例如 ImplicitCAD)。

我的朋友終於澄清了,我也因為 3D 列印機的成果獲得了泰爾獎學金,該獎學金是用來支持我做兩年研究的,並不資助我繼續讀完本科學位。

通過我的朋友 Michael Nielsen,我接觸到機器學習,我們一起做一些研究。

在 Yoshua Bengio 招研究生的時候我與其接觸。他幫助了我很多,我幾次參觀過他的組。

我在Google討論了我的研究。 Jeff 給了我一份在 Brain 的實習,實習兩年後我成為了一個全職研究者。這差不多是一份完美的工作。

Doug Eck:我本科念的是創意寫作方向的英國文學。我可能是 Brain 裡唯一一個擁有這種背景的研究人員:)同時,我自學數據庫,做了幾年數據庫程序員。我也是一個活躍的音樂家,但沒到專業水平。最終我遵循我對音樂的熱情,回到母校念音樂和人工智慧方向的計算機科學 PhD。然後進入學術界(用 LSTM 生成音樂的博士後工作;蒙特利爾大學學院的 LISA/MILA 實驗室)。六年前,我得到了作為研究科學家加入Google的機會。我真的喜歡我研究生涯的每一步,而且我仍然確信我本科時的文科專業是幫助我走到這裡的至關重要的一步。

13.你怎麼從使用隨機方法創造的模型中進行學習?在什麼情況下,模型(以及人類從該模型中得到的見解)比該模型的輸出更具有價值?你認為資訊/數據可視化在機器學習中扮演了怎樣的角色,尤其是在模型的驗證和了解模型的工作方式上?

Martin Wattenberg:可視化可以扮演很多角色。在研究方面,可以參考一個經典的比喻:對大腦的研究在一個多世紀前被某種形式的「可視化」革新,即由 Santiago Ramón y Cajal 畫出的那些美麗的神經元圖。這種影響持續到了今天的使用功能 MRI 的技術。我認為我們還沒有「深度網路的 MRI」,但我們已經看到許多使用可視化幫助理解複雜模型所學習到的特徵的論文了。

可視化在教學方面也具有重要作用。比如,Chris Olah 和 Andrej Karpathy 創作的交互式文章就非常強大。而且我們也已經在 TensorFlow Playground 上得到了很好的響應,這讓人們可以僅僅通過 GUI 控制就實現對小型神經網路的操作。

回到第一個問題,如果一個模型在一些任務上的表現優於人類,人們很自然就會問機器學習是否會變成人類學習——也就是說,我們可以明白該模型在做什麼,然後我們自己可以將它做得更好嗎?如果某一天模型不僅能夠提供答案,而且還能提供見解,那一定非常激動人心。

出處:網易科技

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *

Loading