深度學習的創新 - CSDN

2020-12-27 CSDN技術社區

Creating one model for every pair of languages is obviously ridiculous: the number of deep models needed would reach the hundreds, each of which would need to be stored on a user’s phone or PC for efficient usage and/or offline use. Instead, Google decided to create one large neural network that could translate between any two languages, given two tokens (indicators; inputs) representing the languages.

為每對語言創建一個模型顯然是荒謬的:所需的深度模型數量將達到數百種,每種深度模型都需要存儲在用戶的手機或PC上,以便有效使用和/或離線使用。 取而代之的是,Google決定創建一個大型神經網絡,該網絡可以在兩種表示語言的標記(指示符;輸入)之間進行翻譯,從而可以在任何兩種語言之間進行翻譯。

The fundamental structure of the model is encoder-decoder. One segment of the neural network seeks to reduce one language into its fundamental, machine-readable 『universal representation』, whereas the other takes this universal representation and repeatedly transforms the underlying ideas in the output language. This is a 『Transformer Architecture』; the following graphic gives a good intuition of how it works, how previously generated content plays a role in generating following outputs, and its sequential nature.

該模型的基本結構是編碼器-解碼器。 神經網絡的一個部分試圖將一種語言簡化為其基本的,機器可讀的「通用表示」,而另一部分則採用這種通用表示並反覆地將輸出語言中的基本思想進行轉換。 這是一種「變壓器架構」; 下圖很好地說明了它的工作原理,先前生成的內容如何在生成後續輸出中發揮作用以及其順序性質。

AnalyticsIndiaMag. Image free to share.AnalyticsIndiaMag 。 圖片免費分享。

Consider an alternative visualization of this encoder-decoder relationship (a seq2seq model). The intermediate attention between the encoder and decoder will be discussed later.

考慮此編碼器-解碼器關係的替代可視化(seq2seq模型)。 編碼器和解碼器之間的中間關注點將在後面討論。

Google AI. Image free to share.Google AI 。 圖片免費分享。

The encoder consists of eight stacked LSTM layers. In a nutshell, LSTM is an improvement upon an RNN — a neural network designed for sequential data — that allows the network to 『remember』 useful information to make better future predictions. In order to address the non-sequential nature of language, the first two layers add bidirectionality. Pink nodes indicate a left-to-right reading, whereas green nodes indicate a right-to-left reading. This allows for GNMT to accommodate different grammar structures.

編碼器由八個堆疊的LSTM層組成。 簡而言之,LSTM是對RNN(針對順序數據設計的神經網絡)的改進,它使網絡能夠「記住」有用的信息,從而做出更好的未來預測。 為了解決語言的非順序性質,前兩層添加了雙向性。 粉色節點表示從左到右的讀數,而綠色節點表示從右到左的讀數。 這允許GNMT適應不同的語法結構。

Source: GNMT Paper. Image free to share.
資料來源:GNMT文件。 圖片免費分享。

The decoder model is also composed of eight LSTM layers. These seek to translate the encoded content into the new language.

解碼器模型也由八個LSTM層組成。 這些試圖將編碼的內容翻譯成新的語言。

An 『attention mechanism』 is placed between the two models. In humans, our attention helps us keep focus on a task by looking for answers to that task and not additional irrelevant information. In the GNMT model, the attention mechanism helps identify and amplify the importance of unknown segments of the message, which are prioritized in the decoding. This solves a large part of the 『rare words problem』, in which words that appear less often in the dataset are compensated with more attention.

在兩個模型之間放置一個「注意機制」。 在人類中,我們的注意力通過尋找該任務的答案而不是其他不相關的信息來幫助我們專注於一項任務。 在GNMT模型中,注意力機制有助於識別和放大消息中未知片段的重要性,這些片段在解碼時會優先處理。 這解決了「稀有詞問題」的很大一部分,其中在數據集中出現頻率較低的詞得到了更多關注。

Skip connections, or connections that jump over certain layers, were used to stimulate healthy gradient flow. As is with the ResNet (Residual Network) model, updating gradients may be caught up at one particular layer, affecting all the layers before it. With such a deep network comprising of 16 LSTMs in total, it is imperative not only for training time but for performance that skip connections be employed, allowing gradients to cross potentially problematic layers.

跳過連接或跳過某些層的連接用於刺激健康的梯度流。 與ResNet(殘差網絡)模型一樣,更新梯度可能會在一個特定的層上被捕獲,從而影響到它之前的所有層。 對於這樣一個由總共16個LSTM組成的深度網絡,不僅對於培訓時間而且對於性能而言,都必須跳過連接,從而允許梯度跨越可能存在問題的層。

Source: GNMT Paper. Image free to share.
資料來源:GNMT文件。 圖片免費分享。

The builders of GNMT invested lots of effort into developing an efficient low-level system that ran on TPU (Tensor Processing Unit), a specialized machine-learning hardware processor designed by Google, for optimal training.

GNMT的創建者投入了大量精力來開發一種高效的低級系統,該系統運行在TPU(張量處理單元)上,TPU是Google設計的專用機器學習硬體處理器,用於最佳培訓。

An interesting benefit of using one model to learn all the translations was that translations could be indirectly learned. For instance, if GNMT were trained only on English-to-Korean, Korean-to-English, Japanese-to-English, and English-to-Japanese, the model yielded good translations for Japanese-to-Korean and Korean-to-Japanese translation, even though it had never been directly trained on it. This is known as zero-shot learning, and significantly improved the required training time for deployment.

使用一種模型學習所有翻譯的一個有趣的好處是可以間接學習翻譯。 例如,如果GNMT僅接受了英語對韓語,韓語對英語,日語對英語和英語對日語的培訓,那麼該模型就可以很好地為日語對韓語和朝鮮語對英語進行翻譯日語翻譯,即使從未接受過日語翻譯。 這被稱為零擊學習,並且大大縮短了部署所需的培訓時間。

AnalyticsIndiaMag. Image free to share.AnalyticsIndiaMag 。 圖片免費分享。

Heavy pre-processing and post-processing is done on the inputs and outputs of the GNMT model in order to support, for example, the highly specialized characters found often in Asian languages. Inputs are tokenized according to a custom-designed system, with word segmentation and markers for the beginning, middle, and end of a word. These additions made the bridge between different fundamental representations of language more fluid.

對GNMT模型的輸入和輸出進行大量的預處理和後處理,以例如支持亞洲語言中經常出現的高度專業化的字符。 輸入是根據定製設計的系統標記的,帶有單詞分段和單詞開頭,中間和結尾的標記。 這些添加使語言的不同基本表示之間的橋梁更加流暢。

For training data, Google used documents from the United Nations and the European Parliament’s documents and transcripts. Since these organizations contained information professionally translated between many languages — with high quality (imagine the dangers of a badly translated declaration) — this data was a good starting point. Later on, Google began using user (『community』) input to strengthen cultural-specific, slang, and informal language in its model.

對於培訓數據,Google使用了來自聯合國的文件以及歐洲議會的文件和成績單。 由於這些組織包含在多種語言之間進行專業翻譯的信息(質量很高(想像翻譯不當的危險),因此這些數據是一個很好的起點。 後來,Google開始使用用戶(「社區」)輸入來增強其模型中特定於文化的,語和非正式語言。

GNMT was evaluated on a variety of metrics. During training, GNMT used log perplexity. Perplexity is a form of entropy, particularly 『Shannon entropy』, so it may be easier to start from there. Entropy is the average number of bits to encode the information contained in a variable, and so perplexity is how well a probability model can predict a sample. One example of perplexity would be the number of characters a user must type into a search box for a query proposer to be at least 70% sure the user will type any one query. It is a natural choice for evaluating NLP tasks and models.

對GNMT進行了多種評估。 在訓練期間,GNMT使用了日誌困惑。 困惑是熵的一種形式,特別是「香農熵」,因此從那裡開始可能更容易。 熵是對變量中包含的信息進行編碼的平均位數,因此困惑度是概率模型預測樣本的能力。 困惑的一個例子是,用戶必須在搜索框中鍵入一個字符數,查詢提議者才能至少確保70%的用戶可以鍵入任何一個查詢。 這是評估NLP任務和模型的自然選擇。

The standard BLEU score for language translation attempts to measure how close the translation was to a human one, on a scale from 0 to 1, using a string-matching algorithm. It is still widely used because it has shown strong correlation with human-rated performance: correct words are rewarded, with bonuses for consecutive correct words and longer/more complex words.

語言翻譯的標準BLEU分數試圖使用字符串匹配算法以0到1的比例來衡量翻譯與人類翻譯的接近程度。 它仍被廣泛使用,因為它已顯示出與人類評價的性能密切相關:獎勵正確的單詞,並為連續正確的單詞和更長/更複雜的單詞提供獎勵。

However, it assumes that a professional human translation is the ideal translation, only evaluates a model on select sentences, and does not have much robustness to different phrasing or synonyms. This is why a high BLEU score (>0.7) is usually a sign of overfitting.

但是,它假定專業的人工翻譯是理想的翻譯,僅對所選句子評估模型,並且對不同的措詞或同義詞沒有足夠的魯棒性。 這就是為什麼BLEU分數較高(> 0.7)通常表示過度擬合的原因。

Regardless, an increase in BLEU score (represented as a fraction) has shown an increase in language-modelling power, as demonstrated below:

無論如何,BLEU分數的提高(表示為分數)顯示出語言建模能力的提高,如下所示:

Google AI. Image free to share.Google AI 。 圖片免費分享。

Using the developments of GNMT, Google launched an extension that could perform visual real-time translation of foreign text. One network identified potential letters, which were fed into a convolutional neural network for recognition. The recognized words are then fed into GNMT for recognition and rendered in the same font and style as the original.

藉助GNMT的發展,Google推出了一項擴展程序,可以執行外文的可視實時翻譯。 一個網絡識別出潛在的字母,然後將其輸入到卷積神經網絡中進行識別。 然後將識別出的單詞輸入到GNMT中進行識別,並以與原始字體相同的字體和樣式進行呈現。

Source: Google Translate. Image free to share.
資料來源:Google翻譯。 圖片免費分享。

One can only imagine the difficulties abound in creating such a service: identifying individual letters, piecing together words, determining the size and font of text, properly rendering the image.

人們只能想像創建此類服務時會遇到很多困難:識別單個字母,將單詞拼湊在一起,確定文本的大小和字體,正確渲染圖像。

GNMT appears in many other applications, sometimes with a different architecture. Fundamentally, however, GNMT represents a milestone in NLP, with the wonders of a lightweight yet effective design building upon years of NLP breakthroughs incredibly accessible to everyone.

GNMT出現在許多其他應用程式中,有時具有不同的體系結構。 但是,從根本上講,GNMT代表了NLP的裡程碑,其奇蹟在於輕巧而有效的設計基於多年的NLP突破,每個人都難以置信。

相關焦點

  • 「CSDN 2020年度博客之星」總榜單在此揭曉
    type=blogTOP 榜首獲得者敖丙,技術號頭部作者 全網粉絲超過 50W+ 在網際網路電商公司擔任大數據開發,文章內容詼諧幽默又不失廣度深度,讓許多讀者對大廠技術方案有進一步了解!!博客之星 TOP2:中間件興趣圈
  • 2020年深度學習發展大盤點及對2021年深度學習的未來展望|極客雲算
    深度學習框架作為AI底層工具,對個人而言是進入深度學習世界的一把鑰匙,掌握深度學習框架並不等於理解了深度學習,要在AI開發中有所作為,關鍵還是要真正理解框架背後的技術、實踐和生態。隨著近年來的人工智慧發展,2020年深度學習依然是發展最快的領域之一,直奔未來工作。其發展是多方面的,而且是多方位的。
  • 百度開發者搜索上線 來源站點涵蓋博客園、知乎、csdn
    首頁 > 見聞 > 關鍵詞 > 百度最新資訊 > 正文 百度開發者搜索上線 來源站點涵蓋博客園、知乎、csdn
  • 參數檢驗 - CSDN
    from:https://blog.csdn.net/lilanfeng1991/article/details/25914521
  • IDC公布中國深度學習市場綜合份額:百度超越Facebook位列第二
    AI時代,深度學習平臺處於承上啟下的核心位置,相當於「智能時代的作業系統」,開源框架的繁榮極大地驅動了深度學習的落地。百度CTO王海峰認為,開源開放是驅動技術創新和加速產業發展的核心動能,在以深度學習為代表的人工智慧發展浪潮中,產業界已經成為驅動開源開放的重要力量,而成熟的開源開放技術生態與開放平臺,也正在推動社會各界加快融合發展。
  • 楊澤霖:發力人工智慧,做基於深度學習的視覺解決方案
    初次接觸深度學習算法 大三創立公司    2015年,當楊澤霖第一次接觸到深度學習算法時,就敏銳地認識到這將成為一種革命性技術,而圖像識別將成為深度學習算法的第一個發力點。經過多方調研,21歲的楊澤霖同幾個志同道合的夥伴,開始了他們的創業之路——將深度學習技術帶入工業圖像識別領域,服務傳統行業。
  • 金犢獎與武漢傳媒學院探索「創新式深度合作」
    」餘子筠老師,三方共同探索創新式深度合作。第二輪「創新式深度合作」結束後,組委會多次與老師、同學們進行溝通、收集反饋,並與餘老師實時同步,從而進一步商議接下來幾輪的授課方向。此次採用因材施教的方式不僅使同學們成長更加迅速,而且更加密切了金犢獎 、 武漢傳媒學院以及創意導師三方之間的聯繫。
  • 新時代的教學創新|科幻電影在研究導向型教學中的深度運用
    疫情當下,為支持教育從業者的學習交流不停歇、國家和學校的教育改革創新事業不停歇,西交利物浦大學領導與教育前沿院(簡稱「西浦ILEAD」)現與您分享西浦教師的優秀實踐案例,為立志於創新教學的老師提供學習交流的平臺。本期為您帶來西浦物理繫於昊老師的故事。
  • 創新工場馮霽當選IEEE聯邦學習標準制定委員會副主席
    【網易智能訊 4月11日消息】2019年3月,創新工場南京國際人工智慧研究院執行院長馮霽代表創新工場當選為IEEE聯邦學習標準制定委員會副主席,著手推進位定AI協同及大數據安全領域首個國際標準。資料顯示,馮霽師從南京大學周志華教授,專注於新型深度學習算法和理論的研究。其參與的深度森林系列研究,在學術界和工業界獲得了較為廣泛的關注和影響。現擔任IEEE聯邦學習標準制定委員會副主席,以及多個人工智慧頂級會議包括NeurIPS-19,AAAI-18, ICML-19的程序委員。
  • 關於徵集物流業製造業深度融合創新發展典型案例的通知
    、直轄市及計劃單列市、新疆生產建設兵團發展改革委:為貫徹落實黨中央、國務院有關決策部署,充分發揮典型案例示範引領作用,推動物流業降本增效提質和製造業轉型升級,按照《推動物流業製造業深度融合創新發展實施方案》(發改經貿〔2020〕1315號,簡稱《實施方案》)有關要求,我委擬組織徵集物流業製造業深度融合創新發展典型案例並推廣相關經驗。
  • 我的深度學習入門路線
    深度學習,以深而複雜的神經網絡模型為基礎,更能挖掘海量數據深層蘊藏的數據規律,具備強大的學習能力。可以毫不誇張地說,深度學習徹底改變了傳統機器學習算法的解決問題方式。下面,我用一張圖來做比較。上圖中的 4 條曲線,從下往上分別為傳統機器學習算法、規模較小的神經網絡、規模中等的神經網絡、規模較大的神經網絡。
  • WAVE SUMMIT+2020深度學習開發者峰會召開,飛槳開源生態繁榮成勢
    12月20日,由深度學習技術及應用國家工程實驗室與百度聯合主辦的WAVESUMMIT+2020深度學習開發者峰會在北京舉辦。百度飛槳作為國內開源最早、技術領先、功能完備的產業級深度學習平臺,繼520峰會之後,持續發布前沿產業洞察,重磅技術升級和開源生態成果。
  • 李宏毅-《深度學習人類語言處理2020》中文視頻課程及ppt分享
    由國立臺灣大學李宏毅老師主講的純中文版,2020年深度學習與人類語言處理課程開課了,該課程主要講解深度學習技術在人類語言處理,比如語音識別、自然語言處理相關的知識。
  • 乾貨分享&創意盛宴WAVESUMMIT+2020深度學習開發者峰會等你來!
    由深度學習技術及應用國家工程實驗室與百度聯合主辦的WAVE SUMMIT+2020深度學習開發者峰會將於12月20日在北京舉行。目前峰會官網已正式上線,可以通過官網報名參會或觀看直播。WAVE SUMMIT是中國深度學習開發者每年兩次的技術盛會,WAVE SUMMIT+ 2020是今年的第二場。
  • 深度學習用於多模態語義學習簡述
    與傳統方法不同深度學習是通過將無監督逐層預訓練與有監督微調(fine-tuning)有機結合,實現端到端方式的特徵學習。其基本動機是構建多層網絡來學習隱含在數據內部的關係,從而使學習得到的特徵具有更強的表達力和泛化能力。在大規模數據上進行的實驗表明:通過深度學習得到的特徵表示在自然語言處理(詞向量學習)、知識圖譜構建、圖像分類和語音識別等領域表現出良好的性能。
  • 微軟申請DeepSpeed商標 考慮為雲服務提供深度學習優化庫
    微軟已經為深度學習優化庫 DeepSpeed 申請了商標保護。該商標於2020年12月8日提交,其中提到「為人工智慧處理和深度學習提供臨時使用的在線不可下載的計算機軟體」,這表明微軟可能在考慮通過在線雲服務提供 DeepSpeed。
  • 資料| 神經網絡與深度學習(邱錫鵬)
    特別是最近這幾年,得益於數據的增多、計算能力的增強、學習算法的成熟以及應用場景的豐富,越來越多的人開始關注這個「嶄新」的研究領域:深度學習。深度學習以神經網絡為主要模型,一開始用來解決機器學習中的表示學習問題。但是由於其強大的能力,深度學習越來越多地用來解決一些通用人工智慧問題,比如推理、決策等。
  • 如何引導幼兒深度學習?沙坪垻區實驗幼兒園第十二屆「雅韻課堂...
    近日,沙坪垻區實驗幼兒園第十二屆「雅韻課堂」展評活動成功落幕,教師們通過課堂實例分享、觀摩學習等方式,探索深度學習的教學方式,提高課堂教學水平,激發教師內生動力。在兒童為主體的課程改革中,沙實幼聚焦幼兒核心素養,提出要在以遊戲為基本活動的幼兒園教育中,促進幼兒深度學習。那麼,到底何為深度學習?幼兒園階段為什麼可以進行深度學習?如何拓展幼兒的深度學習?
  • [學習時報]呂捷:加強農業農村高層次 創新人才隊伍培育
    為保障廣大農村地區在鄉村振興以及農業現代化中順利前行,我們急需大量農業農村現代化領域高層次創新性人才。黨的十八大以來,黨和政府高度重視農業農村人才體系建設,人才隊伍數量不斷增加,我國農業現代化人才隊伍基礎已初步形成。但是,在人才隊伍結構、高層次人才隊伍深度、高校農業專業生源及培養體系等方面還存在一些不足,急需著力加以完善。具體來說,體現在以下幾個方面。
  • AI大賽冠軍匯聚百度深度學習開發者峰會,開發者現場「充電」
    NoNoNo,這是12月20日百度在北京舉辦的WAVE SUMMIT+2020深度學習開發者峰會現場實況。(圖:WAVE SUMMIT+2020深度學習開發者峰會展區現場)作為面向深度學習開發者一年兩次的技術盛會,WAVE SUMMIT+2020除了滿滿的技術乾貨和「全明星」嘉賓陣容,現場還設置了「開發者互動」和