(附今天周二新聞5則含節日農歷史人事;文末打賞後「閱讀原文」下載31k字23頁PDF)
秦隴紀10彙編,連結「數據簡化DataSimp」文章分類頁
簡介:深度學習用於自然語言處理中的文本分類:工程實踐、三級文本、整體認識。來源:今年5月ai100參賽選手博客分享、知乎dl nlp問答、微信群等彙編。聲明:技術科普文章,僅供學習研究,請勿用於商業等非法目的。強烈譴責超市、銀行、學校、政府、公司倒賣公民數據!附:今天周二新聞4則含節日農歷史人事;點擊文末「閱讀原文」下載31k字23頁PDF;歡迎打賞、留言、轉發。
目錄
一、深度學習用於文本分類自然語言處理等(13638字)1
1文本分類實戰--從TFIDF到深度學習(附代碼)[1](2714字)1
2文本分類實戰--分詞時加詞性標註,單獨訓練詞向量(附代碼)[2](1705字)8
3深度學習在三級文本分類中的應用[3](589字)9
4哪些深度學習DeepLearning算法適用於文本處理?[4](1737字)12
5為什麼Deep Learning目前在NLP上還沒有什麼成功的應用?[5](6871字)14
二、從逆人性和實踐、唯分數應試的文字教育,走向新教育(4369字)17
1中國教育現狀:非正常人類認知、脫離自然和社會,直接考答案,培養的是「考生」!17
2中國教育界各類牛鬼蛇神:一輩子空談空想、整天混圈子、夜壺裝茶壺18
3直面教育問題,從教育行業到全行業:需要解決關鍵問題18
4優化中華文明的教育,突破唯文字教學,普及科學、藝術、技術、武術、傳統等具體能力18
參考文獻(226字)19
Appx.今天周二新聞5則含節日農歷史人事(5340字)19
附i(445字).早報,8月22日,星期二19
附ii(1051字).2017年8月22日周二讀報時間!一切美好從[愛心]開始:19
附iii(913字).2017年8月22日(農曆丁酉雞年七月初一)周二/早讀分享:20
附iv(1794字).新聞早餐第4697期2017年8月22日(星期二)農曆丁酉年七月初一辛巳日20
附v(1117字).2017年8月22日節日、農曆、星座、歷史名人和事件21
Appx.數據簡化DataSimp社區會議、譯文志願者(1090字)22
一、深度學習用於文本分類自然語言處理等(13638字)
1文本分類實戰--從TFIDF到深度學習(附代碼)[1](2714字)
最近沒怎麼看論文刷題寫博客,今天抽時間把文因互聯競賽用到的東西總結一下。參賽隊不足20個AI100舉辦,賽題類型是文本分類。參賽原因是其不像阿里們舉辦的競賽那樣,分分鐘就幹一件事就是特徵工程和調參,然後數據又多又亂,不適合入門。其次原因是目前我研究方向是NLP,之前也做過一個文本分類的東西,所以就參賽了。這裡將主要介紹比賽中用到的幾個模型,從理論到代碼實現進行總結,代碼放在github。
作者介紹:北郵研究生研究方向深度學習與NLP。github地址lc222。博客lc222's blog。
1、數據集
大家可以到競賽官網查看賽題並下載數據集,數據集中主要包含下面幾個文件,可見數據集很小也很簡單,只需要使用training.csv文件進行訓練我們的文本分類模型,使用testing.csv進行預測並提交結果即可:
下面是訓練集的前兩行,每一行的第一個數字表示該行文本的類別,後面的描述就是要建模的文本。這個數據集是11個公司的描述數據,我們要根據4774條訓練數據去預測2381條數據的類別標籤。除此之外,我們還可以看到這些訓練數據存在較嚴重的類別不平衡問題。如下圖所示:
· 1 2,合晟資產是一家專注於股票、債券等二級市場投資,為合格投資者提供專業資產管理服務的企業。公司業務範圍包括資產管理、投資諮詢和投資顧問服務。公司管理的私募基金產品主要包括股票型、債券型資產管理計劃或證券投資基金,管理總資產規模80億元左右。根據中國證券投資基金業協會數據,公司管理的私募證券投資基金(顧問管理)類規模較大,公司管理規模處於50億元以上的第一梯隊。
· 2 2,公司的主營業務為向中小微企業、個體工商戶、農戶等客戶提供貸款服務,自設立以來主營業務未發生過變化。
了解完數據集,接下來我們開始進行文本分類,開始提交結果。
2、樸素貝葉斯分類法
在這裡插句題外話,往往這種競賽大家喜歡一上來什麼都不做先提交一個結果站站場面==也就是提交一個隨機結果、均值等。因為我看到這個比賽時都已經快結束了,比較匆忙,所以第一次提交的也是直接用隨機數生成,後來還自作多情的按照訓練集的類比佔比作為每個類別概率生成隨機數(結果顯示確實有提高),代碼如下所示
接下來說正經的,我用的第一種方法就是樸素貝葉斯,可以參見我之前的一篇博客,介紹了使用CHI選擇特徵,TFIDF計算特徵權重,樸素貝葉斯分類的整體流程。因為之前做了這樣的嘗試,所以這裡直接套過來看看效果如何,代碼入下,這裡的代碼都是自己實現的,太醜,其實可以直接調用gensim的接口去做,以後有時間改改代碼:
本函數用於處理樣本集中的所有文件。第二層則是某一類中所有單詞及其包含該單詞的文檔數(而不是出現次數)。TFIDF:用於計算TFIDF權值。三層嵌套字典。第一層和A一樣,key為類別。第二層的key為文件名(這裡使用文件編號代替0-99).第三層key為單詞,value為蓋單詞在本文件中出現的次數。用於記錄每個單詞在每個文件中出現的次數。
train_set:訓練樣本集。與測試樣本集按7:3比例分開。三元組(文檔的單詞表,類別,文件編號)
test_set:測試樣本集。三元組(文檔的單詞表,類別,文件編號)
def document_features(word_features,TF,data,num):
計算每一篇新聞的特徵向量權重。即將文件從分詞列錶轉化為分類器可以識別的特徵向量輸入。
:param word_features:
:param TFIDF:
:param document:分詞列表。存儲在train_set,test_set中
:param cla:類別
:param num:文件編號
:return:返回該文件的特徵向量權重
這裡我們可以為每個類選出最具代表性的十個詞語看一下,從下面的特徵詞可以看出來,我們程序提取的特徵詞還是很具有類別區分度的,也可以看出第四類和第九類、第五類和第八類較為相似,可能在分類上會比較難區分:
接下來調用train.py函數,得到我們的預測結果,這裡我使用了樸素貝葉斯、決策樹、SVC三種算法,但是結果顯示樸素貝葉斯效果更好,根據參數不同測試集準確率大概達到了78%~79%左右。此外還有幾個地方可以調節:
1. 特徵詞維度的選擇,即上面代碼feature_select_use_new_CHI()函數中每個類別選擇多少個特徵詞,取值範圍在100-500
2. 特徵權重的計算方式,即上面代碼document_features()函數中對每個特徵詞的權重計算方式,我們可以認為只要出現就記為1,否則為零;或者使用其在該文本中出現次數作為權重;或者使用TF-IDF作為權重,或者其他方法。。。
3. 分類器的選擇及參數調整,其實我們應該取出500條記錄作為測試集去驗證模型好壞以及作為參數選擇的依據,但是因為時間比較緊迫,所以我並未作這部分工作==
此外,在獲得了上面所說的類別特徵詞之後(每類取十個),我還嘗試著用簡單的類別匹配方法進行分類,思路很簡單,就是看測試集包含哪個特徵集中的單詞更多,代碼入下:
這個效果一般,準確率好像是在69%或者74%左右,記不太清了。
3、XGBoost算法–文本分類
考慮到xgboost算法在各類競賽中都有很好的效果,我也決定使用該算法嘗試一下效果如何,在網上找了一篇博客,直接套用到這裡。我們使用所有的詞作為特徵進行one-hot編碼(使用from sklearn.feature_extraction.text import CountVectorizer和from sklearn.feature_extraction.text import TfidfTransformer),代碼如下:
#讀取訓練集def readtrain(path)、#對列表進行分詞並用空格連接def segmentWord(cont):
效果不錯,測試集可以達到80%的準確度,出乎意料的好==然後我還嘗試將提取出來的特徵用到XGBoost模型上,也就是在train.py中調用xgboost模型,結果發現準確度出不多也是80%左右,沒有很大提升。其實這裡也應該做參數優化的工作,比如xgboost的max_depth、n_estimate、學習率等參數等應該進行調節,因為時間太緊我這部分工作也沒做,而是使用的默認設置==
4、卷積神經網絡
這裡使用YOON KIM的模型框架,代碼使用WILDML的。為了適用於本任務,修改一下data_helpers.py文件中的代碼,增加load_AI100_data_and_labels()函數,用於讀取訓練集和測試集。然後就可以訓練了,這裡使用隨機初始化的詞向量,讓其隨模型訓練,效果不錯,測試集精確度達到了82%以上,之後我還嘗試了一下使用char-cnn模型,但是效果不太好,根本就沒有辦法收斂,可能是參數選擇的不對或者訓練集太小了,但比賽結束了,沒有時間和機會去嘗試更多模型和參數。
2文本分類實戰--分詞時加詞性標註,單獨訓練詞向量(附代碼)[2](1705字)
賽後舉辦方請第一名選手分享了方法和經驗。他們也使用的卷積神經網絡,不過分詞時加入了詞性標註,然後使用gensim單獨訓練詞向量,然後卷積層的使用了1000個卷積核等。其文本分類參賽總結如下:
隊伍:「讀機器學習日報長大的」,三位成員分別是「凡人哥」、「雨辰醬」和「yuye2311」,均來自蘇州大學自然語言處理實驗室。
2.1任務簡介:2017年4月17號AI100發布了為期一個月的文本分類練習賽,數據集由文因互聯提供,要求參賽者根據所提供的脫敏後的企業文本數據,篩選並判定該企業所屬的類別,評價標準為Acc。其中,文本數據的內容,是對企業的經營範圍和主營業務等基本信息的描述。數據文件描述如下圖所示(同前節1)。
抱(衝)著學(獎)習(品)交(去)流心態,和實驗室另外兩個小夥伴組隊參加了這次練習賽,線上最終得分0.869。
特別說明:排行榜上我們的得分是0.871,但由於使用了中文Wikipedia訓練詞向量,屬於外部數據,該分數無效,在沒有使用任何外部數據的情況下我們的得分為0.869。
2.2方法:任務很容易理解,就是給定一段企業文本數據,要求分類器判定該企業所屬的類別。簡單地分析了一下語料,如下例所示:
>公司是經批准依法從事融資性擔保業務的金融機構,主營業務為融資性擔保業務,包括貸款擔保、農民工工資擔保、票據承兌擔保等業務。
可以看出,基本上一些關鍵詞(如「金融」、「貸款」等)就可以確定該公司的類別,並不需要一個較長的上下文的理解,出於這樣的考慮,我們選擇CNNs作為本次任務的模型。
2.2.1分詞&詞性標註
分詞和詞性標註工具我們比較了結巴分詞和中科院的NLPIR,在實驗中發現中科院的分詞系統表現較好,處理後的文本如下所示。
>公司/n是/vshi經/p批准/v依法/d從事/vi融資/vi性/ng擔保/vn業務/n的/ude1金融/n機構/n,/wd主營業務/n為/p融資/vn性/n擔保/vn業務/n,/wd包括/v貸款/n擔保/vn、/wn農民工/n工資/n擔保/vn、/wn票據/n承兌/vn擔保/vn等/udeng業務/n。/wj「/wyz
2.2.2模型
我們採用的模型是簡單的CNNs,包括輸入層,Look-up tables,卷積層,池化層和輸出層,其中Look-up table包括詞和詞性,模型結構如下圖所示。
①輸入層
對於詞向量的訓練,由於任務規定不能使用外部數據,所以我們直接利用練習賽提供的7000餘條句子訓練詞向量,工具是gensim,使用skip-gram模型,詞向量的維度設置為256,並過濾掉頻次低於3的詞,最終訓練出詞向量的詞表size為8616。
而對於詞性向量我們使用隨機的方式初始化,維度為64,詞性表的size為96。
②卷積層&池化層
卷積操作可以編碼句子的局部特徵,卷積核對句子卷積所得到的向量稱為feature map,在實驗中我們設置卷積數量為1000,窗口大小為3。
接著是池化層,使用的是常用的max pooling,提取出feature map中最重要的信息。
③Softmax層
最後是模型的輸出層,為了防止模型的過擬合,我們在全連接層之前加了一個dropout機制,同時對全連接層權值給予一個L2正則化的懲罰項,梯度更新法則選用Adam。
④一些想法
我們在以上模型的基礎上又嘗試了以下一些簡單的方法,不過在實驗中並沒有效果,由於時間關係也沒有去深入分析,這裡列出來供大家參考:
· 過採樣。統計語料可以發現,類別的分布並不平衡,我們希望通過採樣增加一些少數類別實例的數量,採樣方式只是簡單地增加少數類別實例的數量。
· 提取關鍵句子。觀察語料可以發現,企業基本信息的描述中很多都帶有「主營業務」、「主要」、「致力於」等關鍵詞,通過這些關鍵詞可以過濾掉一些無關的句子,一方面可以減少輸入的噪音,另一方面可以提升模型的效率。
2.3實驗
實驗中,我們抽取訓練數據的80%作為訓練集,20%作為開發集,用開發集上Acc最高的模型去標記測試數據。這裡我們簡單地做了一個融合:每次取不同的20%的數據作為開發集,剩餘的數據作為訓練集,這樣共得到5組結果,最後將這5組結果進行投票融合,線上表現可以得到0點幾個點的提升。
2.4總結(附源碼)
任務較簡單,沒花太長時間做,這裡只是簡單地做個總結,希望和大家共同學習探討。最後,附上源碼,希望大家批評指正。文章點評:①願一切安好2月前您好,您能把用NIPIR處理好的數據提供一下麼?②Professor ho說,3月前我上次用了兩三層的CNN,訓練集準確率到90%,驗證集到60%,怎麼都提升不上去了,我當時覺得是數據量太少的問題,所以覺得CNN不可行。但看了你們的模型,能有這個準確率,感覺不錯,我慢慢參考。
3深度學習在三級文本分類中的應用[3](589字)
前兩篇都是結合11個具體文本數據,做了訓練附了代碼,是工程應用。這裡我們看看字符、句子、文章三個級別的文本分類示意圖,從整體上看一下CNN在文本分類中的應用。
1、字符級別的識別
早期深度學習在自然語言上的應用比較暴力,直接把數據往CNN裡懟。文章Text Understanding from Scratch解釋了為啥子CNN也能對文本分類:它先對字符集做了一個類似盲文的編碼,將字符編碼為定長(l)的向量,然後送入CNN網絡來分類。
文章厲害的地方在於直接把所有的文本(中文換成拼音)直接懟進去,然後就能取得很厲害的分類結果。表示懷疑,有空了重複實驗。還有一篇文章CNN for Sentence Classification稍有改進,把文本進行word embedding後,再送入了CNN。
Max-pooling後得到固定長度的feature map。
A C-LSTM for Text Classification更進一步,將卷機後的feature maps送入了window feature sequence後再送入LSTM。
優點在於既能捕獲局部特徵,又能學習到語義表達。不過針對其他RNN,CNN變形結構,沒有什麼明顯的優勢。
2、句子級別的識別。
循環(Recurrent)卷機神經網絡針對句子過長時,網絡無法有效結合上下文信息來表達信息,創造性地提出結合word的上下文來表達每個word的信息。
公式表述也很簡潔。
3、文檔級別
最近大熱的注意力機制很風騷啊,Hierarchical attention networks for Document Classification這篇文章最屌的地方在於可以對複雜句進行分類,明明看上去像是褒義的句子,但是它能夠辨識出這是反諷!精度上就更不用說了。
雖然圖畫的很複雜,但是代碼還真心沒幾行。我們可以再來分析分析它的代碼。太忙了,佔坑,過幾天再填。
4哪些深度學習DeepLearning算法適用於文本處理?[4](1737字)
初涉深度學習,需要做一些文本數據的處理,哪種算法會更好一些?感覺CNN和DBN之流主要都是圖像和語音識別,不知道文字處理會怎麼樣?以下是知乎網友回復。
文本並不像圖像那樣有天然的格子結構,它更傾向於多個詞構成序列來組成句子,以及多個句子構成序列組成一個段落。因此基於序列的模型諸如Recurrent Neural Network,LSTM等比較適合。如果是考慮使用Stanford Parser這樣的句法樹來生成句子表示,可以使用Recursive Neural Network或者Tree-Structure RNN/LSTM.而具體到各種文本的任務諸如情感/詞性分類,機器翻譯或者語言生成模型,常見的模式有下面幾種:
使用RNN/LSTM等去model一個詞序列組成的句子,從最後一個詞得出的隱狀態來表示整個句子的信息,然後用softmax可以做分類任務。
如果是機器翻譯任務,則是訓練兩個RNN/LSTM,一個作為encoder,另一個做decoder。大體思想是根據編碼好的源語料的句子表示,在解碼時,每次根據上次出現的詞來預測接下來會出現的詞概率分布,然後每次都取那個概率最大的詞作為翻譯出的當前詞,最後直到預測出了停止符(句號)為止。根據已有的大量預料去訓練這樣一個encoder-decoder,就可以得到一個翻譯模型。
語言生成的方法與上文類似。根據需要,再去添加Bi-RNN/LSTM,stack-LSTM,以及取每次產生的隱狀態均值作為句子表示,或者加入Attention-Based Model等改進方法。還有一個用CNN來通過已有的詞向量生成句子向量的方法,http://emnlp2014.org/papers/pdf/EMNLP2014181.pdf。不過效果沒有LSTM那麼好,就不詳細說了。
現在實踐證明,對supervised-learning而言,效果較好的應該算是Recurrent Neural Network(RNN)吧,目前比較火的一類RNN是LSTM--Long Short Term Memory。對於這個model而言,最初的發明見於論文--Long Short Term Memory by Hochreiter and Schmidhuber,而之後較好的歸納和實現可以參考Frame Phoneme Classification with Bidirectional LSTM by Alex Graves,後者有比較清晰的back propagation的公式。最近兩年這個model在speech,language以及multimodal with vision等方面可謂是大展宏圖,一再的刷新實驗結果,重要工作可以參考:
Speech recognition with Deep Recurrent Neural Networks by Graves
Sequence to Sequence Learning with Neural Networks by Sutskever
Show Attend and Tell by Kelvin Xu
至於具體的實現,希望避免造輪子可以參考這個非常famous的GitHub:https://github.com/karpathy,Andrej Karpathy最近發了很多很有趣的RNN的fun project,可以borrow一些代碼。
希望自己造輪子的,可以選擇用Theano或者Torch,用畫data flow的方法來code整個structure,很簡潔實用,我個人一直用Theano,給個好評。:)
當然啦,至於你要研究什麼問題,還是具體問題具體分析的好。可以去搜搜有沒有研究類似問題的paper,看看目前的最好的技術是什麼。Deep Learning不一定是萬能的啦。
任何一個廣受推崇的模型通常不會僅僅局限於處理某一類具體問題。
CNN的確成名於圖像識別,RNN也的確成名於語言識別。
但為什麼這些模型可以成功應用在上述的領域?(個人的一些粗淺觀點)
CNN的局部感知,其卷積核可以發現特定的Pattern。局部Pattern的組合可以在上層構建更加「高級」的Pattern。我們相信,任何複雜的圖像都是由簡單的特定模式(例如邊緣、色彩、灰度等)構成,那麼我們就需要來尋找這種模式。但我們很難估計,究竟是10層的模型,還是20層的模型會有更好的識別效果。
RNN的時序特性,天然利於語音的時序建模。HMM-GMM過去的成功,證明了語音信號時序的重要性,那麼RNN的成功則多少有其必然性。但也不可否認RNN的強時間序列性,也或許是模型本身的局限。
而Auto Encoder和DBN,則更像是在進行重構輸入,以尋找新的輸入表達。Auto Encoder強調對輸入本身的重構,而DBN強調對輸入分布的重構。
所以,通常我們認為,深度學習避免了特徵工程。或者說,深度學習模型是在尋找信息的特徵,以及進行特徵的組合。
那麼我們回過頭來談文本。對應不同的文本任務,來尋找任務與模型的相似度,儘可能應用現有的先驗知識,來構建方案,才能篩選出相對合適的模型。
總體而言,我認為文本信息是信號的一種表現形式,而所有的深度學習模型都可以應用在各類信號裡面。
可以參考阿里的實踐:連結:阿里巴巴吳煒:深度學習原理和在自然語言處理上的應用;還有這篇:深度學習:推動NLP領域發展的新引擎。
關於CNN在NLP中的應用總結,可以看下這篇博客:卷積神經網絡CNN在自然語言處理中的應用。
一般來講,CNN在nlp中的應用,由於文本的不定長問題,通常採用單層模型和max-pooling來解決。這更符合關鍵詞的概念。
如何進行多層分析?有沒有必要進行深層處理?仁者見仁,期待更好的實驗結果。RNN CNN都有例子。但是具體用什麼需要根據任務來決定啦,有的時候完全不適合用呢。w2v這種其實感覺跟深度學習已經不是很有關係了。
PS,小任務還是直接上模板吧,簡單、粗暴、有效,一般任務兩三天就能搞完。
Hu Haitang發布於https://hthu.github.io/有代碼。另外,Manning大神寫的概覽.http://nlp.stanford.edu/courses/NAACL2013/NAACL2013-Socher-Manning-DeepLearning.pdf網址下載。編輯於2015-04-28(為什麼?)。
5為什麼Deep Learning目前在NLP上還沒有什麼成功的應用?[5](6871字)
NLP領域之所以沒有廣泛推廣deep learning,主要原因是其特徵相對圖像和語音而言,太好了。
只給你一個個像素點值,你肯定很難去理解一幅圖片什麼意思,同樣語音也一樣。
而給你一個個詞,你會很輕易的理解一句話什麼意思。
像一般的NLP任務,就用個簡單的線性SVM輔助一些關鍵字匹配就可以得到90%以上的準確率。
機器學習裡面,一般來說送進去分類器的特徵越好,分類器就越簡單,像圖像裡面之前的HOG算子用個線性分類器效果就很好了。
當然NLP裡面有些比較高層的任務還是會用deep learning,例如google開源的word2vec就是用神經網絡的。
2015-04-07最後一次更了,之前了解畢竟還是太淺,很多從工程角度來說的,有些概念上的錯誤。
1、我看好deeplearning在NLP的應用,只是現在可能還沒找到最佳的突破口,這個突破口不僅僅是NLP的應用突破,也是deeplearning自己的突破。
2、特徵太好我覺得可以理解成是因為「語言屬於人類認知過程中產生的高層認知抽象實體」。對於現在的很多NLP任務,基於規則的方法都能取得很好的效果,這樣的方法雖然在工程上效果很好,但是有本身的局限性,nlp的終極目的實現人機間自然語言交流,現有的常用方法從交流理解層面而言還是太淺。看好deeplearning的前景,能夠向這個終極目的跨一大步。
3、最後word2vec不能算是真正意義的deeplearning,只能說結構是神經網絡,一是層次太淺,二是缺少輸出層和相關的應用相關。像評論有童鞋說的更像是一種embedding的方法,這種用神經網絡的方法在這波deeplearning潮之前就有人做了。
關鍵的問題還是NLP任務本身和圖像或者音頻的差異。NLP中文本是離散表示,相對構建特徵非常容易。最簡單的分詞任務用CRF模型寫幾個特徵模板就可以達到非常高的準確率。對這樣的任務留給dl本身的空間就很小了。當然dl在有一些任務中還是有幫助的。就拿我做的機器翻譯領域來說。現在公認用dl的技術可以帶來顯著的提升,今年ACL有篇BBN的神文,號稱可以比baseline提高6.0個bleu(一般能機器翻譯論文提高1.0個點就屬不易,我自己的實驗中用dl的技術可以提高1.5個點)。如果屬實,應該是這麼多年機器翻譯領域最大的突破了。最後提一下很多人都談到的word embedding(例如google發布的word2vec)。很多NLP任務都是嘗試把embedding直接作為特徵使用。其實這種embedding表達並不一定能提升,反而不如直接聚類的標籤效果好。
1.數據,印象中目前比較大的機器翻譯語料大概在200萬句子對,相比imagenet千萬級別的還是要小一些,考慮到機器翻譯的複雜度問題,相比就更少了。
2.模型,個人感覺NLP一個問題就是無法合理的增加模型複雜性,像圖像中堆隱層是非常有效的做法,模型深度也經常兩位數。NLP中好像除了谷歌的某篇機器翻譯paper裡有15層,大部分都是比較淺層的(RNN那種層不算的話)。也就是說NLP的複雜性不在越來越抽象這種層面上。
3.趨勢,最近LSTM,attention之類取得成功,其實就是試圖更合理的增加模型複雜性,所以或許這是未來趨勢。
至於神經網絡是不是和人一樣在學習這種問題,我覺得並不應該在意。
It doesn't matter if deep learning mimics the brain.It matters if they work.共勉
覺得deep learning對machine translation有很大的前景。
自然語言處於一個比較尷尬的位置。如果做簡單的任務,比如分類,用詞做feature就可以做得很好。如果做複雜點的任務,就會面臨一個高維非線性空間,用unsupervised方法很難提取出有效的規則來,用supervised方法又需要的人工太多。
1、在原來的回覆中,我提到了圖像像素在灰度上的強度能反映到0-255的數值上(可參考分割線下方原來的回覆)和相比之下文本的弊端,於是有同仁回覆說詞表示可以解決這個問題。第一,我個人認為,詞表示並沒有發展到能夠代表詞語語義的地步,儘管很多NLP領域文章都用了這瓶泰國辣椒醬,作為特徵也對系統性能稍有提升,但到目前為止,誰能給出一個NLP領域DL已有重大突破(與ImageNet提升17%個百分點相當的)的案例?NLPer仍然步履維艱,DL提升十分有限。第二,有時候one-hot,VSM,TFIDF,再融合點PCA什麼的,真的不比詞向量效果差。
2、即便詞表示能很好的表示語義了,文本相對於圖像還是更不適合DL。因為圖像中存在的平坦區域和邊緣區域可以反映到輸入矩陣當中,但是詞向量,看過的人都知道,每一個維度和下一個維度的數值是不存在任何關聯的,即便從單個詞的角度能夠說明語義,但從整段文本的角度看,難以找到類似於圖像那樣的平坦區域和邊緣區域。而CNN之所以在圖像上效果好,我認為就得益於此。
3、如何去表示文本仍然是NLP的關鍵,但它不是NLP的終極目標。DL之所以火,是因為它是一種representation learning,免去了我們做feature engineering的工作(換來的是大量的參數調優工作,如何選層數、梯度下降、激活函數等等)。目前來看,NLP方面的DL很難做到充分的representation learning,原因還是之前拿NLP與圖像的比較。如果把圖像類比與人的視覺,那麼CNN就對應於人的眼睛和視神經;而語言則是一種深度抽象的信息,對應於人的大腦。如果說CNN的勝利是對視神經模擬的勝利,那麼我們應該如何讓DL去模擬人的大腦呢?
4、關於RNN、GRU、LSTM。這幾個DL模型確實更貼合NLP任務。但我認為,語言作為知識的載體,比圖像作為知識的載體,具有更高度的抽象性,而且傳遞的信息更複雜。一個3歲的小孩,它可以看懂1 2 3 4這些數字,但是他理解不了你現在看到的這些內容,它需要很多學習去構建自己大腦的知識庫,要成為一名DL+NLP的從業者之後才可以。也就是說,NLP需要一個強大的知識庫才能驅動,而圖像則不需要。所以RNN、GRU、LSTM雖然從形式上更貼近NLP,但我認為這都不能觸及NLP的本質。
或許那些正在努力構建本體、知識庫、維基百科的研究者才會真的帶來NLP的顛覆。
-以下是原來的回覆----
我剛開始接觸DL for NLP,DL在圖像領域取得了很大進展,但在NLP上卻鮮有突破,我覺得歸根結底是文字本身就固有的劣勢,而非數據量的問題。網際網路上絕大多數信息都是文字,數據並不缺少。
文字本身的劣勢,是與圖像相比的。先說圖像:假設使用autoEncoder模型,我們輸入的是一副全黑色的圖(每一個輸入都是1,假設只考慮灰度,8個位即表示一個像素,輸入16*16像素的圖像,那麼輸入節點有16*16*8),經過訓練之後,假設輸出有一小部分0在裡邊,雖然沒有完全把輸入進行還原,但是基本上可以認為輸出是個合理的輸出,是接近於全黑色的。
在這個過程中因為圖像的像素是連續的,即從0-255,其灰度值是線性變化的,比方我們假定255是黑色,那麼可以說240是比較黑,而24是比較白。
但是這一點放到自然語言裡邊是行不通的。我們為了輸入自然語言,往往事先構造一個詞袋,把一個詞在詞袋中的位置編號作為它的輸入,假設我們總共有256個單詞,0號詞是a,1號詞是abandon,我們可以看出,a和abandon是毫無關係的。於是當我們的輸出值在數字上接近於輸入值時,我們不能說這個輸出跟輸入差不多(但圖像可以)。
個人的一點看法,還需進一步驗證。
dl在NLP已經開始發力了。參看http://licstar.net/archives/328;
請搜Richard Socher他的主頁有tutorial:DL for NLP。
nlp的終極突破還是靠機器理解力,因此nlp的解決實際上是強人工智慧的實現,目前的dl相比歷史上的神經網絡模型主要是自動特徵提取上的進步,還屬於改善模式識別的範疇,而nlp屬於思維智能的範疇,是更高層次的智能行為。
nlp上入dl兩年了大致有個自己的看法:
1、自然語言理解的困難
看了高贊說nlp特徵表示比cv明確的,我是表示反對的。恰恰相反,個人認為,NLP領域之所以沒有廣泛的推廣deep learning,主要原因是其特徵相對圖像和語音而言,太好了。
只給你一個個像素點值,你肯定很難去理解一幅圖片什麼意思,同樣語音也一樣。
而給你一個個詞,你會很輕易的理解一句話什麼意思。
實際上這是常人對NLP最大的誤解,自然語言其實是非常難讓計算機理解的,把自然語言輸入給電腦,就相當於你不會英語,面對一個英國人對你說英語一樣,所謂的「輕易理解」完全是你掌握自己的母語的規則「輸入給自己」特別「好理解」的錯覺。詞語是高度離散、抽象的特徵,最麻煩的是這個特徵還附帶很強的歧義性。例如比喻就是語言的重要特性:像「暖心」和「暖(熱)心」應該因為暖和熱有近義被抽成相近的特徵麼?人對語言的發明很大程度也是基於比喻的:即用一個詞聯繫上一個概念,如果好用那麼就成了一個習慣。相同的用語可以有很多含義,同樣同一個含義也有大量不同表示,事實上,語言到底能傳遞多少概念本來就是上個世紀的一大哲學問題,維根斯坦就語言到底能傳達多少概念寫了長篇大論,大致的意思就是形式上的詞語對於表達概念(語義)是不完備的,這裡可能扯遠了,我也無力於哲學問題上展開所以就此打住。
上面說到詞語的高度抽象和歧義性,其實語言還具備不完全規則性和遞歸性這兩個有些矛盾的特徵:任何語言都是有語法的,但是你卻找不到完備的規則來直接把自然語言當形式語言,因為語言的「發明」是成千上萬人在很長的時間中建立的「發言習慣」,還會隨時代產生用法的變化(比如當今的中文和明清白話就相去甚遠),因為語言是滿足交流功能的,為了好用而被不斷「改規則」,形式化規則實際上是結出來的果子而不是根。所以你即使在學校學了那麼多年語法紙上談兵,最後還是可能在考試看文獻、或者culture shock的時候發現自己是個英語渣。對了culture shock就是語言具備的知識關聯性,你的腦子從一個字句中抽出的特徵,肯定和你了解的相關context有關,這和機器從字句中抽特徵是一樣的。
換一個切入點,引用諾亞方舟李航博士的一段說明,個人認為概括的相當到位:
計算機和人腦有完全不同的架構,在當代計算機上實現不完全規則性和遞歸性,意味著進行複雜運算、處理,實現比喻性、知識關聯性、交互性就意味著進行全局窮舉,是否可行仍存愛很大的疑問,實現人對語言的輕易理解(抽特徵)需要全新的計算機架構,這意味著計算機科學的革命性進步。
2、自然語言處理和dl
自然語言理解是強AI問題,nlp之所以能實現是因為我們對於問題進行了大量簡化和限制,給自然語言問題找到近似的形式化解決,實際上所謂的特徵抽取,在人看來是「理解」,對機器則是怎麼有效怎麼定義,機器算出的minima有可能確實是類似人的理解,也有可能只是碰巧能極小化cost。然而定義自然語言處理任務優劣的最終還是人,這裡就是gap。
實際上進入DL階段後,抽取概念已經較統計時代有了質的飛躍,比如現在抽特徵的詞袋模型(bow)和各種向量建模(word2vec LDA topic2vec...)都給後續的語言處理提供了便利,最大的便利就是dl可以根據應用場景的差異傾向於encode不同的語言特徵。比如下面這個neural syntax相關論文就討論了向量建模中的特徵抽取:Does string-based neural MT learn source syntax (http://www.isi.edu/natural-language/mt/emnlp16-nmt-grammar.pdf)。
裡面就討論了對於翻譯任務對於源端句子的向量法能抽到什麼樣的「語義特徵」,作者選取從小到大不同粒度的特徵,分別是POS tag, SPC(smallest phrase constituent), TSS(top level syntax sequence), voice,tense。此處作者並沒有使用attention而是只有兩層LSTM(至少兩層網絡就能擬合數據),方法就是用訓練好的MT系統中的兩層encoder嘗試做以上tag對應的解碼任務,看能有多少對於系統的提升。可以很明顯的看到實驗的結果表明了,對於autoencoder系統(E2E,English2english輸入還原輸入)embedding能很好地還原出POS tag(事實上autoencoder的抄寫任務是基本不涉及需要抽語義特徵的任務,以此作為對照),對於MT系統(E2G,English2german E2F,English2French)的encoder得到的embedding可以很好地還原出和翻譯有關的tense、voice、POS、SPC、TSS的信息,同時對encoder進行保留主成分減枝(即實驗標籤的top10項目)依然能很好地還原諸如voice、tense這樣的高層語義。同時不同的syntax也被傾向於encode到了不同層(c0和c1)的cell上。這和人的直覺理解高度相關。
這種不可描述的自動性和靈活性比先前的統計時代的優勢在於很多時候你沒必要顯式特徵建模,甚至只要直接用NN就能捕捉到很多特徵,而且它捕捉的特徵是完全「任務導向」的,比如MT就能一口氣抽到上面提到的這5類syntax特徵(當然可能不止,還可能有很多語言學家都不一定發明過的句法特徵),到了簡單的應用場景,它也能就抽到剛好能解決問題的特徵,再想想IBM模型,從建模詞對齊,建模parsing POS tag chunk tense,每類特徵背後都是一片建模的「人民戰爭的汪洋大海」,不說特徵是否對任務助益,用形式化定義處理語言的不完全規則,提升零點幾個BLEU都難得。所以當前的NN解決了很多語言學形式化層面的特徵抽取,例如MT直接就彪出四五點,很大程度是NN建模語言不完全規則特徵的貢獻。
3、DL的天花板
NLP的天花板就是抽特徵帶來的,同樣當前的DL的抽特徵對於NLP的任務來說還是很初級的。cv任務中處理圖像特徵的信息NN就地抽取圖片庫就能滿足很多應用需要的信息量了,然而nlp要處理語言單純從語料中是抽不出很多應用中需要的足夠成型的特徵的,nlp上很多應用需求用cv來對應都在實現「AI看電影抽故事」的級別,如此有限的信息離構建語言表達的邏輯(等語義)還有很遠距離。上面說了還有諸如歧義性和知識關聯性的特徵就需要建模實體和知識庫,因為諸如歧義問題就是來源於語義所依託的不同背景知識產生的,限定背景知識,即想辦法讓dl捕捉利用到超出local的特徵才可能達到消歧。現在的dl依然是數據驅動的,跳出local訪問的可能性諸如神經圖靈機、可微分計算機都還在非常粗糙的階段,得到應用就必須解決實體建模和知識庫的抽象表示,所以大問題又來了,語言是知識的載體,頗有雞、蛋相生之感。
當然傳統的特徵抽取就現有DL而言還是不夠的,因為DL的黑箱性質把特徵抽成什麼樣,是好是壞都沒準,只能靠改網絡結構蒙,理想的是用當前的DL建模一層「抽象語言」再根據上下文特徵細化成具體用語(比如zhang jiajun的one sentence one model就很有抽象細化方向的意思),而這個抽象的粒度是很難界定的,即DL當前只解決了很有限的語義特徵抽取,這大致是當前DL在nlp的玻璃天花板了。
一句話介紹不完,我想從神經網絡的底層到高層說吧:
第一,NLP使用Deep Learning,首先要將離散的詞連續化,即使用類似word2vec的方法,將詞轉化為連續的向量,作為之後神經網絡的輸入,但是絕大部分的詞是有多個意思的,目前沒有很好的辦法能從大量文本中學習出一個詞有多少個意思,然後學習出不同意思對應的連續向量;
第二,DNN的中間層相當於自動的學習出的特徵,但是在NLP領域,選擇特徵比較困難,需要較多的語言學的知識,一些很好的系統中使用的特徵都是精挑細選的,想通過Deep Learning輕鬆學習出超越集合很多人很多年積累了很多智慧的特徵,還是有不少路要走的。
第三,DNN的頂層說到底是一個簡單分類(或者回歸)任務,而NLP領域中,需要解決的不只是簡單分類問題,而是結構化的分類問題,要預測序列或者樹結構,要使用DNN解決這些複雜分類問題,總有些不太舒服吧,還需要一些巧妙的方法來轉化。
但說實話DNN在NLP上也有不小的進展了。Loin des yeux,près du coeur.
二、從逆人性和實踐、唯分數應試的文字教育,走向新教育(4369字)
1中國教育現狀:非正常人類認知、脫離自然和社會,直接考答案,培養的是「考生」!中國教育讓活蹦亂跳有天性、對自然社會好奇的孩童,從幼兒園就讀書、回答問題、做試卷,到小中大學、研究生長期拿讀書、做題、想像過日子,通過讀書、考試、成績排序決定其人生選擇。學校搞文字化知識教學,用語言文字化知識、說教、做題等方式教育所有孩童,教學和作業安排的滿滿當當,導致學生沒時間接觸真實世界。認真讀書的學生,長期脫離自然實踐和實際社會、不接觸真實社會人事,無真情實感、無真實實踐,被要求做有道德的、這樣那樣的人。學生的真情實感、人性人格被徹底摧殘、心智深受影響:對真實世界的認知、自身情感的體驗,形成思想層面記憶性想像為主的思維和習慣;未來難有自主認知能力、創造性,面對社會真實事物,要重新建立認知;相比實踐成長過來的人面對更大挫折,成年後甚至無法轉變已習慣了的「空想空談」純想像思維定勢。[x]
唯文化純知識教育可以提高文化知識儲備,但不是正常人類認知。孩童在家裡和學校中的語言文字交流,可以了解各種信息和知識,但不是現實世界的真實實踐和體驗。極端的文字教育、唯分數考試,讓學生放棄大自然、放棄親戚和社會、放棄感知和表達、放棄人格。在學校憑空想像選專業、上了大學、走向社會後沒理想,步入社會後極其虛無。人生沒有自然樂趣、自我追求、擔當,遇到社會上那些簡單粗暴胡搞的人事,只能默不作聲、無能為力、逆來順受、或同流合汙、大肆貪腐。工作(尤其行政官員、實權者、執法者)後,面對複雜的人事物無所適從;加之沒有感情基礎,管理者會變成一個不分青紅皂白、簡單粗暴的混蛋。毛主席年輕時就認識到了文化的副作用,為了預防年輕人尤其是學生、知識分子:沒感情、脫離社會實踐、說話做事簡單膚淺,發起文化大革命,讓知識分子上山下鄉融入真實勞動一線生活。可惜沒有真正破除文化副作用,卻破壞了高考制度、走了極端(既不看分數、也不看技能,只憑領導推薦),期間又有很多人喪失了學習和公平選拔的機會。
2中國教育界各類牛鬼蛇神:一輩子空談空想、整天混圈子、夜壺裝茶壺六月高層找擅長書本理論說教指導、寫文章談看法、不懂自然社會各領域現狀的「教育專家」提意見,拍板教育變革方向。提出文理不分班、強化語文,貌似很合理。教育為社會生活工作做準備,不應分割文理、極端強化學科,早該往前跨一步、做改革了。但扯淡的是,通過加強文字性、文學為主、文化導向的「語文」課程,承擔起傳統文化、學科興趣,甚至成為決定性學科?!語文是各個學科、專業基本的描述世界的工具,把人和世界都圈到純文字、文學描述的語文世界中幹嘛?!繼續加強文字主體的文化性、剝離真實的自然、社會現狀和問題?這幫沒人性、迴避現實的「磚家」又要開始胡搞了。
還不警醒?教育人脫離歷史、社會、趨勢,對現實不甚了解,在所謂的「教育學術界」、「文化知識範圍」搞「教育教學教研」,甚至很多人把書本和文學當成了教育。那些當官的、成功的、早都看穿了的人,已按現實規則生存發展,只剩下鑽學校教育牛角尖的教書匠固執己見、在已經脫離實際很遠的課堂教學上翻來覆去搞各種花樣繼續把文字教學推向極端、直接殘害孩童。試問,一個連家人、鄰裡、社區、單位、工作等基本常識,連自然、世界、民族都沒充分接觸過,手無縛雞之力、沒有真情實感、不能做人類技能傳承者的書生,受應試教育後將去做什麼?
純經驗知識、無實踐教學方式,不適合孩童教育,也不適合高等教育、職業教育。思考、總結性質的知識、技能,只適合對實踐過程做附屬文化知識性思考和總結,不可用來長時間通過文化教育影響活人。文字知識為主的教育不適合個人對社會、他人進行認知,其教育佔比不應是全部或大多數,應該是少數部分。中國高考、課堂教學、做題訓練做得很好,但走了極端、識記知識以外都很差。離開學校,這些死記硬背的知識,對社會的作用極其有限,很多時候甚至是起了教條作用。但目前的學校教育只能提供簡單文字化知識為主的教育。
3直面教育問題,從教育行業到全行業:需要解決關鍵問題除了識記知識這類非直接經驗知識為主的閹割版教育方式,教育應該繼續前行:完成從自然社會現實的真實感受、描述現狀、發現問題、形成科學認知、尋求解決、享受藝術文化娛樂、抽象到知識甚至專業領域等一系列認知過程。當務之急是釋放人性、釋放孩子們的心靈,讓孩子從小有機會、有時間,接觸、感受和認識真實的自然、社會、人物。興趣、人生方向,不應在課堂教學、學校說教薰陶、培養,要給學生大量時間和機會,去接觸父母親、鄰居社區、大自然、工作單位、文藝技術、花花世界...要放手,孩子們太缺乏真情實感了,不能繼續發文件加強學校教育、管住我們的孩子、讓其變成只知道答案和執行校規的行屍走肉。人工智慧時代還這樣搞,不單害人害己、還禍國殃民。未來社會還缺這種教條的人嗎?要提高人口素質,要讓學校接觸、適應社會,而不是讓孩子一直在知識文化世界、校園襁褓裡,變成「學校教育」固化了的知識型容器。知道的再多、認識的再多,也不是真做事、沒真感情。這樣的教育是對人性的摧殘。
真正推動社會發展的工作者只是少數,一生都在空想空談、沉溺於文字事務者佔多數,給實幹者造成沉重負擔。其原因就是從幼兒園起,到走出學校,基本習慣了只會想像,到做事時,大家發現除了五花八門的各種想法、設想、理論,基本的實踐和應用卻做不來!根源在於經驗知識為主的教育,讓人習慣了思考和寫作,實踐實驗操作能力被閹割了,以至於走出學校,依然習慣了空想空談,發表文章也是空洞的說教、理論、想法、評價、訪談之類的。由於做事、做人、探索的權力從小就被閹割,真想做事、做研究,已經做不來了。類似地方領導習慣了土地財政、GDP嚴重依賴房地產和基礎設施,真想發展科技、提高社會各部門效能、走向信息化、自動化、智能工農業,已經不懂得怎麼落地操作、無人可用,只好延續舊思路、裹足不前了。
那些思想意識玩家、政府閒官員、偽學者、行業騙子、純資本家、廣告商、脫離社會實際、外行領導內行的人,無所謂誰是實幹的、實幹的是誰,幹不幹都非此類耍嘴皮子、玩文字遊戲、滿腦子理論知識、搞關係為生的人負責,他們只搞社群組織或坐收漁利。但喊口號、講理論也是必不可少的。做事要氛圍、凝聚力、目標,喊喊口號只是做事中最簡單、最先的一步,達成了認識、大家都知道做了,這個時候需要真幹事的人。如果把事情做成可分為十個階段或十等份,那麼,動動嘴皮、喊喊口號只是前面的一份,嘗試能佔五六份,找對方法做成、優化能佔兩三份,最後一份是大家認可、使用才能算做成了。
要大步前行,要做具體的生產實驗研究,不停留在低級膚淺的思想意識或文字口號上!對於人才培養,不可像過去條件所限採取過分簡單化唯答案的教育;學生已經被純文化教育閹割地沒有興趣和理想了,不要在繼續殘害了;更不可把大學及研究生層次的教學,搞成教書本文字知識。對於科研,不能拿發文章的數量來衡量,脫離了社會和產業,直接玩弄概念和理論,本末倒置、貽害無窮;真有價值的研究不是在某個期刊發發文章就算數的。對於行政體系,不能唯文字考試和虛假面試當公務員,把行政搞成一輩子的文件人事管理,就是毫無事理人性。要實幹,要做成一個環節、一個階段的事情,需要更有效的管理體制。簡單掃盲說教和文字應試教育、滅絕漢民族的計劃生育、從南宋滅亡後元明清的愚民奴化專治統治,是對中華民族極其可怕的壓制。我們缺科學技術、科學管理、科學民主、科學素養、科學民眾,應該警醒、奮起、走向更加優化的文明。
4優化中華文明的教育,突破唯文字教學,普及科學、藝術、技術、武術、傳統等具體能力更加優化的中華文明,應普及科學、藝術、技術、武術、傳統文化等更加多樣工具、基礎知識的教育。
首先,過去幾十年我們的主流思想、文字化基礎知識教育,培養了大量具有初級基本知識的人才,取得巨大成功,完成了我國掃盲和簡化版學歷教育的歷史使命。要提高人才檔次,應該適當降低此類教育時間,走向富有中華文明特徵的教育,比如增加武術、雜技、曲藝、琴棋書畫等。
其次,科學不止數理化地生。數學應該發展到邏輯、空間、編程。物理應該走向日用電子產品、機械電子、自動化。化學應該向實驗、材料繼續前進。這裡面,實驗實踐、數學描述、編程技能是重點。普及定量工具——數學、硬體控制工具——編程。
最後,在傳統文化、思想道德之外,全面加強STEM:科學、技術、工程、數學的教育。從語文描述世界、數學定量描述、到技術工程實現能力,全面打通個人各方面素質。對於普及編程,要認識到重要性:
從中學普及編程,在管理、知識處理、數據分析、數學推理、各學科都需要編程技能提質增效,產業中方可在全球經濟中保持競爭力。微軟創始人之一比爾·蓋茨(Bill Gates)發推特,「在21世紀,每一名學生都應該有機會學習必備技能——編程。」很多人都和蓋茨一樣,堅信編程是一項新的認知能力,與閱讀、算術一樣重要。馬克·普林斯基(Marc Prensky)是一名作家兼演說家,他創造了「數字母語者」(digital native)這個術語,在2008年的一篇文章中他寫道:「我相信,現在區分一個人有沒有文化,就看他會不會編程。」
信息技術巨頭優利系統公司(Unisys)軟體工程師維迪雅南森,在2家矽谷的初創公司工作過。技術行業的經歷使她強烈地意識到,應該把每一位學生都培養成具備職業資格的程式設計師:「學習編碼的基本知識和充分掌握相關知識並且把知識應用在專業的編碼工作上,這兩者之間存在很大的不同。」正是橫亙在兩者之間的巨大鴻溝促使維迪雅南森決定,要推動她所在學區幼兒園教授編程課程。「學習編程和學習一門外語一樣,我們不指望學生能講一口流利的法語或西班牙語,因為他們上了高中才會接觸幾學期的外語課。」
「計算思維包括抽象能力、邏輯推理和符號推理能力,以及拿下一個大難題,將它分解為若干小問題的能力,」溫說,「不管有沒有使用電腦,這些技能每個人都會用到。」溫在文章中寫道,「為了更好地閱讀、寫作以及運算,我們應該讓每個小孩都具備計算思維。」艾琳·歐文斯(Aileen Owens)是一位教育家,她看到了溫的呼聲。歐文斯採用溫的想法,把計算思維作為課程的重點部分,用在了匹茲堡附近的南費耶特鄉學區,她是那裡的科技與創新理事。在歐文斯眼中,培養計算思維要儘早開始,通過一系列分層次的、相關的項目進行,逐步深入,不斷加深難度。
歐巴馬政府提出「全民學習計算機科學」(Computer Science for All Initiative)倡議,政府要求學區提交擴展計算機科學教學方式的五年計劃;政府會對計劃精良的學區發放實施經費。當然,一些學校並不會等聯邦政府走完緩慢的程序後再啟動計算機科學教育的創新;然而,也有學校還沒有準備設立這門學科。這種情形不禁讓人想起科幻小說作家威廉·吉布森(William Gibson)的警句,他的作品探索了人類與科技之間的相互影響。吉布森已經看到,「未來已然來臨,只是分布還不均勻。」中國如是!
參考文獻(226字)
[1]iuchonge.分類實戰--從TFIDF到深度學習(附代碼).[EB/OL]http://blog.csdn.net/liuchonge/article/details/72614524,2017-5-21.
[2]凡人哥.【練習賽】文本分類參賽總結.[EB/OL]http://geek.ai100.com.cn/2017/05/18/1580,2017-5-18.
[3]安興樂-siler.深度學習在文本分類中的應用.[EB/OL]https://mp.weixin.qq.com/s?__biz=MzU3NzEzOTE3Mg==&mid=2247483718&idx=1&sn=309e59ebb087a9d6347a8d089eb243c0&chksm=fd0879cdca7ff0dbdf37e1bd24ed24c072e71cfc92fcfbc17043343c261c773efd8cf6d9b35a&scene=0#rd,2017-8-21.
[4]知乎問題.深度學習算法哪些適用於文本處理?.[EB/OL]https://www.zhihu.com/question/29910333,2012-10-28.
[5]cheng tang.為什麼Deep Learning目前在NLP上還沒有什麼成功的應用?.[EB/OL]https://www.zhihu.com/question/20981008,2015-4-7.
[x]秦隴紀.數據科學與大數據技術專業概論;人工智慧研究現狀及教育應用;純文本數據神經網絡訓練;大數據簡化之技術體系[EB/OL].數據簡化DataSimp(微信公眾號)http://www.datasimp.org,2017-06-06.
Sciences73浙商馬雲在永康主政西安的首屆世界西商大會談西安與未來SNNU20170821MonQinDragon.doc
Appx.今天周二新聞5則含節日農歷史人事(5340字)
附i(445字).早報,8月22日,星期二1、外交部回應"中印軍人互擲石頭":已提出嚴正交涉;
2、"復興號"動車組京津冀開跑時速300公裡 全程可用WiFi;
3、法媒:越來越多臺灣年輕人到大陸工作,有人隱藏「臺獨」立場;
4、微信小程序、搜一搜、轉帳等功能出現故障 官方稱各項功能已經全部恢復;
5、ofo小黃車落戶牛津 中國共享單車首獲英國行業認證 收費標準為每半小時50便士;
6、研究顯示:八成內地就讀港澳學生希望畢業後在內地就業;
7、臺灣新黨24周年黨慶 鬱慕明喊統派加油打倒"臺獨" 國臺辦:高度讚賞臺灣新黨堅持一中 反對"臺獨";
8、專家:校園足球首要目標是提高必定會影響普及而非競技;
9、普京"接班人"名單出爐 俄總理梅德韋傑夫排位第一;
10、美國將自8月23日起暫停發放對俄公民非移民籤證;
11、川普南亞新戰略出爐在即 鞏固戰果 扶持阿富汗對抗極端組織 或向阿富汗增兵4000人;
12、加拿大有望設立南京大屠殺紀念日 日本試圖阻撓;
【微語】人生中一個決定牽動另一個決定,一個偶然註定另一個偶然,因此偶然從來不是偶然,一條路勢必走向下一條路,回不了頭。
附ii(1051字).2017年8月22日周二讀報時間!一切美好從[愛心]開始:
1、[界面]京東平臺正式終止與天天快遞和百世快遞的合作。屆時,賣家通過天天快遞和百世快遞發送商品的物流信息將無法在京東平臺展示。公告還稱,除了上述兩家快遞公司外,目前平臺與其他快遞公司合作正常。
2、[環球網]美國將從2017年8月23日開始暫停在俄羅斯境內頒發非移民籤證。俄羅斯衛星新聞網8月21日報導稱,美國駐俄大使館當日發布了該消息。
3、[36氪]共享空調產品提供廠商美博已經開始全球投入共享空調的測試當中,據了解,共享空調採用「押金按時收費」的模式,每臺空調押金3000元,按照每小時1元價格收費,電費用戶自理。按照一年使用5個月,每個月20天每天6小時來計算,一臺空調回本需要5年的時間。而使用方面需要下載共享空調APP,註冊下單之後,商家上門安裝,消費者享有租、續、退三個操作,開機時候只要掃空調二維碼進行充值即可。
4、[金投網]截至8月21日第一個工作日,參考原油品種均價為49.96美元/桶,變化率0.08%,對應的汽柴油零售價應上調3元/噸左右。8月18日24日國內汽柴油零售價調整擱淺,根據「十個工作日」原則,本輪調價窗口為9月1日24時。
5、[參考消息]加拿大已經在與中國就一項自由貿易協定進行探索性討論,以應對在這個世界第二大經濟體做生意時面臨的潛在和現有挑戰。加拿大認識到有必要使其貿易關係多樣化,不能再單純依賴長期以來的主要貿易夥伴美國,這一討論是一個信號。
6、[央廣網]據中國之聲《全國新聞聯播》報導,今年上半年,國內旅遊人數25.37億人次,比上年同期增長13.5%。出入境遊人次也紛紛創下新高。
7、[印度時報]在截至6月30日的美國本財年(2016年10月1日-2017年9月30日)前九個月,印度申請美國H-1B臨時工作籤證的人數為24.7萬人,佔全球總申請人數的74%。在2015-2016財年,印度申請H-1B籤證的人數為30萬。
8、[韓聯社]韓國好麗友集團日前宣布,2017年上半年,好麗友在中國市場的銷售量大幅減少,中國區的銷售額驟減了42.1%。在今年年初因韓國樂天,讓眾多中國消費者開始關注韓國食品品牌,其中中國味十足的好麗友被媒體曝出是韓國企業。
9、[中商產業研究院]中國信通院公布2017年7月中國手機市場運行分析報告。報告數據顯示,2017年7月,國內手機市場出貨量4304.9萬部,同比下降15.4%。其中,7月上市新機型45款,同比下降67.2%。1-7月上市新機型610款,同比下降32.2%。
10、心靈點滴:每一個優秀的人,都有一段沉默的時光。那一段時光,是付出了很多努力,忍受了很多的孤獨和寂寞,不抱怨不訴苦,只有自己知道。而當日後說起時,連自己都能被感動的日子。
美好的一天從感動開始!
附iii(913字).2017年8月22日(農曆丁酉雞年七月初一)周二/早讀分享:
1、【習近平:堅持不懈落實可持續發展議程】中國國際發展知識中心啟動儀式暨《中國落實2030年可持續發展議程進展報告》發布會21日在京舉行。國家主席習近平致賀信。
2、【李克強總理籤署國務院令 公布《融資擔保公司監督管理條例》】要求擔保責任餘額不得超過其淨資產的10倍,但對主要為小微企業和農業、農村、農民服務的融資擔保公司可提高至15倍。條例自今年10月1日起施行。
3、【國資委:中國保利與中國輕工、中國工藝實施重組】經報國務院批准,中國輕工集團公司、中國工藝(集團)公司整體併入中國保利集團公司,成為其全資子公司。中國輕工、中國工藝不再作為國資委直接監管企業。國資委編制內企業僅為99家。
4、【首單運用區塊鏈技術的交易所ABS獲批】國內首單基於區塊鏈技術的交易所資產證券化產品獲批。"百度-長安新生-無風2017年第一期資產支持專項計劃"近日獲得上海證券交易所出具的無異議函,發行總規模4億元,產品分為優先A級(85%,AAA評級)、優先B級(6%,AA評級)和次級三檔,基礎資產為汽車消費信貸。
5、【西安出現共享購物車】使用"共享購物車"需要先關注公眾號完成註冊,押金99元,可跳過不用支付。開鎖和小黃車一樣,使用密碼鎖。發起人稱這是為解決從超市到家"最後一公裡"負重。
6、【WTO發布消息】WTO:美國正式向世界貿易組織(WTO)提出對中國的農產品關稅配額進行調查的要求。
7、【美國國防部公布】洛克希德馬丁贏得價值4.27億美元的美國國防合同;波音公司蠃得價值3.49億美元的美國國防合同。
8、【美國財長努欽:希望國會合作上調債務上限】希望與國會合作推進稅改;。稅改對美國經濟至關重要;非常希望能夠不帶附加條件地上調債務上限;希望美國中產階級收入提高;敦促在9月底前提高債務上限。
9、【昨日股市收評:兩市震蕩上行滬指漲0.56% 資源股捲土重來】周一,鋼鐵行業、有色金屬、鈦白粉、次新股、充電樁等板塊漲幅居前。截止收盤,滬指報3286.91,+0.56%;深成指報10689.77,+0.71%;創指報1829.22,+0.41%。
10、【仙言潮聲】人的偉大之處在於,他是一座橋梁而非目的;人的可愛之處在於,他是一個過渡,也是一個風景。
美好的一天從甘當配角開始!
附iv(1794字).新聞早餐第4697期2017年8月22日(星期二)農曆丁酉年七月初一辛巳日
每天三分鐘 知曉天下事
A●國內資訊
1)習近平向中國國際發展知識中心啟動儀式暨《中國落實2030年可持續發展議程進展報告》發布會致賀信;新華社:習近平「7-26」重要講話書寫時代新篇章;
2)我國自主研製的首臺TBM隧道掘進機在引松供水工程投產成功;9月21日,「復興號」將以350公裡時速正式「開跑」;專家稱中國量子通信技術已全面領先世界;
3)第13號颱風「天鴿」直奔閩粵,農業部部署防禦工作;
4)國務院安委辦通報山西和順滑坡事故:8死1傷1失蹤;環保部:打好今冬明春京津冀大氣汙染治理攻堅戰;
5)人社部要求各地原則上每兩年至少調整一次工傷保險待遇;農村「三塊地」(指:集體經營性建設用地、宅基地和土地徵收制度)改革:33個試點地區出臺約500項措施;
6)31省份(除港澳臺外)養老金調整方案出爐,京滬等地月均超3000元;
7)巫山縣公安分局通報:3人冒充醫生用電話-詐-騙-2千餘人,如果接到「醫生」主動打電話「看病」,這很可能是一個電信-詐-騙-陷-阱-的開始;惠民縣醫院李莊院區遭暴力醫鬧被迫賠償30萬,縣公安局長被免職,孟某某等5人抓獲並依法刑事拘留;
8)[軍事]軍委紀委通報12起「微腐敗」和不正之風問題;湖北四川江西安徽河北等省軍區主官集中調整;我軍運輸投送軍民融合邁向海陸空全領域;轟-20有望今年試飛,戰力5倍於轟-6K;
9)[港澳]調查顯示:八成內地就讀港澳學生希望畢業後內地就業;澳門至內地跨境電商物流渠道開通;香港舉辦第九屆國際茶展;
10)[臺灣]臺灣青少年繪製「理想學校」藍圖,呼籲多元及開放式教學;臺灣上調今年經濟增長率預測值至2.11%;臺灣青年與大陸「網際網路+」親密接觸;第五屆海峽青年節兩岸大學生領袖營在福建開營;「臺-獨」軍購F-35遭美國當面拒絕。
B●國際資訊
1)中國軍事醫學專家組助力獅子山泥石流救災工作;章瑩穎家人擬22日公布向川普請願信內容;美301調查挑起對華貿易戰,或對我通信設備等造成影響;
2)青海格爾木至俄羅斯中歐班列首發,火車司機胡天洪駕駛班列駛離格爾木車站;
3)美國麻薩諸塞州首府波士頓發生大規模反種族主義示威,約15000市民聚集;
4)莫迪提出「新印度」:5年搞定巴基斯坦20年趕超美國;印度就洞朗問題求助俄羅斯,欲借力「說服」中國;
5)俄羅斯推出共享法拉利,1分鐘1元;獅子山泥石流災害遇難人數升至499人;
6)黎巴嫩軍隊收復「伊斯蘭國」所佔領土三分之一;
7)一年一度的美國芝加哥海空飛行表演秀於在芝加哥市區的北大道沙灘舉行;
8)科學家或找到恆星爆炸「彈片」,從而更好地研究宇宙的加速擴張。
C●財經證券
1)銀行同業、理財和表外業務亂象突出,將被重點整治;
2)全面推開營改增試點成績單:13個月減稅8500多億;
3)去槓桿下貨幣政策猜想:緊平衡是常態,暫看不到降準;
4)董明珠豪賭新能源:擴張珠海銀隆,籤訂800億元項目;
5)昨日收盤:滬指3286.91/+0.56%深成指10689.71/+0.71%創業板1829.22/+0.41%恆指27154.68/+0.40%。
D●文化體育
1)教育部:規範科研人員兼職兼薪行為,減輕報銷負擔;
2)《朗讀者》出書,董卿:站在這個舞臺上,我用了23年;
3)餘秋雨攜新作《門孔》亮相上海書展,成書過程中一次次擱筆哽咽;
4)男子在八達嶺動物園投餵動物,被熊扒下車窗咬傷;
5)林丹發布會首談退役,暗示角色或從此變化;2017全國青少年足球冠軍杯賽濱州賽區(女子)圓滿落下帷幕,江蘇隊和大連隊分獲U11和U12的冠軍,晉級總決賽。
E●生活服務
1)北京二手房價環比下降,保障房「確保搖上」系-詐-騙;
2)投放過度引諸多問題,上海暫停新增投放共享單車;
3)廣東出入境檢查提速,明年刷護照10秒就能出國門;
4)成都西南民族大學航空港校區推出「共享宿舍」,日均單價25元;
5)四川無人機管理規定:實名購買,操作人員考駕照;
6)濟南市區禁止鳴笛,司機拿慘叫雞代替喇叭;
7)陝西西省農村硬化路面裡程達9.3萬公裡,鐵路總裡程近5000公裡;
8)各地密集出臺租房新政,「購租同權」成為發展趨勢。
F●養生知識
1)吃水果到底該不該削皮?北京市營養源研究所專家蔣彤表示,果皮沒有想像的那麼「營養」,農藥也沒有想像的那麼「頑固」,只要好好清洗,削不削皮不必太介意。
2)英國倫敦大學國王學院發布的一項研究顯示,兒童如果經常不吃早餐,可能會導致每天攝入的關鍵營養物質達不到推薦水平,而這些營養物質與身體發育密切相關。
(編輯:西安知非/南京瀋陽 來源:新華、中新、央廣、騰訊、鳳凰網、東方財富網)
附v(1117字).2017年8月22日節日、農曆、星座、歷史名人和事件
導語:2017年8月22日是鄧小平誕辰,他是我們偉大的無產階級革命家、偉大的領導者、是他帶領著我們一步一步的走向新生活的道路。那麼2017年8月22日是的節日、星座、出生名人呢?關注秦隴紀10公眾號吧!
2017年8月22日節日
鄧小平誕辰紀念日
8月22日是陽曆年的第234天(閏年是235天),離一年的結束還有131天。
2017年8月22日的節日:俄羅斯國旗日、鄧小平誕辰紀念日。
2017年8月22日農曆06月(潤)25日
公曆:2017年8月22日(二零一七年八月廿二日)星期二
農曆:二〇一七年 七月小 初一日
回曆:1438年11月29日
幹支:丁酉年 戊申月 辛巳日
八字:丁酉 戊申 辛巳 戊子
五行:山下火 大驛土 白蠟金 霹靂火
生肖:屬雞
星座:獅子座
星宿:張宿(張月鹿)
值神:天德(黃道日)
衝煞:蛇日衝(乙亥)豬 煞東
2017年8月22日星座
獅子座(7月23日-8月22日)
8月22日出生的人性格:8月22日出生的人不論追求的想像空間、幻想或創造工作有多麼飄渺曠遠,也絕不會與生活、工作中的具體經驗脫節。出生於這一天的人從來都不會忘記幫助他們成長的根源,也充分了解自己的才幹,因此,他們十分瞧不起裝腔作勢的人,對那些因過度自負、息信而傷及自己與旁人的人,也頗不以為然。
8月22日出生名人
1647年——丹尼斯·帕平,法國發明家(壓力鍋、離心泵的發明者)
1760年——利奧十二世,羅馬教皇
1792年——龔自珍,清朝中後期著名思想家、文學家
1834年——塞繆爾·蘭利,美國航空先驅、天文學家、物理學家
1862年——克勞德·德彪西,法國音樂家、「印象主義」音樂的鼻祖
1888年——杜月笙,上海黑幫老大
1904年——鄧小平,中國共產黨前領導人,改革開放總設計師
1934年——諾曼·施瓦茨科普夫,美國陸軍上將,中央司令部司令, 海灣戰爭多國部隊總司令。
1940年——施光南,人民音樂家,中國音樂家協會主席,代表作《月光下的鳳尾竹》《祝酒歌》
1952年——郝龍斌,現任臺北市長
1955年——劉家輝,香港藝人
1963年——多莉·艾莫絲,美國歌手、鋼琴家和詞曲作者
8月22日歷史大事件
1647年8月22日 法國發明家丹尼斯·帕平出生
1862年8月22日 法國作曲家德彪西誕辰
1868年8月22日 揚州教案發生
1880年8月22日 清政府籌辦水師學堂
1904年8月22日 鄧小平誕辰
1910年8月22日 《日韓合併條約》籤訂 朝鮮淪為日本的殖民地
1922年8月22日 愛爾蘭政府首腦麥可遭伏擊身亡
1922年8月22日 《共產黨宣言》中譯本問世
1926年8月22日 開明書店開業
1937年8月22日 中共中央舉行洛川會議
1948年8月22日 馮玉祥遇難
1954年8月22日 《解放臺灣聯合宣言》發表
1973年8月22日 基辛格出任國務卿
1990年8月22日 「亞運之光」盛大點火儀式在北京舉行
2001年8月22日 第二十一屆世界大學生運動會在北京舉行
歷史上的今天是鄧小平誕辰,他不僅是偉大的無產階級革命家,更是中國社會主義改革開放和現代化建設的總設計師者。
Appx.數據簡化DataSimp社區會議、譯文志願者(1090字)
當今信息社會之數據、信息、知識、理論越來越多,遠遠超越個人認知和學習的能力、時間、精力。我們必須行動起來,解決這個問題。主要方法是數據簡化(Data Simplification):簡化或減少知識、媒體和語義數據,應對大數據時代的數據爆炸、信息爆炸、知識爆炸,使信息、數據、知識越來越簡單,符合人與設備的正常能力。數據簡化2017年會議(DS2017)聚焦數據簡化技術等主題。數據簡化技術(Data Simplification technique),是對各類數據從採集、處理、存儲、閱讀、分析、邏輯、形式化等方面做簡化,應用於信息系統、大數據、自然語言處理、知識工程,數學統計,傳統結構化資料庫、機器學習技術、生物數據、信息管理系統、物理空間表徵與設計等領域。
希望大家關注公眾號「數據簡化DataSimp」、網站http://www.datasimp.org並投稿。所有論文應通過DataSimp論文投稿網站https://easychair.org/cfp/DS2017或會議網站http://cfp.datasimp.org/ds2017提交電子版(最好有PDF格式)。
Data Simplification / Sciences Public Accounts ——DataSimp@163.com, 2017.8.22Tue, Xi'an, Shaanxi, China.
LIFE
Life begins at the end of your comfort zone。 ——Neale Donald Walsch
THE DAY
The strength of purpose and the clarity of your vision,along with the tenacity to pursue it,is your underlying driver of success。 ——Ragy Tomas
主編:秦隴紀(bf80),IT科普者、數據簡化DataSimp新媒體、社區(www.DataSimp.org籌技術、期刊)創始人,研究方向:教育技術、大數據、人工智慧、知識工程,信息抽取、數據挖掘與簡化、知識庫構建。歡迎數據、智能、知識、語言處理等領域研究者加入「數據簡化DataSimp」社區;貢獻數據採集、處理、分析、簡化、應用各環節開原始碼。
【「數據簡化DataSimp」、「科學Sciences」公眾號希望聚集各專業領域一線研究員;研究時也傳播知識、專業視角解釋和普及科學現象和原理,展現科學的自然社會生活面;並在知識爆炸、信息爆炸的時代,做相應的力所能及的簡化工作。公眾號由秦隴紀發起,目前參與者約十人,尚未覆蓋各領域科普及簡化;空閒時間有限,導致只能每周發布一篇文章。期待大家參與~】
「數據簡化DataSimp」社區志願者要求:①設計黑白靜態和三彩色動態社區S圈型LOGO圖標;②翻譯美歐數據科學技術論文,IT大數據、人工智慧、編程開發技術文章;③至少投一篇高質量原創,正式成為數據簡化DataSimp社區貢獻者。
投稿、加入數據簡化DataSimp社區,請在公號留言,或加微信QinlongGEcai(請備註:姓名-單位-職務-手機號)。社區籌備詳情,請訪問www.datasimp.org,或閱讀公號文章:數據簡化DataSimp社區及學會簡介。
長按下圖「識別圖中二維碼」關注技術類微信公眾號:數據簡化DataSimp(搜名稱也行),文章分類頁連結。
關注新開公眾號:知識簡化(搜名稱也行),文章分類頁連結。
關注科普公眾號:科學Sciences(搜名稱也行),文章分類頁連結。
(秦隴紀10數據簡化DataSimp彙編,歡迎志於數據簡化之傳媒、技術的夥伴加入全球「數據簡化DataSimp」社區!轉載出處:秦隴紀10數據簡化DataSimp公號「數據簡化DataSimp、科學Sciences」匯譯編,投稿郵箱DataSimp@163.com)
普及科學知識,歡迎分享到您的朋友圈