如何打造高質量的NLP數據集

2021-02-18 機器學習算法與自然語言處理

轉載自 | 夕小瑤的賣萌屋

今天發燒睡了一天T^T,睡醒後突然想起這個都快涼透的訂閱號,刷了刷知乎,刷到了這個問題

知乎:如何打造高質量的機器學習數據集? 
https://www.zhihu.com/question/333074061/answer/773825458

於是就有了暖暖賣萌屋的衝動( ̄∇ ̄)

無論是做研究還是解決業務問題,做數據集都是繞不開的問題。很多剛入行的同學覺得發布一個數據集是最容易灌水的了,燃鵝如果你真的做過就會發現,隨意產生一個數據集很容易,但是若以解決實際問題或讓大家能在上面磕鹽玩耍為目的,來產生一個能用的、質量高的、難度適中的數據集一點都不容易,超級費時費腦子甚至費錢好不好(╯°□°)╯︵┻━┻

雖然並沒有刻意的研究數據集該怎麼做,不過因為項目或研究需要,已經被趕鴨子上架的做了近10個數據集了,不過只是在問答、對話和一些分類問題上做過,所以像私信箱裡「如何構建知識圖譜」這類問題就請放過小夕吧╮( ̄▽ ̄」」)╭

由於沒有很刻意的研究過這個問題,所以就分享幾個個人覺得比較重要的點吧,分別是

什麼是高質量

基本工具

數據與標籤來源

適可而止的預處理

驗證可用性,儘早構造數據集迭代閉環

關於複雜NLP任務

什麼是高質量

剛入坑的一些小夥伴可能會以為「高質量」=「超級乾淨」,於是為了追求「高質量」而瘋狂的預處理,最後哭了╮(╯▽╰)╭。

做數據集一般有兩種動機。一種是為了research,也就是為了造福廣大研究人員以及推動領域的進步;

不得不說SQuAD的發布對NLP這一波研究熱潮的推動作用還是蠻大的

另一種,就是為了使用數據驅動的方法來優化業務指標,或解決項目中實實在在存在的問題。

這兩個看似不太相關的目的背後對「高質量」的定義確是非常相近的,那就是:解決問題!

只不過,對後一種目的來說,問題一般來源於線上系統

一般來說,在做數據集之前一般已經存在一套系統了(為了讓系統冷啟動,一般先開發一套規則驅動的系統),系統上線後自然會產生日誌,分析其中的badcase便可以知道哪些問題是現有系統搞不定的,這些問題就可以考慮使用數據驅動的方法來解決,於是需要做數據集了。而解決這些問題就是你做數據集的第一目標啦。

而對於前一種目的來說,問題一般來源於學術界的研究現狀

現階段的NLP研究多為數據驅動的,甚至說數據集驅動的。雖然這不是一個好現象,不過也不得不承認很大程度上推動了NLP的發展和研究熱潮。當現有的數據集無法cover領域痛點,或無法發揮數學工具潛力,或已經被解決掉的時候,就需要一個新的數據集,更確切的說是新的benchmark了。

換句話說,還有哪些問題是行業痛點問題?或可以進一步挖掘現階段數學工具的潛力?或現有數學工具的現發展階段還沒法很好的解決該問題?這應該是做一個高質量數據集前首先要考慮的問題。

想想2015年的SNLI[1]、2016年的SQuAD[2]、2018年的GLUE[3], CoQA[4],再到如今的SuperGLUE[5], MRQA(https://mrqa.github.io),都是問題驅動的,當現有數據集不足以cover問題痛點或無法滿足數學工具潛力,或上一個問題已經被解決的差不多的時候,就會有新的數據集冒出來解決下一個痛點問題。

在明確要解決的問題後,數據集的質量也就保障了一半,剩下的一半就要看這個數據集怎麼做啦。這裡面最關鍵的問題是數據與標籤來源的選擇,以及預處理程度的把握。除此之外,迭代閉環的構建以及對複雜NLP任務的處理也會對問題解決的效率和質量產生非常重要的影響。下面開始依次介紹(~ ̄∇ ̄)-☆

基本工具

所謂工欲善其事必先利其器,只要不是太著急,在做數據集之前先掌握一些好用的工具和tricks,可以大大減少無謂的重複和低效勞動,提高迭代效率。

github
寫爬蟲和清洗最原始數據之前先在github找一下

正則表達式
文本清洗利器,不解釋

Hadoop/Spark
千萬級以上的語料就別去為難你的小伺服器了

vim
分析樣本專用。數據集只有幾萬或一二十萬的話,vim性能一般還是夠用的,不過默認的vim配置是比較雞肋和反人類的,需要事先熟悉和配置好。要是跟vim過不去,其他帶正則搜索和高亮顯示的性能別太差的編輯器也ok

awk,grep,cut,wc等命令行工具

分析樣本專用。數據集大了,你的vim就罷工了,當然你要是跟這些命令過不去也可以在ipython裡玩,只不過寫代碼效率更低,而且分析結果保存起來更麻煩一些,再就是別來open(file).readlines()這種神操作就好

ipython + screen/tmux
在分析一些重要的數據集統計特性如樣本長度分布時,開個vim寫python腳本會很低效,數據集一大的話反覆IO更是讓人無法忍受的。因此開個ipython把數據集或採樣的一部分數據集load進內存裡,再進行各種分析會高效的多。
另外為了避免ssh斷開後從頭重來,可以把ipython掛在screen或者tmux窗口裡。當然啦,load進來的數據比較多時,記得時不時的del一下無用的中間結果,以免把伺服器內存撐爆。哦對,記得了解一些常用的magic命令如%save,可以很方便的對複雜操作進行備份。

數據與標籤來源

對數據集質量產生第二關鍵影響的就是數據和標籤來源的選擇了。其中數據可以通過人工構造、撰寫的方式來產生,也可以從網際網路上爬取或對公開數據集進行二次加工得到;標籤同樣可以人工標註,也可以遠程監督的方式來獲取。

人工構造和標註

最容易想到的方式就是數據和標籤都來源於人工啦( ̄∇ ̄)可惜小夕並沒有資金去眾包平臺上幫你們積累經驗(。 ́︿ ̀。)對於很多相對簡單的NLP任務,數據一般在網際網路上總能找到合適的,但是也有一些任務的數據很難在網際網路上接觸到,一般情況下只能人工精心構造(比如自然語言推理,任務型對話中的大部分子任務,分詞、NER、抽取等一些序列標註任務)。如果有小夥伴想系統的學習標註,小夕推薦一本之前在圖書館刷過一半的一本書,叫《Natural Language Annotation》,中文名貌似叫《自然語言標註:用於機器學習》。這本書寫的挺贊的,還因此懟過一次不太會標註的PM小姐姐(//∇//)\(希望她不會看我知乎hhhh

還好對於大部分nlp任務而言,基本都能從網際網路上找到合適的數據源,或在已有的公開數據集的基礎上加以改造就可以產生。

如果要自己爬,英文語料的話可以通過國外的twitter、quora、wiki、reddit等網站按需爬取甚至直接下載,官方提供的數據獲取腳本滿足不了需求的話可以在github上自己搜下,基本總能找到一些奇奇怪怪的第三方爬蟲繞過限制(emmm怎麼有種教別人犯罪的感覺)。如果目標數據是中文,當然國內也會有微博、貼吧、豆瓣、百度百科、知乎等網站坐等被爬啦。

當然啦,Twitter、微博、貼吧這類網站的缺點就是灌水內容太多,爬完記得去github找相應的預處理腳本瘦瘦身。注意別用那些太過浮誇的腳本,處理的太乾淨可能會有問題,後面會講原因噢~

講真,自己爬數據真是dirty work超級超級多,尤其是你要爬的數據量灰常大或者去爬一些不那麼主流的網站的時候!所以小夕更加推薦的還是先從現有的數據集想辦法啦,拿來現成的然後一頓改改改絕對可以省不少力!

其實很多數據集都是這樣「偷懶」做成的,比如早期Socher把只有1萬樣本的情感分類數據集MR[16]用parser將MR裡的句子給分解為短語、子句等,再分別標註,於是就變成了20多萬樣本量、多粒度的SST[17]╮( ̄▽ ̄」」)╭最近也恰好刷到一篇做文本風格控制的paper[18],同樣也是用了parser,將Yelp情感分類數據集[19]拆解後瘋狂加工,變成了結構->文本的風格化文本生成數據集(parser真是個造數據集的好東西)。總之,玩過一次就知道,改比爬方便多啦╮(╯▽╰)╭

遠程監督

在打標籤方面,最容易想到的當然還是花錢眾包,不用說了,下一個方法。

更加經濟可用的方法就是遠程監督了,這方面的可玩性就非常大啦,腦洞有多大,標註質量就會有多高!

做好遠程監督的前提就是提一個靠譜的假設,比如「給定一個query-answer pair,如果answer string在搜尋引擎召回的某document出現,那麼該document可以回答該query」,於是有了機器閱讀理解數據集TriviaQA[6]、searchQA[7];再比如「一條Twitter中包含的emoji可以反映這條Twitter的(細粒度)情感」,於是有了情感分類數據集TwitterSentiment[8]和情感可控對話生成數據集Mojitalk[9]。

如果不放心的話,自己採樣一些樣本,粗略統計一下你提出的假設成立的樣本佔比,只要大部分情況下成立就是有希望的,而後再對假設增加一些細節性的約束(比如TriviaQA裡的answer必須在doc中高頻出現;mojitalk裡的帶多媒體信息的Twitter直接丟掉,多emoji時只看最高頻的emoji等),在一個靠譜的假設下,經過幾番小迭代往往就可以一個能用的數據集啦。

總之,玩好遠程監督也就是要掌握逆向思維,忘掉「標註」這個詞,把思維改成「握著標籤找數據「

好啦,先休息五秒,你懂滴(↓ ̄∇ ̄)↓

適可而止的預處理

其實在做數據集這個事情上,有「潔癖」並不是一件好事,尤其是當語料的lexical diversity & semantic richness比較強的時候,一條看似讓數據集更乾淨的正則表達式很可能

沙雕了一些跟類別標籤相關的有效模式,導致一些本來成立的X->Y的映射關係因此消失了

減少了模型對抗噪聲的學習機會,你無法消除所有噪聲,但是卻消除了很多模型識別噪聲適應噪聲的學習機會

這方面小夕一把辛酸淚呀,曾經花了半下午時間寫了幾十條清洗規則,結果model更難收斂以及開發集表現更差了。最終發現數據量和模型都不是太小的情況下,遵從最少預處理原則一般就夠了,除了一些常規操作(比如濾掉HTML標籤、URL、脫敏、去重、截斷等),小夕一般只對如下情況進行處理:

導致了「標籤洩漏」,這種情況容易發生在任務簡單、標籤典型的場合,數據源比較多時尤其容易踩坑。比如你任務的目標是讓模型通過文本語義判斷情感,那就不要對emoji、顏文字手下留情了,嚴格控制它們在數據集中的比例。

導致了樣本過長,比如連續100個相同的emoji、哈、啊等

樣本中出現了預留的功能詞(比如BERT中的[UNK],[PAD],[CLS],[SEP]之類的)

當然,如果你的數據集是生成任務相關,記得濾掉黃反內容=,=。對於一些高頻錯別字,一堆點點點之類的讓你覺得dirty的東西,沒特殊需求的話就放過它們吧。。。(真想徹底消除它們的話就換數據源啊喂,不要妄想以一人之力對抗廣大人民群眾產生的辣雞!!)

驗證可用性,儘早構造數據集迭代閉環

無論是人工標註的還是遠程監督標註的,數據集看起來做好了不代表就是可用的,如果標註的噪聲太大或者標籤邊界太過模糊(大量標註錯誤,或標註規則寫的太松、太模糊,導致人都分不清某幾個類別之間的區別),很可能再複雜的模型都在這份數據集上無法收斂;反之,如果數據集中有「標籤洩漏」(比如你用emoji遠程監督構造了情感分類數據集,最後卻忘了濾掉emoji)或標籤與內容有非常直接的映射關係(類別太過具體或標註規則寫的太死),那就會導致一個非常簡單的模型都會輕易的把這個數據集刷到近乎滿分,那這個模型學到的知識基本是沒有什麼實際意義的,換言之,這麼簡單直接的任務其實幾條規則幾行代碼就搞定了,完全沒必要做數據驅動的模型訓練。

因此絕對不要抱著將數據集一次做成的心態,而是要儘早構造一個「生成數據集->跑baseline->badcase study->更新策略->重新生成數據集」的閉環。注意,baseline別選的太麻煩(那種對各種超參敏感的模型還是算了吧),最好是已被普遍驗證有效的、有開原始碼的、上手輕鬆的、基本不用調參就效果還可以的模型(比如BERT系列)。

這裡要注意側重點,在迭代的早期,讓baseline能在你的數據集上正常收斂是第一目標,中期則是關注baseline在開發集上的表現,表現太好要留意標籤洩漏或數據洩漏(X中出現了Y,或忘記去重),表現太差調調參,後期則是更多關注badcase了,看看badcase中更多的是樣本問題(標註噪聲)還是真的模型能力不夠。

關於複雜NLP任務

當然啦,上面其實都說的比較寬泛,其實在不同的NLP問題上做數據集可能會很不一樣。像一些簡單NLP任務如文本分類等基於上面的基本原則就差不多了,但是一些複雜NLP任務如任務型對話、知識圖譜相關,哪怕完全人工產生和標註都不好做的。

比如任務型對話相關的數據集,很難使用遠程監督這種偷懶的方式來構造,樣本和標籤的產生可能都很難脫離人力標註。有興趣的小夥伴可以參考MultiWOZ[10]這個數據集(cover了DST、act-to-text generation和context-to-text generation這三個任務型對話中的子任務)的paper,裡面對machine-machine(如M2M[11])、machine-human(如DSTC系列[12][13][14])、human-human(如ATIS[15],WOZ系列[10])這三種協同構造任務型對話數據集的方式總結的很到位,會讓你感受到產出一個高質量的任務完成型對話數據集是一個很有挑戰的工作,自己從頭摸索的話可能到頭來只會收穫一臉懵逼╮( ̄▽ ̄」」)╭

所以面對一些比較複雜的NLP任務的時候,一定一定要記得先精讀一下最新最權威的數據集的paper,這類數據集的構建經驗可能整個微信和知乎也找不到幾篇的噢╮(╯▽╰)╭

參考文獻

[1] Bowman S R, Angeli G, Potts C, et al. A large annotated corpus for learning natural language inference[J]. arXiv preprint arXiv:1508.05326, 2015.

[2] Rajpurkar P, Zhang J, Lopyrev K, et al. Squad: 100,000+ questions for machine comprehension of text[J]. arXiv preprint arXiv:1606.05250, 2016.
[3] Wang A, Singh A, Michael J, et al. Glue: A multi-task benchmark and analysis platform for natural language understanding[J]. arXiv preprint arXiv:1804.07461, 2018.
[4] Reddy S, Chen D, Manning C D. Coqa: A conversational question answering challenge[J]. Transactions of the Association for Computational Linguistics, 2019, 7: 249-266.
[5] Wang A, Pruksachatkun Y, Nangia N, et al. Superglue: A stickier benchmark for general-purpose language understanding systems[J]. arXiv preprint arXiv:1905.00537, 2019.
[6] Joshi M, Choi E, Weld D S, et al. Triviaqa: A large scale distantly supervised challenge dataset for reading comprehension[J]. arXiv preprint arXiv:1705.03551, 2017.
[7] Dunn M, Sagun L, Higgins M, et al. Searchqa: A new q&a dataset augmented with context from a search engine[J]. arXiv preprint arXiv:1704.05179, 2017.
[8] Go A, Bhayani R, Huang L. Twitter sentiment classification using distant supervision[J]. CS224N Project Report, Stanford, 2009, 1(12): 2009.
[9] Zhou X, Wang W Y. Mojitalk: Generating emotional responses at scale[J]. arXiv preprint arXiv:1711.04090, 2017.
[10] Budzianowski P, Wen T H, Tseng B H, et al. Multiwoz-a large-scale multi-domain wizard-of-oz dataset for task-oriented dialogue modelling[J]. arXiv preprint arXiv:1810.00278, 2018.
[11] P Shah, D Hakkani-Tur, G Tur, A Rastogi, A Bapna, N Nayak, and L Heck. 2018. Building a conversational agent overnight with dialogue self-play. arXiv preprint arXiv:1801.04871.
[12] Jason Williams, Antoine Raux, Deepak Ramachan- dran, and Alan Black. 2013. The dialog state track- ing challenge. In Proceedings of the SIGDIAL 2013 Conference, pages 404–413.
[13] M. Henderson, B. Thomson, and S. J. Young. 2014b. Word-based Dialog State Tracking with Recurrent Neural Networks. In Proceedings of SIGdial.
[14] Matthew Henderson, Blaise Thomson, and Jason D Williams. 2014c. The third dialog state tracking challenge. In Spoken Language Technology Work- shop (SLT), 2014 IEEE, pages 324–329. IEEE.
[15] Charles T Hemphill, John J Godfrey, and George R Doddington. 1990. The atis spoken language sys- tems pilot corpus. In Speech and Natural Language: Proceedings of a Workshop Held at Hidden Valley, Pennsylvania
[16] B. Pang, L. Lee. 2005. Seeing stars: Exploiting class relationships for sentiment categorization with re- spect to rating scales. In Proceedings of ACL 2005.
[17] R. Socher, A. Perelygin, J. Wu, J. Chuang, C. Manning, A. Ng, C. Potts. 2013. Recursive Deep Models for Semantic Compositionality Over a Sentiment Tree- bank. In Proceedings of EMNLP 2013.
[18] Oraby S, Harrison V, Ebrahimi A, et al. Curate and Generate: A Corpus and Method for Joint Control of Semantics and Style in Neural NLG[J]. arXiv preprint arXiv:1906.01334, 2019.
[19] Zhang X, Zhao J, LeCun Y. Character-level convolutional networks for text classification[C]//Advances in neural information processing systems. 2015: 649-657.

下載1:四件套

在機器學習算法與自然語言處理公眾號後臺回復「四件套」

即可獲取學習TensorFlow,Pytorch,機器學習,深度學習四件套!


下載2:倉庫地址共享

在機器學習算法與自然語言處理公眾號後臺回復「代碼」

即可獲取195篇NAACL+295篇ACL2019有代碼開源的論文。開源地址如下:https://github.com/yizhen20133868/NLP-Conferences-Code

重磅!機器學習算法與自然語言處理交流群已正式成立

群內有大量資源,歡迎大家進群學習!

額外贈送福利資源!深度學習與神經網絡,pytorch官方中文教程,利用Python進行數據分析,機器學習學習筆記,pandas官方文檔中文版,effective java(中文版)等20項福利資源

獲取方式:進入群後點開群公告即可領取下載連結

注意:請大家添加時修改備註為 [學校/公司 + 姓名 + 方向]

例如 —— 哈工大+張三+對話系統。

號主,微商請自覺繞道。謝謝!

推薦閱讀:

Tensorflow 的 NCE-Loss 的實現和 word2vec

多模態深度學習綜述:網絡結構設計和模態融合方法匯總

awesome-adversarial-machine-learning資源列表

相關焦點

  • 自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文
    項目地址:https://github.com/sebastianruder/NLP-progress參考博客:http://ruder.io/tracking-progress-nlp/目錄(任務和對應數據集)1.CCG 超級標記CCGBank2.分塊Penn Treebank3.選區解析
  • 復旦邱錫鵬教授:2020最新NLP預訓練模型綜述
    例如nlp中的log-linear、CRF模型等,cv中各種抽取特徵的模型,如sift特徵等。深度學習中本質上是一種表示學習,能夠一定程度上避免手動的特徵工程。 究其原因,主要得益於深度學習中一系列很強大的特徵提取器,如CNN、RNN、Transformer等,這些特徵提取器能夠有效地捕獲原始輸入數據中所蘊含的特點和規律。
  • 打造大數據名片 助推產業高質量發展
    如何實時管理上百甚至數千個設備?怎樣把數據變成經濟?在中山市火炬開發區德寶怡高·創新創意綜合城,東方國信(中山)信息技術有限公司(以下簡稱「東方國信中山公司」)的展廳顯示屏幕上,展示出「數據+網際網路」助力工業發展的最新成果。
  • NLP中的預處理:使用python進行文本歸一化
    最後,如果正確完成,歸一化對於從自然語言輸入中可靠地提取統計數據非常重要-就像在其他領域(例如時間序列分析)一樣,歸一化是NLP數據科學家/分析師/工程師手中重要的一步。我們歸一化的對象是什麼?這是一個重要的問題。
  • 鹽城大數據產業:聚焦高質量實現「加速跑」
    園區堅持聚焦產業核心、重抓項目主責,全面實施「重大項目突破年」和「發展效應提升年」活動,推動鹽城大數據產業聚焦高質量發展實現「加速跑」。  創新平臺追求高質量  「當前,在中央和省市的高度重視下,大數據、雲計算產業已迎來發展的黃金期,我們城南新區將集中精力、集成資源、集聚要素,全速打造國家級大數據產業基地,實現數據資源高地、數據應用項目高地、數據載體平臺高地,為推動鹽城高質量發展添磚加瓦。」
  • 「四經普」高質量數據促進山東高質量發展
    支撐精準決策需要高質量的數據。新舊動能轉換、推進高質量發展的山東,需要一次「摸清家底」的經濟普查。 根據國家第四次經濟普查數據並經國家統計局反饋,山東2018年生產總值修訂為66649億元,比初步核算數減少9821億元,總量下調12.8%,修訂後,經濟總量仍居全國第3位。 「不唯GDP不是不要GDP」。
  • 復旦邱錫鵬團隊最新成果fastHan:基於BERT的中文NLP集成工具
    項目地址:https://github.com/fastnlp/fastHan安裝fastHan 的安裝非常簡便。模型的 POS、Parsing 任務均使用 CTB 標籤集。NER 使用 msra 標籤集。正如上圖所示,模型基礎的使用流程非常簡單。此外,模型還可調整分詞風格、切換設備。調整分詞風格模型在 13 個語料庫中進行訓練,其中包含 10 個分詞語料庫。
  • 滿分論文FineGym:面向細粒度動作分析的高質量數據集與現有方法分析
    原有的工作一般都是面向粗粒度的動作識別與分析,在許多現有數據集上相關研究已經遇到了瓶頸。我們這篇工作則獨樹一幟,提出了一個大規模、高質量、層級化標註的細粒度人體動作數據集:FineGym。 在這一數據集上,我們對現有的各類動作識別方法從多個層級多個角度進行了分析,得了很多有趣的結果,對領域一些固有結論產生了挑戰,也為未來的研究帶來了一些啟發。
  • 智能家居的突圍:什麼樣的NLP數據讓語音交互更智慧
    場景化AI數據成NLP技術落地核心需求事實上,越來越多的智能家居企業已經意識到了高質量NLP數據的重要性,並對AI技術和NLP數據提出了更高的要求。因此,在AI產業蓬勃發展、市場競爭愈發激烈的倒逼下,符合企業需求的高標準NLP數據服務已成為行業頭部企業的剛需。以智能家居領域頭部AI數據服務商雲測數據的「場景化」服務模式為例,其專精於場景化、高質量數據服務模式,正契合當下智能家居「大規模、小場景」的落地趨勢。
  • 當下NLP 研究最棘手的 4 個問題
    針對常識性知識的推斷已經成為近期 NLP 數據集的研究熱點。體驗式學習Stephan 認為我們應該利用好結構化資源和知識庫中的信息(比如維基數據),他指出,人類通過體驗和互動來學習一門語言,主要體現在具體的環境當中。
  • ...努力打造全省高質量發展更具帶動力的火車頭|奮力開創百姓富...
    貴州省委常委、貴陽市委書記、貴安新區黨工委書記趙德明全會提出大力實施「強省會」五年行動,更加突出了貴陽貴安在全省發展全局中的龍頭地位和引領作用,賦予了貴陽貴安在奮力開創貴州高質量發展新局面中的重大責任和使命,體現了省委對貴陽貴安的殷切期望和大力支持,是對我們的巨大鼓舞和極大鞭策。
  • NLP四大開放性問題詳解
    程序合成(Program synthesis)Omoju認為,只要我們不了解自然語言理解背後的機制和如何評估這些機制,就很難將理解納入其中。她認為,我們可能希望從program synthesis中獲取想法,並自動學習基於高級規範的程序。
  • 亮風臺推出全球最大單目標跟蹤數據集 LaSOT | CVPR 2019
    接下來,雷鋒網 AI 科技評論將為大家介紹亮風臺在 CVPR 2019 上展示的大規模單目標跟蹤高質量數據集 LaSOT,這一數據集包含超過 352 萬幀手工標註的圖片和 1400 個視頻,這也是目前為止最大的擁有密集標註的單目標跟蹤數據集。
  • 資源 | 100+個自然語言處理數據集大放送,再不愁找不到數據!
    (200KB)http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/《南方公園》數據集:csv格式文件,包含季、集、角色和臺詞的劇本信息。該數據集提供了醜聞發生的這段時間裡Twitter上的輿情,以便評估公眾對整個事件的感受。
  • 數字經濟為老城高質量發展插上騰飛翅膀
    項目圍繞洛陽中原城市群副中心城市定位,結合打造國際人文交往中心的現實需求和城市發展戰略,就國內城市如何深度融入「數字絲綢之路」建設進行深入探討,助力洛陽市和老城區更好地實現城市發展新舊動能轉換。項目圍繞洛陽中原城市群副中心城市定位,結合打造國際人文交往中心的現實需求和城市發展戰略,就國內城市如何深度融入「數字絲綢之路」建設進行深入探討,助力洛陽市和老城區更好地實現城市發展新舊動能轉換。  「一帶一路」文化數貿港項目的啟動,同步開啟了老城區數字經濟發展的新紀元。
  • 大數據時代如何打造爆款紀錄片?
    愛奇藝獨播紀錄片《生門》海報那麼愛奇藝打造出這麼多「爆款」紀錄片的秘訣到底是什麼呢?讓我們對話愛奇藝紀錄片中心總監寧玉琪。寧玉琪:愛奇藝的劇和綜藝在市場上一直處於領先地位,通過這種整個平臺體系的領先,我們掌握了精準的用戶數據和用戶畫像,所以內容團隊根據收入、流量維度裡相關題材的歷史表現,可以判斷出大概的一個市場趨勢。如果說我們完全能夠掌握爆款方向,其實是很難,但我們基本上可以判斷出某些題材,加上怎樣的故事構架、創作團隊,以及對標用戶喜好或者用戶類型。
  • 央視紀錄片《大數據時代》:數據時代,聚焦未來!
    《大數據時代》以客觀呈現為敘事準則,該片將以大數據時代來臨為背景,以真實技術應用場景為取材對象,用紀錄片的藝術形式展現科技魅力,以輕鬆活潑的表現方式,細緻而生動地講述了大數據技術在政府治理、民生服務、數據安全、工業轉型、未來生活等方面帶來的改變和影響,以宏大的國際視野,探討中國大數據技術和應用創新。同時,這是我國近年來拍攝的首部全面展現大數據產業發展的大型科技紀錄片。
  • 【如何推動證券行業高質量發展 中證協安青松提出四個「必須...
    2020-12-02 15:25:34來源:FX168 【如何推動證券行業高質量發展 中證協安青松提出四個「必須」】中國證券業協會黨委書記、執行副會長安青松表示,打造一個規範、透明、開放、有活力、有韌性的資本市場,必須建設高質量的投資銀行和財富管理機構,沒有高質量發展的投資銀行,就沒有成熟發達的資本市場。
  • 四川海螺溝攜手四大成渝5A景區打造高質量旅遊度假目的地集群
    活動當天,還舉行了第二屆海螺溝溫泉康養發展大會暨成渝雙城經濟圈5A景區聯動協作啟動儀式,與會人員就如何深化發展溫泉康養產業以及川渝5A景區如何建成高質量度假旅遊目的地進行了充分的溝通交流。會議顯示,以海螺溝為代表的甘孜州溫泉旅遊產業地熱資源優越、旅遊產品豐富、市場前景向好、發展空間巨大,應著力打造國際溫泉度假旅遊目的地。
  • 教程| 如何構建自定義人臉識別數據集
    但是,要想訓練出能夠識別圖像或視頻流中人臉的模型,我們首先得收集人臉圖像的數據集。如果你使用的是「Labeled Faces in the Wild」(LFW)這樣預先準備好的數據集,那麼你可以不用進行這項困難的工作了。你可以使用我們下一篇博文中的方法創建自己的人臉識別應用。