達觀數據:文字的起源與文本挖掘的前世今生

2020-12-04 百家號

人類的文明,始於文字誕生。

100萬年前,古猿進化成人類。50萬年前,人類學會使用火。5000年前,人類發明文字。

文明並非從天而降,人類從蒙昧、野蠻步入文明,是個漫長而坎坷的過程。遠古智人和禽獸並沒有什麼區別,和動物一樣,只有一種把信息傳遞下去的方式:基因。

文字誕生後,人類學會用字把信息保存下來,才逐漸脫離了動物狀態。人們開始了解歷史不同時期所發生的事。歷史是前人走過的道路,了解來路,人才知道接下來該往哪裡去,不至於在原地踏步。

文字,是一切的載體。

有史以來發現最早的人類文字:庫辛石板,始於財務記錄。

最早出現的文字共有四種:楔形文字、聖書文、瑪雅文、甲骨文。

公元前2500年,西亞地區的居民們開始用蘆葦稈在泥板上寫字,因書寫的痕跡形狀像楔子,後人稱為楔形文字。

「庫辛石板」被認為是迄今人類文明最早發現的文字,它由楔形文字刻寫:290086單位大麥37個月庫存庫辛。現代翻譯為「在37個月間,總共收到29086單位的大麥,由庫辛籤核」。

人類最早留下來的文字,既不是詩歌,也不是法律、佔卜和宗教內容,而是枯燥的財務借貸帳本。

這和人類的大腦構造有關,人腦偏向於記憶圖像、路線,卻天生不擅長記憶數字。做交易時,數量一旦超出記憶範圍,古人類就用土塊記錄,現代更多依靠計算機來實現。

庫辛石板

在距今5400年前的兩河流域,蘇美爾人寫在泥板上的一段財務紀錄,穿越了亙古漫長的歷史,成為當今文明的見證。

漢謨拉比法典,現代法律文本的起源。

自從數字出現,便有了借貸關係。當交易出現糾紛時,怎麼辦呢?

在第一部成文法典:《漢謨拉比法典》中,人們便有了規訓和準則。

這部人類文明最早的法律,共3500行條例,其中大多是條例法:「打自己父親的人,要被砍斷雙手」,「打掉同等地位者牙齒的人,將會被敲掉牙齒」。

「以眼還眼,以牙還牙」的價值觀在聖經舊約中也有體現。

這部法律文本的起源,由楔形文字寫作。至今還印在許多教科書的封面上。

漢謨拉比法典

漢謨拉比王

甲骨文是中國最早的象形文字,漢字的演變是由繁至簡的過程。

楔形文字在古西亞地區廣泛使用,象形文字則發源於埃及。

象形文字即刻畫動物形態,聖書文、瑪雅文、甲骨文都是象形文字。

甲骨文,早期的象形文字

甲骨文因篆刻於龜甲和獸骨上而得名,發掘於公元前1600年的殷商時期。它以象形手法描述事物,歷經千年演化,漢字就成為了人類史上最早誕生的文字中,唯一沒有消亡的文字,也是迄今為止唯一在使用的象形文字。

歷經悠長歲月,漢字是如何演變的呢?

「達觀」在不同年代的不同寫法

中國文明源遠流長,一脈相承,與漢字的進化也離不開。

隨著時代的變遷和語言的豐富,漢字的筆畫也逐漸減少,記錄文明的方式越是簡單,文明的發展也就越快。

古代中國領先世界,除卻地大物博,物產豐富,更是文明的先進。造紙術在公元1世紀就已發明,一千年前後才傳播到歐洲。自漢代「絲綢之路」開闢,文化交流與融合,繼有盛唐萬國來朝,海晏河清的繁華景象。

李白曾頌長安「萬國同風共一時,錦江何謝曲江池。」鮮為人知的是,李白不僅是個詩人,還是位翻譯。唐時渤海國來朝,使者呈書,字體非草非隸,跡異形奇,滿朝文武均不識得。為難間,玄宗想到李白,李白果然認識,宣誦如流,玄宗大悅。

羅塞塔石碑,是最早的「破譯機」,是人類跨越語言障礙的象徵。

翻譯是文化交流的重要的橋梁。《聖經·舊約》記載,人類曾有聯合起來、建造通往天堂的巴別塔的宏願。為阻止人類的計劃,上帝讓人類說不同的語言,使人類之間不能相互溝通。不同語言的隔閡給人類交流帶來許多障礙。

最早的「破譯機」是公元前196年,古埃及國王託勒密的登基詔書。它同時由古埃及文、希臘文、聖書文記錄,刻在黑色大理石上,後世人稱為「羅塞塔石碑」

羅塞塔石碑

羅塞塔石碑,是人類跨越語言障礙的象徵。石碑上的對照文本為後人成功破譯這三種語言發揮了巨大價值。翻譯也逐漸從交流工具變成一門藝術。

時至今日,計算機也可以做一些簡單的翻譯工作,但機器翻譯仍是世界難題。

有人說,機翻遠不如人工翻譯來的準確,更遑論「信、達、雅」。

一項新發明是需要時間來驗證的。蒸汽船剛出現的時候,速度比不上精製的帆船,汽車也跑不過馬車,計算機剛誕生的時候,是幾十噸重的龐然大物。新技術是通過不斷的升級迭代,改進人類的生活。

文字語義理解四代的發展歷程。

古人類主動使用文字,就像是使用火,為文明帶來了光與熱。

30年前,人類進入計算機時代。當下,我們活在網際網路時代,對文字的處理,已由人工進化到了計算機。文字由筆畫精簡、語義漸豐到可用代碼破譯。

現在計算機做文字處理,是先認識字詞、句子,通過字詞>語句>篇章三級結構,來進行文字語義分析。

文字語義分析技術的升級有四代進程:

第一代技術(1950s):符號主義,用計算機的符號操作來模擬人的認知過程。

第二代技術(1970s):語法規則,依賴於專家人工制定的語法規則和本體設計(ontological design)。

第三代技術(1990s):統計學習,即讓計算機閱讀大量文章。

第四代技術(2010s):深度學習,用一個複雜的模型像人腦神經網絡一樣運作。

符號主義

統計學習

深度學習

用詞向量(Word2Vec)技術來獲取相關詞彙。

我們以《全唐詩》為例,來看計算機是如何對文字進行處理。

分析了《全唐詩》5萬多首,我們發現,均每5首詩裡有3.9首有「人」,充分體現了唐詩的以人為本。

季節方面,「春」的出現比「冬」多得多,出現顏色最高頻率是白色,其次是綠和黃。

唐詩的出現的情緒詞:77%是悲,17%是思。剩下情緒都是打醬油的存在。

其中悲、思的情感,在唐詩中有許多的替代詞。

漢語中很多詞都有替代詞,其中替代詞最多的,是「我」,有超過一千多種表達方式。

寡人、洒家、奴家、老夫、咱、俺、朕,怎麼讓計算機去理解不同的「我」的意思?

這裡用到的是word2vec技術。

通俗的說,是把詞映射成向量,轉換成意義相近的字,從而找到相同情緒的不同表達。再通過深度分析,判定唐詩裡的「悲」是「晨起動徵鐸,客行悲故鄉」,是「少壯不努力」,還是「商女不知亡國恨,隔江猶唱後庭花」。

這是計算機對唐詩的情感分析。今天,我們達觀可以把消費者對產品的評論進行分析:比如手機,消費者態度是滿意還是不滿意、是對電池不滿意,還是對拍攝效果不滿意?再針對產品的某個點、某個模塊做深入的情感分析,從而獲取消費者的態度傾向,更好的服務於消費者,這是達觀在做的事。

活字印刷和古騰堡印刷讓文字大範圍複製和傳播,「知識使人自由」。

「清明時節雨紛紛,路上行人慾斷魂。借問酒家何處有,牧童遙指杏花村。」清新雋永的詩句流傳至今,是得益於印刷技術的發明。

印刷術是中國古代四大發明之一,從雕版印刷到活字印刷,為知識傳播創造了條件。

真正使印刷術流行起來的,是18世紀的古騰堡印刷術,讓人類具備了大規模的文字傳播能力。

18世紀,歐洲籠罩在天主教的陰影之下。

當時的普通老百姓,是沒有資格閱讀聖經的。聖經的生產,要靠手工抄寫。抄寫需要大量抄書的人,培養抄書的人又需要大量的書,這就陷入了先有雞還是先有蛋的困境。

於是聖經只能由少數識字的人,謄寫在羊皮紙上,往往一本聖經冊子,就需要兩年的時間。因此稀少而珍貴,只有神父可以閱讀傳誦。於是,天主教擁有了對聖經的絕對解釋權,便通過宗教去控制人的思想。

印刷術發明後,紙質本的聖經大量傳播,普通人才可以閱讀。人們直接和上帝對話,並恍然大悟,擺脫了天主教思想上的洗腦控制,這也間接引發了馬丁路德的宗教改革,創立「新教」基督教。

約翰內斯·古騰堡

2005年,德國曾評選過歷史上最具影響的德國人,古騰堡排在第八,遠在愛因斯坦和鐵血宰相俾斯麥之前。

古騰堡印刷術大大加速了知識的傳播效率和範圍,保存下了人類許多珍貴的思想、故事、詩歌。摧毀了一個文化上封閉、技術上停滯不前的舊世紀,並帶來了歐洲中世紀思想啟蒙,唱響了「黑暗中世紀」的輓歌,使歐洲從蒙昧走向開化,大幅度加速了人類文明的進化速度。文化的先進促進了歐洲近現代在世界的霸主地位,這一切源於文字傳播的便捷。

無論對於人類總體或國家,知識的增加促進文明的發展,會給個體帶來更多的自由度。而文明的發展、知識的增加,又使人對人類自身的存在意義有更深的理解。某種角度上,文明即人類個體自由意識的發展史,知識的啟蒙和普及又推動文明的進程。

知識使人自由,擁有知識,就擁有了獲得自由的權利。人類文明璀璨如銀河,知識,即是宇宙中浩瀚的星海。人類對文字處理方式的升級迭代,恰如劃破寂寂長夜的流星,在茫茫宇宙中不過轉瞬即逝,卻照亮整片夜空。

相關焦點

  • 達觀數據乾貨分享丨情感分析架構演進
    達觀數據基於在自然語言處理、機器學習算法和文本挖掘領域的多年技術積累,融合文本標籤提取、文本分類和情感分析,打造了針對產品評論的觀念挖掘服務,幫助用戶從海量評論數據中提煉出核心觀點,從而對產品的真實情況一目了然。
  • 達觀數據乾貨分享:深度解析文本分類與標籤的應用價值和原理
    下圖就是通過達觀自然語言處理引擎,自動對一篇紅旗H7的車評文章(樣本http://car.bitauto.com/hongqih7/koubei/977900/)打上標籤和正負面類別。按照這種方式,我們分析更多篇車評,再對每篇車評分析結果進行一些統計和歸併,就得到下表的結果。
  • 科學看待前世今生/釋聖靜
    科學看待前世今生    作者:釋聖靜      從《物理》,以及《生物》《化學》,等綜合學科所新形成的《人類(動物)生命學》研究顯明,從人類有文字記載以來,對此研究,有兩大流派,特別是以研究世界本質的科學,人類的袓先們,從最初的自然樸素的社會形態的,出於動物本能的試探與簡單,出於自身能力與思維和智慧挖掘潛力的約束而產生的無奈,恐懼,因恐懼產生的,對強者,對一切不可能抗擊的人類原始「未覺醒的文明」的特定時期,從極其淺顯的認知(因為受人文生存與自然環境的影響!
  • 第四屆達觀杯 x CCKS算法大賽圓滿收官,激發知識圖譜實踐新思路
    本次大賽由中國中文信息學會語言與知識計算專業委員會主辦,達觀數據與同濟大學聯合組織。經過幾個月的激烈角逐,實力卓群的國家電網旗下國網信通產業集團從幾千名參賽選手中脫穎而出榮獲冠軍,並在第十四屆全國知識圖譜與語義計算大會(CCKS-2020)上進行方案分享,達觀數據副總裁王文廣為冠軍團隊頒發獎項。
  • 河南省安陽市英語教研員張瑞娟:初中英語教學設計的前世今生
    2020年4月4日,學習強國、央視頻和一起教育科技聯袂推出「數位化教育與未來」大講堂,邀請河南省安陽市初中英語教研員張瑞娟老師,分享初中英語教學設計的前世今生。    張瑞娟老師提到,教學設計是上好一堂課的基礎。
  • 達觀數據新經濟與人工智慧應用峰會在蓉舉辦,持續發力RPA新場景
    11月26日,人工智慧領軍企業達觀數據和成都市人工智慧協會在成都聯合主辦「數字經濟·智能領航新經濟與人工智慧應用峰會」。本次大會由天府新區管委會與成都市科學技術局指導支持,雲從科技和四川省大數據產業聯合會協辦,成都科技企業孵化器協會合作支持。
  • 前世今生來世輪迴的幾種可能
    今生只記得小時候玩過的玩具、被父母打、被鄰居的雞公跟著啄……,我們卻無法記得前世的任何事。所以,來分析一下,三生輪迴的幾種可能:1、如果人掛掉之後,會進入另外一個來世的輪迴世界,過奈何橋,喝孟婆湯,這一定是每個鬼都要強制喝的,不容選擇,這樣才符合今生記不得前世的事實。
  • 重磅 | 數據挖掘之父韓家煒:文本語料庫的數據挖掘(附視頻+PPT下載)
    授權轉載自公眾號數據派THU微信ID:DatapiTHU近期,美國伊利諾伊大學厄巴納香檳分校計算機科學Abel Bliss教授韓家煒在清華大學FIT樓多功能廳進行了關於文本語料庫數據挖掘的主題分享在數據挖掘、資料庫和信息網絡領域發表論文900餘篇。 以下為演講現場視頻:全文演講PPT如下:回復關鍵詞「hjw」,下載完整版PPT。
  • 讓青春為祖國綻放|陳運文 識文解字,啟航AI文本智能時代
    2020年,上海達觀數據(Data Grand)和這裡的工程師們已走進了更多企業的視野。步入大數據時代,他們以文本智能處理技術助力企業破浪前行。什麼是文本智能處理?即通過自然語言理解、自然語言生成、知識圖譜等人工智慧領域方面的技術,實現文本的自動抽取、審核、糾錯、搜索、寫作等功能。
  • 廖閱鵬:前世今生催眠曲,帶你夢回前世,總結今生!
    最近在最右上,看到了一則消息,許多人聽了廖閱鵬的前世今生催眠曲,都看到了自己的前世,我覺得很神奇,便趁著月黑風高之夜,孤身一人躲在被窩裡,悄悄的打開了喜馬拉雅收音機,點開了前世今生催眠曲,帶上耳機,準備一場穿越之旅。
  • 數據挖掘之文本分類技術,最詳細的原理解讀
    寫在前面的話:不要被技術嚇到哦 ,本文儘量寫的白話,致力為從事大數據的運營、諮詢規劃、需求以及想學習大數據的入門者提供知識分享@……@一、文本分類研究的背景 隨著網際網路的發展,非結構化的文本數據急劇增加,(對大數據特徵不夠理解的,參考:還不懂什麼是大數據?
  • 你相信前世今生嗎?
    你相信前世今生嗎?我不知道自己是不是真的相信,不過我想還是相信的成份多一些吧!那個網絡上流傳了很久的《前世今生催眠曲》我是最近才看到的,感覺很神奇,好多網友都說自己看到了前世!我也很想看一看自己的前世,記得在網易裡測過自己的前世,是一個嬪妃,也測過說是皇后,但我都當做是娛樂,只是這一次,我在心裡潛意識的希望我可以了解自己的前世。進行催眠最需要的是心靜,從昨天開始到今天,我試了很多次都沒能成功,因為我無法靜下心來。當聆聽著大師的指導和美妙的音樂時,我的頭腦中似乎有影像,但現實卻清晰地佔據著全部的心裡。漸漸地,模糊的影像也便消失了。
  • 催眠前世今生_啊漫老師:揭示你的夫妻關係
    前世今生,輪迴轉世,你是怎樣看呢?前世今生,有人信,有人不信。催眠中的前世今生,怎麼看?如果你相信前世輪迴之說,那這就是今生轉世之緣。如果你不是特別確定,催眠中的前世今生,實質上可以看成是發生在很久之前的事情(可能都忘記了),或者深埋潛意識的感受、記憶,以意象畫面的形式呈現出來。
  • 龍門浩老街裡外巷子 | 雕琢城市記憶的前世今生
    如今,龍門浩老街將裡外巷子重新規劃打造,分為了「青磚黛瓦尋前世」和「華燈異彩述今生」兩部分,不僅能讓大家重拾城市記憶,還能領略南岸的文化和溫度。青磚黛瓦尋前世裡外巷子的前半部分是以巴渝文化與開埠文化的歷史為主題,打造的城市記憶歷史館。
  • 專欄| NLP概述和文本自動分類算法詳解
    本文根據達觀數據聯合創始人張健的直播內容《NLP 概述及文本自動分類算法詳解》整理而成。 一、 NLP 概述 1.文本挖掘系統整體方案 達觀數據一直專注於文本語義,文本挖掘系統整體方案包含了 NLP 處理的各個環節,從處理的文本粒度上來分,可以分為篇章級應用、短串級應用和詞彙級應用。
  • 土星宮位看出你的前世和今生
    今生的你不願意再重蹈覆轍,因而痛改前非,抱持著「執著」的態度。即使遭遇到困難和挫折也絕不輕言放棄,頗具使命感。今生的你個性上一反前世,耐心相當好。第二類型者,土星二宮前世的你,豐衣足食,生活無慮,偶爾奢侈一時,悠遊度日,倒不成問題。但是,長久下來,縱使有金山銀山,也有用盡的一日。老年之後經濟狀況就很不好了。縱便想重新修正,奈何時光不再。這一份感慨延續到今生。
  • 數據挖掘領頭人韓家煒教授:如何從無結構文本到有用的知識?
    雷鋒網 AI 科技評論按:這幾日,對於許多數據挖掘領域的研究者來說,北京是一個關注的焦點,原因無他,作為數據挖掘領域的兩大頂會CIKM 2019和ICDM 2019相繼在北京召開,甚至連開會地點(國家會議中心)都沒有變化。
  • 文本挖掘從小白到精通(二):料庫和詞向量空間
    寫筆者最近在梳理自己的文本挖掘知識結構,藉助gensim、sklearn、keras等庫的文檔做了些擴充,會陸陸續續介紹文本向量化、tfidf、主題模型、word2vec,既會涉及理論,也會有詳細的代碼和案例進行講解,希望在梳理自身知識體系的同時也能對想學習文本挖掘的朋友有一點幫助,這是筆者寫該系列的初衷
  • 催眠:貪得無厭的前世,苦苦掙扎的今生
    ~01~今生她是一個18歲的小女孩,正面臨高考,發現自己內心有很多的悲苦擾亂她的心神無法安心讀書。所以她就突發奇想,想去看看她自己的前世,她認為或許看過了自己的前世,可以對今生的很多事情釋懷。因為是遠程催眠,為避免對她有什麼影響,所以就把她帶離前世。而前世她的離世,是在前線作戰時被敵軍發現後殺死的。
  • 凡人修仙傳仙界篇——南宮婉的前世今生
    南宮婉身世之謎在凡人修仙傳仙界篇一千三百章《輪迴之爭》中,輪迴殿主意圖利用六道輪迴盤迴復南宮婉前世記憶,那麼我們猜想一下, 南宮婉的前世今生。首先我們要說一下南宮婉今生的身份,是下界失落界面「靈界」附屬的人界飛升修士,主要功夫是輪迴素女功,是韓立的道侶。韓立飛升之後南宮婉留在靈界,而在九元觀遇到南宮婉以如霜的身份現身,而且好像完全不認識韓立一般,但是這個人確實是南宮婉,而現在她正在恢復前世記憶,那麼問題來了。問題一:甘如霜的正式身份是什麼?