搜狗拼音輸入法詞庫是怎樣煉成的

2020-12-05 太平洋電腦網

 

  眾所周知,搜狗輸入法在詞庫方面具有鮮明的特色,其詞庫不僅超大全面(大概有35萬左右),而且詞條質量也很高。隨著搜狗輸入法的不斷普及,越來越多的用戶體驗到了搜狗輸入法的超級流暢性,但是這樣的流暢性是以一個優秀的詞庫為基礎的。作為一個輸入法的核心部分,搜狗的超強詞庫是怎樣來的呢?下面和廣大關心搜狗輸入法的朋友們分享一下詞庫製作中的艱辛和快樂。

  搜狗的詞條來源

  詞彙是一切中文應用的基礎,但是世界上並沒有任何一個詞典包含了輸入法所需要的所有詞彙。比如中國漢語大辭典雖然包含了很多詞條,但是仍然缺乏很多比較新、比較具體的詞,網絡的新詞又層出不窮,所以搜狗輸入法必須自己想辦法構造一個適合他自己的詞庫。

  由於搜狗是一家搜尋引擎公司,自然會有一批自己做文本分析的詞庫,它包含了常用的基本詞彙和部分專業詞彙,但是在數量上還是遠遠不能覆蓋用戶對詞彙的需求空間。經過分析可知,這部分缺少的詞中有相當一部分是人名、地名、歌曲、小說、財經、旅遊、遊戲、體育等。幸運的是,搜狐矩陣蘊含著許多搜狗需要的這些資源,比如地名資源可以從go2map拿到,歌曲資源可以從搜狗的音樂搜索拿到,小說資源可以從搜狐網拿到,遊戲詞彙可以從17173遊戲網拿到……這些資源雖然是內部資源,但是當初也是編輯經過長時間大量的整理維護工作的結晶,並且這涉及到大量部門間的合作,每一個流程下來都會花許多精力。

  除了搜狐內部資源的整合,我們還為某些事件、場合特別整理了大量的詞表。比如在世界盃期間,我們的編輯整理了幾乎所有與世界盃相關的詞彙,使得球迷們可以更為流暢地交流。對於詩詞,我們特別匯總了幾乎所有從最早的詩經到毛澤東的所有古詩詞(包括宋詞),這都成為搜狗詞庫來源的一部分。

  在融合搜狗自己的詞庫和各個兄弟部門提供的資源後,搜狗輸入法詞庫有了較大的完善,但是仍然缺少很多各種各樣的詞,比如「挖人」、「電荒」等。這些詞無法通過尋找資源的方式全部找到,所以不得不自己想辦法。幸運的是,網際網路網頁是個大寶庫,裡面蘊含著幾乎所有我們需要的知識,所以我們的工程師們設計了一套機器學習的算法從這些網頁中訓練新詞,訓練的結果是得到了大批的新詞彙,但是也引入了大量的噪聲,即垃圾詞。比如在最初的搜狗輸入法版本裡,「謝霆鋒」這個詞的錯法就有「謝霆峰」、「謝廷鋒」等數種,這對用戶的體驗和輸入法的智能性都造成了損害。

  搜狗的詞頻統計

  輸入法離不開詞頻,詞頻直接影響著智能組詞。搜狗輸入法的詞頻統計是在一個極其大的網際網路網頁上統計出來的。為了得到一個最優的詞頻,或者得到某類風格的詞頻(比如口語化風格),我們不斷更換語料庫,從網頁類型的選取、文章長度的限制、某些特殊的預處理等都做了大量的嘗試。每一次嘗試都需要重新統計詞頻,動輒需要幾天時間才能完成一輪詞庫的製作與驗證,佔用的機器、人力、資源之多不是某些小手工作坊式的輸入法小組能夠完成的。

  詞庫過濾系統的搭建

  經過前面的資源整理,我們得到了一個非常非常大的詞庫(約合幾百萬),這個詞庫中的詞良莠不齊,需要堅決的過濾才能滿足輸入法的需要。試想,從幾百萬個詞條的集合過濾得到35萬左右的詞條集合,這註定是一個龐大而又精細的工作。

  事實上詞條出現的頻率是詞條質量的最重要維度,頻率越高則詞條是好詞的概率越高,並且不同來源的詞彙有著不同的可信度。為此我們搭建了一個詞庫過濾系統,這個系統好比是一個漏鬥,可以靈活地對源頭的詞彙進行過濾,同時輸出中間每一步的過濾過程以方便開發人員調整算法。就這樣,在不斷的過濾、驗證、修改參數的循環中,這個系統逐漸趨於穩定,為整個詞庫的質量做出了重要的保證。這個系統雖然只有幾千行代碼,但是開發人員對它閾值等參數的調整可謂不計其數。經過這一輪的處理,詞條的總體質量有了飛躍般的提升。

相關焦點

  • 搜狗輸入法怎樣快速輸入表情以及其他特殊符號
    搜狗輸入法快速輸入表情以及其他特殊符號的方法如下:  搜狗輸入法提供豐富的表情、特殊符號庫以及字符畫,不僅在候選上有可以有選擇,還可以點擊有上方提示,進入表情&輸入專用面板,隨意選擇自己喜歡表情、符號、字符畫。
  • 搜狗拼音輸入法4.0正式版最新更新-搜狗,輸入法 ——快科技(驅動之...
    搜狗今日剛發布了搜狗五筆輸入法的最新測試版本,其用戶量較大的拼音輸入法官方也顯示了更新,仍然是4.0正式版,編譯號從4.0.0.2088升至4.0.0.2093。官方也沒有顯示更新內容,也沒有提示自動升級,建議用戶們手動更新。
  • 搜狗推出Mac版五筆輸入法 只為還在堅持的你
    恐怕沒有哪一類用戶,像國內的五筆輸入法用戶這樣,曾經歷經中文輸入法的第一波浪潮,在喧囂褪去之後,卻又毅然保留自己這麼一點點「老派」的傳統。 雲輸入,智能上下文,自定義短語,絢麗多彩的皮膚……這些搜狗輸入法一貫的優秀基因通過搜狗拼音輸入法 for Mac,讓廣大拼音用戶完成了從PC到Mac的無縫平滑體驗,而現在,我們也決定,將同樣強大的搜狗五筆輸入法帶到蘋果的世界中來。 •傳承五筆輸入法強大的詞庫,同時全面支持GBK詞庫。在海量優質詞庫的支持下,讓你的五筆輸入一如既往的強大和精準。
  • 搜狗拼音輸入法4.4預覽版發布
    2010-02-10/10:35 搜狗輸入法團隊歷經三個多月的努力
  • 拼音之後 搜狗搜索
    5月8日,不少搜索用戶意外發現搜狗搜索「變臉」了。當天下午,搜狗搜索舉行了盛大的發布會,宣布啟用全新LOGO,並正式發布移動搜索App。這透露出一個強烈的信號:在拼音輸入法之後,搜狗正在加快節奏,為6億中國網民醞釀下一場顛覆。顛覆拼音輸入之後下一個是搜索一提到「搜狗」,網民首先想到的便是「搜狗輸入法」。
  • 搜狗輸入法快捷輸入 秒變打字高手
    有了點讀機學英語能不能「so easy」不得而知,但是現在有一件很靠譜的事兒就是搜狗手機輸入法更新Android 7.6 版本了,新增的字詞快捷輸入功能可謂專治手機輸入疑難雜症的超級技能,讓粘連音詞和疊字、拆字輸入快捷如飛,實實在在的「So easy」,小夥伴再也不用擔心拼音拼不出來了。
  • 用搜狗快速輸入特殊字符與表情字符
    【IT168 軟體應用】憑藉出色的輸入體驗,搜狗拼音輸入法可謂紅遍網絡,但凡使用拼音輸入法的人,十有八九都聽說過他的名字,從最初提出的網際網路詞庫,精準的輸入首選詞讓用戶青睞有加,到後來個性化的皮膚、方便實用的特色功能則讓用戶愛不釋手。
  • 搜狗五筆輸入法試用
    在輸入法設置中,拼音與五筆的編碼也是分開進行管理的,這種「一國兩制」的做法正曝露搜狗五筆在混合輸入上的技術劣勢! ${PageNumber}功能設置令人失望    為了彌補基礎詞庫的欠缺,搜狗拼音增加了細胞詞庫的網絡下載,而在搜狗五筆中我們沒有看到這一項設置,其它的功能設置更多只是搜狗拼音的移植,沒有驚喜之處。
  • 紀念拼音之父:老用戶才懂的中文輸入法故事
    最常見的方法就是擴大詞庫,這能夠一定程度上解決重碼和沒有對應詞語的問題;另一個方法就是弄混合輸入,例如音碼和形碼混合,智能ABC輸入法輸入完音節後,還能通過數字鍵來輸入比劃對字詞進行篩選,例如數字4代表點,輸入「wo」後再輸入4就可以把「窩」篩選出來,而不會次次都先看到「我」。
  • 如何用搜狗拼音輸入法輸入希臘字母
    本篇介紹使用搜狗拼音輸入法輸入希臘字母右擊輸入法懸浮窗打開菜單-選擇軟鍵盤這裡有很多軟鍵盤,其中第二個就是希臘字母軟鍵盤,點擊打開第二次使用可以點擊輸入法懸浮窗上的軟鍵盤快捷鍵來快速打開缺點:使用這個方法要在20多個希臘字母裡面尋找,比較考驗眼力;輸入時必須打開軟鍵盤,輸入完再關閉軟鍵盤才能輸入其他字符。
  • 搜狗輸入法化身計算器 輕鬆搞定數學題
    其實不僅僅是學生,很多上班族也因為工作原因天天要跟數學符號、數學計算打交道,很多聰明的人早已發現,利用搜狗輸入法不但可以輕鬆打出常用數學符號,還可以進行數學計算,讓相關數學的輸入變得簡單、快捷。特殊符號輕鬆打工作或學習的時候經常會用到一些符號,以前每次都是去粘貼複製挺麻煩的,現在利用搜狗輸入法很多符號直接輸入漢語拼音就能輸出更簡單,如直接輸入dayu即可得出>,直接輸入pai即可得出π,直接輸入dui即可得出√,十分的簡單便捷。此外,利用搜狗輸入法的軟鍵盤還可以輸入更全的數學符號、序號,讓大家針對數學方面的文檔編輯變得更加輕鬆快捷。
  • 搜狗手機輸入法嵌入火星文 圖文並茂求翻譯
    一個年輕的手機用戶同樣抱怨,目前的輸入法大多無法支持火星文輸入,有些生僻字甚至沒有被收到手機詞庫中,想要輸入火星文只能不停的翻頁尋找、頻繁在不同輸入法間切換,麻煩且浪費時間。現在終於有一款輸入法可以解決這一問題,那就是搜狗手機輸入法。
  • 張朝陽:搜狗拼音輸入法是搜狐技術積累的爆發
    【搜狐IT消息】6月5日,搜狗輸入法推出一周年之際,搜狐公司宣布,6月15日,搜狗拼音輸入法將隆重推出更為專業的「細胞詞庫」功能,這是繼「天龍八部專業版」及「奧運專業版」之後,搜狗輸入法的又一重大進展。  在媒體見面會上,搜狐公司董事局主席兼CEO張朝陽回顧了搜狗拼音輸入法的發展歷程。
  • 給同音口頭禪來個「私人定製」 搜狗輸入法首推個性化語音識別
    近日,新版搜狗輸入法正式發布,首推「個性化語音識別」和「盲盒皮膚」,在語音輸入識別準確率和手動輸入趣味性兩方面同時進行全新升級,進一步優化了用戶體驗。不僅提升了用戶日常表達效率,更為用戶的線上社交增添了驚喜感和趣味性。
  • 在線同步詞庫 谷歌拼音輸入法試用
    谷歌拼音輸入法是谷歌官方推出適用於Android平臺的拼音輸入法,支持簡體中文輸入、在線同步詞庫,支持包括表情符號、聯想詞組等功能,使用十分的方便。評測環境想要使用谷歌拼音輸入法的話,首先打開系統設置-語言和鍵盤,勾選「谷歌拼音輸入法」。之後在任意輸入框內長按輸入框,會彈出輸入法選擇窗口,選擇谷歌拼音輸入法即可。
  • 驚呆:QQ拼音輸入法現在是搜狗的!
    2013年9月,騰訊向搜狗注資4.48億美元,並將搜搜和QQ輸入法業務與搜狗現有業務進行合併,形成一個全新的搜狗公司。搜狗的旗艦產品搜狗輸入法,也將與騰訊的旗艦產品進行深度產品合作。時隔4個月,情況怎樣了?
  • 今天帶你開開眼,百度、搜狗兩大輸入法PK,到底誰更好用?
    要說現在的輸入法有多炫酷,今天就讓加速度帶你開開眼。我們知道,任何一個數碼設備都離不開輸入法,一款好的輸入法不僅能提高我們的輸入效率,還能給我們帶來更多樂趣。以百度輸入法和搜狗輸入法做對比,為了讓聊天Get到更多新姿勢,專在皮膚的設計上就花盡心思。
  • 了如指掌 六款熱門安卓手機輸入法2019年終橫評
    04 6大輸入法橫向測試才有意義上文我們已述,對手機輸入法的測試包括使用測試(26鍵拼音輸入和九宮格中英文混合輸入、語音輸入測試、手寫輸入測試和聯想詞)、美觀度測試(皮膚豐富程度)、易用性測試(鍵盤震動手感反饋、表情包豐富程度和其他方面的測試)。6大輸入法使用測試
  • 曾經風靡中國的五筆打字,為何敗給了拼音輸入法?原因其實很簡單
    其實當時五筆輸入法能獨佔鰲頭並不是因為只有他這一種輸入法,後來令五筆逐漸走向沒落的拼音輸入法,在1995年也有微軟公司推出,也就是現在電腦上常帶的ABC輸入法。
  • 為什麼又快又準的五筆,最後卻敗給拼音輸入法,原因主要有兩點
    用過五筆輸入法的基本上都是70後和80後,用過智能ABC的可能就是90後,而現在的00後學電腦時基本上都是學習搜狗輸入法。現如今,搜狗輸入法是使用最廣泛的一種輸入法,在市面上已經佔到了七成以上。在搜狗輸入法出現之前有一款輸入法曾經風靡中國,它不僅打字速度快,而且準確率也是極高,它就是五筆輸入法。說到五筆我們都要追述到幾十年前了。