Yaha首頁、文檔和下載 - Python 中文分詞庫 - OSCHINA - 中文開源...

資源 | Python中文分詞工具大合集

安裝這些模塊其實很簡單，只要按官方文檔的方法安裝即可，以下做個簡單介紹，主要是在Python3.x & Ubuntu16.04 的環境下測試及安裝這些中文分詞器。再附加介紹12款其他的中文分詞工具或者中文分詞模塊，最後的兩款fnlp和ansj是比較棒的java中文分詞工具，貌似還沒有python接口，記錄一下。這些中文分詞工具我沒有測試，感興趣的同學可以動手試試。

Python中文分詞工具大合集:安裝、使用和測試

安裝這些模塊其實很簡單，只要按官方文檔的方法安裝即可，以下做個簡單介紹，主要是在Python3.x & Ubuntu16.04 的環境下測試及安裝這些中文分詞器。再附加介紹12款其他的中文分詞工具或者中文分詞模塊，最後的兩款fnlp和ansj是比較棒的java中文分詞工具，貌似還沒有python接口，記錄一下。這些中文分詞工具我沒有測試，感興趣的同學可以動手試試。

分詞|Python最好的中文分詞庫

在使用這個庫之前，我相信有很多的讀者一定很想知道jieba背後的工作原理，jieba具體應用的算法如下：基於前綴詞典實現高效的詞圖掃描，生成句子中漢字所有可能成詞情況所構成的有向無環圖 (DAG)；採用了動態規劃查找最大概率路徑, 找出基於詞頻的最大切分組合；對於未登錄詞，採用了基於漢字成詞能力的 HMM 模型，使用了 Viterbi 算法。

FlexPaper首頁、文檔和下載 - 在線文檔顯示組件 - OSCHINA - 中文...

FlexPaper 是一個開源輕量級的在瀏覽器上顯示各種文檔的組件一.使用 PDF2SWF 準備好你的文檔首先要將 PDF 轉成 SWF，這步可以使用開源的 SwfTools 自動完成1.下載安裝 SwfTools，當前最新版本是0.92.

Foxit Reader首頁、文檔和下載 - PDF閱讀器 - OSCHINA - 中文開源...

Foxit Reader(福昕閱讀器)是一個小巧的PDF文檔閱讀器有了它，你無須為僅僅閱讀PDF文檔而下載和安裝龐大的Adobe Reader，而且啟動快速，無需安裝。對中文支持非常好。福昕閱讀器新功能 1)支持屏幕取詞, 隨時隨地查閱各種單詞、成語及英語;2)支持單個或多個PDF文件查找, 方便用戶預覽與跳轉;3)允許最小化至系統託盤, 有效節省桌面空間;4)更友好的書籤顯示方式, 書籤與頁面實現同步顯示;5)一鍵去除試用標識, 方便正式版用戶一次性消除試用標識;6)支持頁面尺寸顯示, 更加一目了然;7)支持橫向和縱向滾屏選擇文本

中文自然語言處理相關資料集合指南

Jieba 結巴中文分詞 (Python及大量其它程式語言衍生) 做最好的 Python 中文分詞組件北大中文分詞工具 (Python) 高準確度中文分詞工具，簡單易用，跟現有開源工具相比大幅提高了分詞的準確率。

Awesome-Chinese-NLP:中文自然語言處理相關資料

Jieba 結巴中文分詞 (Python及大量其它程式語言衍生) 做最好的 Python 中文分詞組件北大中文分詞工具 (Python) 高準確度中文分詞工具，簡單易用，跟現有開源工具相比大幅提高了分詞的準確率。

準確率創新高,北大開源中文分詞工具包 pkuseg

北京大學近日開源了一個全新的中文分詞工具包 pkuseg ，相比於現有的同類開源工具，pkuseg 大幅提高了分詞的準確率。

Python自然語言處理實踐: 在NLTK中使用斯坦福中文分詞器

在使用NLTK的過程中，發現當前版本的NLTK已經提供了相應的斯坦福文本處理工具接口，包括詞性標註，命名實體識別和句法分析器的接口，不過可惜的是，沒有提供分詞器的接口。在google無果和閱讀了相應的代碼後，我決定照貓畫虎為NLTK寫一個斯坦福中文分詞器接口，這樣可以方便的在Python中調用斯坦福文本處理工具。

【Python環境】python的nltk中文使用和學習資料匯總幫你入門提高

當然中文分詞，不應該成為使用nltk的障礙，或許很多人認為，既然用nltk，那麼nltk就應該支持中文。但是我們得認清現實，現實就是nltk就是不支持處理中文，因此，這個給國內很多自然語言處理的研究人員有了研究的空間了，nltk既然沒做中文分詞，那麼中國人就應該自己做了這個。一個口碑比較好的中文分詞工具就是ICTCLAS中文分詞。

絕佳的ASR學習方案:這是一套開源的中文語音識別系統

這篇文章介紹了一種開源的中文語音識別系統，讀者可以藉助它快速訓練屬於自己的中文語音識別模型，或直接使用預訓練模型測試效果。所以對於那些對語音識別感興趣的讀者而言，這是一個學習如何搭建 ASR 系統的極好資料。

NLP快速入門:手把手教你用HanLP做中文分詞

工具名稱是否開源工具描述Jieba（結巴分詞）免費使用jieba庫是一款優秀的支持 Python 第三方中文分詞庫，jieba支持三種分詞模式：精確模式、全模式和搜尋引擎模式。SnowNLP（中文的類庫）免費使用SnowNLP是一個python寫的類庫，可以方便的處理中文文本內容，是受到了TextBlob的啟發而寫的，誕生了一個方便處理中文的類庫。FoolNLTK（中文處理工具包）免費使用FoolNLTK是基於Bi-LSTM模型訓練成的中文分詞工具，僅適用於Linux系統。

常用python機器學習庫總結

無論文本處理，機器學習和數據挖掘，都需要數據，除了通過一些渠道購買或者下載的專業數據外，常常需要大家自己動手爬數據，這個時候，爬蟲就顯得格外重要了，幸好，Python提供了一批非常nice的網頁爬蟲工具框架，既能爬取數據，也能獲取和清洗數據。

LWT首頁、文檔和下載 - Lua 的 Web 工具包 - OSCHINA - 中文開源...

Paho GO Client　　語言　　 GO 協議 EPL AND EDL 官網地址 http://www.eclipse.org/paho/ API類型 Asynchronous 描述 Paho GO 庫包含一個可以作為獨立讀寫MQTT的包。

中文分詞工具評估:chinese-segmentation-evaluation

這裡有一個Java開源項目cws_evaluation，對中文分詞做了評比，但有幾點不足：(1). 只有java版本，但是機器學習主要是基於python的 (2).效果指標為行完美率和字完美率，該指標不妥，特別是句子越長，越無意義，(3). 每種分詞工具評測的算法太多了，這裡僅評比了默認的分詞算法。

ESRGAN首頁、文檔和下載 - AI 超解析度工具 - OSCHINA - 中文開源...

更多詳細信息） Python套件： pip install numpy opencv-python測試模型1.克隆此github存儲庫。（有兩個示例圖像-狒狒和漫畫）。3.從Google雲端硬碟或百度雲端硬碟下載經過預訓練的模型。將模型放在./models。4.作者提供了兩種具有高感知質量和高 PSNR 性能的模型。運行測試：提供 ESRGAN模型和 RRDB_PSNR 模型，可以配置test.py。

11款開放中文分詞引擎大比拼 | 網際網路數據資訊網-199IT | 中文...

3.經過以上處理，用SIGHAN分詞評分腳本比較得到最終的準確率，召回率和F1值。以上所有數據採用北大現代漢語基本加工規範對所有數據進行分詞作為標準。具體數據下載地址請參見附錄。通過這四類數據綜合對比不同分詞系統的分詞準確度。上圖為參與比較的10款分詞引擎在不同數據的分詞準確度結果。

中文開源社區喜訊:WordPress文檔翻譯完成

官方的消息，WordPress文檔中文翻譯工作歷時一年多圓滿完成。此次翻譯工作由WordPress啦！組織專業翻譯人員進行翻譯，完整的翻譯了WordPress官方所有的Codex手冊內容，是WordPress中文社區的寶貴財富，對於提升國內 WordPress使用和研究水平有重大幫助。中文文檔的結構經過重新整理，更方便閱讀。

woody首頁、文檔和下載 - HTML 解析/提取器 - OSCHINA - 中文開源...

函數配置處理）支持 css、xpath 內核替換支持 filter 功能對 css、xpath 內核對象的緩存一個完整的例子：public class OsChinaBlog { public static void main(String[] args) throws Exception { Document doc = Jsoup.connect("http://www.oschina.net