Gse v0.50.0 發布, Go 高性能分詞,大幅度更新

2020-12-16 開源中國

Go 語言高效分詞,支持英文、中文、日文等。

該版本主要增加:AlphaNum 拉丁字母和數字分詞設置,RemoveToken,gse.New(),分詞 ToLower 設置;Tirm 清除標點符號和空格,TextFreq 設置默認加載 frenquency,cutDAGNoHMM 和最短路徑加動態規劃配置,支持 ", " 分割字典文件等功能。

增加更多示例、測試和 benchmark 代碼, 修復 bug。

項目地址:https://github.com/go-ego/gse

Nisqually Glacier

Add

add alphanum split words support
use variable to control default frequency

add gse.New() function and update test code, 
add New() function AlphaNum set support

add ToLower set support and update code

add remove token support and test code, 
add addToken and removeToken benchmark test,
update benchmark, example.go and godoc
add more test code

add English example code,
Add English token test code and Update README.md

update segment test code
update segment test code, add more test and remove unless code

add Trim punct and space function support, 
add Trim test code, 
add Trim benchmark test code, 
add Trim example code

update Trim function not exclude "include other char string"

update DictPaths() allow use ", " to separated dictionary files

add cutDAGNoHMM support and test code, 
add Cut() cutDAGNoHMM option support, 
add test and benchmark code

add python and node binding

 

Updtae

update gse code
export splitTextToWords function
export lookupTokens function

update example code
update data re base code

add Find token example code
update English example code

update example code use mixed text
update dictionary example code

update code fixed example print
update hmm test and example code

update gse server code
update server code add hmm support,
update jquery.min.js to v3.5.0
update server.go listen log print

update code and README.md
Update README.md, add binding...

update godoc
update load model godoc
update godoc and var name

update go mod pkg and version
remove unless go.sum hash
update go mod and remove vendor

add github workflow support
update go.yml
update and fmt circle.yml, travis.yml
add CI go1.13x support remove go1.11.x

rename utils.go to seg_utils.go

add more benchmark support
add hmm benchmark test support
add segmenter benchmark test code

add idf and pos files
update issue and pull request template

update segment test code use expect
update alpha num test code

相關焦點

  • Robotgo v0.60.0 發布, 重構 window 和 example
    Robotgo v0.60.0 Mount Olympus: Mytikas 發布了,Golang 跨平臺控制滑鼠、鍵盤、位圖、屏幕、窗口句柄以及全局事件監聽。
  • go-fastdfs 分布式文件系統 v1.3.9 發布,修復禁用組同步失敗
    go-fastdfs 是一個基於 http 協議的分布式文件系統,它基於大道至簡的設計理念,一切從簡設計,使得它的運維及擴展變得更加簡單,它具有高性能、高可靠、無中心、免維護等優點。
  • Editor.md v1.0 發布,改用 KaTeX,性能大幅改進
    Editor.md v1.0 正式版發布,改用 KaTeX,性能大幅改進。
  • mars 0.2 發布,高性能實時資料庫
    mars 是一個以記錄物聯網時代各種傳感器數據為目的的,高性能實時傳感器資料庫。
  • aelf Enterprise 1.0.0 版本公告
    12月9日,aelf Enterprise 1.0.0 版正式發布。aelf團隊秉持著技術持續創新態度,進行了多頻次的版本更新及優化,aelf Enterprise 1.0.0 是aelf發布的第一個正式版本,也是主網啟動的第一個正式版本,已實現主網啟動所需的全部功能。該版本對提升主網的穩定性和安全性具有重要意義,後續版本也將基於此版本的表現進行迭代更新,持續為開發者提供一個安全、穩定、高效的開發環境。
  • GoCD 20.7.0 發布,持續集成和發布管理系統
    GoCD 20.7.0 已發布,GoCD 是一個持續集成和發布管理系統,其前身為 CruiseControl,它是 ThoughtWorks 在做諮詢和交付項目時研發的一款開源持續集成工具。
  • Pwn20wnd推送了unc0verv3.0.0預發行版的beta43
    黑客和unc0ver首席開發人員Pwn20wnd於周四發布了unc0ver v3.0.0預發行版的另一修訂版,並進行了錯誤修復和改進,使預發行越獄工具的Beta版升至43版。Pwn20wnd今早通過Twitter分享了更新消息,並指出這將修復許多人在某些設備上收到的沙箱錯誤:根據正式的GitHub存儲庫,此版本的完整變更日誌如下:2019/03/07 – v3.0.0〜b43已發布,以進行公共測試,但有以下更改:–修復了某些設備上的沙箱轉義錯誤–更新存儲庫的APT列表緩存文件除了修復許多人感到沮喪的棘手錯誤外
  • (雙語)Go語言的更新也將難逃疫情影響
    一般情況下,Go語言維持著半年發布一次更新的節奏。但是,隨著疫情在世界範圍內的發展,Go語言的更新也將受到影響。下面,我們就從英語原文來理解一下所受影響的情況,順便了解一下相關的科技英語詞彙。—— revised 原型:revise 過去分詞做形容詞 [r'vaz] n. 校訂;修正;再校稿 v. 校訂;修正;校正—— response 名詞 [r'spns] n.
  • iOS 微信發布 v7.0.20 版本更新,上線微信豆,還有這些新功能
    昨晚(12 月 23 日),iOS 微信悄悄發布新版本更新,版本號為 v7.0.20。 和以前一樣,特立獨行的微信依舊沒有在 App Store 的更新記錄中寫明加入了哪些新功能,一切都要用戶自己去發現。
  • Mix PHP V2.2 發布,與 go-micro 深度集成的 PHP 微服務開發框架
    Mix PHP 是一個基於 Swoole 開發的高性能 PHP 框架,從 2017 年開始經過多年發展收穫了很多中小型團隊的支持
  • Lunar Markdown Editor v0.0.6.67 發布
    Lunar Markdown Editor v0.0.6.67 已經發布,此版本更新內容包括:通常情況下,工作區「Images~」文件夾下以「_」開頭的圖像文件會被自動複製到每個工作區
  • BanCommandPlus v1.1.0 發布,屏蔽命令的 Bungeecord 插件
    BanCommandPlus-BungeeCord v1.1.0 已經發布,此版本更新內容包括:1.添加使用指令來查看、刪除或添加被Ban的指令2.改用yml文件來作為配置文件
  • Taos.Studio v2.0.3 發布,TDengine 的可視化 GUI
    更新內容: 加入 普通表和超級表展示, 以及關聯的子表展示 加入TDengine 2.0
  • 微軟Win10 免費工具集 PowerToys v0.20.1 發布
    目前,PowerToys v0.20.1 已於昨日發布,這是一個補丁版本,修復了一些 v0.20 版本中對穩定性很重要的項目。具體更新內容包括:#5400 - PT Run 未正確處置,且處置後的對象被試圖訪問;#5555 -ColorPicker 嘗試始終重新加載錯誤的設置文件;#5540 - FancyZones 嘗試拖動 elevated window;#5484 - 安裝程序無法安裝 .
  • 騰訊QQ iOS 版 v8.5.0 正式版更新
    IT之家12月19日消息 今天,騰訊 QQ 團隊發布了 QQ iOS 版 v8.5.0 正式版更新,支持會話中的文件可分屏查看,在線狀態新增「我的心情」,群聊新增幸運字符,群聊消息可多選設為群精華,群聊新增王者戰績,段位成就輕鬆查看,邀群友開黑上分。
  • PowerToys v0.17 發布,微軟開發的免費實用工具集
    IT之家5月1日消息 微軟發布了 PowerToys v0.17 版本。新版本添加了自動更新(Auto-updating)功能,0.18 版本發布時即可體驗。除此之外,主要更新內容包括:FancyZone 現在可以捕捉到兩個區域(由於它不支持將應用還原到兩個區域,因此仍處於實驗階段)在 0.16 中的回歸被修復後,非管理員用戶將可以再次使用
  • Pholcus(幽靈蛛)爬蟲軟體 v1.0 穩定版正式發布
    自2015年5月 Pholcus 發布第一個版本起歷經一年的版本迭代,今日 v1.0 穩定版本終於正式發布了。在此感謝所有關注過Pholcus、反饋過開發建議以及運行bug的朋友們。
  • Win10 Reunion 預覽版 v0.1.0 發布:統一 Win32 和 UWP API
    今天微軟公布了第一個 Project Reunion 預覽版 v0.1.0。這個有限的預覽版為 Project Reunion 的運行時發布奠定了基礎,並包含了微軟為創建管道所做的一些工作,以確保應用程式能夠使用 Project Reunion API。
  • Pwn20wnd在即將發布的unc0ver更新中極大地提高了速度和穩定性
    近期涉及Pwn20wnd在即將發布的unc0ver更新中極大地提高了速度和穩定性內容備受矚目,很多讀者對此也很有興趣,現在給大家羅列關於Pwn20wnd在即將發布的unc0ver更新中極大地提高了速度和穩定性最新消息。
  • 百度詞法分析工具 LAC 全面升級,2.0 版在線極速體驗
    最近百度NLP發布了LAC 2.0:開源!我知道你不知道,百度開源詞法LAC 2.0幫你更懂中文,看完文章的第一感受就是易用性大大加強了,之前需要通過PaddleNLP或者PaddleHub調用lac,現在 "pip install lac" 後即可直接調用,相當方便。