【獵雲網成都】8月18日報導(文/周麗梅)
海藻,一種生長在海中的藻類,通過自身體內的色素體以及光合作用來合成有機物,海洋世界之所以如此熱鬧,海藻功不可沒。運用到日常生活中,海藻的吸附、淨化功能給生活帶來了不少的便利。而運用到網際網路中,「海藻」想做一個淨化網際網路環境的監測工具。
一瞬間蹦躂出來的碎碎念
瀏覽網頁時,突然蹦出的彈窗不禁讓人心生厭煩,然而這只是網際網路不良環境的冰山一角,暴力、色情、淫穢信息充斥著網際網路,儘管國家一直在努力「打黃掃非」,網絡傳播淫穢色情信息的現象仍然屢見不鮮。一方面是廣受人們詬病的淫穢信息,另一方面則是不斷被挖掘的需求。
海藻的創始人梁棟告訴獵雲網,男性之間會互相分享收藏的黃色網站,朋友經常會問他有沒有此類網站,梁棟時常幫朋友用磁力連結搜索下載,也就是一次次的過程中就在心裡嘀咕,網際網路色情信息泛濫,為何不做個鑑色的API,「海藻」便是一瞬間蹦躂出來的碎碎念。
淨化網際網路環境還需打好「組合拳」
簡單來說,海藻是一款鑑色工具,色情視頻、敏感詞彙等都在其檢測範圍,產品已於8月初上線。對海藻而言,目前要檢測好淫穢不良信息,關鍵還是要打好文字鑑色與磁力連結過濾這兩個「組合拳」。
文字鑑色:
用戶直接將待檢測文字(字數無限制)Post給海藻,系統便可自動檢測並返回數據。海藻通過採用CRF方法,在常用語義分詞上自建了分詞模型並訓練完善。梁棟說:「基於字符串的分詞模型是分不出波多野結衣、小澤瑪利亞等詞性的,而標準的基於深度學習的分詞模型對這些特性詞模型也需要很久的時間才能分出,海藻通過自建的分詞模型,確保其分詞準確率。」
像綠壩這樣的淨網系統,檢測到關鍵字或敏感詞彙則殺,誤殺率較高,那海藻又如何降低其檢測的誤殺率呢?梁棟說:「海藻將用戶Post的文章進行TF-IDF,TF-IDF算法能提取出一篇文章中最重要的幾個關鍵詞,通過TF、IDF兩個維度乘積排序計算文章最重要的關鍵詞,海藻計算詞頻對詞頻進行了標準化,採用相對詞頻來確保文章長短對其算法不影響。」
簡而言之,現階段海藻正在努力構建一個更為專業的「色情分詞模型」和TF-IDF關鍵詞配合不良信息庫,降低檢測的誤殺率。
磁力連結過濾:
現階段,海藻的磁力連結檢測在技術上分為兩方面:一方面,從資料庫中直接取得已經標註為色情信息的磁力連結。另一方面,海藻通過後臺解析出磁力連結的文件內容,同時輔助以海藻本身的文字鑑色接口對磁力連結文件內容標題進行輔助鑑色。
梁棟說;「海藻磁鏈鑑色前期大規模採集了百度等公司標註的不良磁鏈,海藻本身也有提交接口,現在已經轉化為自發監測。不管磁鏈裡面是什麼內容,海藻都會自動檢測,現檢測結果多以色情視頻和圖片為主,以視頻量最大。」
另外,海藻還建了一個基於DHT協議的BT資源搜尋引擎,可實現24小時不間斷的索引資源,目前有微信版和網頁版的查詢入口,同時還可以採集現有的網路上存在的BT引擎的信息。
具體是怎樣操作的呢?梁棟說:「海藻採用API調用的方式,如搜索波多野結衣時,搜索信息結果會充斥一些色情視頻,隨便點一個就會出現磁力連結與迅雷連結。因為磁鏈是去中心化的伺服器,所以並不能有效的抑制住磁鏈裡面的色情信息傳播,使用迅雷等P2P下載工具便可以很方便的下載大規模高清的色情視頻。而海藻的磁力連結檢測,通過鑑別這個磁力連結檢測到磁鏈是含有不良信息的,系統會自動判定這個磁鏈是是否為色情連結。」
海藻除了目前已上線的「組合拳」外,之後會在後期上線圖片、視頻、批量過濾等功能。梁棟說:「海藻以後會嘗試和企業進行合作實現盈利,如內容搜尋引擎、下載引擎以及一些加速產品等,海藻使用的場景還是很廣泛的。」
就如海藻首頁上的那句話一般「還網際網路一片淨土」,雖然聽起來很空、大,但梁棟不也一直在為此努力嗎。
據獵雲網了解,海藻目前尚未獲得投資,正在積極洽談中。
產品:海藻
網址:www.haizao.me
獵雲網:關注創業公司,原創科技博客!【我們幫助任何有夢想的創業團隊!創業團隊尋求報導請點這裡。承諾:完全免費,謹防假冒。】
想了解更多創業創新知識,快添加獵雲網微信公眾帳號:ilieyun