就在今天,雅虎宣布開源了自家的網頁爬蟲工具 —— Anthelion。
Anthelion 是雅虎用來爬取 HTML 中的語法結構數據的網絡爬蟲。然而對於雅虎來說,網絡爬蟲其實一直是處於非常核心的位置。其地位甚至高於雅虎的許多其他的核心應用,比如 Yahoo Mail, Yahoo Finance, Yahoo Messenger, Flickr, 和 Tumblr 等。 毫無疑問,Anthelion 的開源對雅虎在 web 搜索領域的競爭力提升意義重大。
去年在上海的一次會議中,雅虎就公布了 Anthelion 的很多細節,會議中提到,Anthelion最初致力於爬取嵌入HTML網頁中的語義數據。例如:microdata 、microformats 和 RDFa 等。在這次會議上同時還提到了很多關於 Anthelion 爬蟲實現的技術。
Anthelion 的代碼現在以 Apache 開源授權協議託管到 GitHub:https://github.com/yahoo/anthelion。有興趣的小夥伴可以下載哦!
原文連結:http://venturebeat.com/2015/12/14/yahoo-open-sources-anthelion-web-crawler-for-parsing-structured-data-on-html-pages/
譯文連結:http://www.linuxstory.org/yahoo-open-sources-anthelion-web-crawler-for-parsing-structured-data-on-html-pages/
LinuxStory 有情懷的資訊網 www.linuxstory.org ,現有的內容:
#LinuxStory 分享時間# 包含技術、資訊、科普、教程等相關文章;
#LinuxStory 資訊速遞# 每日資訊,包含科技、資訊等方方面面;
#LinuxStory 說# 新鮮有趣的小知識,特色語音節目;
#LinuxStory 人物訪談# 中國開源大咖的故事訪談。
我們不是最好的,但是我們一直在努力爭取在你心中的地位!