筆者嘗試註冊百度搜索開發平臺,隨後收到的一份帳號激活郵件,百度稱「請激活你的百度阿拉丁帳號, 完成註冊」,該激活信件的落款亦為「百度阿拉丁」。
媒體報導稱,百度搜索開放平臺即為百度阿拉丁計劃。儘管沒有來自百度的明確信息,不過,通過百度搜索開發平臺註冊的帳號就是百度阿拉丁帳號已經確信無疑,可以說,這一帳號將作為應用百度阿拉丁計劃的基礎。此外,百度搜索開放平臺首頁的廣告圖片即為「阿拉丁神燈」樣式。百度搜索開放平臺通過域名alading.baidu.com也可以訪問。
2008年12月百度在上海首次公布新一代搜索平臺「阿拉丁平臺」計劃,並宣稱通過新平臺將稱解決現有搜索無法抓取、檢索網際網路上大量的暗網問題。有百度人士指出,「阿拉丁」計劃旨在超越現有Web內容的限制,以便讓這些信息能以最富有效率的方式,直接被廣大用戶在網際網路上搜索和使用。
通過參看百度搜索開放平臺相關介紹,百度搜索開放平臺即是意欲更好地抓取網際網路數據。百度搜索開放平臺抓取數據的模式和百度的網際網路新聞開放協議具有相似之處,都是通過百度既定的協議,給予用戶一定自主度,在一個平臺上完成數據的篩選。
百度搜索開發平臺要求數據的提交必須按照XML協議,用戶向百度搜索開放平臺提交包含相關數據的xml地址,百度的程序定周期定向地訪問這一XML地址。這個周期由用戶在提交資源時設定,百度會參考這個值定期地檢查xml文件是否改變, 因此,用戶應提供固定的XML地址,而地址上的內容按照更新周期持續更新,若無法更新將失去被收錄的意義。
Xml是Internet環境中跨平臺的,依賴於內容的技術,是當前處理結構化文檔信息的有力工具。簡單可理解為,信息交換雙方按照這一協議將使得信息的交換更加規範和有效。
百度搜索開放平臺這一信息搜集方式和RSS訂閱類似,不過,百度更加注重信息的針對性和具體性。百度表示,目前只接受「確定性」數據資源,這包括兩方面:一是對於數據,要求精確、全面,並且更新及時;二是對於服務,要求高度的穩定性,和快速的響應時間。
相比傳統的sitemap,百度搜索開放平臺對信息的搜集將更加有效和靈活。通過傳統意義的sitemap協議,用戶主要可以實現向搜尋引擎提交您希望收錄的網頁和在一定程度上減輕了抓取產生的額外負擔。而藉助了百度搜索開放平臺,用戶則可以向搜尋引擎提交您指定的資源,且不局限於網頁; 指定這些資源的更新周期,更合理、更節省;指定資源在搜索哪些關鍵詞時會展現;指定資源在搜索結果中的展現樣式,不局限於傳統的文本結果;還可查看資源的詳細統計等其它附加功能。
給予用戶在數據提交中的更大自由度,谷歌於2005年上線的Google Base(base.google.com)正是此番考慮,不過Google Base更多關注商品,而百度搜索開放平臺則範圍涵蓋得多。