綜合自科技日報 發表於 2020-11-20 15:19:35
科學史話 克倫·施拜克·瓊斯: 每次網絡搜索背後 都離不開她的貢獻
克倫·施拜克·瓊斯(Karen Spärck Jones)1935年8月26日生於英國哈德斯菲爾德市,一個紡織業較發達的城市。在她小時候,她的父親在大學裡擔任化學講師,晚上還要打工掙錢;母親是挪威人,曾去倫敦為挪威流亡政府工作。由於父母都顧不上照看她,便將她託付給鄉間的一戶人家。在這樣的生長環境中,瓊斯從小便鍛鍊出了一定的獨立性。
從11歲到18歲這7年間,瓊斯就讀於一所高水平的文法女校,12歲時,她發願要上劍橋大學,後終於如願以償。
1956年,她在劍橋大學獲得歷史學專業的文學學士學位。由於對哲學的興趣,瓊斯又繼續讀了一年哲學。1957年,她加入了劍橋語言研究所,開始接觸計算機在語言研究方面的應用。在此工作期間,她認識了Roger Needham(1935—2003,計算機科學家,英國皇家學會會員),兩人於1958年結婚。1964年,她在劍橋大學獲得哲學博士學位,但博士論文導師對她的幫助不大,她基本上是獨立打拼,編程也是自學的。1968年,瓊斯成為劍橋大學計算機實驗室的全職工作人員,從此以後她在這裡耕耘了近50載,一直從事計算語言學和信息檢索研究。
她在計算語言學和信息檢索兩個領域都作出了傑出貢獻。在信息檢索方面,早在1958年,她就與人合著了相關文章。她的最重要貢獻當數1972年提出的逆文本頻率指數(IDF)的概念。這個概念的意思是:如果詞w在一篇文檔d中出現的頻率高,並且在其他文檔中很少出現,則可以認為詞w具有很好的區分能力,可以把文章d和其他文章較好地區分開來。IDF是網際網路搜尋引擎普遍採用的思路。可以說,沒有瓊斯的早年貢獻,就沒有谷歌搜尋引擎日後的成就。
在計算語言學方面,她1963年完成的博士論文至今仍有價值。該文將統計進路(或曰機器學習進路)與已有資源(做在穿孔卡片上的敘詞表)結合起來,取得了領先於時代的成果。此外,她在計算機自動摘要、結構化資料庫的界面、對話、語義學等多個主題上均有所建樹。
除了本人的學術研究外,她還通過學術社團的活動大大推進了本領域的進步。尤其是1994年她擔任計算語言學學會(ACL)會長期間。計算語言學學會是國際性的社團,當時多數會員是美國學者,她接手學會時,學會的財務狀況不佳,原來的司庫又去世了,一時半會兒招聘不到新的司庫,在這種情況下,瓊斯又要統籌安排學會的學術活動,又要管帳,忙得一塌糊塗。那一陣子是ACL苦痛掙扎的過渡期,在她的有力領導下,ACL走出了困境。除了ACL外,她還是另外好幾個學會的會士。2000—2002年期間,她擔任過英國科學院副院長。在英國有兩所科學院:英國皇家學會相當於自然科學領域的科學院,而英國科學院是人文社會科學領域的科學院。由於語言學這個大類屬於人文學科,瓊斯就憑藉其在計算語言學的成就當選為英國科學院的院士。
瓊斯共獲得過7個重要獎項,包括2004年獲得的「計算語言學學會終生成就獎」和2007年獲得的「英國計算機學會勒芙蕾絲獎章」(阿達。勒芙蕾絲是英國大詩人拜倫的女兒,電腦程式的創始人)。
她2002年辦理了退休手續,但繼續在實驗室工作。直到2007年4月4日去世前不久,實驗室裡仍有她的身影。
2001年4月10日,電氣電子工程師學會(IEEE)歷史研究中心的Janet Abbate女士採訪了瓊斯。在接受採訪時她說:「人人都在談職業生涯之類的東西。從某種意義上說,我做到了一路向前走,但其實那時並沒有明顯的路徑。你得利用一切存在著的機會。早年的時候,對於女性,即使是在劍橋,工作機會也是極其有限的。看看現在的年輕女性,我是十分羨慕。現在沒有多少女性擁有『我能行』的心態,但她們其實擁有實現『我能行』的機會,而我們那時根本就沒有這樣的機會。」
希望我們中國的職業女性以瓊斯為榜樣,抓住機會,奮力前行。
( 克倫·施拜克·瓊斯 圖片來源:劍橋大學網站)
概述搜尋引擎的起源
1.搜尋引擎的起源
1990年,加拿大麥吉爾大學(University ofMcGill)計算機學院的師生開發出Archie。當時,全球資訊網(World Wide Web)還沒有出現,人們通過FTP來共享交流資源。Archie能定期搜集並分析FTP伺服器上的文件名信息,提供查找分別在各個FTP主機中的文件。用戶必須輸入精確的文件名進行搜索,Archie告訴用戶哪個FTP伺服器能下載該文件。雖然Archie搜集的信息資源不是網頁(HTML文件),但和搜尋引擎的基本工作方式是一樣的:自動搜集信息資源、建立索引、提供檢索服務。所以,Archie被公認為現代搜尋引擎的鼻祖。
2.搜尋引擎的發展
第一階段
Excite的歷史可以上溯到1993年2月,6個Stanford University(史丹福大學)大學生的想法是分析字詞關係,以對網際網路上的大量信息作更有效的檢索。到1993年中,這已是一個完全投資項目,他們還發布了一個供webmasters在自己網站上使用的搜索軟體版本,後來被叫做Excite for Web Servers。註:Excite後來曾以概念搜索聞名,2002年5月,被Infospace收購的Excite停止自己的搜尋引擎,改用元搜尋引擎Dogpile
第二階段
1994年4月,史丹福大學的兩名博士生,美籍華人楊致遠和David Filo共同創辦了Yahoo!。隨著訪問量和收錄連結數的增長,Yahoo目錄開始支持簡單的資料庫搜索。因為Yahoo!的數據是手工輸入的,所以不能真正被歸為搜尋引擎,事實上只是一個可搜索的目錄。Yahoo!中收錄的網站,因為都附有簡介信息,所以搜索效率明顯提高。註:Yahoo以後陸續有 Altavista、Inktomi、Google提供搜尋引擎服務Yahoo!--幾乎成為20世紀90年代的網際網路的代名詞。
第三階段
1995年,一種新的搜尋引擎形式出現了——元搜尋引擎(Meta Search Engine)。用戶只需提交一次搜索請求,由元搜尋引擎負責轉換處理後提交給多個預先選定的獨立搜尋引擎,並將從各獨立搜尋引擎返回的所有查詢結果,集中起來處理後再返回給用戶。第一個元搜尋引擎,是Washington大學碩士生 Eric Selberg 和 Oren Etzioni的 Metacrawler。元搜尋引擎概念上非常好聽,但搜索效果始終不理想,所以沒有哪個元搜尋引擎有過強勢地位。
第四階段
智能檢索的產生:它利用分詞詞典、同義詞典,同音詞典改善檢索效果,進一步還可在知識層面或者說概念層面上輔助查詢,通過主題詞典、上下位詞典、相關同級詞典檢索處理形成一個知識體系或概念網絡,給予用戶智能知識提示,最終幫助用戶獲得最佳的檢索效果。
綜合自科技日報 ; 參考資料: 《網絡營銷》 楊路明等編著 機械工業出版社
打開APP閱讀更多精彩內容聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴