搜尋引擎的起源之科學史話克倫·施拜克·瓊斯對網絡搜索的貢獻

2020-11-30 電子發燒友

搜尋引擎的起源之科學史話克倫·施拜克·瓊斯對網絡搜索的貢獻

綜合自科技日報 發表於 2020-11-20 15:19:35

  科學史話 克倫·施拜克·瓊斯: 每次網絡搜索背後 都離不開她的貢獻

  克倫·施拜克·瓊斯(Karen Spärck Jones)1935年8月26日生於英國哈德斯菲爾德市,一個紡織業較發達的城市。在她小時候,她的父親在大學裡擔任化學講師,晚上還要打工掙錢;母親是挪威人,曾去倫敦為挪威流亡政府工作。由於父母都顧不上照看她,便將她託付給鄉間的一戶人家。在這樣的生長環境中,瓊斯從小便鍛鍊出了一定的獨立性。

  從11歲到18歲這7年間,瓊斯就讀於一所高水平的文法女校,12歲時,她發願要上劍橋大學,後終於如願以償。

  1956年,她在劍橋大學獲得歷史學專業的文學學士學位。由於對哲學的興趣,瓊斯又繼續讀了一年哲學。1957年,她加入了劍橋語言研究所,開始接觸計算機在語言研究方面的應用。在此工作期間,她認識了Roger Needham(1935—2003,計算機科學家,英國皇家學會會員),兩人於1958年結婚。1964年,她在劍橋大學獲得哲學博士學位,但博士論文導師對她的幫助不大,她基本上是獨立打拼,編程也是自學的。1968年,瓊斯成為劍橋大學計算機實驗室的全職工作人員,從此以後她在這裡耕耘了近50載,一直從事計算語言學和信息檢索研究。

  她在計算語言學和信息檢索兩個領域都作出了傑出貢獻。在信息檢索方面,早在1958年,她就與人合著了相關文章。她的最重要貢獻當數1972年提出的逆文本頻率指數(IDF)的概念。這個概念的意思是:如果詞w在一篇文檔d中出現的頻率高,並且在其他文檔中很少出現,則可以認為詞w具有很好的區分能力,可以把文章d和其他文章較好地區分開來。IDF是網際網路搜尋引擎普遍採用的思路。可以說,沒有瓊斯的早年貢獻,就沒有谷歌搜尋引擎日後的成就。

  在計算語言學方面,她1963年完成的博士論文至今仍有價值。該文將統計進路(或曰機器學習進路)與已有資源(做在穿孔卡片上的敘詞表)結合起來,取得了領先於時代的成果。此外,她在計算機自動摘要、結構化資料庫的界面、對話、語義學等多個主題上均有所建樹。

  除了本人的學術研究外,她還通過學術社團的活動大大推進了本領域的進步。尤其是1994年她擔任計算語言學學會(ACL)會長期間。計算語言學學會是國際性的社團,當時多數會員是美國學者,她接手學會時,學會的財務狀況不佳,原來的司庫又去世了,一時半會兒招聘不到新的司庫,在這種情況下,瓊斯又要統籌安排學會的學術活動,又要管帳,忙得一塌糊塗。那一陣子是ACL苦痛掙扎的過渡期,在她的有力領導下,ACL走出了困境。除了ACL外,她還是另外好幾個學會的會士。2000—2002年期間,她擔任過英國科學院副院長。在英國有兩所科學院:英國皇家學會相當於自然科學領域的科學院,而英國科學院是人文社會科學領域的科學院。由於語言學這個大類屬於人文學科,瓊斯就憑藉其在計算語言學的成就當選為英國科學院的院士。

  瓊斯共獲得過7個重要獎項,包括2004年獲得的「計算語言學學會終生成就獎」和2007年獲得的「英國計算機學會勒芙蕾絲獎章」(阿達。勒芙蕾絲是英國大詩人拜倫的女兒,電腦程式的創始人)。

  她2002年辦理了退休手續,但繼續在實驗室工作。直到2007年4月4日去世前不久,實驗室裡仍有她的身影。

  2001年4月10日,電氣電子工程師學會(IEEE)歷史研究中心的Janet Abbate女士採訪了瓊斯。在接受採訪時她說:「人人都在談職業生涯之類的東西。從某種意義上說,我做到了一路向前走,但其實那時並沒有明顯的路徑。你得利用一切存在著的機會。早年的時候,對於女性,即使是在劍橋,工作機會也是極其有限的。看看現在的年輕女性,我是十分羨慕。現在沒有多少女性擁有『我能行』的心態,但她們其實擁有實現『我能行』的機會,而我們那時根本就沒有這樣的機會。」

  希望我們中國的職業女性以瓊斯為榜樣,抓住機會,奮力前行。

  ( 克倫·施拜克·瓊斯 圖片來源:劍橋大學網站)

概述搜尋引擎的起源

  1.搜尋引擎的起源

  1990年,加拿大麥吉爾大學(University ofMcGill)計算機學院的師生開發出Archie。當時,全球資訊網(World Wide Web)還沒有出現,人們通過FTP來共享交流資源。Archie能定期搜集並分析FTP伺服器上的文件名信息,提供查找分別在各個FTP主機中的文件。用戶必須輸入精確的文件名進行搜索,Archie告訴用戶哪個FTP伺服器能下載該文件。雖然Archie搜集的信息資源不是網頁(HTML文件),但和搜尋引擎的基本工作方式是一樣的:自動搜集信息資源、建立索引、提供檢索服務。所以,Archie被公認為現代搜尋引擎的鼻祖。

  2.搜尋引擎的發展

  第一階段

  Excite的歷史可以上溯到1993年2月,6個Stanford University(史丹福大學)大學生的想法是分析字詞關係,以對網際網路上的大量信息作更有效的檢索。到1993年中,這已是一個完全投資項目,他們還發布了一個供webmasters在自己網站上使用的搜索軟體版本,後來被叫做Excite for Web Servers。註:Excite後來曾以概念搜索聞名,2002年5月,被Infospace收購的Excite停止自己的搜尋引擎,改用元搜尋引擎Dogpile

  第二階段

  1994年4月,史丹福大學的兩名博士生,美籍華人楊致遠和David Filo共同創辦了Yahoo!。隨著訪問量和收錄連結數的增長,Yahoo目錄開始支持簡單的資料庫搜索。因為Yahoo!的數據是手工輸入的,所以不能真正被歸為搜尋引擎,事實上只是一個可搜索的目錄。Yahoo!中收錄的網站,因為都附有簡介信息,所以搜索效率明顯提高。註:Yahoo以後陸續有 Altavista、Inktomi、Google提供搜尋引擎服務Yahoo!--幾乎成為20世紀90年代的網際網路的代名詞。

  第三階段

  1995年,一種新的搜尋引擎形式出現了——元搜尋引擎(Meta Search Engine)。用戶只需提交一次搜索請求,由元搜尋引擎負責轉換處理後提交給多個預先選定的獨立搜尋引擎,並將從各獨立搜尋引擎返回的所有查詢結果,集中起來處理後再返回給用戶。第一個元搜尋引擎,是Washington大學碩士生 Eric Selberg 和 Oren Etzioni的 Metacrawler。元搜尋引擎概念上非常好聽,但搜索效果始終不理想,所以沒有哪個元搜尋引擎有過強勢地位。

  第四階段

  智能檢索的產生:它利用分詞詞典、同義詞典,同音詞典改善檢索效果,進一步還可在知識層面或者說概念層面上輔助查詢,通過主題詞典、上下位詞典、相關同級詞典檢索處理形成一個知識體系或概念網絡,給予用戶智能知識提示,最終幫助用戶獲得最佳的檢索效果。

  綜合自科技日報 ;  參考資料: 《網絡營銷》 楊路明等編著 機械工業出版社

打開APP閱讀更多精彩內容

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴

相關焦點

  • 百度搜索都是廣告!不如試試這幾個搜尋引擎
    閒話少敘,今天爆哥給大家聊聊搜尋引擎那些事兒眾所周知,百度是國內搜尋引擎中的老大,但由於長期位於霸主之位,居安而不思危,終於日日頹廢而漸漸式微,大家也送給它一個「名副其實」的稱號——「百毒」電影《網絡迷蹤》中,一位父親就用谷歌搜索成功找到了失蹤多天的女兒,這事兒如果發生在中國,百度直接會把人給坑死.....但是在國內,谷歌搜索是登不上去的......
  • 學術網絡搜索資源大全!
    12 OJOSE http://www.ojose.com/ OJOSE (Online JournalSearch Engine,在線期刊搜尋引擎)是一個強大的免費科學搜尋引擎,通過OJOSE,你能查找、下載或購買到近60個資料庫的資源。但是感覺操作比較複雜。
  • 華為搜尋引擎面世:用不了谷歌,試試「花瓣搜索」?
    機器之心報導參與:澤南、杜偉、小舟為了解決沒有「谷歌全家桶」的問題,華為今年接連推出了 HMS Core、地圖服務、應用商店 AppGallery,現在連屬於自己的搜尋引擎「花瓣搜索」也面世了。3 月份,華為推出了兩款搜索應用,即「Search」和「AppSearch」,並在德國進行測試上線。4 月份,華為在 AppGallery 上線了 HERE WeGo 地圖和導航解決方案,這是華為取代谷歌地圖的一次嘗試。但谷歌最為核心的服務搜尋引擎怎麼辦?
  • 學習搜尋引擎的優化:五個頂級語義搜尋引擎
    (編者註: 也就是說語義搜索可以對關鍵詞的相關詞和類似詞進行解讀,從而擴大搜索信息的準確性和相關性。)在語義搜索的過程中,有一個重要組成部分,那就是針對查詢的信息和網絡上的內容,進行 消歧(消除模稜兩可的情況)。這意味著,搜尋引擎通過自然語言處理 - - 當你搜索「美洲虎「 (捷豹轎車), 尋找會知道你要找一輛車還是一個大型貓科動物 。
  • 被禁用谷歌搜索 華為自研搜尋引擎已招募試用
    因為無法在美國銷售的新設備上部署谷歌搜索,華為自研搜尋引擎相關信息逐漸浮出水面:消息稱,華為正在阿聯招募用戶測試華為搜索應用程式。但是與谷歌搜索集成了谷歌諸多服務不同,華為搜索目前只允許用戶通過網際網路搜索網頁,視頻,新聞和圖片,以及提供查詢天氣等較為簡單的功能。
  • 常規學術搜尋引擎介紹和SCI論文資源獲取方法
    這一期,筆者給大家分享一些常規的學術搜尋引擎和SCI論文資源獲取方法,旨在幫助大家,尤其是剛入學的研究生找到免費獲取SCI論文的方法,也是對上述已分享內容的補充。學術搜尋引擎當你開始進行文獻調研時,第一步是查找和閱讀與你研究的科學問題/項目相關的文獻。
  • 2020 國外搜尋引擎匯總
    GoGooligans 社交媒體搜尋引擎 Social Mention -搜索社交媒體,了解流行趨勢。 IceRocket -搜索博客和社交網絡。
  • 百度屏蔽門事件背後:警惕搜尋引擎的霸權擴張
    人們對於能否通過百度搜尋引擎獲得公正而客觀的信息充滿質疑。  「屏蔽門事件」告誡我們,要警惕這樣的威脅:由技術權力的合理追求轉向經濟權力的貪婪追求,繼而轉向社會控制力的越界追求。警惕搜尋引擎的霸權擴張。深入一點說,只有我們有意識地去防範搜尋引擎對信息權力的濫用,我們才有可能構建一個健康的社會,一個公平、祥和、有秩序、有嚴肅道德底線的網絡社會。如何抵禦搜索霸權?
  • Win10將關閉小娜調用谷歌搜索 必應為默認搜尋引擎
    Windows 10中的小娜搜索框微軟在博文中宣布,從周四開始,微軟將關閉在Windows 10中通過語音助手「小娜」(Cortana)調用第三方搜索的功能,目的是保持「完整的搜索體驗」。微軟此舉也是對近期用戶通過多種變通方法使用谷歌搜索的回應。有些用戶使用瀏覽器拓展甚至是修改註冊表,來將小娜的默認搜尋引擎從必應替換成谷歌。此外,通過小娜搜索出的連結將全部使用Edge瀏覽器打開,用戶將無法使用谷歌Chrome或火狐瀏覽器打開這些連結。微軟之所以做出這一調整,主要是想保證小娜的使用體驗。小娜使用的是必應搜尋引擎,部分功能需要配合Edge瀏覽器使用。
  • 最全的國內外學術論文網站與常用的學術搜尋引擎
    略顯不足的是,它搜索出來的結果沒有按照權威度(譬如影響因子、引用次數)依次排列,在中國搜索出來的,前幾頁可能大部分為中文的一些期刊的文章。2、http://www.scirus.comScirus是目前網際網路上最全面、綜合性最強的科技文獻搜尋引擎之一,由Elsevier科學出版社開發,用於搜索期刊和專利,效果很不錯!
  • 吳軍:《數學之美》延伸閱讀,為什麼數學是科學的女王?
    02數學與信息技術科學信息技術科學是近30年來伴隨著網絡技術而迅速發展的一門科學,它廣泛應用於搜尋引擎、圖像識別、數據壓縮、信息處理、人工智慧、軟體開發方法和理論等為研究方向。在這門學科中,計算機和網絡只是載體和工具,數學才是靈魂。
  • 網絡營銷外包對於搜尋引擎策略性調整網絡營銷外包專員如何解析
    對於長期從事網站優化行業的站長而言,每天最重要的事情就是通過搜索網站關鍵詞獲取檢索結果,當搜尋引擎算法有相關策略性調整時,站長可及時發現,通過這些策略性調整分析為網站所帶來的變化和影響。那麼搜尋引擎在策略性調整中所帶來的變化都有哪些呢?
  • AIR 023 | 從搜尋引擎到行動引擎,前谷歌科學家如何打造智能搜索
    原因我們未能盡知,然而,走今天的全球人工智慧與機器人峰會上,林德康表示,當前我們的引擎正從搜尋引擎到問答引擎進步,即語言到自然語言識別的進階中。但是,目前可以預見的終極目標應該是——Action Engine(互動引擎)。不能為用戶代勞的搜尋引擎不是好AI如果我們想知道深圳的年降雨量,那麼通過搜尋引擎就可以完成,比如微軟開發的產品。
  • 搜尋引擎營銷SEM是什麼意思?
    搜尋引擎營銷(SEM)是一種利用多種方法來提高品牌,產品或服務的市場知名度和曝光度的過程。SEM 機制包括搜尋引擎優化(SEO),社交網絡,出價,每次點擊付費(PPC),內容相關廣告,付費收錄,地理位置,AdSense 和 AdWords,以及多種媒體格式。
  • seo搜尋引擎工作原理簡介是怎麼樣的
    東莞seo搜尋引擎工作原理簡介搜尋引擎工作過程非常複雜,那麼搜尋引擎是怎樣實現網頁排名的。搜尋引擎過程大致分成三個階段。1、爬行和抓取:搜尋引擎蜘蛛通過跟蹤連結發現和訪問網頁,讀取頁面HTML代碼,存入資料庫。
  • 史話:人類誕生於非洲?鄂爾多斯人(河金人)撼動人類單一地區起源說
    (本文圖片源於網絡)自20世紀20年代起,英國人類學家先後在東非發現並確認了300萬~400萬年前的南猿阿法種是人類的近祖,隨後又發現了400萬年前的人類化石,這是迄今所知最早的古人類。據此,在20世紀70年代,西方一些學者提出了人類誕生於非洲,擴散到世界各地的「單一地區起源說」。
  • 【物理科研】較全的國外學術論文網站與常用的學術搜尋引擎 !!
    略顯不足的是,它搜索出來的結果沒有按照權威度(譬如影響因子、引用次數)依次排列,在中國搜索出來的,前幾頁可能大部分為中文的一些期刊的文章。 2、http://www.scirus.com Scirus是目前網際網路上最全面、綜合性最強的科技文獻搜尋引擎之一,由Elsevier科學出版社開發,用於搜索期刊和專利,效果很不錯!
  • SEO優化上首頁之搜尋引擎原理用戶需求理解
    經過前面《搜尋引擎原理SEO優化上首頁之網絡蜘蛛Spider》和《搜尋引擎原理SEO優化上首頁之內容處理與創建索引》介紹,搜尋引擎已經完成頁面抓取和分析,並把原始頁面、索引等信息存儲在搜尋引擎伺服器的資料庫裡,等待響應用戶查詢。
  • Airbnb警告投資者:谷歌搜索阻礙公司獲取更多網絡流量
    它在提交的招股書中表示,谷歌搜索阻礙公司獲取更多網絡流量。在Airbnb提交的招股書中,公司明確表示谷歌偏愛自有產品和服務,導致訪問Airbnb網站的網民減少。去年穀歌添加更多類似旅行網站的搜索功能。Airbnb在招股書中寫道:「谷歌推出Travel和Vacation Rental Ads,這些服務給我們的SEO結果帶來嚴重影響,我們平臺在谷歌旅遊相關詞彙有機搜索結果的地位被降低,位置不再那麼好。」企業利用SEO優化內容,使內容在搜索結果中佔據更有利位置,但無須向谷歌付費。招股書稱:「我們專注於免費渠道,比如SEO。
  • 蘋果為什麼要研發自己的搜尋引擎來對抗谷歌?
    然而在聽說蘋果要做搜尋引擎的消息後,我的內心燃起一股莫名的興奮之情,這種興奮要遠甚於蘋果發布新一代的iPhone、iPad等。要知道,搜尋引擎對蘋果來說完全是一個全新的領域,蘋果每次進入一個新的業務領域,總能改寫甚至完全改變那個領域的生態。 你好「蘋果搜索」!