搜尋引擎的起源之科學史話克倫·施拜克·瓊斯對網絡搜索的貢獻

2020-11-30 電子發燒友

搜尋引擎的起源之科學史話克倫·施拜克·瓊斯對網絡搜索的貢獻

綜合自科技日報發表於 2020-11-20 15:19:35

　　科學史話克倫·施拜克·瓊斯：每次網絡搜索背後都離不開她的貢獻

　　克倫·施拜克·瓊斯（Karen Spärck Jones）1935年8月26日生於英國哈德斯菲爾德市，一個紡織業較發達的城市。在她小時候，她的父親在大學裡擔任化學講師，晚上還要打工掙錢；母親是挪威人，曾去倫敦為挪威流亡政府工作。由於父母都顧不上照看她，便將她託付給鄉間的一戶人家。在這樣的生長環境中，瓊斯從小便鍛鍊出了一定的獨立性。

　　從11歲到18歲這7年間，瓊斯就讀於一所高水平的文法女校，12歲時，她發願要上劍橋大學，後終於如願以償。

　　1956年，她在劍橋大學獲得歷史學專業的文學學士學位。由於對哲學的興趣，瓊斯又繼續讀了一年哲學。1957年，她加入了劍橋語言研究所，開始接觸計算機在語言研究方面的應用。在此工作期間，她認識了Roger Needham（1935—2003，計算機科學家，英國皇家學會會員），兩人於1958年結婚。1964年，她在劍橋大學獲得哲學博士學位，但博士論文導師對她的幫助不大，她基本上是獨立打拼，編程也是自學的。1968年，瓊斯成為劍橋大學計算機實驗室的全職工作人員，從此以後她在這裡耕耘了近50載，一直從事計算語言學和信息檢索研究。

　　她在計算語言學和信息檢索兩個領域都作出了傑出貢獻。在信息檢索方面，早在1958年，她就與人合著了相關文章。她的最重要貢獻當數1972年提出的逆文本頻率指數（IDF）的概念。這個概念的意思是：如果詞w在一篇文檔d中出現的頻率高，並且在其他文檔中很少出現，則可以認為詞w具有很好的區分能力，可以把文章d和其他文章較好地區分開來。IDF是網際網路搜尋引擎普遍採用的思路。可以說，沒有瓊斯的早年貢獻，就沒有谷歌搜尋引擎日後的成就。

　　在計算語言學方面，她1963年完成的博士論文至今仍有價值。該文將統計進路（或曰機器學習進路）與已有資源（做在穿孔卡片上的敘詞表）結合起來，取得了領先於時代的成果。此外，她在計算機自動摘要、結構化資料庫的界面、對話、語義學等多個主題上均有所建樹。

　　除了本人的學術研究外，她還通過學術社團的活動大大推進了本領域的進步。尤其是1994年她擔任計算語言學學會（ACL）會長期間。計算語言學學會是國際性的社團，當時多數會員是美國學者，她接手學會時，學會的財務狀況不佳，原來的司庫又去世了，一時半會兒招聘不到新的司庫，在這種情況下，瓊斯又要統籌安排學會的學術活動，又要管帳，忙得一塌糊塗。那一陣子是ACL苦痛掙扎的過渡期，在她的有力領導下，ACL走出了困境。除了ACL外，她還是另外好幾個學會的會士。2000—2002年期間，她擔任過英國科學院副院長。在英國有兩所科學院：英國皇家學會相當於自然科學領域的科學院，而英國科學院是人文社會科學領域的科學院。由於語言學這個大類屬於人文學科，瓊斯就憑藉其在計算語言學的成就當選為英國科學院的院士。

　　瓊斯共獲得過7個重要獎項，包括2004年獲得的「計算語言學學會終生成就獎」和2007年獲得的「英國計算機學會勒芙蕾絲獎章」（阿達。勒芙蕾絲是英國大詩人拜倫的女兒，電腦程式的創始人）。

　　她2002年辦理了退休手續，但繼續在實驗室工作。直到2007年4月4日去世前不久，實驗室裡仍有她的身影。

　　2001年4月10日，電氣電子工程師學會（IEEE）歷史研究中心的Janet Abbate女士採訪了瓊斯。在接受採訪時她說：「人人都在談職業生涯之類的東西。從某種意義上說，我做到了一路向前走，但其實那時並沒有明顯的路徑。你得利用一切存在著的機會。早年的時候，對於女性，即使是在劍橋，工作機會也是極其有限的。看看現在的年輕女性，我是十分羨慕。現在沒有多少女性擁有『我能行』的心態，但她們其實擁有實現『我能行』的機會，而我們那時根本就沒有這樣的機會。」

　　希望我們中國的職業女性以瓊斯為榜樣，抓住機會，奮力前行。

　　（　克倫·施拜克·瓊斯圖片來源：劍橋大學網站）

概述搜尋引擎的起源

　　1.搜尋引擎的起源

　　1990年，加拿大麥吉爾大學（University ofMcGill）計算機學院的師生開發出Archie。當時，全球資訊網（World Wide Web）還沒有出現，人們通過FTP來共享交流資源。Archie能定期搜集並分析FTP伺服器上的文件名信息，提供查找分別在各個FTP主機中的文件。用戶必須輸入精確的文件名進行搜索，Archie告訴用戶哪個FTP伺服器能下載該文件。雖然Archie搜集的信息資源不是網頁（HTML文件），但和搜尋引擎的基本工作方式是一樣的：自動搜集信息資源、建立索引、提供檢索服務。所以，Archie被公認為現代搜尋引擎的鼻祖。

　　2.搜尋引擎的發展

　　第一階段

　　Excite的歷史可以上溯到1993年2月，6個Stanford University（史丹福大學）大學生的想法是分析字詞關係，以對網際網路上的大量信息作更有效的檢索。到1993年中，這已是一個完全投資項目，他們還發布了一個供webmasters在自己網站上使用的搜索軟體版本，後來被叫做Excite for Web Servers。註：Excite後來曾以概念搜索聞名，2002年5月，被Infospace收購的Excite停止自己的搜尋引擎，改用元搜尋引擎Dogpile

　　第二階段

　　1994年4月，史丹福大學的兩名博士生，美籍華人楊致遠和David Filo共同創辦了Yahoo！。隨著訪問量和收錄連結數的增長，Yahoo目錄開始支持簡單的資料庫搜索。因為Yahoo！的數據是手工輸入的，所以不能真正被歸為搜尋引擎，事實上只是一個可搜索的目錄。Yahoo！中收錄的網站，因為都附有簡介信息，所以搜索效率明顯提高。註：Yahoo以後陸續有 Altavista、Inktomi、Google提供搜尋引擎服務Yahoo！－－幾乎成為20世紀90年代的網際網路的代名詞。

　　第三階段

　　1995年，一種新的搜尋引擎形式出現了——元搜尋引擎（Meta Search Engine）。用戶只需提交一次搜索請求，由元搜尋引擎負責轉換處理後提交給多個預先選定的獨立搜尋引擎，並將從各獨立搜尋引擎返回的所有查詢結果，集中起來處理後再返回給用戶。第一個元搜尋引擎，是Washington大學碩士生 Eric Selberg 和 Oren Etzioni的 Metacrawler。元搜尋引擎概念上非常好聽，但搜索效果始終不理想，所以沒有哪個元搜尋引擎有過強勢地位。

　　第四階段

　　智能檢索的產生：它利用分詞詞典、同義詞典，同音詞典改善檢索效果，進一步還可在知識層面或者說概念層面上輔助查詢，通過主題詞典、上下位詞典、相關同級詞典檢索處理形成一個知識體系或概念網絡，給予用戶智能知識提示，最終幫助用戶獲得最佳的檢索效果。

　　綜合自科技日報；參考資料：《網絡營銷》楊路明等編著機械工業出版社

打開APP閱讀更多精彩內容

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容圖片侵權或者其他問題，請聯繫本站作侵刪。侵權投訴

相關焦點

百度搜索都是廣告!不如試試這幾個搜尋引擎

閒話少敘，今天爆哥給大家聊聊搜尋引擎那些事兒眾所周知，百度是國內搜尋引擎中的老大，但由於長期位於霸主之位，居安而不思危，終於日日頹廢而漸漸式微，大家也送給它一個「名副其實」的稱號——「百毒」電影《網絡迷蹤》中，一位父親就用谷歌搜索成功找到了失蹤多天的女兒，這事兒如果發生在中國，百度直接會把人給坑死.....但是在國內，谷歌搜索是登不上去的......
學術網絡搜索資源大全!

12 OJOSE http://www.ojose.com/ OJOSE (Online JournalSearch Engine，在線期刊搜尋引擎)是一個強大的免費科學搜尋引擎，通過OJOSE，你能查找、下載或購買到近60個資料庫的資源。但是感覺操作比較複雜。
華為搜尋引擎面世:用不了谷歌,試試「花瓣搜索」?

機器之心報導參與：澤南、杜偉、小舟為了解決沒有「谷歌全家桶」的問題，華為今年接連推出了 HMS Core、地圖服務、應用商店 AppGallery，現在連屬於自己的搜尋引擎「花瓣搜索」也面世了。3 月份，華為推出了兩款搜索應用，即「Search」和「AppSearch」，並在德國進行測試上線。4 月份，華為在 AppGallery 上線了 HERE WeGo 地圖和導航解決方案，這是華為取代谷歌地圖的一次嘗試。但谷歌最為核心的服務搜尋引擎怎麼辦？
學習搜尋引擎的優化:五個頂級語義搜尋引擎

（編者註：也就是說語義搜索可以對關鍵詞的相關詞和類似詞進行解讀，從而擴大搜索信息的準確性和相關性。）在語義搜索的過程中，有一個重要組成部分，那就是針對查詢的信息和網絡上的內容，進行消歧（消除模稜兩可的情況）。這意味著，搜尋引擎通過自然語言處理 - - 當你搜索「美洲虎「（捷豹轎車），尋找會知道你要找一輛車還是一個大型貓科動物。
被禁用谷歌搜索華為自研搜尋引擎已招募試用

因為無法在美國銷售的新設備上部署谷歌搜索，華為自研搜尋引擎相關信息逐漸浮出水面：消息稱，華為正在阿聯招募用戶測試華為搜索應用程式。但是與谷歌搜索集成了谷歌諸多服務不同，華為搜索目前只允許用戶通過網際網路搜索網頁，視頻，新聞和圖片，以及提供查詢天氣等較為簡單的功能。
常規學術搜尋引擎介紹和SCI論文資源獲取方法

這一期，筆者給大家分享一些常規的學術搜尋引擎和SCI論文資源獲取方法，旨在幫助大家，尤其是剛入學的研究生找到免費獲取SCI論文的方法，也是對上述已分享內容的補充。學術搜尋引擎當你開始進行文獻調研時，第一步是查找和閱讀與你研究的科學問題/項目相關的文獻。
2020 國外搜尋引擎匯總

GoGooligans 社交媒體搜尋引擎 Social Mention -搜索社交媒體，了解流行趨勢。 IceRocket -搜索博客和社交網絡。
百度屏蔽門事件背後:警惕搜尋引擎的霸權擴張

人們對於能否通過百度搜尋引擎獲得公正而客觀的信息充滿質疑。　　「屏蔽門事件」告誡我們,要警惕這樣的威脅：由技術權力的合理追求轉向經濟權力的貪婪追求，繼而轉向社會控制力的越界追求。警惕搜尋引擎的霸權擴張。深入一點說，只有我們有意識地去防範搜尋引擎對信息權力的濫用，我們才有可能構建一個健康的社會，一個公平、祥和、有秩序、有嚴肅道德底線的網絡社會。如何抵禦搜索霸權？
Win10將關閉小娜調用谷歌搜索必應為默認搜尋引擎

Windows 10中的小娜搜索框微軟在博文中宣布，從周四開始，微軟將關閉在Windows 10中通過語音助手「小娜」(Cortana)調用第三方搜索的功能，目的是保持「完整的搜索體驗」。微軟此舉也是對近期用戶通過多種變通方法使用谷歌搜索的回應。有些用戶使用瀏覽器拓展甚至是修改註冊表，來將小娜的默認搜尋引擎從必應替換成谷歌。此外，通過小娜搜索出的連結將全部使用Edge瀏覽器打開，用戶將無法使用谷歌Chrome或火狐瀏覽器打開這些連結。微軟之所以做出這一調整，主要是想保證小娜的使用體驗。小娜使用的是必應搜尋引擎，部分功能需要配合Edge瀏覽器使用。
最全的國內外學術論文網站與常用的學術搜尋引擎

略顯不足的是，它搜索出來的結果沒有按照權威度（譬如影響因子、引用次數）依次排列，在中國搜索出來的，前幾頁可能大部分為中文的一些期刊的文章。2、http://www.scirus.comScirus是目前網際網路上最全面、綜合性最強的科技文獻搜尋引擎之一，由Elsevier科學出版社開發，用於搜索期刊和專利，效果很不錯！
吳軍:《數學之美》延伸閱讀,為什麼數學是科學的女王?

02數學與信息技術科學信息技術科學是近30年來伴隨著網絡技術而迅速發展的一門科學，它廣泛應用於搜尋引擎、圖像識別、數據壓縮、信息處理、人工智慧、軟體開發方法和理論等為研究方向。在這門學科中，計算機和網絡只是載體和工具，數學才是靈魂。
網絡營銷外包對於搜尋引擎策略性調整網絡營銷外包專員如何解析

對於長期從事網站優化行業的站長而言，每天最重要的事情就是通過搜索網站關鍵詞獲取檢索結果，當搜尋引擎算法有相關策略性調整時，站長可及時發現，通過這些策略性調整分析為網站所帶來的變化和影響。那麼搜尋引擎在策略性調整中所帶來的變化都有哪些呢？
AIR 023 | 從搜尋引擎到行動引擎,前谷歌科學家如何打造智能搜索

原因我們未能盡知，然而，走今天的全球人工智慧與機器人峰會上，林德康表示，當前我們的引擎正從搜尋引擎到問答引擎進步，即語言到自然語言識別的進階中。但是，目前可以預見的終極目標應該是——Action Engine（互動引擎）。不能為用戶代勞的搜尋引擎不是好AI如果我們想知道深圳的年降雨量，那麼通過搜尋引擎就可以完成，比如微軟開發的產品。
搜尋引擎營銷SEM是什麼意思?

搜尋引擎營銷（SEM）是一種利用多種方法來提高品牌，產品或服務的市場知名度和曝光度的過程。SEM 機制包括搜尋引擎優化（SEO），社交網絡，出價，每次點擊付費（PPC），內容相關廣告，付費收錄，地理位置，AdSense 和 AdWords，以及多種媒體格式。
seo搜尋引擎工作原理簡介是怎麼樣的

東莞seo搜尋引擎工作原理簡介搜尋引擎工作過程非常複雜，那麼搜尋引擎是怎樣實現網頁排名的。搜尋引擎過程大致分成三個階段。1、爬行和抓取：搜尋引擎蜘蛛通過跟蹤連結發現和訪問網頁，讀取頁面HTML代碼，存入資料庫。
史話:人類誕生於非洲?鄂爾多斯人(河金人)撼動人類單一地區起源說

（本文圖片源於網絡）自20世紀20年代起,英國人類學家先後在東非發現並確認了300萬~400萬年前的南猿阿法種是人類的近祖,隨後又發現了400萬年前的人類化石,這是迄今所知最早的古人類。據此,在20世紀70年代,西方一些學者提出了人類誕生於非洲,擴散到世界各地的「單一地區起源說」。
【物理科研】較全的國外學術論文網站與常用的學術搜尋引擎 !!

略顯不足的是，它搜索出來的結果沒有按照權威度（譬如影響因子、引用次數）依次排列，在中國搜索出來的，前幾頁可能大部分為中文的一些期刊的文章。 2、http://www.scirus.com Scirus是目前網際網路上最全面、綜合性最強的科技文獻搜尋引擎之一，由Elsevier科學出版社開發，用於搜索期刊和專利，效果很不錯！
SEO優化上首頁之搜尋引擎原理用戶需求理解

經過前面《搜尋引擎原理SEO優化上首頁之網絡蜘蛛Spider》和《搜尋引擎原理SEO優化上首頁之內容處理與創建索引》介紹，搜尋引擎已經完成頁面抓取和分析，並把原始頁面、索引等信息存儲在搜尋引擎伺服器的資料庫裡，等待響應用戶查詢。
Airbnb警告投資者:谷歌搜索阻礙公司獲取更多網絡流量

它在提交的招股書中表示，谷歌搜索阻礙公司獲取更多網絡流量。在Airbnb提交的招股書中，公司明確表示谷歌偏愛自有產品和服務，導致訪問Airbnb網站的網民減少。去年穀歌添加更多類似旅行網站的搜索功能。Airbnb在招股書中寫道：「谷歌推出Travel和Vacation Rental Ads，這些服務給我們的SEO結果帶來嚴重影響，我們平臺在谷歌旅遊相關詞彙有機搜索結果的地位被降低，位置不再那麼好。」企業利用SEO優化內容，使內容在搜索結果中佔據更有利位置，但無須向谷歌付費。招股書稱：「我們專注於免費渠道，比如SEO。
蘋果為什麼要研發自己的搜尋引擎來對抗谷歌?

然而在聽說蘋果要做搜尋引擎的消息後，我的內心燃起一股莫名的興奮之情，這種興奮要遠甚於蘋果發布新一代的iPhone、iPad等。要知道，搜尋引擎對蘋果來說完全是一個全新的領域，蘋果每次進入一個新的業務領域，總能改寫甚至完全改變那個領域的生態。你好「蘋果搜索」！

搜尋引擎的起源之科學史話克倫·施拜克·瓊斯對網絡搜索的貢獻

搜尋引擎的起源之科學史話克倫·施拜克·瓊斯對網絡搜索的貢獻

相關焦點

百度搜索都是廣告!不如試試這幾個搜尋引擎

學術網絡搜索資源大全!

華為搜尋引擎面世:用不了谷歌,試試「花瓣搜索」?

學習搜尋引擎的優化:五個頂級語義搜尋引擎

被禁用谷歌搜索 華為自研搜尋引擎已招募試用

常規學術搜尋引擎介紹和SCI論文資源獲取方法

2020 國外搜尋引擎匯總

百度屏蔽門事件背後:警惕搜尋引擎的霸權擴張

Win10將關閉小娜調用谷歌搜索 必應為默認搜尋引擎

最全的國內外學術論文網站與常用的學術搜尋引擎

吳軍:《數學之美》延伸閱讀,為什麼數學是科學的女王?

網絡營銷外包對於搜尋引擎策略性調整網絡營銷外包專員如何解析

AIR 023 | 從搜尋引擎到行動引擎,前谷歌科學家如何打造智能搜索

搜尋引擎營銷SEM是什麼意思?

seo搜尋引擎工作原理簡介是怎麼樣的

史話:人類誕生於非洲?鄂爾多斯人(河金人)撼動人類單一地區起源說

【物理科研】較全的國外學術論文網站與常用的學術搜尋引擎 !!

SEO優化上首頁之搜尋引擎原理用戶需求理解

Airbnb警告投資者:谷歌搜索阻礙公司獲取更多網絡流量

蘋果為什麼要研發自己的搜尋引擎來對抗谷歌?

被禁用谷歌搜索華為自研搜尋引擎已招募試用

Win10將關閉小娜調用谷歌搜索必應為默認搜尋引擎