「萬能」的搜尋引擎

2020-12-17 新華網客戶端

每當我們需要查什麼資料或者新聞的時候,都會打開搜尋引擎,輸入詞組就可以直接搜出自己想要的內容。搜尋引擎不但能搜索出海量內容,而且搜索速度很快。它到底是怎麼工作的呢?這就要從兩個方面單獨來分析,一方面是為什麼搜尋引擎的速度這麼快,另一個方面就是搜尋引擎是怎麼搜到這麼多海量資源的。

書籍自古以來都是人類進步和文明的重要標誌之一,因為書籍可以不受時間、空間的限制,流傳和保存信息。在沒有網絡以前,書籍是我們獲取信息的主要工具。隨著網絡的普及,我們越來越多地通過網絡搜索信息,網絡成了獲取信息的主要渠道。截止到2012年4月,網際網路上被收錄的網頁已有五百多億個。如果按照一本書有500頁來估算,這就相當於一億冊圖書的信息量。

 

 

當我們在網上搜索一個詞語時,搜尋引擎會快速給我們展示結果。例如,我們在百度上搜索雞蛋一次,百度搜索結果有幾千萬個。搜尋引擎的伺服器是怎麼工作的?為什麼能在一瞬間搜索出這麼多結果?搜尋引擎是逐個打開檢索的網頁嗎?就算搜尋引擎的伺服器1秒鐘能夠打開並檢索1萬個網頁,這五百億的網頁就需要檢索將近兩個月。我們為了得到一個信息居然要等兩個月,這顯然不是搜尋引擎伺服器的工作方式。

伺服器能夠快速得出結果,是因為它利用了「關鍵詞索引」。伺服器會將所有網頁掃描一遍,然後為網頁中的每個詞語都建立一個跟這個詞語有關的關鍵詞索引。如果一個詞組在這個網頁中多次出現,那就建立同一個關鍵字的多個索引,這就形成了關鍵字索引表。這個關鍵字索引表可以查到包含這個關鍵字的網頁和位置。因為詞組數量有限,其數目要遠遠小於網頁數量。只要找到關鍵字的索引表之後,搜尋引擎就能將對應的網頁內容顯示出來。

 

 

人們越來越依賴網絡,所以就把越來越多的內容放在網際網路上。據估計,網際網路上有數萬億的獨立Web頁面,人們利用搜尋引擎從網際網路上獲取信息內容。我們知道了搜尋引擎利用關鍵字索引表,而關鍵字索引表又是用關鍵字索引建立的,關鍵字索引則是伺服器掃描網頁時檢索出關鍵字設立的。那麼搜尋引擎是怎麼自動完成這些工作的?

搜尋引擎的工作一般分三步完成:

一、 信息抓取。搜尋引擎用被稱為「網絡爬蟲」的程序來抓取網頁上的所有連結。因為網際網路上的網頁存在互通性,大多數網頁都可以通過其他頁面的連結訪問,網絡爬蟲就通過一個點爬遍大多數網際網路網頁。

二、 建立索引。搜尋引擎從網頁頁面中提取關鍵字,並把整個頁面信息內容按照一定的規則保存到自己的資料庫裡。

三、 結果顯示。因為伺服器早已經建立好了關鍵字索引,並把信息保存到了自己的資料庫,所以當我們搜索某個詞組時,伺服器只需要檢索自己的資料庫就可以了。

萬能的搜尋引擎像一個優秀的魔術師,讓苦於解開某個難題的我們瞬間找到了解鎖答案的鑰匙。相信隨著科技的進步,搜尋引擎能為我們提供更為便捷的信息檢索。

 

本作品為「科普中國-科學原理一點通」原創 轉載時務請註明出處

 

作者: 科學原理一點通 [責任編輯: 呂芮光]

相關焦點

  • 搜尋引擎這麼多,我們應該選哪一個?
    現在中國市面上的搜尋引擎,非常多,感興趣的朋友可以網上搜一搜。現在的搜尋引擎已經不少了,但可以肯定,以後還會出現新的的搜尋引擎。我們作為一個使用者,該如何處之呢?是選擇使用a搜尋引擎而放棄b搜尋引擎?搜尋引擎的最終宿命是——讓用戶更容易地搜到他想要的內容!為了實現這一點,一方面要建立完善的索引庫,另一方面要改進搜尋引擎的技術,讓它更貼近人的使用方式,以便於幫助人快速找到目標內容。小a曾有一段工作的時間,對搜尋引擎的使用量非常大,需要依靠搜尋引擎去尋找一些公司和關鍵人物的聯繫方式。
  • 學習搜尋引擎的優化:五個頂級語義搜尋引擎
    這篇文章帶給你5大語義搜尋引擎的介紹和藏在它背後的東西。在搜尋引擎的圈圈裡,」語義「是一個帶有魔幻光環的字眼。對它的大肆渲染會讓你猜想說這可能是第二次搜索的高潮。這些宣傳讓我覺得有些許懷疑,我也一直在等待著這個技術變得成熟。這個時刻到了,我現在很高興給大家介紹一下5個頂級的語義搜尋引擎。什麼是語義搜索呢?
  • 廣昌搜尋引擎推廣公司
    不過與類似百度推廣等服務相比,利用搜尋引擎優化服務顯然性價比更高。如果搜尋引擎優化按天按效果計費,那麼品牌推廣費用將進一步降低。雲客網就是一個搜尋引擎優化按天按效果計費的平臺。目前,雲客網已經聚集了8055位技術人員,以這些優化師為技術支持,雲客網的業務能力得到了進一步提高。
  • 2020 國外搜尋引擎匯總
    Seznam – Seznam是捷克的一個門戶網站和搜尋引擎,可搜索網頁,地圖,照片和視頻,產品等等。 SAPO – 葡萄牙搜尋引擎,可以搜索網頁,圖像和視頻,新聞和博客等。 Virgilio -Virgilio是義大利門戶網站和搜尋引擎,可以對網頁,圖像和視頻,企業和地圖進行搜索。
  • 信青風seo搜尋引擎優化
    SEO是搜尋引擎優化(Search Engine Optimization)的英文縮寫,是指為了從搜尋引擎中獲得更多的免費流量,從網站結構、內容建設方案、用戶互動傳播、頁面等角度進行合理規劃,使網站更適合搜尋引擎的檢索原則的行為。
  • 常用八款搜尋引擎橫評 百度獨佔鰲頭
    我們正是利用這個關鍵字,通過對比搜索結果的更新時間,來測試一下各大搜尋引擎的更新頁面速度。問答百科 誰能有問必答    雖然通過網頁搜索最方便,但是網頁搜索並不是萬能的,用戶使用網頁搜索找資料,將自己的問題提煉成若干關鍵字、輸入到輸入框,搜尋引擎通過對數據的分析,顯示出與關鍵字匹配的結果
  • 搜尋引擎基本原理
    如,早期的AltaVista.連結分析。典型:Google的PageRank,極大擴充了網頁內容,質量有提高,隨之而來各種作弊方法。用戶為中心?現在的大部分搜尋引擎對相同查詢返回相同的結果,但是不同用戶可能關注不一樣,未來也許更多考慮用戶的差異性。
  • 搜尋引擎優化的核心內容
    4 網站在搜尋引擎中排名的關鍵因素--域名    企業希望客戶通過搜尋引擎找到他們的網站,域名是影響搜尋引擎排名的因素之一,但通常沒有引起大家足夠重視,以至於排名效果不理想,失去了不少商機,下面就域名在搜尋引擎排名中的作用做以介紹。
  • 哪個搜尋引擎最好用?
    一、市面上的主流搜尋引擎先說谷歌搜索,相信這個大家都知道,身為搜尋引擎行業一哥,相信沒人會忽略它。谷歌成立於成立於1998年9月4日,由拉裡·佩奇和謝爾蓋·布林共同創建,被公認為全球最大的搜尋引擎公司。
  • 純乾貨:網盤搜尋引擎整理
    資源多、更新快的百度網盤搜尋引擎。有億萬影視、音樂、軟體、電子書等百度雲盤資源,是數千萬網友找資源首選神器。,上億級的網盤資源下載,最實用的百度雲搜尋引擎,名副其實的超級網盤搜索神器!,資源問答平臺,我嚓哩,嚓哩,常用網盤資源搜索,百度網盤、網盤資源分類下載,最新資源搜索下載,可以分享網盤資源、請求網盤資源的網盤搜尋引擎。
  • 磁力貓搜尋引擎下載
    磁力貓搜尋引擎下載簡介:磁力貓是一款手機上的影音播放類應用,能夠為用戶進行全網的資源搜索,本身還擁有龐大的視頻資源庫,只要你想看,這裡全都有。磁力貓搜尋引擎下載亮點:1.高清播放:全網高清資源流暢播放,輕鬆體驗視覺盛宴。2.一鍵分享:精彩內容分享朋友圈與君同樂。
  • 搜尋引擎搜到了侵權盜版內容,搜尋引擎該承擔法律責任嗎?
    最近,八月看到有人說他的小說才剛剛在籤約網站上發表,但是搜尋引擎裡面卻出現了他的小說,小說的連結不是原創籤約網站上的,而是其他的網站。他去找了搜尋引擎的客服,但是對方聲稱其並沒有侵權,不需要負法律責任。這個問題相信大家都遇見過,即便是作為讀者,去搜尋引擎搜索時,相同的內容會出現在多個網站上,讀者都不知道哪個網站才是正版內容。
  • 搜尋引擎工作原理——排名
    圖片來源網絡經過搜尋引擎蜘蛛抓取頁面,索引程序計算得到倒排索引後,搜尋引擎就準備好可以隨時處理用戶搜索了。搜尋引擎都需要做出相應識別和相應處理。(4)、拼寫錯誤矯正。用戶如果輸入了明顯錯誤的字或英文單詞拼錯,搜尋引擎會提示用戶正確的用字和拼法。
  • 如何屏蔽搜尋引擎抓取?
    作網站運營尤其是網站排名優化的時候,我們總想著如何來引導搜尋引擎蜘蛛來爬行網頁,收錄。然而,很多時候一些網站因為所真對的用戶群體和目標地區不同,並不希望獲得搜尋引擎的光顧,這個時候我們要如何來解決呢?今天和筆者小丹一起來研究一下吧!    當我們看到要屏蔽抓取的時候,大多數SEOer想到的都是robots.txt文件。
  • 常見的搜尋引擎可以分為幾種
    經常活躍於網際網路的用戶對於搜尋引擎這個稱呼並不陌生,國內常見的搜尋引擎有百度、360、搜狗等,國外的有谷歌、必應等。知道了搜尋引擎的名字,但你知道搜尋引擎可以分為幾種類型嗎?根據不同的工作方式,常見的搜尋引擎可被分為三種,分別是全文搜尋引擎、目錄搜尋引擎和元搜尋引擎。接下來迪思網站託管就為大家分別介紹這三種搜尋引擎的特點以及不同之處。
  • 搜尋引擎優化的方法有哪些?
    對於那些不了解搜尋引擎的朋友來說,他們可能不知道搜尋引擎之間是有排名的。如果你想提高搜尋引擎的排名,你必須優化搜尋引擎。那麼如何優化搜尋引擎呢?下面我就教你幾個搜尋引擎優化的方法。如果網站更新頻率不穩定,搜尋引擎的優化效果就會變差。如果定期更新,有一個相對穩定的更新頻率,有利於網站搜尋引擎優化。2.擁有大量高質量的原創內容搜尋引擎更喜歡原創的高質量內容。如果要進行搜尋引擎優化,這一點不可忽視。低質量的重複內容不利於網站優化,反而可能降低網站排名。
  • 全球十大搜尋引擎排名
    除了谷歌、百度,你還知道哪些搜尋引擎呢?有些搜尋引擎雖然看著像網際網路誕生時的產物,但佔的市場份額也不少。全球十大搜尋引擎排名(全球搜尋引擎市場份額):1、 谷歌(78.23%)毫無疑問,谷歌排名第一。谷歌搜尋引擎誕生於1996年,由 謝爾蓋·布林和拉裡·佩奇創立,有意思的是,他們在1999年以75萬美元的價格試圖出售給了網際網路公司Excite,但是被拒絕了。
  • 如何提高搜尋引擎排名?
    要想提高搜尋引擎排名,就務必對網址開展多方位提升,並且不可以忽視關鍵點提升,從百度關鍵詞精準定位、內容、網址構造和連接等好幾個層面做為立足點持續開展提升,另外必須將客戶體驗擺在首位,僅有那樣才可以迅速合理的提高搜尋引擎排名。
  • 2017十大深網搜尋引擎
    以下介紹的是十大深網搜尋引擎,通過他們可以找到深網中的網站,在深網上進行交易。請注意,一些搜尋引擎需要使用Tor瀏覽器才能訪問。如果沒有,請自備梯子下載安裝Tor瀏覽器。1.Torch搜尋引擎。據稱收錄了415392個洋蔥網頁,每天為Tor網絡用戶提供超過90000次查詢結果。網址:http://xmh57jrzrnw6insl.onion2. not Evil搜尋引擎。一個非營利公司的搜尋引擎,不會看到彈窗和文字廣告。目前在資料庫中收錄了14301113個洋蔥網頁,搜索結果乾淨準確。
  • App Annie:WiFi萬能鑰匙位列全球最活躍App榜單前十
    數據顯示,WiFi萬能鑰匙(英文名:WiFi Master Key)排名第九,與Facebook自2012年推出以來,WiFi萬能鑰匙幫助數以億計的用戶實現免費上網,體驗網際網路的樂趣。 WiFi萬能鑰匙正是滿足了移動網際網路高速發展情況下的用戶連網剛需。