解讀搜索引擎原理

 二維碼 599
發(fā)表時間:2019-03-20 16:08作者:敖游來源:遨游建站網址:http://aquaponicswiki.com

搜索引擎,通常指的是收集了萬維網上幾千萬到幾十億個網頁并對網頁中的每一個詞(即關鍵詞)進行索引,建立索引數(shù)據(jù)庫的全文搜索引擎。當用戶查找某個關鍵詞的時候,所有在頁面內容中包含了該關鍵詞的網頁都將作為搜索結果被搜出來。再經過復雜的算法進行排序(或者包含商業(yè)化的競價排名、商業(yè)推廣或者廣告)后,這些結果將按照與搜索關鍵詞的相關度高低(或與相關度毫無關系),依次排列。


在搜索引擎的后臺,有一些用于搜集網頁信息的程序。所收集的信息一般是能表明網站內容(包括網頁本身、網頁的URL地址、構成網頁的代碼以及進出網頁的連接)的關鍵詞或者短語。接著將這些信息的索引存放到數(shù)據(jù)庫中。

搜索引擎的系統(tǒng)架構和運行方式吸收了信息檢索系統(tǒng)設計中許多有價值的經驗,也針對萬維網數(shù)據(jù)和用戶的特點進行了許多修改,如右圖所示的搜索引擎系統(tǒng)架構。其核心的文檔處理和查詢處理過程與傳統(tǒng)信息檢索系統(tǒng)的運行原理基本類似,但其所處理的數(shù)據(jù)對象即萬維網數(shù)據(jù)的繁雜特性決定了搜索引擎系統(tǒng)必須進行系統(tǒng)結構的調整,以適應處理數(shù)據(jù)和用戶查詢的需要。


爬行和抓取

搜索引擎派出一個能夠在網上發(fā)現(xiàn)新網頁并抓文件的程序,這個程序通常稱之為蜘蛛(Spider)。搜索引擎從已知的數(shù)據(jù)庫出發(fā),就像正常用戶的瀏覽器一樣訪問這些網頁并抓取文件。搜索引擎通過這些爬蟲去爬互聯(lián)網上的外鏈,從這個網站爬到另一個網站,去跟蹤網頁中的鏈接,訪問更多的網頁,這個過程就叫爬行。這些新的網址會被存入數(shù)據(jù)庫等待搜索。所以跟蹤網頁鏈接是搜索引擎蜘蛛(Spider)發(fā)現(xiàn)新網址的最基本的方法,所以反向鏈接成為搜索引擎優(yōu)化的最基本因素之一。搜索引擎抓取的頁面文件與用戶瀏覽器得到的完全一樣,抓取的文件存入數(shù)據(jù)庫。

建立索引

蜘蛛抓取的頁面文件分解、分析,并以巨大表格的形式存入數(shù)據(jù)庫,這個過程即是索引(index).在索引數(shù)據(jù)庫中,網頁文字內容,關鍵詞出現(xiàn)的位置、字體、顏色、加粗、斜體等相關信息都有相應記錄。

搜索詞處理

用戶在搜索引擎界面輸入關鍵詞,單擊“搜索”按鈕后,搜索引擎程序即對搜索詞進行處理,如中文特有的分詞處理,去除停止詞,判斷是否需要啟動整合搜索,判斷是否有拼寫錯誤或錯別字等情況。搜索詞的處理必須十分快速。

排序

對搜索詞處理后,搜索引擎程序便開始工作,從索引數(shù)據(jù)庫中找出所有包含搜索詞的網頁,并且根據(jù)排名算法計算出哪些網頁應該排在前面,然后按照一定格式返回到“搜索”頁面。

再好的搜索引擎也無法與人相比,這就是為什么網站要進行搜索引擎優(yōu)化。沒有SEO的幫助,搜索引擎常常并不能正確的返回最相關、最權威、最有用的信息。


搜索引擎工作原理


搜索引擎工作原理示意圖.jpg


全文搜索引擎的“網絡機器人”或“網絡蜘蛛”是一種網絡上的軟件,它遍歷Web空間,能夠掃描一定IP地址范圍內的網站,并沿著網絡上的鏈接從一個網頁到另一個網頁,從一個網站到另一個網站采集網頁資料。它為保證采集的資料最新,還會回訪已抓取過的網頁。網絡機器人或網絡蜘蛛采集的網頁,還要有其它程序進行分析,根據(jù)一定的相關度算法進行大量的計算建立網頁索引,才能添加到索引數(shù)據(jù)庫中。我們平時看到的全文搜索引擎,實際上只是一個搜索引擎系統(tǒng)的檢索界面,當你輸入關鍵詞進行查詢時,搜索引擎會從龐大的數(shù)據(jù)庫中找到符合該關鍵詞的所有相關網頁的索引,并按一定的排名規(guī)則呈現(xiàn)給我們。不同的搜索引擎,網頁索引數(shù)據(jù)庫不同,排名規(guī)則也不盡相同,所以,當我們以同一關鍵詞用不同的搜索引擎查詢時,搜索結果也就不盡相同。

和全文搜索引擎一樣,分類目錄的整個工作過程也同樣分為收集信息、分析信息和查詢信息三部分,只不過分類目錄的收集、分析信息兩部分主要依靠人工完成。分類目錄一般都有專門的編輯人員,負責收集網站的信息。隨著收錄站點的增多,現(xiàn)在一般都是由站點管理者遞交自己的網站信息給分類目錄,然后由分類目錄的編輯人員審核遞交的網站,以決定是否收錄該站點。如果該站點審核通過,分類目錄的編輯人員還需要分析該站點的內容,并將該站點放在相應的類別和目錄中。所有這些收錄的站點同樣被存放在一個“索引數(shù)據(jù)庫”中。用戶在查詢信息時,可以選擇按照關鍵詞搜索,也可按分類目錄逐層查找。如以關鍵詞搜索,返回的結果跟全文搜索引擎一樣,也是根據(jù)信息關聯(lián)程度排列網站。需要注意的是,分類目錄的關鍵詞查詢只能在網站的名稱、網址、簡介等內容中進行,它的查詢結果也只是被收錄網站首頁的URL地址,而不是具體的頁面。分類目錄就像一個電話號碼薄一樣,按照各個網站的性質,把其網址分門別類排在一起,大類下面套著小類,一直到各個網站的詳細地址,一般還會提供各個網站的內容簡介,用戶不使用關鍵詞也可進行查詢,只要找到相關目錄,就完全可以找到相關的網站(注意:是相關的網站,而不是這個網站上某個網頁的內容,某一目錄中網站的排名一般是按照標題字母的先后順序或者收錄的時間順序決定的)。


搜索引擎數(shù)據(jù)結構


搜索引擎的核心數(shù)據(jù)結構為倒排文件(也稱倒排索引),倒排索引是指用記錄的非主屬性值(也叫副鍵)來查找記錄而組織的文件叫倒排文件,即次索引。倒排文件中包括了所有副鍵值,并列出了與之有關的所有記錄主鍵值,主要用于復雜查詢。 與傳統(tǒng)的SQL查詢不同,在搜索引擎收集完數(shù)據(jù)的預處理階段,搜索引擎往往需要一種高效的數(shù)據(jù)結構來對外提供檢索服務。而現(xiàn)行最有效的數(shù)據(jù)結構就是“倒排文件”。倒排文件簡單一點可以定義為“用文檔的關鍵詞作為索引,文檔作為索引目標的一種結構(類似于普通書籍中,索引是關鍵詞,書的頁面是索引目標)。


搜索引擎分類


在浩如煙海的“Internet(因特網)”上,特別是其上的Web(World Wide Web即全球廣域網,也稱為萬維網)上,不會搜索,就不會上網。特別是SEOer朋友們,不了解搜索引擎原理,你怎么做SEO優(yōu)化?你了解搜索引擎嗎?它們是怎么工作的?你在使用哪些搜索引擎?

獲得網站網頁資料,能夠建立數(shù)據(jù)庫并提供查詢的系統(tǒng),我們都可以把它叫做搜索引擎。按照工作原理的不同,可以把它們分為兩個基本類別:全文搜索引擎(FullTextSearch Engine)和分類目錄(Directory)??梢匝苌鲈阉饕妫∕eta Search Engine)和集成搜索引擎(All-in-One Search Page)。

全文搜索引擎的數(shù)據(jù)庫是依靠一個叫“網絡機器人(Spider)”或叫“網絡蜘蛛(crawlers)”的軟件,通過網絡上的各種鏈接自動獲取大量網頁信息內容,并按以定的規(guī)則分析整理形成的。Google、百度都是比較典型的全文搜索引擎系統(tǒng)。

分類目錄則是通過人工的方式收集整理網站資料形成數(shù)據(jù)庫的,比如雅虎中國以及國內的搜狐、新浪、網易分類目錄。另外,在網上的一些導航站點,也可以歸屬為原始的分類目錄,比如“網址之家(http://www.hao123.com/)”。

全文搜索引擎通過自動的方式分析網頁的超鏈接,依靠超鏈接和HTML代碼分析獲取網頁信息內容,并按事先設計好的規(guī)則分析整理形成索引,供用戶查詢。

兩者的區(qū)分可用一句話概括:分類目錄是人工方式建立網站的索引,全文搜索是自動方式建立網頁的索引。(有些人經常把搜索引擎和數(shù)據(jù)庫檢索相比較,其實是錯誤的)

全文搜索引擎和分類目錄在使用上各有長短。全文搜索引擎因為依靠軟件進行,所以數(shù)據(jù)庫的容量非常龐大,但是,它的查詢結果往往不夠準確;分類目錄依靠人工收集和整理網站,能夠提供更為準確的查詢結果,但收集的內容卻非常有限。為了取長補短,現(xiàn)在的很多搜索引擎,都同時提供這兩類查詢,一般對全文搜索引擎的查詢稱為搜索“所有網站”或“全部網站”,比如Google的全文搜索;把對分類目錄的查詢稱為搜索“分類目錄”或搜索“分類網站”,比如新浪搜索和雅虎中國搜索。


一、全文搜索引擎


在搜索引擎分類部分我們提到過全文搜索引擎從網站提取信息建立網頁數(shù)據(jù)庫的概念。搜索引擎的自動信息搜集功能分兩種。一種是定期搜索,即每隔一段時間(比如Google一般是28天),搜索引擎主動派出“蜘蛛”程序,對一定IP地址范圍內的互聯(lián)網站進行檢索,一旦發(fā)現(xiàn)新的網站,它會自動提取網站的信息和網址加入自己的數(shù)據(jù)庫。

另一種是提交網站搜索,即網站擁有者主動向搜索引擎提交網址,它在一定時間內(2天到數(shù)月不等)定向向你的網站派出“蜘蛛”程序,掃描你的網站并將有關信息存入數(shù)據(jù)庫,以備用戶查詢。由于搜索引擎索引規(guī)則發(fā)生了很大變化,主動提交網址并不保證你的網站能進入搜索引擎數(shù)據(jù)庫,因此目前最好的辦法是多獲得一些外部鏈接,讓搜索引擎有更多機會找到你并自動將你的網站收錄。

當用戶以關鍵詞查找信息時,搜索引擎會在數(shù)據(jù)庫中進行搜尋,如果找到與用戶要求內容相符的網站,便采用特殊的算法——通常根據(jù)網頁中關鍵詞的匹配程度,出現(xiàn)的位置/頻次,鏈接質量等——計算出各網頁的相關度及排名等級,然后根據(jù)關聯(lián)度高低,按順序將這些網頁鏈接返回給用戶。


全文搜索的工作原理


全文搜索引擎一般信息采集、索引、搜索三個部分組成,詳細的劃分可分為搜索器、分析器、索引器、檢索器和用戶接口等5個部分組成。

1、信息采集(Webcrawling):信息采集的工作由搜索器和分析器共同完成,搜索引擎利用稱為網絡爬蟲(crawlers)、網絡蜘蛛(spider)或者叫做網絡機器人(robots)的自動搜索機器人程序來查詢網頁上的超鏈接。

進一步解釋一下:"機器人"實際上是一些基于Web的程序,通過請求Web站點上的HTML網頁來對采集該HTML網頁,它遍歷指定范圍內的整個Web空間,不斷從一個網頁轉到另一個網頁,從一個站點移動到另一個站點,將采集到的網頁添加到網頁數(shù)據(jù)庫中。"機器人"每遇到一個新的網頁,都要搜索它內部的所有鏈接,所以從理論上講,如果為"機器人"建立一個適當?shù)某跏季W頁集,從這個初始網頁集出發(fā),遍歷所有的鏈接,"機器人"將能夠采集到整個Web空間的網頁。

網上后很多開源的爬蟲程序,可以到一些開源社區(qū)中查找。

  • 核心在于html分析,因此嚴謹?shù)摹⒔Y構化的、可讀性強、錯誤少的html代碼,更容易被采集機器人所分析和采集。例如,某個頁面存在<body這樣的標簽或者沒有</body></html>這樣的結尾,在網頁顯示是沒有問題的,但是很有可能會被采集拒絕收錄,在例如類似../../***.htm這樣的超鏈接,也有可能造成蜘蛛無法識別。這也是需要推廣web標準的原因之一,按照web標準制作的網頁更容易被搜索引擎檢索和收錄。

  • 搜索機器人有專門的搜索鏈接庫,在搜索相同超鏈接時,會自動比對新舊網頁的內容和大小,如果一致,則不采集。因此有人擔心修改后的網頁是否能被收錄,這是多余的。

2、索引(Indexing):搜索引擎整理信息的過程稱為“建立索引”。搜索引擎不僅要保存搜集起來的信息,還要將它們按照一定的規(guī)則進行編排。索引可以采用通用的大型數(shù)據(jù)庫,如ORACLE、Sybase等,也可以自己定義文件格式進行存放。索引是搜索中較為復雜的部分,涉及到網頁結構分析、分詞、排序等技術,好的索引能極大的提高檢索速度。

  • 雖然現(xiàn)在的搜索引擎都支持增量的索引,但是索引創(chuàng)建依然需要較長的時間,搜索引擎都會定期更新索引,因此即便爬蟲來過,到我們能在頁面上搜索到,會有一定的時間間隔。

  • 索引是區(qū)別好壞搜索的重要標志。

3、檢索(Searching):用戶向搜索引擎發(fā)出查詢,搜索引擎接受查詢并向用戶返回資料。有的系統(tǒng)在返回結果之前對網頁的相關度進行了計算和評估,并根據(jù)相關度進行排序,將相關度大的放在前面,相關度小的放在后面;也有的系統(tǒng)在用戶查詢之前已經計算了各個網頁的網頁等級(PageRank 后文會介紹),返回查詢結果時將網頁等級大的放在前面,網頁等級小的放在后面。

  • 不同搜索引擎有不同的排序規(guī)則,因此在不同的搜索引擎中搜索相同關鍵詞,排序是不同的。


二、分類目錄索引


與全文搜索引擎相比,目錄索引有許多不同之處。

首先,搜索引擎屬于自動網站檢索,而目錄索引則完全依賴手工操作。用戶提交網站后,目錄編輯人員會親自瀏覽你的網站,然后根據(jù)一套自定的評判標準甚至編輯人員的主觀印象,決定是否接納你的網站。如果審核通過,你網頁才會出現(xiàn)于搜索引擎中,否則不會顯示。

其次,搜索引擎收錄網站時,只要網站本身沒有違反有關的規(guī)則,一般都能收錄成功。而目錄索引對網站的要求則高得多,有時即使登錄多次也不一定成功。

此外,在登錄搜索引擎時,我們一般不用考慮網站的分類問題,而登錄目錄索引時則必須將網站放在一個最合適的目錄。

最后,搜索引擎中各網站的有關信息都是從用戶網頁中自動提取的,所以用戶的角度看,我們擁有更多的自主權;而目錄索引則要求必須手工另外填寫網站信息,而且還有各種各樣的限制。更有甚者,如果工作人員認為你提交網站的目錄、網站信息不合適,他可以隨時對其進行調整,當然事先是不會和你商量的。

目錄索引,顧名思義就是將網站分門別類地存放在相應的目錄中,因此用戶在查詢信息時,可選擇關鍵詞搜索,也可按分類目錄逐層查找。如以關鍵詞搜索,返回的結果跟搜索引擎一樣,也是根據(jù)信息關聯(lián)程度排列網站,只不過其中人為因素要多一些。如果按分層目錄查找,某一目錄中網站的排名則是由標題字母的先后順序決定(也有例外)。

目前,搜索引擎與目錄索引有相互融合滲透的趨勢。原來一些純粹的全文搜索引擎現(xiàn)在也提供目錄搜索。


三、元搜索引擎


元搜索引擎(Meta Search Engine)不是一種獨立的搜索引擎,它最顯著的特點是沒有自己的資源索引數(shù)據(jù)庫,是架構在許多其他搜索引擎之上的搜索引擎。元搜索引擎在接受用戶查詢請求時,可以同時在其他多個搜索引擎中進行搜索,并將其他搜索引擎的檢索結果經過處理后返回給用戶。元搜索引擎為用戶提供一個統(tǒng)一的查詢頁面,通過自己的用戶提問預處理子系統(tǒng)將用戶提問轉換成各個成員搜索引擎能識別的形式,提交給這些成員搜索引擎中,然后把各個成員搜索引擎的搜索結果按照自己的結果處理子系統(tǒng)進行比較分析,去除重復并且按照自定義的排序規(guī)則進行排序返回給用戶。所以,一般的元搜索引擎都包括三大功能結構:提問預處理子系統(tǒng)、檢索接口代理子系統(tǒng)和檢索結果處理子系統(tǒng)。

結構

一個真正的元搜索引擎由三部分組成,即:檢索請求提交機制、檢索接口代理機制、檢索結果顯示機制。"請求提交"負責實現(xiàn)用戶"個性化"的檢索設置要求,包括調用哪些搜索引擎、檢索時間限制、結果數(shù)量限制等。"接口代理"負責將用戶的檢索請求"翻譯"成滿足不同搜索引擎"本地化"要求的格式。"結果顯示"負責所有元搜索引擎檢索結果的去重、合并、輸出處理等。

元搜索引擎的出現(xiàn),對于那些需要連續(xù)地使用不同的搜索引擎重復相同的檢索的人來說,是一個福音。使用元搜索引擎同時對幾個搜索引擎進行檢索,獲得分級編排的檢索。

分類

在可以檢索的目標搜索引擎、檢索提問的處理方式以及如何編譯和顯示結果方面,元搜索引擎有著很大的差異。有些元搜索引擎一個接一個的搜索目標搜索引擎,另一些則同時進行搜索,有些搜索引擎將檢索提問轉變成目標搜索引擎的提問語言,而有一些則原封不動的發(fā)送給目標引擎。

按功能劃分,元搜索引擎包括多線索式搜索引擎和All-in-One式搜索引擎;按運行方式的差異可分為在線搜索引擎和桌面搜索引擎。

前景

元搜索引擎是為彌補傳統(tǒng)搜索引擎的不足而出現(xiàn)的一種輔助檢索工具,有著傳統(tǒng)搜索引擎所不具備的許多優(yōu)勢。但是,元搜索引擎依賴于數(shù)據(jù)庫選擇技術、文本選擇技術、查詢分派技術和結果綜合技術等。用戶界面的改進、調用策略的完善、返回信息的整合以及最終檢索結果的排序,仍然是未來元搜索引擎研究的重點。


上一頁 1 2 下一頁
廣告投放問題
網站建設問題
小程序設計問題

以信載商,良心建站。遨游始終秉承“一次建站、終身維護”的宗旨,竭誠為客戶提供最優(yōu)質的互聯(lián)網服務。遨游建站率先植入seo優(yōu)化理念,讓你的網頁更利于搜索引擎抓取,關鍵詞排名更靠前。可仿站、可定制。無論是傳統(tǒng)型企業(yè)官網、集團型品牌官網,還是營銷型網站、電商型網站、定制型網站、特殊行業(yè)網站(醫(yī)療、教育),全部搞定。

公司:網站建設_小程序設計_競價托管代運營公司;郵箱:1013601535@qq.com

手機:17073547034;QQ: 1013601535

在線留言咨詢,24小時內回復
我想咨詢
*
企業(yè)名稱
手機號碼
*
您的姓名
所在城市
提交
最新發(fā)布
注冊體驗
企業(yè)郵箱
域名注冊
SSL證書
地圖標注
網站備案
服務器
友情鏈接
我們是中小企業(yè)可信賴的合作伙伴!始終專注一件事,一站式互聯(lián)網信息技術服務商
17073547034
全國統(tǒng)一服務熱線
遨游建站是全國高端網站建設公司,提供廣州企業(yè)網站建設/小程序開發(fā)/購物網站設計制作與競價托管代運營服務;秉承“一次建站,終身維護”的宗旨,有償提供互聯(lián)網技術支持。
本站部分圖片、音頻、視頻來源于網絡,版權歸原作者,如有侵權請聯(lián)系我們刪除。