關(guān)于遨游建站優(yōu)勢(shì)行業(yè)動(dòng)態(tài)網(wǎng)站開發(fā)流程網(wǎng)站樣板網(wǎng)站功能與價(jià)格網(wǎng)站建設(shè)方案與報(bào)價(jià)手機(jī)網(wǎng)站設(shè)計(jì)網(wǎng)站改版升級(jí)響應(yīng)式網(wǎng)站開發(fā)營(yíng)銷型網(wǎng)站開發(fā)集團(tuán)型網(wǎng)站設(shè)計(jì)自適應(yīng)網(wǎng)站設(shè)計(jì)手機(jī)網(wǎng)站建設(shè)問題網(wǎng)站改版升級(jí)問題微信網(wǎng)站開發(fā)外貿(mào)網(wǎng)站開發(fā)保姆網(wǎng)站開發(fā)網(wǎng)站建設(shè)知識(shí)案例展示商城樣板商城功能購(gòu)物網(wǎng)站制作小程序樣板小程序功能小程序設(shè)計(jì)百度搜索推廣谷歌搜索推廣360搜索推廣搜狗搜索推廣神馬搜索推廣搜索引擎廣告微信廣告今日頭條推廣新浪扶翼廣告UC頭條推廣一點(diǎn)資訊推廣搜狐匯算推廣網(wǎng)易推廣移動(dòng)信息流廣告抖音廣告代運(yùn)營(yíng)愛奇藝廣告優(yōu)酷廣告快手推廣視頻營(yíng)銷平臺(tái)知乎營(yíng)銷推廣陌陌廣告社交自媒體網(wǎng)站托管費(fèi)用網(wǎng)站托管協(xié)議域名備案域名回收企業(yè)郵箱互動(dòng)營(yíng)銷活動(dòng)SSL證書數(shù)據(jù)恢復(fù)關(guān)鍵詞快速排名地圖標(biāo)注創(chuàng)意設(shè)計(jì)企業(yè)百家號(hào)認(rèn)證企業(yè)抖音號(hào)藍(lán)V認(rèn)證網(wǎng)站建設(shè)問題企業(yè)網(wǎng)站建設(shè)公司網(wǎng)站制作企業(yè)網(wǎng)站設(shè)計(jì)企業(yè)建網(wǎng)站企業(yè)網(wǎng)站優(yōu)化建站技術(shù)域名知識(shí)SEO學(xué)院SEO課程SEO工具

解讀搜索引擎原理

 二維碼 599
發(fā)表時(shí)間:2019-03-20 16:08作者:敖游來源:遨游建站網(wǎng)址:http://aquaponicswiki.com

搜索引擎,通常指的是收集了萬維網(wǎng)上幾千萬到幾十億個(gè)網(wǎng)頁并對(duì)網(wǎng)頁中的每一個(gè)詞(即關(guān)鍵詞)進(jìn)行索引,建立索引數(shù)據(jù)庫的全文搜索引擎。當(dāng)用戶查找某個(gè)關(guān)鍵詞的時(shí)候,所有在頁面內(nèi)容中包含了該關(guān)鍵詞的網(wǎng)頁都將作為搜索結(jié)果被搜出來。再經(jīng)過復(fù)雜的算法進(jìn)行排序(或者包含商業(yè)化的競(jìng)價(jià)排名、商業(yè)推廣或者廣告)后,這些結(jié)果將按照與搜索關(guān)鍵詞的相關(guān)度高低(或與相關(guān)度毫無關(guān)系),依次排列。


在搜索引擎的后臺(tái),有一些用于搜集網(wǎng)頁信息的程序。所收集的信息一般是能表明網(wǎng)站內(nèi)容(包括網(wǎng)頁本身、網(wǎng)頁的URL地址、構(gòu)成網(wǎng)頁的代碼以及進(jìn)出網(wǎng)頁的連接)的關(guān)鍵詞或者短語。接著將這些信息的索引存放到數(shù)據(jù)庫中。

搜索引擎的系統(tǒng)架構(gòu)和運(yùn)行方式吸收了信息檢索系統(tǒng)設(shè)計(jì)中許多有價(jià)值的經(jīng)驗(yàn),也針對(duì)萬維網(wǎng)數(shù)據(jù)和用戶的特點(diǎn)進(jìn)行了許多修改,如右圖所示的搜索引擎系統(tǒng)架構(gòu)。其核心的文檔處理和查詢處理過程與傳統(tǒng)信息檢索系統(tǒng)的運(yùn)行原理基本類似,但其所處理的數(shù)據(jù)對(duì)象即萬維網(wǎng)數(shù)據(jù)的繁雜特性決定了搜索引擎系統(tǒng)必須進(jìn)行系統(tǒng)結(jié)構(gòu)的調(diào)整,以適應(yīng)處理數(shù)據(jù)和用戶查詢的需要。


爬行和抓取

搜索引擎派出一個(gè)能夠在網(wǎng)上發(fā)現(xiàn)新網(wǎng)頁并抓文件的程序,這個(gè)程序通常稱之為蜘蛛(Spider)。搜索引擎從已知的數(shù)據(jù)庫出發(fā),就像正常用戶的瀏覽器一樣訪問這些網(wǎng)頁并抓取文件。搜索引擎通過這些爬蟲去爬互聯(lián)網(wǎng)上的外鏈,從這個(gè)網(wǎng)站爬到另一個(gè)網(wǎng)站,去跟蹤網(wǎng)頁中的鏈接,訪問更多的網(wǎng)頁,這個(gè)過程就叫爬行。這些新的網(wǎng)址會(huì)被存入數(shù)據(jù)庫等待搜索。所以跟蹤網(wǎng)頁鏈接是搜索引擎蜘蛛(Spider)發(fā)現(xiàn)新網(wǎng)址的最基本的方法,所以反向鏈接成為搜索引擎優(yōu)化的最基本因素之一。搜索引擎抓取的頁面文件與用戶瀏覽器得到的完全一樣,抓取的文件存入數(shù)據(jù)庫。

建立索引

蜘蛛抓取的頁面文件分解、分析,并以巨大表格的形式存入數(shù)據(jù)庫,這個(gè)過程即是索引(index).在索引數(shù)據(jù)庫中,網(wǎng)頁文字內(nèi)容,關(guān)鍵詞出現(xiàn)的位置、字體、顏色、加粗、斜體等相關(guān)信息都有相應(yīng)記錄。

搜索詞處理

用戶在搜索引擎界面輸入關(guān)鍵詞,單擊“搜索”按鈕后,搜索引擎程序即對(duì)搜索詞進(jìn)行處理,如中文特有的分詞處理,去除停止詞,判斷是否需要啟動(dòng)整合搜索,判斷是否有拼寫錯(cuò)誤或錯(cuò)別字等情況。搜索詞的處理必須十分快速。

排序

對(duì)搜索詞處理后,搜索引擎程序便開始工作,從索引數(shù)據(jù)庫中找出所有包含搜索詞的網(wǎng)頁,并且根據(jù)排名算法計(jì)算出哪些網(wǎng)頁應(yīng)該排在前面,然后按照一定格式返回到“搜索”頁面。

再好的搜索引擎也無法與人相比,這就是為什么網(wǎng)站要進(jìn)行搜索引擎優(yōu)化。沒有SEO的幫助,搜索引擎常常并不能正確的返回最相關(guān)、最權(quán)威、最有用的信息。


搜索引擎工作原理


搜索引擎工作原理示意圖.jpg


全文搜索引擎的“網(wǎng)絡(luò)機(jī)器人”或“網(wǎng)絡(luò)蜘蛛”是一種網(wǎng)絡(luò)上的軟件,它遍歷Web空間,能夠掃描一定IP地址范圍內(nèi)的網(wǎng)站,并沿著網(wǎng)絡(luò)上的鏈接從一個(gè)網(wǎng)頁到另一個(gè)網(wǎng)頁,從一個(gè)網(wǎng)站到另一個(gè)網(wǎng)站采集網(wǎng)頁資料。它為保證采集的資料最新,還會(huì)回訪已抓取過的網(wǎng)頁。網(wǎng)絡(luò)機(jī)器人或網(wǎng)絡(luò)蜘蛛采集的網(wǎng)頁,還要有其它程序進(jìn)行分析,根據(jù)一定的相關(guān)度算法進(jìn)行大量的計(jì)算建立網(wǎng)頁索引,才能添加到索引數(shù)據(jù)庫中。我們平時(shí)看到的全文搜索引擎,實(shí)際上只是一個(gè)搜索引擎系統(tǒng)的檢索界面,當(dāng)你輸入關(guān)鍵詞進(jìn)行查詢時(shí),搜索引擎會(huì)從龐大的數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁的索引,并按一定的排名規(guī)則呈現(xiàn)給我們。不同的搜索引擎,網(wǎng)頁索引數(shù)據(jù)庫不同,排名規(guī)則也不盡相同,所以,當(dāng)我們以同一關(guān)鍵詞用不同的搜索引擎查詢時(shí),搜索結(jié)果也就不盡相同。

和全文搜索引擎一樣,分類目錄的整個(gè)工作過程也同樣分為收集信息、分析信息和查詢信息三部分,只不過分類目錄的收集、分析信息兩部分主要依靠人工完成。分類目錄一般都有專門的編輯人員,負(fù)責(zé)收集網(wǎng)站的信息。隨著收錄站點(diǎn)的增多,現(xiàn)在一般都是由站點(diǎn)管理者遞交自己的網(wǎng)站信息給分類目錄,然后由分類目錄的編輯人員審核遞交的網(wǎng)站,以決定是否收錄該站點(diǎn)。如果該站點(diǎn)審核通過,分類目錄的編輯人員還需要分析該站點(diǎn)的內(nèi)容,并將該站點(diǎn)放在相應(yīng)的類別和目錄中。所有這些收錄的站點(diǎn)同樣被存放在一個(gè)“索引數(shù)據(jù)庫”中。用戶在查詢信息時(shí),可以選擇按照關(guān)鍵詞搜索,也可按分類目錄逐層查找。如以關(guān)鍵詞搜索,返回的結(jié)果跟全文搜索引擎一樣,也是根據(jù)信息關(guān)聯(lián)程度排列網(wǎng)站。需要注意的是,分類目錄的關(guān)鍵詞查詢只能在網(wǎng)站的名稱、網(wǎng)址、簡(jiǎn)介等內(nèi)容中進(jìn)行,它的查詢結(jié)果也只是被收錄網(wǎng)站首頁的URL地址,而不是具體的頁面。分類目錄就像一個(gè)電話號(hào)碼薄一樣,按照各個(gè)網(wǎng)站的性質(zhì),把其網(wǎng)址分門別類排在一起,大類下面套著小類,一直到各個(gè)網(wǎng)站的詳細(xì)地址,一般還會(huì)提供各個(gè)網(wǎng)站的內(nèi)容簡(jiǎn)介,用戶不使用關(guān)鍵詞也可進(jìn)行查詢,只要找到相關(guān)目錄,就完全可以找到相關(guān)的網(wǎng)站(注意:是相關(guān)的網(wǎng)站,而不是這個(gè)網(wǎng)站上某個(gè)網(wǎng)頁的內(nèi)容,某一目錄中網(wǎng)站的排名一般是按照標(biāo)題字母的先后順序或者收錄的時(shí)間順序決定的)。


搜索引擎數(shù)據(jù)結(jié)構(gòu)


搜索引擎的核心數(shù)據(jù)結(jié)構(gòu)為倒排文件(也稱倒排索引),倒排索引是指用記錄的非主屬性值(也叫副鍵)來查找記錄而組織的文件叫倒排文件,即次索引。倒排文件中包括了所有副鍵值,并列出了與之有關(guān)的所有記錄主鍵值,主要用于復(fù)雜查詢。 與傳統(tǒng)的SQL查詢不同,在搜索引擎收集完數(shù)據(jù)的預(yù)處理階段,搜索引擎往往需要一種高效的數(shù)據(jù)結(jié)構(gòu)來對(duì)外提供檢索服務(wù)。而現(xiàn)行最有效的數(shù)據(jù)結(jié)構(gòu)就是“倒排文件”。倒排文件簡(jiǎn)單一點(diǎn)可以定義為“用文檔的關(guān)鍵詞作為索引,文檔作為索引目標(biāo)的一種結(jié)構(gòu)(類似于普通書籍中,索引是關(guān)鍵詞,書的頁面是索引目標(biāo))。


搜索引擎分類


在浩如煙海的“Internet(因特網(wǎng))”上,特別是其上的Web(World Wide Web即全球廣域網(wǎng),也稱為萬維網(wǎng))上,不會(huì)搜索,就不會(huì)上網(wǎng)。特別是SEOer朋友們,不了解搜索引擎原理,你怎么做SEO優(yōu)化?你了解搜索引擎嗎?它們是怎么工作的?你在使用哪些搜索引擎?

獲得網(wǎng)站網(wǎng)頁資料,能夠建立數(shù)據(jù)庫并提供查詢的系統(tǒng),我們都可以把它叫做搜索引擎。按照工作原理的不同,可以把它們分為兩個(gè)基本類別:全文搜索引擎(FullTextSearch Engine)和分類目錄(Directory)??梢匝苌鲈阉饕妫∕eta Search Engine)和集成搜索引擎(All-in-One Search Page)。

全文搜索引擎的數(shù)據(jù)庫是依靠一個(gè)叫“網(wǎng)絡(luò)機(jī)器人(Spider)”或叫“網(wǎng)絡(luò)蜘蛛(crawlers)”的軟件,通過網(wǎng)絡(luò)上的各種鏈接自動(dòng)獲取大量網(wǎng)頁信息內(nèi)容,并按以定的規(guī)則分析整理形成的。Google、百度都是比較典型的全文搜索引擎系統(tǒng)。

分類目錄則是通過人工的方式收集整理網(wǎng)站資料形成數(shù)據(jù)庫的,比如雅虎中國(guó)以及國(guó)內(nèi)的搜狐、新浪、網(wǎng)易分類目錄。另外,在網(wǎng)上的一些導(dǎo)航站點(diǎn),也可以歸屬為原始的分類目錄,比如“網(wǎng)址之家(http://www.hao123.com/)”。

全文搜索引擎通過自動(dòng)的方式分析網(wǎng)頁的超鏈接,依靠超鏈接和HTML代碼分析獲取網(wǎng)頁信息內(nèi)容,并按事先設(shè)計(jì)好的規(guī)則分析整理形成索引,供用戶查詢。

兩者的區(qū)分可用一句話概括:分類目錄是人工方式建立網(wǎng)站的索引,全文搜索是自動(dòng)方式建立網(wǎng)頁的索引。(有些人經(jīng)常把搜索引擎和數(shù)據(jù)庫檢索相比較,其實(shí)是錯(cuò)誤的)

全文搜索引擎和分類目錄在使用上各有長(zhǎng)短。全文搜索引擎因?yàn)橐揽寇浖M(jìn)行,所以數(shù)據(jù)庫的容量非常龐大,但是,它的查詢結(jié)果往往不夠準(zhǔn)確;分類目錄依靠人工收集和整理網(wǎng)站,能夠提供更為準(zhǔn)確的查詢結(jié)果,但收集的內(nèi)容卻非常有限。為了取長(zhǎng)補(bǔ)短,現(xiàn)在的很多搜索引擎,都同時(shí)提供這兩類查詢,一般對(duì)全文搜索引擎的查詢稱為搜索“所有網(wǎng)站”或“全部網(wǎng)站”,比如Google的全文搜索;把對(duì)分類目錄的查詢稱為搜索“分類目錄”或搜索“分類網(wǎng)站”,比如新浪搜索和雅虎中國(guó)搜索。


一、全文搜索引擎


在搜索引擎分類部分我們提到過全文搜索引擎從網(wǎng)站提取信息建立網(wǎng)頁數(shù)據(jù)庫的概念。搜索引擎的自動(dòng)信息搜集功能分兩種。一種是定期搜索,即每隔一段時(shí)間(比如Google一般是28天),搜索引擎主動(dòng)派出“蜘蛛”程序,對(duì)一定IP地址范圍內(nèi)的互聯(lián)網(wǎng)站進(jìn)行檢索,一旦發(fā)現(xiàn)新的網(wǎng)站,它會(huì)自動(dòng)提取網(wǎng)站的信息和網(wǎng)址加入自己的數(shù)據(jù)庫。

另一種是提交網(wǎng)站搜索,即網(wǎng)站擁有者主動(dòng)向搜索引擎提交網(wǎng)址,它在一定時(shí)間內(nèi)(2天到數(shù)月不等)定向向你的網(wǎng)站派出“蜘蛛”程序,掃描你的網(wǎng)站并將有關(guān)信息存入數(shù)據(jù)庫,以備用戶查詢。由于搜索引擎索引規(guī)則發(fā)生了很大變化,主動(dòng)提交網(wǎng)址并不保證你的網(wǎng)站能進(jìn)入搜索引擎數(shù)據(jù)庫,因此目前最好的辦法是多獲得一些外部鏈接,讓搜索引擎有更多機(jī)會(huì)找到你并自動(dòng)將你的網(wǎng)站收錄。

當(dāng)用戶以關(guān)鍵詞查找信息時(shí),搜索引擎會(huì)在數(shù)據(jù)庫中進(jìn)行搜尋,如果找到與用戶要求內(nèi)容相符的網(wǎng)站,便采用特殊的算法——通常根據(jù)網(wǎng)頁中關(guān)鍵詞的匹配程度,出現(xiàn)的位置/頻次,鏈接質(zhì)量等——計(jì)算出各網(wǎng)頁的相關(guān)度及排名等級(jí),然后根據(jù)關(guān)聯(lián)度高低,按順序?qū)⑦@些網(wǎng)頁鏈接返回給用戶。


全文搜索的工作原理


全文搜索引擎一般信息采集、索引、搜索三個(gè)部分組成,詳細(xì)的劃分可分為搜索器、分析器、索引器、檢索器和用戶接口等5個(gè)部分組成。

1、信息采集(Webcrawling):信息采集的工作由搜索器和分析器共同完成,搜索引擎利用稱為網(wǎng)絡(luò)爬蟲(crawlers)、網(wǎng)絡(luò)蜘蛛(spider)或者叫做網(wǎng)絡(luò)機(jī)器人(robots)的自動(dòng)搜索機(jī)器人程序來查詢網(wǎng)頁上的超鏈接。

進(jìn)一步解釋一下:"機(jī)器人"實(shí)際上是一些基于Web的程序,通過請(qǐng)求Web站點(diǎn)上的HTML網(wǎng)頁來對(duì)采集該HTML網(wǎng)頁,它遍歷指定范圍內(nèi)的整個(gè)Web空間,不斷從一個(gè)網(wǎng)頁轉(zhuǎn)到另一個(gè)網(wǎng)頁,從一個(gè)站點(diǎn)移動(dòng)到另一個(gè)站點(diǎn),將采集到的網(wǎng)頁添加到網(wǎng)頁數(shù)據(jù)庫中。"機(jī)器人"每遇到一個(gè)新的網(wǎng)頁,都要搜索它內(nèi)部的所有鏈接,所以從理論上講,如果為"機(jī)器人"建立一個(gè)適當(dāng)?shù)某跏季W(wǎng)頁集,從這個(gè)初始網(wǎng)頁集出發(fā),遍歷所有的鏈接,"機(jī)器人"將能夠采集到整個(gè)Web空間的網(wǎng)頁。

網(wǎng)上后很多開源的爬蟲程序,可以到一些開源社區(qū)中查找。

  • 核心在于html分析,因此嚴(yán)謹(jǐn)?shù)?、結(jié)構(gòu)化的、可讀性強(qiáng)、錯(cuò)誤少的html代碼,更容易被采集機(jī)器人所分析和采集。例如,某個(gè)頁面存在<body這樣的標(biāo)簽或者沒有</body></html>這樣的結(jié)尾,在網(wǎng)頁顯示是沒有問題的,但是很有可能會(huì)被采集拒絕收錄,在例如類似../../***.htm這樣的超鏈接,也有可能造成蜘蛛無法識(shí)別。這也是需要推廣web標(biāo)準(zhǔn)的原因之一,按照web標(biāo)準(zhǔn)制作的網(wǎng)頁更容易被搜索引擎檢索和收錄。

  • 搜索機(jī)器人有專門的搜索鏈接庫,在搜索相同超鏈接時(shí),會(huì)自動(dòng)比對(duì)新舊網(wǎng)頁的內(nèi)容和大小,如果一致,則不采集。因此有人擔(dān)心修改后的網(wǎng)頁是否能被收錄,這是多余的。

2、索引(Indexing):搜索引擎整理信息的過程稱為“建立索引”。搜索引擎不僅要保存搜集起來的信息,還要將它們按照一定的規(guī)則進(jìn)行編排。索引可以采用通用的大型數(shù)據(jù)庫,如ORACLE、Sybase等,也可以自己定義文件格式進(jìn)行存放。索引是搜索中較為復(fù)雜的部分,涉及到網(wǎng)頁結(jié)構(gòu)分析、分詞、排序等技術(shù),好的索引能極大的提高檢索速度。

  • 雖然現(xiàn)在的搜索引擎都支持增量的索引,但是索引創(chuàng)建依然需要較長(zhǎng)的時(shí)間,搜索引擎都會(huì)定期更新索引,因此即便爬蟲來過,到我們能在頁面上搜索到,會(huì)有一定的時(shí)間間隔。

  • 索引是區(qū)別好壞搜索的重要標(biāo)志。

3、檢索(Searching):用戶向搜索引擎發(fā)出查詢,搜索引擎接受查詢并向用戶返回資料。有的系統(tǒng)在返回結(jié)果之前對(duì)網(wǎng)頁的相關(guān)度進(jìn)行了計(jì)算和評(píng)估,并根據(jù)相關(guān)度進(jìn)行排序,將相關(guān)度大的放在前面,相關(guān)度小的放在后面;也有的系統(tǒng)在用戶查詢之前已經(jīng)計(jì)算了各個(gè)網(wǎng)頁的網(wǎng)頁等級(jí)(PageRank 后文會(huì)介紹),返回查詢結(jié)果時(shí)將網(wǎng)頁等級(jí)大的放在前面,網(wǎng)頁等級(jí)小的放在后面。

  • 不同搜索引擎有不同的排序規(guī)則,因此在不同的搜索引擎中搜索相同關(guān)鍵詞,排序是不同的。


二、分類目錄索引


與全文搜索引擎相比,目錄索引有許多不同之處。

首先,搜索引擎屬于自動(dòng)網(wǎng)站檢索,而目錄索引則完全依賴手工操作。用戶提交網(wǎng)站后,目錄編輯人員會(huì)親自瀏覽你的網(wǎng)站,然后根據(jù)一套自定的評(píng)判標(biāo)準(zhǔn)甚至編輯人員的主觀印象,決定是否接納你的網(wǎng)站。如果審核通過,你網(wǎng)頁才會(huì)出現(xiàn)于搜索引擎中,否則不會(huì)顯示。

其次,搜索引擎收錄網(wǎng)站時(shí),只要網(wǎng)站本身沒有違反有關(guān)的規(guī)則,一般都能收錄成功。而目錄索引對(duì)網(wǎng)站的要求則高得多,有時(shí)即使登錄多次也不一定成功。

此外,在登錄搜索引擎時(shí),我們一般不用考慮網(wǎng)站的分類問題,而登錄目錄索引時(shí)則必須將網(wǎng)站放在一個(gè)最合適的目錄。

最后,搜索引擎中各網(wǎng)站的有關(guān)信息都是從用戶網(wǎng)頁中自動(dòng)提取的,所以用戶的角度看,我們擁有更多的自主權(quán);而目錄索引則要求必須手工另外填寫網(wǎng)站信息,而且還有各種各樣的限制。更有甚者,如果工作人員認(rèn)為你提交網(wǎng)站的目錄、網(wǎng)站信息不合適,他可以隨時(shí)對(duì)其進(jìn)行調(diào)整,當(dāng)然事先是不會(huì)和你商量的。

目錄索引,顧名思義就是將網(wǎng)站分門別類地存放在相應(yīng)的目錄中,因此用戶在查詢信息時(shí),可選擇關(guān)鍵詞搜索,也可按分類目錄逐層查找。如以關(guān)鍵詞搜索,返回的結(jié)果跟搜索引擎一樣,也是根據(jù)信息關(guān)聯(lián)程度排列網(wǎng)站,只不過其中人為因素要多一些。如果按分層目錄查找,某一目錄中網(wǎng)站的排名則是由標(biāo)題字母的先后順序決定(也有例外)。

目前,搜索引擎與目錄索引有相互融合滲透的趨勢(shì)。原來一些純粹的全文搜索引擎現(xiàn)在也提供目錄搜索。


三、元搜索引擎


元搜索引擎(Meta Search Engine)不是一種獨(dú)立的搜索引擎,它最顯著的特點(diǎn)是沒有自己的資源索引數(shù)據(jù)庫,是架構(gòu)在許多其他搜索引擎之上的搜索引擎。元搜索引擎在接受用戶查詢請(qǐng)求時(shí),可以同時(shí)在其他多個(gè)搜索引擎中進(jìn)行搜索,并將其他搜索引擎的檢索結(jié)果經(jīng)過處理后返回給用戶。元搜索引擎為用戶提供一個(gè)統(tǒng)一的查詢頁面,通過自己的用戶提問預(yù)處理子系統(tǒng)將用戶提問轉(zhuǎn)換成各個(gè)成員搜索引擎能識(shí)別的形式,提交給這些成員搜索引擎中,然后把各個(gè)成員搜索引擎的搜索結(jié)果按照自己的結(jié)果處理子系統(tǒng)進(jìn)行比較分析,去除重復(fù)并且按照自定義的排序規(guī)則進(jìn)行排序返回給用戶。所以,一般的元搜索引擎都包括三大功能結(jié)構(gòu):提問預(yù)處理子系統(tǒng)、檢索接口代理子系統(tǒng)和檢索結(jié)果處理子系統(tǒng)。

結(jié)構(gòu)

一個(gè)真正的元搜索引擎由三部分組成,即:檢索請(qǐng)求提交機(jī)制、檢索接口代理機(jī)制、檢索結(jié)果顯示機(jī)制。"請(qǐng)求提交"負(fù)責(zé)實(shí)現(xiàn)用戶"個(gè)性化"的檢索設(shè)置要求,包括調(diào)用哪些搜索引擎、檢索時(shí)間限制、結(jié)果數(shù)量限制等。"接口代理"負(fù)責(zé)將用戶的檢索請(qǐng)求"翻譯"成滿足不同搜索引擎"本地化"要求的格式。"結(jié)果顯示"負(fù)責(zé)所有元搜索引擎檢索結(jié)果的去重、合并、輸出處理等。

元搜索引擎的出現(xiàn),對(duì)于那些需要連續(xù)地使用不同的搜索引擎重復(fù)相同的檢索的人來說,是一個(gè)福音。使用元搜索引擎同時(shí)對(duì)幾個(gè)搜索引擎進(jìn)行檢索,獲得分級(jí)編排的檢索。

分類

在可以檢索的目標(biāo)搜索引擎、檢索提問的處理方式以及如何編譯和顯示結(jié)果方面,元搜索引擎有著很大的差異。有些元搜索引擎一個(gè)接一個(gè)的搜索目標(biāo)搜索引擎,另一些則同時(shí)進(jìn)行搜索,有些搜索引擎將檢索提問轉(zhuǎn)變成目標(biāo)搜索引擎的提問語言,而有一些則原封不動(dòng)的發(fā)送給目標(biāo)引擎。

按功能劃分,元搜索引擎包括多線索式搜索引擎和All-in-One式搜索引擎;按運(yùn)行方式的差異可分為在線搜索引擎和桌面搜索引擎。

前景

元搜索引擎是為彌補(bǔ)傳統(tǒng)搜索引擎的不足而出現(xiàn)的一種輔助檢索工具,有著傳統(tǒng)搜索引擎所不具備的許多優(yōu)勢(shì)。但是,元搜索引擎依賴于數(shù)據(jù)庫選擇技術(shù)、文本選擇技術(shù)、查詢分派技術(shù)和結(jié)果綜合技術(shù)等。用戶界面的改進(jìn)、調(diào)用策略的完善、返回信息的整合以及最終檢索結(jié)果的排序,仍然是未來元搜索引擎研究的重點(diǎn)。


上一頁 1 2 下一頁
廣告投放問題
網(wǎng)站建設(shè)問題
小程序設(shè)計(jì)問題

以信載商,良心建站。遨游始終秉承“一次建站、終身維護(hù)”的宗旨,竭誠(chéng)為客戶提供最優(yōu)質(zhì)的互聯(lián)網(wǎng)服務(wù)。遨游建站率先植入seo優(yōu)化理念,讓你的網(wǎng)頁更利于搜索引擎抓取,關(guān)鍵詞排名更靠前。可仿站、可定制。無論是傳統(tǒng)型企業(yè)官網(wǎng)、集團(tuán)型品牌官網(wǎng),還是營(yíng)銷型網(wǎng)站、電商型網(wǎng)站、定制型網(wǎng)站、特殊行業(yè)網(wǎng)站(醫(yī)療、教育),全部搞定。

公司:網(wǎng)站建設(shè)_小程序設(shè)計(jì)_競(jìng)價(jià)托管代運(yùn)營(yíng)公司;郵箱:1013601535@qq.com

手機(jī):17073547034;QQ: 1013601535

在線留言咨詢,24小時(shí)內(nèi)回復(fù)
我想咨詢
*
企業(yè)名稱
手機(jī)號(hào)碼
*
您的姓名
所在城市
提交
最新發(fā)布
注冊(cè)體驗(yàn)
企業(yè)郵箱
域名注冊(cè)
SSL證書
地圖標(biāo)注
網(wǎng)站備案
服務(wù)器
友情鏈接
我們是中小企業(yè)可信賴的合作伙伴!始終專注一件事,一站式互聯(lián)網(wǎng)信息技術(shù)服務(wù)商
17073547034
全國(guó)統(tǒng)一服務(wù)熱線
遨游建站是全國(guó)高端網(wǎng)站建設(shè)公司,提供廣州企業(yè)網(wǎng)站建設(shè)/小程序開發(fā)/購(gòu)物網(wǎng)站設(shè)計(jì)制作與競(jìng)價(jià)托管代運(yùn)營(yíng)服務(wù);秉承“一次建站,終身維護(hù)”的宗旨,有償提供互聯(lián)網(wǎng)技術(shù)支持。
本站部分圖片、音頻、視頻來源于網(wǎng)絡(luò),版權(quán)歸原作者,如有侵權(quán)請(qǐng)聯(lián)系我們刪除。
機(jī)
臺(tái)