搜索引擎索引系統(tǒng)概述(一)

 二維碼 108
發(fā)表時間:2016-03-09 19:57作者:敖游來源:遨游建站網址:http://aquaponicswiki.com

眾所周知,搜索引擎的主要工作過程包括:抓取、存儲、頁面分析、索引、檢索等幾個主要過程。過去幾周給大家介紹了抓取相關的簡要過程。今天簡要介紹一下索引系統(tǒng),以億為單位的網頁庫中查找特定的某些關鍵詞猶如大海里面撈針,也許一定的時間內可以完成查找,但是用戶等不起,從用戶體驗角度我們必須在毫秒級別給予用戶滿意的結果,否則用戶只能流失。怎樣才能達到這種要求呢?

如果能知道用戶查找的關鍵詞(query切詞后)都出現(xiàn)在哪些頁面中,那么用戶檢索的處理過程即可以想象為包含了query中切詞后不同部分的頁面集合求交的過程,而檢索即變成了頁面名稱之間的比較、求交。這樣,在毫秒內以億為單位的檢索成為了可能。這就是通常所說的倒排索引及求交檢索的過程。如下為建立倒排索引的基本過程:


搜索引擎索引系統(tǒng)概述.jpg


(1)頁面分析的過程實際上是將原始頁面的不同部分進行識別并標記,例如:title、keywords、content、link、anchor、評論、其他非重要區(qū)域等等;

(2)分詞的過程實際上包括了切詞分詞同義詞轉換同義詞替換等等,以對某頁面title分詞為例,得到的將是這樣的數(shù)據:term文本、termid、詞類、詞性等等;

(3)之前的準備工作完成后,接下來即是建立倒排索引,形成{termàdoc},可以粗略的理解為如下,為什么是【term->doc】,而不是直接應用【doc->term】呢?


搜索引擎索引系統(tǒng)概述2.jpg


上述即是索引系統(tǒng)中的倒排索引過程,是搜索引擎實現(xiàn)毫秒級檢索非常重要的一個環(huán)節(jié)。


廣告投放問題
網站建設問題
小程序設計問題

以信載商,良心建站。遨游始終秉承“一次建站、終身維護”的宗旨,竭誠為客戶提供最優(yōu)質的互聯(lián)網服務。遨游建站率先植入seo優(yōu)化理念,讓你的網頁更利于搜索引擎抓取,關鍵詞排名更靠前。可仿站、可定制。無論是傳統(tǒng)型企業(yè)官網、集團型品牌官網,還是營銷型網站、電商型網站、定制型網站、特殊行業(yè)網站(醫(yī)療、教育),全部搞定。

公司:網站建設_小程序設計_競價托管代運營公司;郵箱:1013601535@qq.com

手機:17073547034;QQ: 1013601535

在線留言咨詢,24小時內回復
我想咨詢
*
企業(yè)名稱
手機號碼
*
您的姓名
所在城市
提交
最新發(fā)布
注冊體驗
企業(yè)郵箱
域名注冊
SSL證書
地圖標注
網站備案
服務器
友情鏈接
我們是中小企業(yè)可信賴的合作伙伴!始終專注一件事,一站式互聯(lián)網信息技術服務商
17073547034
全國統(tǒng)一服務熱線
遨游建站是全國高端網站建設公司,提供廣州企業(yè)網站建設/小程序開發(fā)/購物網站設計制作與競價托管代運營服務;秉承“一次建站,終身維護”的宗旨,有償提供互聯(lián)網技術支持。
本站部分圖片、音頻、視頻來源于網絡,版權歸原作者,如有侵權請聯(lián)系我們刪除。