不了解搜索引擎原理?你怎么做SEO優(yōu)化 二維碼
387
我們都知道,SEO(Search Engine Optimization)漢譯為搜索引擎優(yōu)化,利用搜索引擎的規(guī)則提高網(wǎng)站在有關(guān)搜索引擎內(nèi)的自然排名。目的是為了網(wǎng)站提供生態(tài)式的自我營銷解決方案,讓其在行業(yè)內(nèi)占據(jù)領(lǐng)先地位,獲得品牌收益;網(wǎng)站優(yōu)化分為站內(nèi)SEO優(yōu)化和站外SEO優(yōu)化兩個方面;為了從搜索引擎中獲得更多的免費流量,從網(wǎng)站結(jié)構(gòu)、內(nèi)容建設(shè)方案、用戶互動傳播、頁面等角度進(jìn)行合理規(guī)劃,還會使搜索引擎中顯示的網(wǎng)站相關(guān)信息對用戶來說更具有吸引力。 那么,搜索引擎原理是什么?這個必須要知道,因為你不知道搜索引擎原理,就沒法做SEO優(yōu)化。要知道搜索引擎原理,我們先來了解一下,什么是搜索引擎蜘蛛? 搜索引擎蜘蛛(spider),可簡稱為蜘蛛,本意為搜索引擎機器人(robot),稱為蜘蛛的原因是將互聯(lián)網(wǎng)比喻成蜘蛛網(wǎng),將機器人比喻成了在網(wǎng)上爬行的蜘蛛,是搜索引擎自動抓取網(wǎng)頁的程序。 搜索引擎蜘蛛的作用:通過這些搜索引擎蜘蛛的爬行會自動將網(wǎng)頁添加到搜索引擎的數(shù)據(jù)庫當(dāng)中,搜索引擎蜘蛛會自動判斷網(wǎng)頁的質(zhì)量,根據(jù)既定的程序判斷是否抓取。 搜索引擎蜘蛛的名稱:以下為目前國內(nèi)知名度比較高的搜索引擎的名字,還有很多的搜索引擎蜘蛛但是由于知名度不高,我就不一一列舉了。
查看搜索引擎蜘蛛的來訪記錄,需要通過網(wǎng)站訪問日志文件來查看,具體獲取方法請咨詢服務(wù)器提供商。 如果你想獲得搜索引擎蜘蛛的親賴,希望他天天爬行抓取網(wǎng)頁的話,那就需要持續(xù)保持原創(chuàng)文章的更新,并且定期交換友情鏈接。 如果你不希望某個搜索引擎的蜘蛛來抓取你的網(wǎng)頁,可以通過設(shè)置robots.txt來禁止抓取。 好啦!前奏已鋪墊完畢,該了解的我們都已經(jīng)基本上介紹完了,下面一起來看看什么是搜索引擎原理?有興趣的小伙伴們可以仔細(xì)閱讀了。 搜索引擎,需要解決的技術(shù)問題總的分為:蜘蛛程序、分類建立索引、詞庫、排序算法因素、數(shù)據(jù)庫索引和優(yōu)化、數(shù)據(jù)庫結(jié)構(gòu)--蜘蛛。 目前看來,蜘蛛可以用C或者PHP來實現(xiàn)。百度的蜘蛛多半是C做的,C同樣可以支持多個數(shù)據(jù)庫的連接接口,并且C的運行效率比PHP高,C也更能控制底層。 C雖然這么好,我還是想用PHP做,時間上必須更多的節(jié)約出來,不能再去學(xué)C。如果以后需要高效率要用C,再用C做,數(shù)據(jù)庫可以不變,MYSQL可以和C連接。 PHP有優(yōu)點也有缺點,做蜘蛛,問題應(yīng)該不大,最大的問題 是有可能速度很慢。 1、抓取網(wǎng)頁 抓取網(wǎng)頁,有可能出現(xiàn)的問題是,抓取順序,抓取如果不成功或超時等問題該如何紀(jì)錄,下次又什么時候更新抓取。搜索引擎的 數(shù)據(jù)庫最開始是新的,沒有任何網(wǎng)址的,需要大量加入網(wǎng)址。 這里可以用for循環(huán)語句,按照英文字母自動循環(huán)。當(dāng)然,網(wǎng)站建設(shè)不只有英文,還有和數(shù)字,這些只能手工輸入了。如果還是循環(huán)抓取,估計有很多都要落空。抓到的代碼需要分析編碼類型是utf-8還是gb2312.我的搜索引擎只想抓簡體中文。 如果抓取超時,則記錄,下次大概十天之后再抓取,如果連續(xù)超時三次,將T出數(shù)據(jù)庫。 2、建立索引 索引的建立是個很棘手的問題,百度和谷歌可以用自 己的服務(wù)器群建立分布式的服務(wù)器。我可沒那么多服務(wù)器。所以我想換個方法。建立靜態(tài)頁面。之前我才知道,在百度和谷歌輸入一個比較生僻的詞 ,會花費0.2秒左右的時間,一般的常見詞語只需要0.1秒。并且,第二次重復(fù)輸入一個詞所需要的查詢時間要少得多。這個多半就是索引的影響。 假如索引是放內(nèi)存里,讀取速度將是非常OK的。我只有一臺服務(wù)器,就算只放常見的5萬個查詢詞語的索引進(jìn)去,估計也有點累。一個頁面至少有20K, 5萬個頁面就是20K*50=1G。這還只是5萬個詞的第一個頁面。如果用戶要翻頁查詢呢,內(nèi)存肯定不夠。假如只放第一頁進(jìn)內(nèi)存,用戶翻頁查詢,速度 將無法解決。所以我準(zhǔn)備全靜態(tài)。把5萬個詞語的查詢模擬一次,然后生成靜態(tài)頁面。所有詞的第一頁放內(nèi)存,后面的頁面放硬盤里。如果能把頁面 放內(nèi)存,這個問題就已經(jīng)解決了。 3、詞庫 漢字千千萬,常用的漢字也至少三千個。組成的詞語常用的估計有2萬。這個詞庫來怎么添加進(jìn)去?用什 么格式存放?CSV文件還是數(shù)據(jù)庫還是文本文件?之前我想過把金山詞霸的詞庫文件找到,想辦法直接復(fù)制過來,此方法目前還沒成功。 4、排序算法 所有的影響排序的算法,應(yīng)該是放一個表里,然后分固定算法,就是網(wǎng)站本身的因素,還有變動算法,就是用戶輸入的詞語或因為時間季節(jié)等不同而變化的因 素。固定算法就放一個表里,對每個網(wǎng)站算出總分。變動算法的一部分是之前已經(jīng)產(chǎn)生,一部分是用戶輸入之后才算出。 5、數(shù)據(jù)庫索引 數(shù)據(jù)庫的索引目前還沒 有很好的解決辦法,一個表達(dá)索引肯定不能太多,多了會影響速度。六.數(shù)據(jù)庫的結(jié)構(gòu)。這個很關(guān)鍵。估計要在網(wǎng)站前臺界面出來之前就得先把數(shù)據(jù) 庫結(jié)構(gòu)定下來。還要為以后的升級留下接口,比如算法因素要增加,或者為了優(yōu)化查詢語句,要變動字段等等。 好了,今天我們就分享到這里,下一篇我們講解《深入研究之搜索引擎的架構(gòu)與細(xì)節(jié)》,很值得期待哦!有興趣的小伙伴們關(guān)注遨游建站移動站(m.aoyouwl.com)經(jīng)常更新建站、優(yōu)化等眾多網(wǎng)絡(luò)前沿知識。 本文撰寫參考: 搜索引擎 https://baike.baidu.com/item/%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E 網(wǎng)絡(luò)爬蟲 https://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB/5162711?fromtitle=%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E%E8%9C%98%E8%9B%9B&fromid=9781549 以信載商,良心建站。遨游始終秉承“一次建站、終身維護(hù)”的宗旨,竭誠為客戶提供最優(yōu)質(zhì)的互聯(lián)網(wǎng)服務(wù)。遨游建站率先植入seo優(yōu)化理念,讓你的網(wǎng)頁更利于搜索引擎抓取,關(guān)鍵詞排名更靠前。可仿站、可定制。無論是傳統(tǒng)型企業(yè)官網(wǎng)、集團(tuán)型品牌官網(wǎng),還是營銷型網(wǎng)站、電商型網(wǎng)站、定制型網(wǎng)站、特殊行業(yè)網(wǎng)站(醫(yī)療、教育),全部搞定。 公司:網(wǎng)站建設(shè)_小程序設(shè)計_競價托管代運營公司;郵箱:1013601535@qq.com 手機:17073547034;QQ: 1013601535 在線留言咨詢,24小時內(nèi)回復(fù)
我想咨詢 *
企業(yè)名稱
手機號碼 *
您的姓名
所在城市 提交 |
網(wǎng)站建設(shè)問題
熱門標(biāo)簽
最新發(fā)布 |