怎樣建設(shè)對(duì)搜索引擎比較友好的站點(diǎn) 二維碼
433
搜索引擎技術(shù)飛速發(fā)展,對(duì)網(wǎng)站的解析越來(lái)越充分,而各家網(wǎng)站也面臨著強(qiáng)勁的對(duì)手競(jìng)爭(zhēng),如何讓自己的網(wǎng)站對(duì)搜索引擎更加友好,是站長(zhǎng)要充分考慮的問(wèn)題。 本文的主旨就告訴各位站長(zhǎng):怎樣建設(shè)對(duì)搜索引擎比較友好的站點(diǎn)。
第一節(jié)-友好抓取 如何正確識(shí)別Baiduspider移動(dòng)ua 新版移動(dòng)ua: Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html) PC ua: Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html) 之前通過(guò)“+http://www.baidu.com/search/spider.html”進(jìn)行識(shí)別的網(wǎng)站請(qǐng)注意!您需要修改識(shí)別方式,新的正確的識(shí)別Baiduspider移動(dòng)ua的方法如下: 1. 通過(guò)關(guān)鍵詞“Android”或者“Mobile”來(lái)進(jìn)行識(shí)別,判斷為移動(dòng)訪問(wèn)或者抓取。 2. 通過(guò)關(guān)鍵詞“Baiduspider/2.0”,判斷為百度爬蟲(chóng)。 另外需要強(qiáng)調(diào)的是,對(duì)于robots封禁,如果封禁的agent是Baiduspider,會(huì)對(duì)PC和移動(dòng)同時(shí)生效。即,無(wú)論是PC還是移動(dòng)Baiduspider,都不會(huì)對(duì)封禁對(duì)象進(jìn)行抓取。之所以要強(qiáng)調(diào)這一點(diǎn),是發(fā)現(xiàn)有些代碼適配站點(diǎn)(同一個(gè)url,PC ua打開(kāi)的時(shí)候是PC頁(yè),移動(dòng)ua打開(kāi)的時(shí)候是移動(dòng)頁(yè)),想通過(guò)設(shè)置robots的agent封禁達(dá)到只讓移動(dòng)Baiduspider抓取的目的,但由于PC和移動(dòng)Baiduspider的agent都是Baiduspider,這種方法是非常不可取的。 如何識(shí)別百度蜘蛛 百度蜘蛛對(duì)于站長(zhǎng)來(lái)說(shuō)可謂上賓,可是我們?cè)?jīng)遇到站長(zhǎng)這樣提問(wèn):我們?nèi)绾闻袛喁偪褡ノ覀兙W(wǎng)站內(nèi)容的蜘蛛是不是百度的?其實(shí)站長(zhǎng)可以通過(guò)DNS反查IP的方式判斷某只spider是否來(lái)自百度搜索引擎。根據(jù)平臺(tái)不同驗(yàn)證方法不同,如linux/windows/os三種平臺(tái)下的驗(yàn)證方法分別如下: 1、在linux平臺(tái)下,您可以使用host ip命令反解ip來(lái)判斷是否來(lái)自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即為冒充。
2、在windows平臺(tái)或者IBM OS/2平臺(tái)下,您可以使用nslookup ip命令反解ip來(lái) 判斷是否來(lái)自Baiduspider的抓取。打開(kāi)命令處理器 輸入nslookup xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 來(lái)判斷是否來(lái)自Baiduspider的抓取,Baiduspider的hostname以*.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即為冒充。 3、 在mac os平臺(tái)下,您可以使用dig 命令反解ip來(lái) 判斷是否來(lái)自Baiduspider的抓取。打開(kāi)命令處理器 輸入dig xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 來(lái)判斷是否來(lái)自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即為冒充。 Baiduspider IP是多少 即便很多站長(zhǎng)知道了如何判斷百度蜘蛛,仍然會(huì)不斷地問(wèn)“百度蜘蛛IP是多少”。我們理解站長(zhǎng)的意思,是想將百度蜘蛛所在IP加入白名單,只準(zhǔn)白名單下IP對(duì)網(wǎng)站進(jìn)行抓取,避免被采集等行為。 但我們不建議站長(zhǎng)這樣做。雖然百度蜘蛛的確有一個(gè)IP池,真實(shí)IP在這個(gè)IP池內(nèi)切換,但是我們無(wú)法保證這個(gè)IP池整體不會(huì)發(fā)生變化。所以,我們建議站長(zhǎng)勤看日志,發(fā)現(xiàn)惡意蜘蛛后放入黑名單,以保證百度的正常抓取。 同時(shí),我們?cè)俅螐?qiáng)調(diào),通過(guò)IP來(lái)分辨百度蜘蛛的屬性是非??尚Φ氖虑椋^的“沙盒蜘蛛”“降權(quán)蜘蛛”等等是從來(lái)都不存在的。 robots寫(xiě)法 robots是站點(diǎn)與spider溝通的重要渠道,站點(diǎn)通過(guò)robots文件聲明該網(wǎng)站中不想被搜索引擎收錄的部分或者指定搜索引擎只收錄特定的部分。請(qǐng)注意,僅當(dāng)您的網(wǎng)站包含不希望被搜索引擎收錄的內(nèi)容時(shí),才需要使用robots.txt文件。如果您希望搜索引擎收錄網(wǎng)站上所有內(nèi)容,請(qǐng)勿建立robots.txt文件。 robots文件往往放置于根目錄下,包含一條或更多的記錄,這些記錄通過(guò)空行分開(kāi)(以CR、CR/NL、or NL作為結(jié)束符),每一條記錄的格式如下所示: "<field>:<optional space><value><optionalspace>" 在該文件中可以使用#進(jìn)行注解,具體使用方法和UNIX中的慣例一樣。該文件中的記錄通常以一行或多行User-agent開(kāi)始,后面加上若干Disallow和Allow行,詳細(xì)情況如下: User-agent:該項(xiàng)的值用于描述搜索引擎robot的名字。在"robots.txt"文件中,如果有多條User-agent記錄說(shuō)明有多個(gè)robot會(huì)受到"robots.txt"的限制,對(duì)該文件來(lái)說(shuō),至少要有一條User-agent記錄。如果該項(xiàng)的值設(shè)為*,則對(duì)任何robot均有效,在"robots.txt"文件中,"User-agent:*"這樣的記錄只能有一條。如果在"robots.txt"文件中,加入"User-agent:SomeBot"和若干Disallow、Allow行,那么名為"SomeBot"只受到"User-agent:SomeBot"后面的 Disallow和Allow行的限制。 Disallow:該項(xiàng)的值用于描述不希望被訪問(wèn)的一組URL,這個(gè)值可以是一條完整的路徑,也可以是路徑的非空前綴,以Disallow項(xiàng)的值開(kāi)頭的URL不會(huì)被 robot訪問(wèn)。例如"Disallow:/help"禁止robot訪問(wèn)/help.html、/helpabc.html、/help/index.html,而"Disallow:/help/"則允許robot訪問(wèn)/help.html、/helpabc.html,不能訪問(wèn)/help/index.html。"Disallow:"說(shuō)明允許robot訪問(wèn)該網(wǎng)站的所有url,在"/robots.txt"文件中,至少要有一條Disallow記錄。如果"/robots.txt"不存在或者為空文件,則對(duì)于所有的搜索引擎robot,該網(wǎng)站都是開(kāi)放的。 Allow:該項(xiàng)的值用于描述希望被訪問(wèn)的一組URL,與Disallow項(xiàng)相似,這個(gè)值可以是一條完整的路徑,也可以是路徑的前綴,以Allow項(xiàng)的值開(kāi)頭的URL 是允許robot訪問(wèn)的。例如"Allow:/hibaidu"允許robot訪問(wèn)/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一個(gè)網(wǎng)站的所有URL默認(rèn)是Allow的,所以Allow通常與Disallow搭配使用,實(shí)現(xiàn)允許訪問(wèn)一部分網(wǎng)頁(yè)同時(shí)禁止訪問(wèn)其它所有URL的功能。 使用"*"and"$":Baiduspider支持使用通配符"*"和"$"來(lái)模糊匹配url。 "*" 匹配0或多個(gè)任意字符 "$" 匹配行結(jié)束符。 最后需要說(shuō)明的是:百度會(huì)嚴(yán)格遵守robots的相關(guān)協(xié)議,請(qǐng)注意區(qū)分您不想被抓取或收錄的目錄的大小寫(xiě),百度會(huì)對(duì)robots中所寫(xiě)的文件和您不想被抓取和收錄的目錄做精確匹配,否則robots協(xié)議無(wú)法生效。 robots需求用法對(duì)應(yīng)表 上面說(shuō)了那么多理論,有沒(méi)有簡(jiǎn)單對(duì)照表格告訴我,怎樣的需求場(chǎng)景下應(yīng)該怎樣撰寫(xiě)robots文件?有的:
以信載商,良心建站。遨游始終秉承“一次建站、終身維護(hù)”的宗旨,竭誠(chéng)為客戶(hù)提供最優(yōu)質(zhì)的互聯(lián)網(wǎng)服務(wù)。遨游建站率先植入seo優(yōu)化理念,讓你的網(wǎng)頁(yè)更利于搜索引擎抓取,關(guān)鍵詞排名更靠前。可仿站、可定制。無(wú)論是傳統(tǒng)型企業(yè)官網(wǎng)、集團(tuán)型品牌官網(wǎng),還是營(yíng)銷(xiāo)型網(wǎng)站、電商型網(wǎng)站、定制型網(wǎng)站、特殊行業(yè)網(wǎng)站(醫(yī)療、教育),全部搞定。 公司:網(wǎng)站建設(shè)_小程序設(shè)計(jì)_競(jìng)價(jià)托管代運(yùn)營(yíng)公司;郵箱:1013601535@qq.com 手機(jī):17073547034;QQ: 1013601535 在線(xiàn)留言咨詢(xún),24小時(shí)內(nèi)回復(fù)
我想咨詢(xún) *
企業(yè)名稱(chēng)
手機(jī)號(hào)碼 *
您的姓名
所在城市 提交 |
網(wǎng)站建設(shè)問(wèn)題
熱門(mén)標(biāo)簽
網(wǎng)站建設(shè)多少錢(qián) 網(wǎng)站改版多少錢(qián) 高端網(wǎng)站建設(shè) 響應(yīng)式網(wǎng)站建設(shè)多少 營(yíng)銷(xiāo)型網(wǎng)站建設(shè)多少錢(qián) 網(wǎng)頁(yè)設(shè)計(jì) 網(wǎng)站建設(shè)制作費(fèi)用 網(wǎng)站設(shè)計(jì)多少錢(qián) 網(wǎng)站優(yōu)化 網(wǎng)站制作多少錢(qián) 做網(wǎng)站 外貿(mào)網(wǎng)站建設(shè) 企業(yè)網(wǎng)站建設(shè) 最新發(fā)布 |