Sitemap 可方便網(wǎng)站管理員通知搜索引擎他們網(wǎng)站上有哪些可供抓取的網(wǎng)頁。最簡(jiǎn)單的 Sitepmap 形式,就是XML 文件,在其中列出網(wǎng)站中的網(wǎng)址以及關(guān)于每個(gè)網(wǎng)址的其他元數(shù)據(jù)(上次更新的時(shí)間、更改的頻率以及相對(duì)于網(wǎng)站上其他網(wǎng)址的重要程度為何等),以便搜索引擎可以更加智能地抓取網(wǎng)站。
Google、雅虎、和微軟都支持一個(gè)被稱為xml網(wǎng)站地圖(xml Sitemaps)的協(xié)議,而百度Sitemap是指百度支持的收錄標(biāo)準(zhǔn),在原有協(xié)議上做出了擴(kuò)展。百度sitemap的作用是通過Sitemap告訴百度蜘蛛全面的站點(diǎn)鏈接,優(yōu)化自己的網(wǎng)站。百度Sitemap分為三種格式:txt文本格式、xml格式、Sitemap索引格式。
優(yōu)化步驟
1,我們需要為每一個(gè)頁面鏈接介紹一段簡(jiǎn)短的文字,這樣可以提示這部分內(nèi)容是關(guān)于哪方面的。
2,要為谷歌,百度這樣的搜索引擎提供一條"綠色的通道"為蜘蛛提供可以瀏覽整個(gè)網(wǎng)站的鏈接,使搜索引擎能迅速收錄網(wǎng)站的主要的網(wǎng)頁,例如首頁,詳細(xì)頁及幫助等頁面。
3,如果用戶已經(jīng)在你網(wǎng)站上搜索過某些文章或信息,此時(shí)就需要有一個(gè)關(guān)于已經(jīng)查看過的頁面或列表.如果沒有這些程序,那么你需要做一個(gè)文字鏈接到某個(gè)頁面并且這個(gè)頁面是可以得到所有想查詢的內(nèi)容鏈接以便告訴用戶如何去查找他們需要查找的信息。
4,如果你網(wǎng)站的鏈接因?yàn)槟承┰蚶珂溄邮н^無法獲得原來鏈接的話,此時(shí)你就需要做一個(gè)錯(cuò)誤頁面的轉(zhuǎn)向,這個(gè)錯(cuò)誤的轉(zhuǎn)向頁面你也可以充分發(fā)揮你的想象力以便做的更加漂亮。
5,這一點(diǎn)很重要,你可以在網(wǎng)站地圖的文本和超級(jí)鏈接里提到你要優(yōu)化的主要的關(guān)鍵詞,以便幫助搜索引擎來識(shí)別。
6,間接的幫助搜索引擎能夠輕輕松松索引到一些動(dòng)態(tài)的頁面,最好此時(shí)的動(dòng)態(tài)頁面你將其為偽靜態(tài)化,當(dāng)然靜態(tài)化是最好的了,因?yàn)樗阉饕孀钕矚g靜態(tài)化的頁面。
格式
Google SiteMap
Google SiteMap Protocol是Google自己推出的一種站點(diǎn)地圖協(xié)議,此協(xié)議文件基于早期的robots.txt文件協(xié)議,并有所升級(jí)。在Google官方指南中指出加入了Google SiteMap文件的網(wǎng)站將更有利于Google網(wǎng)頁爬行機(jī)器人的爬行索引,這樣將提高索引網(wǎng)站內(nèi)容的效率和準(zhǔn)確度。文件協(xié)議應(yīng)用了簡(jiǎn)單的XML格式,一共用到6個(gè)標(biāo)簽,其中關(guān)鍵標(biāo)簽包括鏈接地址、更新時(shí)間、更新頻率和索引優(yōu)先權(quán)
<urlset xmlns=“網(wǎng)頁列表地址”>
<url>
<loc>網(wǎng)址</loc>
<lastmod>2005-06-03T04:20-08:00</lastmod>
<changefreq>always</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>網(wǎng)址</loc>
<lastmod>2005-06-02T20:20:36Z</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>
</urlset>
百度sitemap
<?xml version="1.0" encoding="UTF-8"?>
<urlset>
<url>
<loc>網(wǎng)頁地址</loc>
<lastmod>2010-01-01</lastmod>
<changefreq>daily</changefreq>
<priority>1.0</priority>
</url>
</urlset>
XML標(biāo)簽
changefreq:頁面內(nèi)容更新頻率。
lastmod:頁面最后修改時(shí)間
loc:頁面永久鏈接地址
priority:相對(duì)于其他頁面的優(yōu)先權(quán)
url:相對(duì)于前4個(gè)標(biāo)簽的父標(biāo)簽
urlset:相對(duì)于前5個(gè)標(biāo)簽的父標(biāo)簽
我將一句一句分解講解這個(gè)xml文件的每一個(gè)標(biāo)簽:
<urlset xmlns="
這一行定義了此xml文件的命名空間,相當(dāng)于網(wǎng)頁文件中的<html>標(biāo)簽一樣的作用。
<url>
這是具體某一個(gè)鏈接的定義入口,你所希望展示在SiteMap文件中的每一個(gè)鏈接都要用<url>和</url>包含在里面,這是必須的。
<loc></loc>
用<loc>描述出具體的鏈接地址,這里需要注意的是鏈接地址中的一些特殊字符必須轉(zhuǎn)換為XML(HTML)定義的轉(zhuǎn)義字符,如下表: 字符 轉(zhuǎn)義后的字符
HTML字符 字符編碼
& 符號(hào) & &
單引號(hào) ' '
雙引號(hào) " "
大于 > >
小于 < <
<lastmod>2005-06-03T04:20:32-08:00</lastmod>
<lastmod>是用來指定該鏈接的最后更新時(shí)間,這個(gè)很重要。Google的機(jī)器人會(huì)在索引此鏈接前先和上次索引記錄的最后更新時(shí)間進(jìn)行比較,如果時(shí)間一樣就會(huì)跳過不再索引。所以如果你的鏈接內(nèi)容基于上次Google索引時(shí)的內(nèi)容有所改變,應(yīng)該更新該時(shí)間,讓Google下次索引時(shí)會(huì)重新對(duì)該鏈接內(nèi)容進(jìn)行分析和提取關(guān)鍵字。這里必須用ISO 8601中指定的時(shí)間格式進(jìn)行描述,格式化的時(shí)間格式如下:
年:YYYY(2005)
年和月:YYYY-MM(2005-06)
年月日:YYYY-MM-DD(2005-06-04)
年月日小時(shí)分鐘:YYYY-MM-DDThh:mmTZD(2005-06-04T10:37+08:00)
年月日小時(shí)分鐘秒:YYYY-MM-DDThh:mmTZD(2005-06-04T10:37:30+08:00)
這里需注意的是TZD,TZD指定就是本地時(shí)間區(qū)域標(biāo)記,像中國(guó)就是+08:00了
<changefreq>always</changefreq>
用這個(gè)標(biāo)簽告訴Google此鏈接可能會(huì)出現(xiàn)的更新頻率,比如首頁肯定就要用always(經(jīng)常),而對(duì)于很久前的鏈接或者不再更新內(nèi)容的鏈接就可以用yearly(每年)。這里可以用來描述的單詞共這幾個(gè):"always", "hourly", "daily", "weekly", "monthly", "yearly",具體含義我就不用解釋了吧,光看單詞的意思就明白了。
<priority>1.0</priority>
<priority>是用來指定此鏈接相對(duì)于其他鏈接的優(yōu)先權(quán)比值,此值定于0.0 - 1.0之間
還有</url>和</urlset>,這兩個(gè)就是來關(guān)閉xml標(biāo)簽的,這和HTML中的</body>和</html>是一個(gè)道理
另外需要注意的是,這個(gè)xml文件必須是utf-8的編碼格式,不管你是手動(dòng)生成還是通過代碼生成,建議最好檢查一下xml文件是否是utf-8編碼,最簡(jiǎn)單的方法就是用記事本打開xml然后另存為時(shí)選擇編碼(或轉(zhuǎn)換器)為UTF-8。
登陸Google提交你的SiteMap文件,鏈接,如果還沒有注冊(cè)或者登陸Google,就先用自己的帳號(hào)登陸Google,登陸后轉(zhuǎn)到Y(jié)our Sitemaps狀態(tài)頁面,可以點(diǎn)擊那個(gè)Add a Sitemap + 跳轉(zhuǎn)到提交頁面進(jìn)行Sitemap文件的提交。建議文件放在你的站點(diǎn)根目錄下。給Google提交你的Sitemap URL后可以看見在列表里已存在,不過這時(shí)候還沒有生效,必須過幾個(gè)小時(shí)后Status欄變成OK表示正式生效,如果不是OK,可以查看Google給出的狀態(tài)標(biāo)示解釋看看是什么原因。