Sitemap 可方便網站管理員通知搜索引擎他們網站上有哪些可供抓取的網頁。最簡單的 Sitepmap 形式,就是XML 文件,在其中列出網站中的網址以及關于每個網址的其他元數(shù)據(上次更新的時間、更改的頻率以及相對于網站上其他網址的重要程度為何等),以便搜索引擎可以更加智能地抓取網站。
Google、雅虎、和微軟都支持一個被稱為xml網站地圖(xml Sitemaps)的協(xié)議,而百度Sitemap是指百度支持的收錄標準,在原有協(xié)議上做出了擴展。百度sitemap的作用是通過Sitemap告訴百度蜘蛛全面的站點鏈接,優(yōu)化自己的網站。百度Sitemap分為三種格式:txt文本格式、xml格式、Sitemap索引格式。
優(yōu)化步驟
1,我們需要為每一個頁面鏈接介紹一段簡短的文字,這樣可以提示這部分內容是關于哪方面的。
2,要為谷歌,百度這樣的搜索引擎提供一條"綠色的通道"為蜘蛛提供可以瀏覽整個網站的鏈接,使搜索引擎能迅速收錄網站的主要的網頁,例如首頁,詳細頁及幫助等頁面。
3,如果用戶已經在你網站上搜索過某些文章或信息,此時就需要有一個關于已經查看過的頁面或列表.如果沒有這些程序,那么你需要做一個文字鏈接到某個頁面并且這個頁面是可以得到所有想查詢的內容鏈接以便告訴用戶如何去查找他們需要查找的信息。
4,如果你網站的鏈接因為某些原因例如鏈接失效過無法獲得原來鏈接的話,此時你就需要做一個錯誤頁面的轉向,這個錯誤的轉向頁面你也可以充分發(fā)揮你的想象力以便做的更加漂亮。
5,這一點很重要,你可以在網站地圖的文本和超級鏈接里提到你要優(yōu)化的主要的關鍵詞,以便幫助搜索引擎來識別。
6,間接的幫助搜索引擎能夠輕輕松松索引到一些動態(tài)的頁面,最好此時的動態(tài)頁面你將其為偽靜態(tài)化,當然靜態(tài)化是最好的了,因為搜索引擎最喜歡靜態(tài)化的頁面。
格式
Google SiteMap
Google SiteMap Protocol是Google自己推出的一種站點地圖協(xié)議,此協(xié)議文件基于早期的robots.txt文件協(xié)議,并有所升級。在Google官方指南中指出加入了Google SiteMap文件的網站將更有利于Google網頁爬行機器人的爬行索引,這樣將提高索引網站內容的效率和準確度。文件協(xié)議應用了簡單的XML格式,一共用到6個標簽,其中關鍵標簽包括鏈接地址、更新時間、更新頻率和索引優(yōu)先權
<urlset xmlns=“網頁列表地址”>
<url>
<loc>網址</loc>
<lastmod>2005-06-03T04:20-08:00</lastmod>
<changefreq>always</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>網址</loc>
<lastmod>2005-06-02T20:20:36Z</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>
</urlset>
百度sitemap
<?xml version="1.0" encoding="UTF-8"?>
<urlset>
<url>
<loc>網頁地址</loc>
<lastmod>2010-01-01</lastmod>
<changefreq>daily</changefreq>
<priority>1.0</priority>
</url>
</urlset>
XML標簽
changefreq:頁面內容更新頻率。
lastmod:頁面最后修改時間
loc:頁面永久鏈接地址
priority:相對于其他頁面的優(yōu)先權
url:相對于前4個標簽的父標簽
urlset:相對于前5個標簽的父標簽
我將一句一句分解講解這個xml文件的每一個標簽:
<urlset xmlns="
這一行定義了此xml文件的命名空間,相當于網頁文件中的<html>標簽一樣的作用。
<url>
這是具體某一個鏈接的定義入口,你所希望展示在SiteMap文件中的每一個鏈接都要用<url>和</url>包含在里面,這是必須的。
<loc></loc>
用<loc>描述出具體的鏈接地址,這里需要注意的是鏈接地址中的一些特殊字符必須轉換為XML(HTML)定義的轉義字符,如下表: 字符 轉義后的字符
HTML字符 字符編碼
& 符號 & &
單引號 ' '
雙引號 " "
大于 > >
小于 < <
<lastmod>2005-06-03T04:20:32-08:00</lastmod>
<lastmod>是用來指定該鏈接的最后更新時間,這個很重要。Google的機器人會在索引此鏈接前先和上次索引記錄的最后更新時間進行比較,如果時間一樣就會跳過不再索引。所以如果你的鏈接內容基于上次Google索引時的內容有所改變,應該更新該時間,讓Google下次索引時會重新對該鏈接內容進行分析和提取關鍵字。這里必須用ISO 8601中指定的時間格式進行描述,格式化的時間格式如下:
年:YYYY(2005)
年和月:YYYY-MM(2005-06)
年月日:YYYY-MM-DD(2005-06-04)
年月日小時分鐘:YYYY-MM-DDThh:mmTZD(2005-06-04T10:37+08:00)
年月日小時分鐘秒:YYYY-MM-DDThh:mmTZD(2005-06-04T10:37:30+08:00)
這里需注意的是TZD,TZD指定就是本地時間區(qū)域標記,像中國就是+08:00了
<changefreq>always</changefreq>
用這個標簽告訴Google此鏈接可能會出現(xiàn)的更新頻率,比如首頁肯定就要用always(經常),而對于很久前的鏈接或者不再更新內容的鏈接就可以用yearly(每年)。這里可以用來描述的單詞共這幾個:"always", "hourly", "daily", "weekly", "monthly", "yearly",具體含義我就不用解釋了吧,光看單詞的意思就明白了。
<priority>1.0</priority>
<priority>是用來指定此鏈接相對于其他鏈接的優(yōu)先權比值,此值定于0.0 - 1.0之間
還有</url>和</urlset>,這兩個就是來關閉xml標簽的,這和HTML中的</body>和</html>是一個道理
另外需要注意的是,這個xml文件必須是utf-8的編碼格式,不管你是手動生成還是通過代碼生成,建議最好檢查一下xml文件是否是utf-8編碼,最簡單的方法就是用記事本打開xml然后另存為時選擇編碼(或轉換器)為UTF-8。
登陸Google提交你的SiteMap文件,鏈接,如果還沒有注冊或者登陸Google,就先用自己的帳號登陸Google,登陸后轉到Your Sitemaps狀態(tài)頁面,可以點擊那個Add a Sitemap + 跳轉到提交頁面進行Sitemap文件的提交。建議文件放在你的站點根目錄下。給Google提交你的Sitemap URL后可以看見在列表里已存在,不過這時候還沒有生效,必須過幾個小時后Status欄變成OK表示正式生效,如果不是OK,可以查看Google給出的狀態(tài)標示解釋看看是什么原因。