藍藍設(shè)計( m.bouu.cn )是一家專注而深入的界面設(shè)計公司,為期望卓越的國內(nèi)外企業(yè)提供有效的UI界面設(shè)計、BS界面設(shè)計 、 cs界面設(shè)計 、 ipad界面設(shè)計 、 包裝設(shè)計 、 圖標定制 、 用戶體驗 、交互設(shè)計、 網(wǎng)站建設(shè) 、平面設(shè)計服務(wù)
如果您想訂閱本博客內(nèi)容,每天自動發(fā)到您的郵箱中, 請點這里
第二、文件存儲:文件存儲是搜索引擎的一個技術(shù)關(guān)鍵所在,同時也是面臨的一個挑戰(zhàn)。當搜索引擎爬行和抓取完成后,會把這些數(shù)據(jù)存入原始頁面數(shù)據(jù)庫。在這個數(shù)據(jù)庫存放的數(shù)據(jù)和用戶在瀏覽器中看到的頁面是完全一樣的。每個URL都會有一個獨特的編號。除此之外,還要存儲各種計算權(quán)重所需要的數(shù)據(jù),比如各種鏈接的關(guān)系,PR的迭代計算等。這些數(shù)據(jù)量是巨大的。很多網(wǎng)站不存在時,我們可以訪問搜索引擎的快照頁面,這些頁面就是存在搜索引擎自己的數(shù)據(jù)庫中,與站長網(wǎng)站本身的數(shù)據(jù)沒有關(guān)系,是獨立存在的。平時的快照更新、排名波動都和搜索引擎的文件存儲有著直接的關(guān)系。
第三、跟蹤鏈接:跟蹤鏈接指的是蜘蛛會順著頁面上的鏈接從一個頁面爬到下一個頁面
那么蜘蛛就會順著這個詞來排。因為整個互聯(lián)網(wǎng)都是有不同的鏈接構(gòu)成,所以理論上蜘蛛能爬行所有的頁面。但由于現(xiàn)實中網(wǎng)站間的鏈接結(jié)構(gòu)非常復雜,蜘蛛就會采取一定的策略才能爬行所有頁面。常見的策略一般有兩種,一是深度優(yōu)先,二是廣度優(yōu)先。深度優(yōu)先指的是順著鏈接一直爬行,直到?jīng)]有鏈接為止,然后返回第一個頁面。而廣度優(yōu)先是順著第一層的鏈接爬行,直到把第一層的鏈接爬行完然后再爬行第二層的鏈接。如果從理論上講,只要有充足的時間,蜘蛛就能爬行完所有的網(wǎng)頁,但實際上搜索引擎只是收錄了互聯(lián)網(wǎng)上很小的一部分網(wǎng)頁。因此對我們來講,爭取做足夠多的外部鏈接,讓蜘蛛有機會來爬行與抓取。
第四、地址庫:地址庫對搜索來說顯得尤為重要,互聯(lián)網(wǎng)上的網(wǎng)頁數(shù)量是巨大的,為了避免爬行和抓取重復的網(wǎng)址,搜索引擎會建立一個地址庫,這個地址庫主要記錄已經(jīng)發(fā)現(xiàn)但是還沒有被抓取的頁面,以及已經(jīng)抓取的頁面。有了地址庫,就能讓搜索引擎的工作更加有效率,地址庫中的URL地址常常有幾個來源:一是人工錄入URL;二是自己爬行和抓取,如果爬行到一個新的網(wǎng)址,地址庫中沒有就會存入待訪問的數(shù)據(jù)庫;三是通過提交,很多站長都會去主動提交要被收錄的頁面。蜘蛛會從待訪問的地址中訪問里邊的URL,爬行完就會刪除,并存入以訪問的地址庫中。但大家也需要了解,我們?nèi)ブ鲃犹岣呓o搜索引擎網(wǎng)址,并不代表他一定會訪問并收錄我們的頁面,搜索引擎更喜歡自己爬行發(fā)現(xiàn)新的URL,所以我們還是要做好網(wǎng)頁的內(nèi)容和外部鏈接。
第五、吸引蜘蛛:通過上文我們知道,雖然蜘蛛理論上能爬取所有頁面,但由于鏈接的復雜性以及時間的局限性,蜘蛛往往只是抓取互聯(lián)網(wǎng)上網(wǎng)頁的一部分,如果我們的網(wǎng)站想要獲得好的排名,那么就必須想方設(shè)法讓蜘蛛來抓取,蜘蛛一般會抓取比較重要的頁面,那些頁面較重要呢?一是頁面權(quán)重高、資格老的網(wǎng)站會被認為比較重要;二是頁面常更新的頁面,對于經(jīng)常更新的頁面,蜘蛛會更加頻繁訪問;三是導入鏈接比較多的頁面,無論什么樣的頁面,如果想要蜘蛛訪問,就必須有導入鏈接;四是與首頁點擊距離近的頁面,因為首頁的權(quán)重往往最高,所以,距首頁最近點擊距離的頁面往往也被認為是最重要的頁面。