大多數著名的搜索引擎,如 Google 和 Bing,其搜索索引中都有數以萬億計的頁面。因此,在我們討論排名算法之前,讓我們深入研究用於構建和維護網絡索引的機制。
這是基本過程,由 Google 提供:
讓我們一步一步分解它:
- 網址 URLs
- 爬行 Crawler
- 處理和渲染 Processing
- 索引 Index
步驟 1. URL
一切都從一個已知的 URL 列表開始。谷歌通過各種過程發現這些,但最常見的三個是:
從反向鏈接
谷歌已經有一個包含數万億網頁的索引。如果有人從這些網頁之一添加到您的某個網頁的鏈接,他們可以從那裡找到它。
您可以使用帶有Ahrefs 網站管理員工具的網站瀏覽器免費查看您網站的反向鏈接。
- 註冊一個免費的 Ahrefs 網站管理員工具帳戶
- 將您的域粘貼到站點資源管理器中
- 轉到反向鏈接 報告。
我們的爬蟲是僅次於谷歌的第二活躍的爬蟲,所以你應該在這裡看到一個相當完整的反向鏈接視圖。
從站點地圖
站點地圖列出了您網站上的所有重要頁面。如果您將站點地圖提交給 Google,可能會幫助他們更快地發現您的網站。
從URL提交
Google 還允許通過 Google Search Console 提交單個 URL。
步驟 2. 爬行
爬行是被稱為蜘蛛的計算機機器人(例如Googlebot)訪問和下載發現的頁面的地方。
需要注意的是,Google 並不總是按照他們發現頁面的順序來抓取頁面。
Google 會根據以下幾個因素對網址進行排隊以供抓取:
這很重要,因為這意味著搜索引擎可能會先抓取您的某些頁面並將其編入索引。如果您有一個大型網站,搜索引擎可能需要一段時間才能完全抓取它。
步驟 3. 處理
處理是谷歌從抓取的頁面中理解和提取關鍵信息的地方。谷歌之外沒有人知道這個過程的每一個細節,但我們理解的重要部分是提取鏈接和存儲索引內容。
Google 必須渲染頁面以完全處理它們,這是 Google 運行頁面代碼以了解它如何查找用戶的地方。
也就是說,在渲染之前和之後會發生一些處理——如您在圖中所見。
步驟 4. 索引
索引是將來自抓取頁面的已處理信息添加到稱為搜索索引的大型數據庫中。這本質上是一個包含數万億個網頁的數字圖書館,Google 的搜索結果來自這些網頁。
這是很重要的一點。當您在搜索引擎中鍵入查詢時,您並不是直接在 Internet 上搜索匹配結果。您正在搜索搜索引擎的網頁索引。如果網頁不在搜索索引中,搜索引擎用戶將找不到它。這就是讓您的網站在 Google 和 Bing 等主要搜索引擎中編入索引如此重要的原因。
0 意見
張貼留言