登入
地區
  • 中西區
  • 九龍城區
  • 元朗區
  • 全港
  • 北區
  • 南區
  • 大埔區
  • 屯門區
  • 東區
  • 沙田區
  • 油尖旺區
  • 深水埗區
  • 灣仔區
  • 荃灣區
  • 葵青區
  • 西貢區
  • 觀塘區
  • 離島區
  • 黃大仙區
  • 廣告分類
  • 幫助中心
    • 如何註冊帳戶
    • 如何刊登廣告
    • 常見問題
  • 文章教學
    • 全部
    • SEO優化
    • 宣傳推廣
    • 網頁設計
    • 工作職場
    • 生活資訊
  • 關於我們
  • 聯絡我們
刊登廣告
BEEEO
  • 廣告分類
  • 幫助中心
    • 如何註冊帳戶
    • 如何刊登廣告
    • 常見問題
  • 文章教學
    • SEO優化
    • 宣傳推廣
    • 網頁設計
    • 工作職場
    • 生活資訊
地區
  • 中西區
  • 九龍城區
  • 元朗區
  • 全港
  • 北區
  • 南區
  • 大埔區
  • 屯門區
  • 東區
  • 沙田區
  • 油尖旺區
  • 深水埗區
  • 灣仔區
  • 荃灣區
  • 葵青區
  • 西貢區
  • 觀塘區
  • 離島區
  • 黃大仙區
登入
刊登廣告

首頁 » SEO優化 » 利用robots.txt,讓Google爬蟲抓取你的網站

利用robots.txt,讓Google爬蟲抓取你的網站

  • SEO優化
BEEEO
2021-11-13
0 個評論
利用robots.txt,讓Google爬蟲抓取你的網站

robots.txt 文件由一條或多條規則組成。每條規則可禁止(或允許)特定抓取工具抓取相應網站中的指定文件路徑。通俗一點的說法就是:告訴爬蟲,我這個網站,你哪些能看,哪些不能看的一個協議。

內容目錄

  • 為什麼要使用 robots.txt
  • 搜尋引擎的使用者代理
  • 最常發現的搜尋引擎使用者代理:
  • 最常被阻擋的搜尋引擎使用者代理:
  • 搜尋引擎蜘蛛是會以robots.txt文件規則來抓取網站
  • 設定全部搜尋引擎延遲爬取
  • 允許搜尋蜘蛛爬取全部網站
  • 不允許搜尋蜘蛛爬取全部網站
  • 不允許搜尋蜘蛛爬取特定一個網站
  • 不允許全部搜尋蜘蛛爬取特定的檔案
  • 除了指定的以外,不允許全部搜尋蜘蛛爬取
  • robots.txt的示例

為什麼要使用 robots.txt

搜索引擎(爬蟲),訪問一個網站,首先要查看當前網站根目錄下的robots.txt,然後依據裡面的規則,進行網站頁面的爬取。也就是說,robots.txt起到一個基調的作用,也可以說是爬蟲爬取當前網站的一個行為準則。那使用robots.txt的目的,就很明確了。

  • 更好地做定向SEO優化,重點曝光有價值的鏈接給爬蟲
  • 將敏感文件保護起來,避免爬蟲爬取收錄

編輯與創建robots.txt 文件

Robots.txt 文件是必須放在網站根目錄裡,如果你的網址是example.com 是可以讀取到的。

網址位置:
http://example.com/robots.txt

搜尋引擎的使用者代理

以搜尋引擎蜘蛛的User-agent來說,使用robots.txt文件來控制,是最普通的規範方式。當搜尋蜘蛛爬取網站時,他們會以使用者代理User-agent來識別、以下提供些參考範例

最常發現的搜尋引擎使用者代理:

Googlebot
Yahoo!
bingbot

最常被阻擋的搜尋引擎使用者代理:

AhrefsBot
Baiduspider
Ezooms
MJ12bot
YandexBot

搜尋引擎蜘蛛是會以robots.txt文件規則來抓取網站

robots.txt 文件有許多的規則,可以控制搜尋蜘蛛如何爬取你得網站。
User-agent: 可以具體指定哪一個User-agent是適用的,如*是萬用搭配於全部的User-agent。
Disallow: 設定檔案或是資料夾,不允許被搜尋蜘蛛爬取。

設定全部搜尋引擎延遲爬取

如果你的網站有1000頁,搜尋蜘蛛可能在幾分鐘內檢索全部的網站,然而這有可能導致系統資源使用過度,在短時間內讓全部的網頁超過負荷,導致網頁無法瀏覽。

延遲30秒的時間,將允許搜尋蜘蛛在8.3小時內檢索1000張網頁。
延遲500秒的時間,將允許搜尋蜘蛛在5.8天內檢索1000張網頁。
你也可以設定Crawl-delay:所有的搜尋蜘蛛立即搜尋。

User-agent: *
Crawl-delay: 30

允許搜尋蜘蛛爬取全部網站

在預設空白情況下,搜尋引擎蜘蛛還是會爬取你的網站,不過你還是可以指定它是允許的。

User-agent: *
Disallow:

不允許搜尋蜘蛛爬取全部網站

User-agent: *
Disallow: /

不允許搜尋蜘蛛爬取特定一個網站

你可以運用這些規則,不允許特定的搜尋引擎蜘蛛爬取你的網站。

User-agent: Baiduspider
Disallow: /

不允許全部搜尋蜘蛛爬取特定的檔案

如果有些檔案如contactus.htm, index.htm, 或是store.htm我們不想要搜尋蜘蛛爬取,我可以使用:

User-agent: *
Disallow: /contactus.htm
Disallow: /index.htm
Disallow: /store.htm

除了指定的以外,不允許全部搜尋蜘蛛爬取

如果我們只想讓Googlebot爬取我們的/private/目錄,但是不允許其他搜尋蜘蛛爬取,我們可以這樣使用:

User-agent: *
Disallow: /
User-agent: Googlebot
Disallow: /private/

當Googlebot讀取我的robots.txt文件時,會去理解文件內容,不會禁止全部目錄的爬取。

robots.txt的示例

如下:

# first group
User-agent: Baiduspider
User-agent: Googlebot
Disallow: /article/

# second group
User-agent: *
Disallow: /

Sitemap: https://www.xxx.com/sitemap.xml

以上:

  • 允許百度和谷歌的搜索引擎訪問站內除 article 目錄下的所有文件/頁面(eg: article.html 可以,article/index.html 不可以);
  • 不允許其他搜索引擎訪問網站;
  • 指定網站地圖所在。

假如你允許整站都可以被訪問,則可以不在根目錄添加 robots 文件。

免費網上廣告平台 - BEEEO

廣告 Ads
robot.txt

你可能會喜歡

利用robots.txt,讓Google爬蟲抓取你的網站
  • SEO優化

SEO站內優化八大主要因素

利用robots.txt,讓Google爬蟲抓取你的網站
  • SEO優化

Google SEO排名算法大揭秘

利用robots.txt,讓Google爬蟲抓取你的網站
  • SEO優化

如何測試網站速度?最好的網站測速工具,提升使用者體驗

發表評論 取消回覆

很抱歉,必須登入網站才能發佈留言。

熱門標籤

SEO 數碼營銷 搜索引擎優化 SEO優化 關鍵字 搜索引擎 品牌營銷 優化技巧 網上廣告 Google Ads 白帽SEO SEO排名 網頁設計 網店 SEO關鍵字 創業 Keyword 大灣區 搵工 AI人工智能
廣告 Ads

最新文章

利用robots.txt,讓Google爬蟲抓取你的網站
  • SEO優化

SEO站內優化八大主要因素

利用robots.txt,讓Google爬蟲抓取你的網站
  • 工作職場
  • 生活資訊

香港免費搵工網上平台比較 | 全港熱門工種,兼職、全職搵工平台

利用robots.txt,讓Google爬蟲抓取你的網站
  • SEO優化

Google SEO排名算法大揭秘

利用robots.txt,讓Google爬蟲抓取你的網站
  • SEO優化

如何測試網站速度?最好的網站測速工具,提升使用者體驗

利用robots.txt,讓Google爬蟲抓取你的網站
  • SEO優化

什麼是被動式SEO及主動式SEO?網站前端SEO技術優化指南

廣告 Ads
免費網上廣告分類平台,刊登免費廣告,網上宣傳推廣品牌 - BEEEO
平面設計|網頁設計|傳單設計 - BrianLO Studio
BEEEO 免費廣告分類網

BEEEO 免費網上廣告分類網,刊登免費廣告,為中小企、網店及Freelancer輕鬆網上宣傳推廣品牌,增加網站曝光和流量!免費學習SEO優化及Digital Marketing技巧,吸引更多潛在客戶!

關於BEEEO

  • 關於我們
  • 聯絡我們
  • 使用條款
  • 私隱政策
  • DCMA

廣告教學

  • 如何註冊帳戶
  • 如何刊登廣告
  • SEO網站優化
  • 網上宣傳推廣
  • 常見問題

關注我們

Facebook-f Instagram Twitter
© beeeo.com - All rights reserved.
登入
忘記密碼了嗎? 重置密碼。

發送登入資料,請等候...

沒有帳戶? 立即註冊

Sending info,please wait...

返回登入

正在發送註冊信息,請稍候...

  • 家居服務
  • 學習培訓
  • 攝影影音
  • 設計藝術
  • 資訊科技
  • 美容按摩
  • 裝修維修
  • 餐廳飲食
  • 商業服務
  • 運動休閒
  • 醫療健康
  • 地產物業
  • 衣著服飾
  • 珠寶鐘錶
  • 著數禮品
  • 寵物
  • 購物
  • 汽車
  • 玩具模型
  • 旅遊住宿