2024 年 robots.txt 完全指南

為了能夠多樣化地運用 robots.txt，我們需要了解一些特定的術語和規則。

當你了解了這些術語後，若想要設定規則，可以在你的域名地址後面加上 /robots.txt 即可。

首先，讓我們介紹一些基本術語：

user-agent: 這是指令適用的爬蟲名稱。

disallow: 阻止指定的 user-agent 爬取特定的目錄或頁面。

allow: 允許指定的 user-agent 爬取特定的目錄或頁面，此指令僅適用於 Googlebot。

sitemap: 這是一個列出網站所有資源的檔案。

Googlebot (Google)、Yeti (Naver)、Bingbot (Bing)、Slurp (Yahoo)

以下是以 www.example.com/robots.txt 為例來說明幾個規則：

如果你想阻止網站的所有內容被爬取，可以這樣設定：

User-agent: *
Disallow: /

這表示所有爬蟲都不能訪問 www.example.com 的所有頁面。

相反，如果你希望允許所有爬蟲訪問網站的所有內容，則可以這樣設定：

User-agent: *
Disallow:

這表示所有爬蟲都可以訪問 www.example.com 的所有頁面。

如果你想要阻止特定爬蟲訪問特定的目錄，可以以下列方式設定：

User-agent: Googlebot
Disallow: /example-subfolder/

這表示 Googlebot 不能訪問 www.example.com/example-subfolder/ 目錄。

如果你想要阻止特定爬蟲訪問特定的頁面，可以以下列方式設定：

User-agent: Yeti
Disallow: /example-subfolder/blocked-page.html

這表示 Yeti 不能訪問 www.example.com/example-subfolder/blocked-page.html 頁面。

你可以同時設定多個規則來實現不同的需求。例如，只阻止 Unnecessarybot 而允許所有其他爬蟲：

User-agent: Unnecessarybot
Disallow: /
User-agent: *
Disallow:

這表示只有 Unnecessarybot 被阻止，而所有其他爬蟲都可以訪問。

如果你想要阻止 Google 圖片爬蟲爬取特定圖片，可以以下列方式設定：

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

這表示 Googlebot-Image 不能爬取關於狗的圖片。

如果你想要阻止特定字串結尾的 URL，可以使用 $ 符號：

User-agent: *
Disallow: /*.xls$
Disallow: /*.gif$

這表示爬蟲不允許訪問以 .xls 和 .gif 結尾的 URL。

有時候你可能不知道你的網站是否已經設置了 robots.txt 文件，要確認這點，你只需要在你的域名後面加上 /robots.txt 然後搜索即可。

如果結果顯示 no.txt，這表示你還沒有設置 robots.txt 文件。

在設置 robots.txt 前，你需要記住這個文件應該是 普通文本文件 並且要放在 根目錄 中。

設置 robots.txt 的幾個重點包括：

除了以上幾點，還需要遵守之前提到的指令和規則。

若你想確認 robots.txt 是否設置正確，可以使用Google提供的工具來檢查。

為了更有效地利用 robots.txt，還需要注意以下幾點：

這就是關於 robots.txt 的所有說明。如果有任何疑問，歡迎在下方留言。🙂