2026
AI 零售趨勢白皮書

SHOPLINE將能數位行銷、紅門互動、漸強實驗室
集結業界實戰專家對零售 AI 市場洞察,
不只談趨勢,更帶領品牌掌握 2026 零售 AI 佈局。

robots.txt 是什麼?SEO 新手必懂的設定方式與常見錯誤

robots.txt 是什麼

robots.txt 是放在網站根目錄中的純文字檔,用來告訴搜尋引擎爬蟲哪些網站路徑允許爬取、哪些路徑不允許或不建議爬取。對 SEO 來說,它不是提升排名的開關,也不是保護機密資料的方法,而是一個用來管理搜尋引擎爬蟲存取網站內容的規則檔案。

簡單來說,robots.txt 就像是給搜尋引擎爬蟲看的「網站通行規則」。當 Googlebot 造訪網站時,通常會先查看 robots.txt,了解哪些路徑可以進入,哪些路徑不應該抓取。

1. robots.txt 是什麼?先分清楚爬取與索引

robots.txt 在 SEO 中的角色

robots.txt 通常放在網站根目錄,常見網址如下:

https://www.example.com/robots.txt

它的主要用途是告訴搜尋引擎爬蟲:「這些路徑可以抓取,這些路徑不要抓取。」

例如:

User-agent: *

Disallow: /admin/

Disallow: /cart/

Sitemap: https://www.example.com/sitemap.xml

這段設定的意思是:

設定項目意思
User-agent: *適用於多數搜尋引擎爬蟲
Disallow: /admin/不希望爬蟲抓取後台路徑
Disallow: /cart/不希望爬蟲抓取購物車頁面
Sitemap告訴搜尋引擎 Sitemap 位置

對 SEO 來說,robots.txt 常用來避免搜尋引擎浪費爬取資源在不重要的頁面,例如後台、購物車、會員中心、站內搜尋結果、篩選參數頁等。

但 robots.txt 不適合用來隱藏機密資料。因為 robots.txt 是公開檔案,任何人只要輸入網址就可能查看內容。如果有真正不想被外界看到的資料,應該使用登入權限、密碼保護或伺服器端權限控管,而不是只靠 robots.txt。

另外,不同子網域通常需要各自檢查 robots.txt。例如:

https://www.example.com/robots.txt

https://blog.example.com/robots.txt

https://shop.example.com/robots.txt

如果網站同時有官網、部落格與商店子網域,不能只檢查主網域的 robots.txt。

這裡有一個非常重要的觀念:robots.txt 主要管理的是「爬取」,不是直接管理「索引」。如果你的目標是不要讓某個頁面出現在 Google 搜尋結果中,通常應該使用 noindex、X-robots-Tag、密碼保護或移除頁面,而不是只依賴 robots.txt。

2. robots.txt 怎麼設定?基本語法與常見範例

robots.txt 基本語法拆解

robots.txt 的基本語法不複雜,常見指令包含 User-agent、Disallow、Allow 與 Sitemap。

語法功能說明範例
User-agent指定規則適用的爬蟲User-agent: Googlebot
Disallow禁止爬蟲抓取特定路徑Disallow: /admin/
Allow允許爬蟲抓取特定路徑。多數情況下,沒有被 Disallow 封鎖的路徑預設可被爬取;Allow 通常用在某個目錄被封鎖時,例外開放其中一部分資源或路徑。Allow: /blog/
Sitemap提供 Sitemap 位置Sitemap: https://www.example.com/sitemap.xml

常見範例一:一般企業官網

如果是一般企業官網,沒有複雜會員系統或大量參數頁,可以先用簡單版本:

User-agent: *

Disallow: /wp-admin/

Disallow: /search/

Sitemap: https://www.example.com/sitemap.xml

這類設定適合多數 WordPress 企業網站,能避免爬蟲進入後台與站內搜尋結果頁,同時保留重要頁面被正常爬取。

常見範例二:WordPress 網站

User-agent: *

Disallow: /wp-admin/

Allow: /wp-admin/admin-ajax.php

Sitemap: https://www.example.com/sitemap.xml

這類設定常見於 WordPress 網站。它可以避免爬蟲抓取後台管理路徑,同時保留部分前台功能需要使用的資源。

常見範例三:禁止抓取站內搜尋結果頁

User-agent: *

Disallow: /search/

Disallow: /*?s=

站內搜尋結果頁通常內容重複性高,對 SEO 價值有限,也可能造成大量低品質 URL 被爬取,因此不少網站會選擇阻擋。

常見範例四:電商網站參數頁

User-agent: *

Disallow: /cart/

Disallow: /checkout/

Disallow: /member/

Disallow: /*?sort=

Disallow: /*?filter=

Sitemap: https://www.example.com/sitemap.xml

這類設定常見於電商網站。如果商品篩選、排序、價格條件會產生大量相似網址,就可能需要規劃 robots.txt、canonical、noindex 或參數控管策略。

不過要提醒:不要看到參數頁就全部封鎖。某些分類或篩選頁如果有明確搜尋需求,也可能具備 SEO 價值,應先判斷該頁面是否值得被檢索與收錄。

3. robots.txt、noindex、canonical 差在哪?新手最容易搞混的地方

robots.txt、noindex、canonical 差異

很多 SEO 新手會把 robots.txt、noindex、canonical 混在一起,但它們的用途其實不同。

工具主要功能適合情境常見誤用
robots.txt管理爬蟲是否可以爬取某些路徑不希望爬蟲浪費資源抓取後台、搜尋結果、參數頁拿來阻止頁面被索引
noindex告訴搜尋引擎不要將頁面放入索引不希望頁面出現在搜尋結果同時用 robots.txt 擋住,導致爬蟲看不到 noindex
canonical告訴搜尋引擎哪個網址是主要版本多個相似頁面需要集中主要版本訊號把 canonical 當成強制移除工具

最重要的差異是:

  • robots.txt 是「不要抓」。
  • Noindex 是「不要收錄」。
  • Canonical 是「主要版本看這個」。

舉例來說:

  • 如果你不希望 Google 抓取後台頁面,可以用 robots.txt。
  • 如果你不希望某個活動頁出現在搜尋結果,但仍允許 Google 讀取頁面,就應該用 noindex。
  • 如果同一篇文章有多個網址版本,例如帶有 UTM 參數、分類路徑或列印版頁面,就應該考慮 canonical。

這三者不是誰比較好,而是用途不同。實務上經常會一起搭配使用,但不能互相亂替代。尤其要注意,如果頁面已經被 robots.txt 阻擋,搜尋引擎可能無法讀到頁面上的 noindex,反而讓索引排查變得更麻煩。

4. robots.txt 設定常見錯誤:這些問題很容易傷到 SEO

robots.txt 看起來只是簡單文字檔,但如果設定錯誤,可能會讓重要頁面無法被 Google 正常爬取。

錯誤一:把整個網站都封鎖

User-agent: *

Disallow: /

這段設定代表禁止所有爬蟲抓取整個網站。如果這是正式站的 robots.txt,可能會讓 Google 無法正常爬取網站內容。

這種錯誤常發生在網站改版或測試站搬到正式站時,工程團隊忘記移除測試環境的封鎖規則。新站上線、改版、換主機後,這是最需要優先檢查的項目。

錯誤二:用 robots.txt 當作 noindex

有些人以為只要在 robots.txt 擋住某個頁面,該頁就不會出現在搜尋結果。這個觀念不精準。

robots.txt 可以阻止爬蟲抓取,但不一定能完全阻止網址被索引。如果其他網站連到該網址,搜尋引擎仍可能知道這個 URL 的存在。若目標是避免頁面長期出現在搜尋結果,應使用 noindex、密碼保護或移除頁面;Search Console 移除工具較適合短期、暫時性的搜尋結果移除需求。

錯誤三:封鎖 CSS、JS 或重要圖片資源

如果網站把重要的 CSS、JavaScript 或圖片資源封鎖,搜尋引擎可能無法正確理解頁面呈現方式。尤其是現代網站常依賴 JavaScript 載入內容,如果關鍵資源被擋住,搜尋引擎看到的頁面可能和使用者看到的不一樣。

錯誤四:封鎖了重要內容路徑

例如:

User-agent: *

Disallow: /blog/

如果 /blog/ 是網站主要內容區,這樣會讓搜尋引擎無法抓取所有部落格文章。對內容型網站來說,這會是很嚴重的 SEO 問題。

錯誤五:把私密路徑寫進 robots.txt

robots.txt 是公開檔案,不是資安保護工具。如果把機密後台、測試環境或敏感檔案路徑寫在 robots.txt 中,反而可能讓有心人士知道網站有哪些目錄。

如果資料真的不能被看到,應該使用登入驗證、密碼保護、伺服器權限控管或移除公開連結。

5. robots.txt 設定與檢查流程:新手可以照這樣做

robots.txt 設定檢查流程

如果你是第一次處理 robots.txt,可以用以下流程降低出錯機率。

第一步:先確認哪些頁面需要被搜尋引擎看到

請先盤點網站重要頁面,例如:

  • 品牌首頁
  • 服務頁
  • 產品頁
  • 分類頁
  • 部落格文章
  • 案例頁
  • 聯絡頁

這些通常是希望 Google 能正常爬取,並有機會被索引的頁面,不應該被 robots.txt 擋住。

第二步:整理不需要被爬蟲抓取的路徑

常見可能不需要抓取的頁面包含:

  • 後台管理頁
  • 購物車頁
  • 會員中心
  • 站內搜尋結果
  • 低價值參數頁
  • 測試頁
  • 重複性高的系統頁

但是否要封鎖,仍要看網站架構與 SEO 策略,不能一律套用。

第三步:確認 robots.txt 放在正確位置

robots.txt 必須放在網站根目錄,例如:

https://www.example.com/robots.txt

如果網站有不同子網域,例如:

https://blog.example.com

https://shop.example.com

不同子網域可能需要各自的 robots.txt 規劃。

第四步:確認 Sitemap 是否正確標示

robots.txt 中可以加入 Sitemap 位置,例如:

Sitemap: https://www.example.com/sitemap.xml

這能幫助搜尋引擎更容易找到網站的重要 URL。不過,Sitemap 本身不保證收錄,仍要看頁面品質、可爬取性、可索引性與網站整體訊號。

第五步:上線後用 Google Search Console 檢查

設定完成後,建議至少檢查幾個項目:

  1. 重要頁面是否可被爬取
  2. 重要頁面是否被意外封鎖
  3. Sitemap 是否可正常讀取
  4. Google Search Console 是否出現「遭 robots.txt 封鎖」相關狀態
  5. 網站流量與索引狀態是否有異常變化

將能數位行銷在檢查技術 SEO 時,通常不會只看 robots.txt 有沒有存在,而會一起看 Sitemap、noindex、canonical、內部連結與 Search Console 訊號,因為真正影響收錄的往往是多個設定互相作用。

robots.txt 是管理爬蟲的工具,不是索引與資安萬用解法

robots.txt 是 SEO 技術設定中的基礎檔案,主要用途是管理搜尋引擎爬蟲可以爬取哪些路徑。它適合用來節省爬蟲資源、降低低價值頁面被爬取的機率,也能協助大型網站整理爬取優先順序。

但 robots.txt 不是索引移除工具,也不是資安保護工具。設定前,應先確認你的目標是控制爬取、避免索引、整合重複頁,還是保護資料。目的不同,該用的技術也不同。

對台灣企業網站來說,最穩的做法是把 robots.txt 納入定期技術 SEO 檢查,尤其在網站改版、搬站、CMS 更新或新增大量分類頁時重新驗證,避免一個小小的設定錯誤影響自然搜尋表現。

robots.txt 如何運作

robots.txt 文件的作用是告訴搜尋引擎爬蟲哪些頁面它們可以訪問,哪些頁面它們不應該訪問。這有助於確保搜尋引擎爬蟲只索引你希望被索引的內容,從而提高網站的能見度和檢索效率。

PS:需要注意的是,robots.txt 只是一個建議,而不是一個絕對的禁令。

一些不道德的爬蟲可能會忽略這個文件,因此,網站持有者不應該依賴它來保護敏感信息,對於關鍵隱私內容,最好採取其他更加強有力的保護措施,例如密碼保護或其他身份驗證方式。

綜上所述,robots.txt 是個非常有用的工具,正確運用可以優化網站SEO。希望這篇入門指南能幫助大家更理解它的運作方式!如果說對以上內容還有疑問,需要專業人員協助,也都歡迎聯繫我們將能數位行銷呦!

延伸閱讀:

趨勢白皮書
電話 LINE Messenger
返回頂端