robots.txt
robots.txtとは、サイトのルートに置くテキストファイルで、クローラーに「どのページをクロールしていいか・してはいけないか」を伝える設定ファイル。SEO・LLMO両方の入り口です。
robots.txt
ひと言で: ロボット(クローラー)への「立ち入り禁止リスト」です。
robots.txtとは
robots.txt は、サイトのルート(例: https://example.com/robots.txt)に置く単純なテキストファイルで、クローラーに対するアクセス指示を書きます。
User-agent: *
Disallow: /admin/
Allow: /
User-agent: GPTBot
Disallow: /
Sitemap: https://example.com/sitemap.xml
上の例は、
- すべてのクローラー(
*)は/admin/以外をクロール可 - ChatGPTのGPTBotは全部禁止
- サイトマップは指定URLにある
という意味です。
なぜ重要か
robots.txt の設定ミスは「サイト全体がGoogleからインデックスされなくなる」「逆に管理画面まで全部公開される」など重大な事故につながります。LLMO時代には GPTBot / PerplexityBot / Google-Extended など AIクローラーごとの許可・拒否 をここでコントロールするのが業界標準になりつつあります。
例・具体例
Disallow: /だけ書く → 全クローラーから全URLをブロック(事故の代表例)User-agent: Google-ExtendedDisallow: /→ Geminiの学習にだけ使われたくない場合の指定
初心者向けまとめ
- robots.txt = クローラー向けの設定ファイル
- 場所はサイトルート固定
- AI学習を拒否したいならGPTBot等を個別指定
関連用語
もっと詳しく
関連用語
- アンカーテキスト
アンカーテキストとは、リンクとして表示される文字列のこと。「こちら」より「SEOの基本ガイド」のように内容が伝わるテキストにすることで、SEO・ユーザビリティの両面で価値が上がります。
- インデックス
インデックスとは、クローラーが集めたページをGoogleがデータベースに登録すること。インデックスされて初めて検索結果に表示される対象になります。「索引」とイメージすると分かりやすい用語です。
- hreflang
hreflangとは、多言語サイトで「このページは何語版か」「他の言語版はどこにあるか」を検索エンジンに伝えるタグ。日本人には日本語版、英語ユーザーには英語版を表示するために使います。
- SEM(検索エンジンマーケティング)
SEMとは「Search Engine Marketing」の略で、検索エンジンを使った集客活動全般を指す広い概念です。SEO(自然検索対策)と検索広告(リスティング広告)の両方を含みます。