sitemap.xmlとrobots.txtの役割と作り方
sitemap.xmlとrobots.txtの違いと作り方を初心者向けに解説。クローラーへの正しい指示の与え方、設置場所、Search Consoleへの送信方法まで実例付きで紹介します。
sitemap.xmlとrobots.txtの役割と作り方
この記事の結論: sitemap.xmlは「クロールしてほしいURLを伝える」、robots.txtは「クロール禁止を伝える」ファイルです。両方を正しく設置すると、インデックス効率が大きく改善します。
最終更新日: 2026-05-04
はじめに
「sitemap.xmlってなぜ必要なの?」「robots.txtってどう書くの?」という初心者の疑問に答える記事です。両者の役割の違いと作り方を、Google公式仕様に基づいて解説します。
sitemap.xmlとrobots.txtの違い
両者は混同されがちですが、役割が逆です。
| ファイル | 役割 | 強制力 |
|---|---|---|
| sitemap.xml | クロール対象URLの一覧 | 推奨(必ずクロールするとは限らない) |
| robots.txt | クロール禁止URLの指定 | 強制(Googlebotは従う) |
sitemap.xmlとは
sitemap.xmlは、サイト内のURL一覧を検索エンジンに伝えるためのXMLファイルです。クローラーが効率よくページを発見・更新できるようになります。
sitemap.xmlの基本構造
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://example.com/</loc>
<lastmod>2026-05-04</lastmod>
<changefreq>weekly</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>https://example.com/articles/seo-basics/</loc>
<lastmod>2026-05-04</lastmod>
</url>
</urlset>
<loc>は必須、その他はオプションです。Googleは現在changefreqとpriorityをほぼ無視しているため、<loc>と<lastmod>があれば十分です。
sitemap.xmlを作る方法
- WordPress: Yoast SEO、Rank Math、SEO SIMPLE PACKが自動生成
- Next.js / Astro / Hugo: ビルド時に自動生成プラグイン
- 手動作成: ページが少ないなら手書きでもOK
- オンラインジェネレーター: xml-sitemaps.comなど(小規模サイト向け)
sitemap.xmlのGoogleへの送信
- ファイルを
https://example.com/sitemap.xmlに配置 - Google Search Console > サイトマップから送信
- robots.txtに
Sitemap: https://example.com/sitemap.xmlを追記
ポイント: 大規模サイトはサイトマップを分割して、サイトマップインデックスファイルにまとめます。1ファイル50,000URL・50MBが上限です。
robots.txtとは
robots.txtは、検索エンジンのクローラーに「ここは見ないでください」を伝えるテキストファイルです。
robots.txtの基本構造
User-agent: *
Disallow: /admin/
Disallow: /private/
User-agent: Googlebot
Allow: /
Sitemap: https://example.com/sitemap.xml
| 命令 | 意味 |
|---|---|
| User-agent | 対象クローラー(*は全て) |
| Disallow | クロール禁止 |
| Allow | クロール許可(Disallowの中の例外) |
| Sitemap | サイトマップの場所 |
robots.txtの注意点
- 設置場所はルート直下のみ:
https://example.com/robots.txt - noindexと混同しない: robots.txtでブロックしてもインデックスされる場合がある
- 検索結果から消したい場合は
noindexを使う
robots.txtのよくある書き方
全クローラー許可(基本)
User-agent: *
Allow: /
Sitemap: https://example.com/sitemap.xml
管理画面・プライベートエリアを除外
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /tag/
Sitemap: https://example.com/sitemap.xml
AI クローラーをブロック(2025年以降一般化)
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: PerplexityBot
Disallow: /
ただしAIクローラーをブロックすると、AI検索からの流入機会も失います。慎重に判断しましょう。
sitemap.xmlとrobots.txtの動作確認
設置後は次で確認します。
- ブラウザで直接アクセス:
https://example.com/robots.txtと/sitemap.xml - Search Consoleのサイトマップ機能: 認識・取得状況
- Search Consoleのrobots.txtテスター: 構文エラーチェック
- URL検査ツール: 個別URLがクロール可能か確認
やってはいけないミス
- robots.txtで全サイトをブロック(
Disallow: /)してしまう - sitemap.xmlに
noindexページを含める - robots.txtでブロックしながら、Search Consoleでインデックスを期待する
- sitemap.xmlを更新したのにSearch Consoleに再送信しない
sitemap.xmlの種類
通常のサイトマップ以外にも特殊なサイトマップがあります。
| 種類 | 用途 |
|---|---|
| 画像サイトマップ | 画像検索向け |
| 動画サイトマップ | YouTube/動画SEO向け |
| ニュースサイトマップ | Googleニュース向け(48時間以内の記事) |
通常サイトはまず標準サイトマップを優先しましょう。
よくある質問
Q1. sitemap.xmlを送信すると順位が上がりますか?
A. 直接の順位向上はありません。ただしクロール効率が上がり、新規記事のインデックスが早くなる効果があります。
Q2. robots.txtがなくても大丈夫ですか?
A. 必須ではありませんが、設置を推奨します。なくても全クロール許可とみなされます。
Q3. Disallowしたページはインデックスされませんか?
A. クロールはされませんが、外部リンクからURL情報だけインデックスされる場合があります。完全に削除したい場合はnoindexを使います。
Q4. sitemap.xmlは何度送信していいですか?
A. 何度でもOKです。大幅更新後は再送信を推奨します。
関連用語
関連記事
- 検索エンジンの仕組み|クローラー・インデックス・ランキングを図解
- Google Search Consoleの使い方|初心者の最初の30分
- canonicalタグとは?重複コンテンツ対策の基本
- llms.txtとは?AIクローラー向け新標準
参考文献・出典
- sitemaps.org — サイトマップ仕様の公式サイト
- Google Search Central — sitemap.xml — Google公式
- Google Search Central — robots.txt — robots.txt仕様
- robotstxt.org — robots.txt仕様
関連用語
- インデックス
インデックスとは、クローラーが集めたページをGoogleがデータベースに登録すること。インデックスされて初めて検索結果に表示される対象になります。「索引」とイメージすると分かりやすい用語です。
- llms.txt
llms.txtとは、サイト運営者がAIクローラーに「このサイトの重要な情報はここ」と伝えるためのMarkdownファイルの提案。2024年9月にJeremy Howard氏が提唱し、急速に普及しつつある新しい標準です。
- クローラー
クローラーとは、Web上のページを自動巡回してデータを集めるプログラムのこと。Googleの「Googlebot」が代表例で、これに見つけてもらわないと検索結果に表示されません。
- sitemap.xml
sitemap.xmlとは、サイト内のページ一覧をXML形式でまとめたファイル。クローラーに「うちにはこんなページがありますよ」と教えるための地図で、新規サイトのインデックス促進に必須です。
- noindex
noindexとは、ページに付けることで「このページを検索結果に表示しないでください」と検索エンジンに伝えるmetaタグ。低品質ページや会員専用ページに使い、サイト全体の評価を守ります。
- Perplexity
Perplexity(パープレキシティ)とは、回答に必ず引用元(出典URL)を表示する米国発のAI検索エンジン。2022年公開で急速に成長中。LLMOで「サイテーションされる」最初の主戦場として重視されています。