robots.txtロボッツドットテキスト書き方
- 2020.05.14
- Web制作 便利Tips
- robots.txt

目次
robots.txtの目的
ロボッツドットテキストと読みます。
サイト内において、クローリングして欲しくないページやディレクトリがある場合、robots.txtに書き込んで検索エンジンクローラーへ通知します。
開発中のページはもちろん、問い合わせ完了後のサンキューページなどはインデックスして欲しくないですよね。
モビライズではソフトウェア上で簡単にrobots.txtを設定できます。
マニュアルで設置する場合は、ドメインのサーバルートディレクトリに設置します。
ここではその設定方法をご紹介します。
robots.txtの設定内容は4つ
# User-agentのみ必須の項目です。
サイトを立ち上げて間もない時は全ての検索エンジンを許可すると良いでしょう。以下robots.txtの記述例をご紹介します。
コマンド | 内容・解説 | メモ |
---|---|---|
User-agent | ユーザーエージェントを指定する | 全てのクローラーを許可する場合、 * を入れる(記述は必須)。 |
Disallow | ブロックするページやディレクトリを指定する | |
Allow | 許可するページやディレクトリを指定する | Disallowでコントロールするため 記述はなくてもOK。 |
Sitemap | サイトマップの場所を指定する | 記述する場合はフルパスで。 |
全てのクローラーを対象
User-agent: *
クローラーはGoogleのみ
User-agent: Googlebot
ディレクトリ単位の制限
Disallow: /category/
ページ単位の制限
Disallow: /category/test.html
ページ単位の許可
Disallow: /category/
Allow: /category/test2.html
# categoryにはアクセスできないが/category/test2.htmlのみアクセス許可
サイト全てにアクセス不可
Disallow : /
パラメータ付きURLは制限
Disallow: /*?
サイトマップ の場所を宣言
Sitemap : https://sample.com/sitemap.xml
大規模サイトでのrobots.txt
大規模サイトで個別にページやディレクトリを設定していくと、膨大な記述量になります。
まとめて記述したい場合、$ドルマークと* アスタリスクの正規表現が使えます。
$マークは完全一致を指し、*アスタリスクはワイルドカードとなります。
Disallow: /category/$
この場合、/categoryや/category/test.htmlは制限がかかりません。
Disallow: /category*/test.html
この場合、/category3/test.htmlや/category/machine/test.htmlでも記述なしで制限がかかります。
記述するディレクトリやページが多い場合には、正規表現をうまく利用しましょう。
-
前の記事
.htmlの非表示化 2020.05.14
-
次の記事
つかえる無料画像アイコンサイト 2020.05.14