robots.txtロボッツドットテキスト書き方

robots.txtロボッツドットテキスト書き方

robots.txtの目的

ロボッツドットテキストと読みます。

サイト内において、クローリングして欲しくないページやディレクトリがある場合、robots.txtに書き込んで検索エンジンクローラーへ通知します。

開発中のページはもちろん、問い合わせ完了後のサンキューページなどはインデックスして欲しくないですよね。

モビライズではソフトウェア上で簡単にrobots.txtを設定できます。
マニュアルで設置する場合は、ドメインのサーバルートディレクトリに設置します。
ここではその設定方法をご紹介します。


robots.txtの設定内容は4つ

# User-agentのみ必須の項目です。

サイトを立ち上げて間もない時は全ての検索エンジンを許可すると良いでしょう。以下robots.txtの記述例をご紹介します。

コマンド内容・解説メモ
User-agentユーザーエージェントを指定する全てのクローラーを許可する場合、
* を入れる(記述は必須)。
Disallowブロックするページやディレクトリを指定する
Allow許可するページやディレクトリを指定するDisallowでコントロールするため
記述はなくてもOK。
Sitemapサイトマップの場所を指定する記述する場合はフルパスで。
robots.txtの記述内容

全てのクローラーを対象

User-agent: *

クローラーはGoogleのみ

User-agent: Googlebot

ディレクトリ単位の制限

Disallow: /category/

ページ単位の制限

Disallow: /category/test.html

ページ単位の許可

Disallow: /category/
Allow: /category/test2.html

# categoryにはアクセスできないが/category/test2.htmlのみアクセス許可


サイト全てにアクセス不可

Disallow : /

パラメータ付きURLは制限

Disallow: /*?

サイトマップ の場所を宣言

Sitemap : https://sample.com/sitemap.xml

大規模サイトでのrobots.txt

大規模サイトで個別にページやディレクトリを設定していくと、膨大な記述量になります。

まとめて記述したい場合、$ドルマークと* アスタリスクの正規表現が使えます。
$マークは完全一致を指し、*アスタリスクはワイルドカードとなります。

Disallow: /category/$
この場合、/categoryや/category/test.htmlは制限がかかりません。

Disallow: /category*/test.html
この場合、/category3/test.htmlや/category/machine/test.htmlでも記述なしで制限がかかります。

記述するディレクトリやページが多い場合には、正規表現をうまく利用しましょう。