(X)HTMLファイルでは、メタタグを記述することによってクローラーの巡回やインデックスへの登録を拒否できますが、PDFファイルやExcelファイル、Wordファイル、画像ファイル、動画ファイル、音声ファイル、テキストファイルなどはそもそもメタタグを記述できません。HTML(XHTML)以外のファイルに対する、クローラーによる巡回やインデックスへの登録を拒否するには、X-Robots-Tagによるサーバーでのディレクティブ設定を利用します。
ディレクティブ設定
サーバーのディレクティブ設定を行うもっとも簡単な方法は、「.htaccess」ファイルを利用する方法です。
- 例:
- http://www.example.com/docs/sample.pdfのインデックスへの登録を拒否する場合、下記のように記述したファイルを「.htaccess」のファイル名で保存し、「/docs/」ディレクトリ直下に配置します。
<Files sample.pdf> Header set X-Robots-Tag: "NOINDEX" </Files>
- 注意
- サーバーによっては、「.htaccess」ファイルの利用やこのファイルによる設定が制限されている場合があります。ディレクティブ設定の方法については、ご利用のサーバー管理者にお問い合わせください。
なお、サイト内にある特定のファイル形式のファイルの巡回を拒否したいという場合には、robots.txtでパターンマッチ記号と拡張子を利用する方法もあります。この場合、ファイルの拡張子の大文字・小文字に注意してください。次の例は、サイト内のPDFファイル(拡張子が.pdfまたは.PDF)の巡回を拒否する例です。
- 例:
Disallow: /*.pdf$ Disallow: /*.PDF$