2009年2月6日金曜日

1807年のブログ

Web クローラに色々な情報を与えるために robots.txt の仕組みが用意されているが,自分がサーバ管理者なら .htaccess でアクセス制限できるので,今まで robots.txt のありがたみがイマイチ分からなかった.

が,ふと Apache ログを眺めていたら,Googlebot が 1807年~2206年の日記をクロールしている事に気づいたw いやいや,そんな世紀の日記とか書けないからwww

今ご覧のブログ,Web Diary Professionalというフリーの blog スクリプトを使わせてもらってるのだが,「先月」「来月」のリンクが (記事が無くても) 常に張られ,記事は無くても 404 にはならずに「記事がありません」と書かれたページが生成されるので,「記事がありません」だけのページが上の年月×12ヶ月分キャッシュされているという状態.

これじゃ Google にもアクセスを受けるうちのサーバにもムダなので,日付指定が含まれている URL を robots.txt でクロール対象外にした.

なるほど,こういう風に使うのか.

0 件のコメント:

コメントを投稿