「住所でポン!」というサイトがありまして。
【流出!?】住所でポン!で個人情報丸見え【これは怖すぎ】 - NAVER まとめ
ひとことで言うと「町字から名前と住所と電話番号の一覧が得られる」というなかなかすごいサイトです。管理者さんは「電話帳データを用いているので個人情報には当たらない」と主張されていますし、たぶん個人情報保護法的には正しいと思うのですが、反社会的勢力方面な方々の個人情報が載ってたらどうするんだ怖くねえのか、的な心配を勝手ながらしていました。
で。
この間、「googleで自分の個人情報が出てくる」と相談されて、このサイトを調べてみたところ面白そうで面白くないちょっと面白いことに気付いたので記事にします。
googleにキャッシュ削除依頼を拒否された
検索結果を見るとたしかに個人情報掲載ページがヒットするのですが、実際にそのページにアクセスしてみるとホスティングサーバ会社のページにリダイレクトされていました。
「あー、これはページがもうサーバから削除されていますね。googleにキャッシュ削除依頼するしかないですよ」と答えて、削除依頼をかけておきました。
しかし、その結果は「拒否」でした。
キャッシュを削除するようリクエストされたコンテンツが、公開中のページ上に表示されている。
https://www.google.com/support/webmasters/bin/shortanswer.py?answer=94034&hl=ja
Google の検索結果に表示される情報は、実際には公開されているウェブページ上にあります。Google のインデックスからページを削除しても、問題のコンテンツはウェブ上に公開されたままとなります。
しかも、理由が「ページが削除されていない」というものでした。
なんで?
クローキング?
「ひょっとしてクローキング?」と思ったので、googlebotのUA偽装してアクセスしてみました。
すると、
通常
UA偽装
と、googlebotに偽装した時にはきちんとページが表示されていました。
「やっぱりクローキングかー」と思ったんですが、なにか引っかかる。
それはリダイレクトページのアドレスでした。
cpu_exceeded?CPU超過?
ああ。なんだそういうこと……ていうか早く気付こうよ俺……
googlebotは特別対応
つまり、あれなんですよね。サーバのCPU計算時間を使い切ってしまってるため、エラーページ?にリダイレクトされていたという、それだけの話だったんですね。転送先のページにもそう書いてあったんですが、全然見ていませんでしたorz
一応、確認のために時間を見てアクセスし直してみたところ、14時になるとページが表示されるようになり、夜にはまたリダイレクトされていました。どう見てもアメリカ東部時間で0時です。本当にありがとうございました。
しかし、なんなんですかねこれ。ミラーサーバを放置、ということなんでしょうけど、まるでgoogleのキャッシュサーバが本サイトみたいになってる現状ってちょっとアレですよね。
そして、CPUクォータ切れでもgooglebotには応答する、というのが個人的には新しい発見でした。そういう対応って一般的なんですかねー? サーバ運営会社にはなにかSEO的メリットがあるのかな?などというどうでもいい疑問を残しつつ不動産屋の仕事に戻ります。
ちなみに今回見てたのはこのURLです。
http://pon.sexyi.am/index.php/