ども。僕です。
いつもありがとうございます。
ランク0からランク2までの記事の収集時間についてです。
スクレイピングサイトから記事を持っていかれて先の登録されるという現象を防ごうと思い、思い立ってしまったこの課題。
たくさんの方にご協力をして頂きました結果、ランク2のサイトのみ素敵な情報提供にておおよその時間を把握する事が出来ました。
ランク0とランク1のサイトについては、自分の無力さを思い知り把握すら出来ないというw
笑うしかないですwww
把握すら出来ない原因
- 同じIPアドレスで記事収集のみを行っているわけではない。
- 実際にどの時間で記事を持っていくかは、記事投稿とあわせて目視で確認を行わなければならない。
- 公開されていないIPアドレスが存在している。
公開されていないIPアドレスが存在しているのは、わかっていましたがまさかここでぶち当たってしまうという。
そこで、サーバーのアクセスログから似ているIPアドレスを全て収集して、全て確認したところ、無関係のクロールしているサイトが多い多いという不測の事態に。
リストに書き出して全て確認。
あんなサイトにこんなサイトと、出てくる出てくる。
へぇ~こんなのもあるんだぁと覗き見。
気が付けば2時間も目的を忘れて見入ってしまうという。
あ。あれやらなきゃ。と、再度調べる。
やはり公開されていないIPアドレスを調べるのは、正直しんどいという結論に。
頭の悪さに乾杯www
そんなわけで、記事収集時間を記載した記事を別で投稿しておきましたので、ランクの変動があった際はご活用下さい。
たくさんの情報提供、並びに、色々なアドバイスも頂きありがとうございます。
そして、スクレイピングに関する対策ですが、ランク0からランク1までは、マジックミラー号で攻めまくってとっととランクを上げる。
記事収集時間がわかるランクまで上げてしまえば問題は解決です。
強引な手段ではありますが、最善策でもあります。
皆さんの暖かいご協力に心をホカホカさせながら、今日もお昼寝します。
近々記事収集時間をまとめておきます。
こんな結末になってしまい恐縮ですが、〆です。