2009-02-01から1ヶ月間の記事一覧

カレントディレクトリー配下の*.phpなファイルの文字列を一括置換するワンライナー

ということで、new Diggin_Scraper_Processと記述していたところをnew Diggin_Scraperと変更する必要があります。適当にやるならこうでしょうか。*1 php -r 'class ExtFilter extends FilterIterator{function __construct(Iterator $i){parent::__construct…

よこく

次の0.6.0のDigginではScraperまわりをまたいじります。 http://code.google.com/p/diggin/source/detail?r=220 いままでprocessを入れ子にする場合、Diggin_Scraper_Processのprocessメソッド呼び出しにしてましたが、Diggin_Scraperクラスでの入れ子ができ…

今のWeb::ScraperとDiggin_Scraperの違い

#!/usr/bin/perl use Web::Scraper; use URI; use Data::Dumper; my $html = << "END_OF_HTML"; <html> <head> <base href="file:///diggin.musicrider.com/" /> <base href="http://diggin.musicrider.com/" /> <base href="file://musicrider.com/" /> </head> <body> <a href="?param=get">get</a> <hr /></hr></body></html>

FirePHPを用いた、スクレイピングデバッグに関する考案

今回は、架空のサイトevents.php.bunko.jpを対象にスクレイプ&spidering対象にします。 仮に、勉強会の参加回数を聞かれて答えに窮する状況があったとします。 参加回数の表示機能は、カリオストロ城の奥地に眠っているらしくすぐに使うのは困難なようです…