yuu_nkjm blog
2010-06-02(Wed) [長年日記]
[WebSite][backup][Script] warrickでInternet Archiveや検索エンジンのキャッシュから過去のWebサイトを復元する
最近,「xxxってサブドメインのWebコンテンツが見られないよー」という指摘を受けた.「DNSの引っ越しミスか?」とか思ってたんだけど,Webアドミンがコンテンツそのものの引っ越しを忘れていたようだorz.
Webアドミンはコンテンツのバックアップも取ってないみたいだし,どうすっかなってことで,まずはInternet ArchiveからFirfoxのアドオンのScrapbookでぶっこぬくことを試みた.しかし,これでやったところ,imgタグのsrcやaタグのhrefがInternet Archive用に変更されたままになってしまい,その後の再構成がめんどくさそうだった.
Google先生にお伺いを立ててみると"warrick"というスクリプトが良さそうだったので,これを使ってみる事にした.
手順
-
Warrick Downloadingからwarrickをダウンロード.普通に展開.
tar zxvf warrick-1.8.tar.gz
- Perl,SOAP-Lite,XML-Parser,expatあたりが入っていなかったら,yastで追加する.
-
下記の様なコマンドを発行すれば,スクリプトを実行したディレクトリの下に"www.foo.hoge.jp"ができて,その下に復元される.はじめにサイトの分析が入るからか,保存ディレクトリがしばらく出来ないので,気長に待つと良し.
上のコマンドの意味は,「再帰的に,重複を除いて,利用できる全てのリソース(InternetArchive, Yahoo, Google, Bing)から,ログを取りながら再構成する」だったかな.詳細は,Warrick Runningを参照の事.warrick.pl -r -d -nc -o log.txt "http://www.foo.hoge.jp/"
ちょっと見るだけなら
http://404.undo.jpが便利そう.
(※サイト検索用キーワード: Webのアーカイブサイトの名称をすぐに思い出せないことが多い.思いつくのは,InternetArchive,Web Archive,Web Archivesとか似てるけど違う名前ばかり.)
- https://www.google.co.jp/ ×215
- https://www.google.com/ ×17
- http://by166w.bay166.mail.live.com/mail/InboxLight... ×5
- https://www.google.co.jp/ ×4
- http://b.hatena.ne.jp/cubkazu/ ×2
- https://www.google.com/search ×2
- http://cs.manna-jp.com/search?keyword=キャッシュから過去ログ&... ×1
- http://search.yahoo.co.jp/ ×1
- https://www.google.com/m/search ×1
- http://search.babylon.com/?q=webサイト 過去 キャッシュ&s=web... ×1
- http://zubolla.blog.fc2.com/blog-category-55.html ×1
- https://www.google.com/webhp?hl=ja ×1
- warrick 使い方 ×11 / warrick ×10 / web 過去 キャッシュ ×9 / Warrick 使い方 ×8 / 過去 キャッシュ 検索 ×6 / 過去のwebサイト ×6 / キャッシュ 検索 過去 ×5 / internet archive 見れない ×5 / 過去のwebを見る ×4 / Warrick ×4 / warrick 復元 ×4 / warrick 1.8 ×3 / Warrickとは 復元 ×3 / Internet Archive 検索エンジン ×3 / アーカイブ キャッシュ検索 ×3 / 過去のサイトを復元 ×2 / webキャッシュ 復元 ×2 / キャッシュ サイト 復元 スクリプト ×2 / 過去のWEB変更検索 ×2 / キャッシュ 復元 ×2 / warrick アーカイブ ×2 / web 過去 検索 ×2 / 過去 web 検索 ×2 / 町民c インターネットアーカイブ ×2 / 過去 検索エンジン Internet Archive ×2 / Internet Archive 復元 ×2 / キャッシュからweb復元 ×2 / internet archive 検索 ×2 / 過去のウェブサイト キャッシュ ×2 / 過去ログ検索 The Internet Archive ×2 / 検索エンジン 復元 ×2 / 404 キャッシュから復元 ×2 / internet web archive ×2 / Internet Archive 検索 ×2 / web キャッシュ 検索 ×2 / internet archive ダウンロード ×1 / warrick google ×1 / キャッシュ ウェブ 復元 ×1 / Web Archiveキャッシュ検索 ×1 / キャッシュ WEB 過去 ×1 / 過去のサイト 復元 ×1 / 過去サイト キャッシュ ×1 / 過去サイト復元 ×1 / 過去のwebサイトを復元する ×1 / webarchiveで復元できないページ ×1 / Internet-Archive からサイトを復旧する ×1 / Warrick 復元 ×1 / google 過去のWEBサイト ×1 / internet archive googleキャッシュ ×1 / サイトを復元 キャッシュ ×1 / 過去 検索 キャッシュ ×1 / 過去のwebサイトを検索 ×1 / google キャッシュからの復元 Webサイト ×1 / Warrick Internet Archive ×1 / キャシュ 復元 サイト ×1 / Warrick 保存 ×1 / htmlをwebキャッシュから復元 ×1 / internet archive 検索エンジン ×1 / 過去 検索エンジン ×1 / google キャッシュから wordpress ブログ復元 ×1 / キャッシュ検索 復元 ×1 / warrick サイト ×1 / internet archive .htaccess ×1 / google キャッシュ 過去 ×1 / web キャッシュ 復元 ×1 / web 過去 探す ×1 / google検索 キャッシュ 復元 ×1 / 過去 ウェブサイト キャッシュ ×1 / ウェブ キャッシュ 復元 ×1 / cache:昔 検索 ×1 / webサイト復元 archive ×1 / 過去のWebサイト ×1 / 過去 web 検索 キャッシュ ×1 / eclipseでperl soap/liteをインストール ×1 / internet archive 似た ×1 / Internet Archive 検索エンジン追加 ×1 / linux warrick 使い方 ×1 / Warrick ×1 / 過去 WEB検索 ×1 / WEBキャッシュ 過去 ×1 / warrick.pl ×1 / サイト 過去 キャッシュ ×1 / 消えてしまったWebサイトを再構築するツール ×1 / 過去のWeb ×1 / 過去のWEB ×1 / 過去のサイト キャッシュ ×1 / web キャッシュ 検索エンジン ×1 / web キャッシュ 過去 ×1 / 検索エンジン 過去 ×1 / キャッシュ 復元 サイト ×1 / warrick インストール ×1 / 過去のweb ×1 / Internet Archiveのようなサイト ×1 / 検索エンジン webキャッシュ ×1 / キャッシュ 過去 検索 ×1 / 過去のウェブ ×1 / archives キャッシュ ×1 / Google・Yahoo・Bing・InternetArchive Web Cache ×1 / squid キャッシュ 復元 ×1 / 過去の サイト キャッシュ ×1