yuu_nkjm blog


2010-06-02(Wed) [長年日記]

[WebSite][backup][Script] warrickでInternet Archiveや検索エンジンのキャッシュから過去のWebサイトを復元する

最近,「xxxってサブドメインのWebコンテンツが見られないよー」という指摘を受けた.「DNSの引っ越しミスか?」とか思ってたんだけど,Webアドミンがコンテンツそのものの引っ越しを忘れていたようだorz.

Webアドミンはコンテンツのバックアップも取ってないみたいだし,どうすっかなってことで,まずはInternet ArchiveからFirfoxのアドオンのScrapbookでぶっこぬくことを試みた.しかし,これでやったところ,imgタグのsrcやaタグのhrefがInternet Archive用に変更されたままになってしまい,その後の再構成がめんどくさそうだった.

Google先生にお伺いを立ててみると"warrick"というスクリプトが良さそうだったので,これを使ってみる事にした.

手順

  1. Warrick Downloadingからwarrickをダウンロード.普通に展開.
    tar zxvf warrick-1.8.tar.gz
    
  2. Perl,SOAP-Lite,XML-Parser,expatあたりが入っていなかったら,yastで追加する.
  3. 下記の様なコマンドを発行すれば,スクリプトを実行したディレクトリの下に"www.foo.hoge.jp"ができて,その下に復元される.はじめにサイトの分析が入るからか,保存ディレクトリがしばらく出来ないので,気長に待つと良し.
    warrick.pl -r -d -nc -o log.txt "http://www.foo.hoge.jp/"
    
    上のコマンドの意味は,「再帰的に,重複を除いて,利用できる全てのリソース(InternetArchive, Yahoo, Google, Bing)から,ログを取りながら再構成する」だったかな.詳細は,Warrick Runningを参照の事.

ちょっと見るだけなら

http://404.undo.jpが便利そう.

(※サイト検索用キーワード: Webのアーカイブサイトの名称をすぐに思い出せないことが多い.思いつくのは,InternetArchive,Web Archive,Web Archivesとか似てるけど違う名前ばかり.)

本日のリンク元
アンテナ
その他のリンク元
検索

トップ «前の日記(2010-06-01(Tue)) 最新 次の日記(2010-07-12(Mon))» 月表示 編集 設定
2006|01|06|12|
2007|06|09|
2008|01|03|04|06|07|08|09|10|12|
2009|01|02|05|06|07|08|10|11|12|
2010|03|04|05|06|07|08|09|10|11|
2011|01|02|03|04|05|06|07|08|09|11|12|
2012|01|02|04|06|07|08|10|11|12|
2013|01|02|03|07|08|10|11|12|
2014|01|02|04|05|06|07|08|09|10|11|
2015|01|02|07|11|12|
2016|01|03|05|07|08|09|