yuu_nkjm blog

今後はhttps://scrapbox.io/yuunkjm/へ

トップ «前の日記(2010-06-01(Tue)) 最新次の日記(2010-07-12(Mon))» 月表示　　　編集設定

2010-06-02(Wed) [長年日記]

[WebSite][backup][Script] warrickでInternet Archiveや検索エンジンのキャッシュから過去のWebサイトを復元する

最近，「xxxってサブドメインのWebコンテンツが見られないよー」という指摘を受けた．「DNSの引っ越しミスか？」とか思ってたんだけど，Webアドミンがコンテンツそのものの引っ越しを忘れていたようだorz.

Webアドミンはコンテンツのバックアップも取ってないみたいだし，どうすっかなってことで，まずはInternet ArchiveからFirfoxのアドオンのScrapbookでぶっこぬくことを試みた．しかし，これでやったところ，imgタグのsrcやaタグのhrefがInternet Archive用に変更されたままになってしまい，その後の再構成がめんどくさそうだった．

Google先生にお伺いを立ててみると"warrick"というスクリプトが良さそうだったので，これを使ってみる事にした．

手順

Warrick Downloadingからwarrickをダウンロード．普通に展開． tar zxvf warrick-1.8.tar.gz
Perl，SOAP-Lite，XML-Parser，expatあたりが入っていなかったら，yastで追加する．
下記の様なコマンドを発行すれば，スクリプトを実行したディレクトリの下に"www.foo.hoge.jp"ができて，その下に復元される．はじめにサイトの分析が入るからか，保存ディレクトリがしばらく出来ないので，気長に待つと良し． warrick.pl -r -d -nc -o log.txt "http://www.foo.hoge.jp/" 上のコマンドの意味は，「再帰的に，重複を除いて，利用できる全てのリソース(InternetArchive, Yahoo, Google, Bing)から，ログを取りながら再構成する」だったかな．詳細は，Warrick Runningを参照の事．

ちょっと見るだけなら

http://404.undo.jpが便利そう．

(※サイト検索用キーワード： Webのアーカイブサイトの名称をすぐに思い出せないことが多い．思いつくのは，InternetArchive，Web Archive，Web Archivesとか似てるけど違う名前ばかり．)

[ツッコミを入れる]

本日のリンク元

アンテナ

http://zubolla.blog.fc2.com/blog-entry-319.html ×7

その他のリンク元

検索

warrick 使い方 ×11 / warrick ×10 / web 過去キャッシュ ×9 / Warrick 使い方 ×8 / 過去キャッシュ検索 ×6 / 過去のwebサイト ×6 / キャッシュ検索過去 ×5 / internet archive 見れない ×5 / 過去のwebを見る ×4 / Warrick ×4 / warrick 復元 ×4 / warrick 1.8 ×3 / Warrickとは復元 ×3 / Internet Archive 検索エンジン ×3 / アーカイブキャッシュ検索 ×3 / 過去のサイトを復元 ×2 / webキャッシュ復元 ×2 / キャッシュサイト復元スクリプト ×2 / 過去のWEB変更検索 ×2 / キャッシュ復元 ×2 / warrick アーカイブ ×2 / web 過去検索 ×2 / 過去 web 検索 ×2 / 町民c インターネットアーカイブ ×2 / 過去検索エンジン Internet Archive ×2 / Internet Archive 復元 ×2 / キャッシュからweb復元 ×2 / internet archive 検索 ×2 / 過去のウェブサイトキャッシュ ×2 / 過去ログ検索 The Internet Archive ×2 / 検索エンジン復元 ×2 / 404 キャッシュから復元 ×2 / internet web archive ×2 / Internet Archive 検索 ×2 / web キャッシュ検索 ×2 / internet archive ダウンロード ×1 / warrick google ×1 / キャッシュウェブ復元 ×1 / Web Archiveキャッシュ検索 ×1 / キャッシュ WEB 過去 ×1 / 過去のサイト復元 ×1 / 過去サイトキャッシュ ×1 / 過去サイト復元 ×1 / 過去のwebサイトを復元する ×1 / webarchiveで復元できないページ ×1 / Internet-Archive からサイトを復旧する ×1 / Warrick 復元 ×1 / google 過去のWEBサイト ×1 / internet archive googleキャッシュ ×1 / サイトを復元キャッシュ ×1 / 過去検索キャッシュ ×1 / 過去のwebサイトを検索 ×1 / google キャッシュからの復元 Webサイト ×1 / Warrick Internet Archive ×1 / キャシュ復元サイト ×1 / Warrick 保存 ×1 / htmlをwebキャッシュから復元 ×1 / internet archive 検索エンジン ×1 / 過去検索エンジン ×1 / google キャッシュから wordpress ブログ復元 ×1 / キャッシュ検索復元 ×1 / warrick サイト ×1 / internet archive .htaccess ×1 / google キャッシュ過去 ×1 / web キャッシュ復元 ×1 / web 過去探す ×1 / google検索キャッシュ復元 ×1 / 過去ウェブサイトキャッシュ ×1 / ウェブキャッシュ復元 ×1 / cache:昔検索 ×1 / webサイト復元 archive ×1 / 過去のWebサイト ×1 / 過去 web 検索キャッシュ ×1 / eclipseでperl soap/liteをインストール ×1 / internet archive 似た ×1 / Internet Archive 検索エンジン追加 ×1 / linux warrick 使い方 ×1 / Warｒick ×1 / 過去 WEB検索 ×1 / WEBキャッシュ過去 ×1 / warrick.pl ×1 / サイト過去キャッシュ ×1 / 消えてしまったWebサイトを再構築するツール ×1 / 過去のWeb ×1 / 過去のWEB ×1 / 過去のサイトキャッシュ ×1 / web キャッシュ検索エンジン ×1 / web キャッシュ過去 ×1 / 検索エンジン過去 ×1 / ｷｬｯｼｭ復元ｻｲﾄ ×1 / warrick インストール ×1 / 過去のweb ×1 / Internet Archiveのようなサイト ×1 / 検索エンジン webキャッシュ ×1 / キャッシュ過去検索 ×1 / 過去のウェブ ×1 / archives キャッシュ ×1 / Google・Yahoo・Bing・InternetArchive Web Cache ×1 / squid キャッシュ復元 ×1 / 過去のサイトキャッシュ ×1

トップ «前の日記(2010-06-01(Tue)) 最新次の日記(2010-07-12(Mon))» 月表示編集設定

2006|01|06|12|

2007|06|09|

2008|01|03|04|06|07|08|09|10|12|

2009|01|02|05|06|07|08|10|11|12|

2010|03|04|05|06|07|08|09|10|11|

2011|01|02|03|04|05|06|07|08|09|11|12|

2012|01|02|04|06|07|08|10|11|12|

2013|01|02|03|07|08|10|11|12|

2014|01|02|04|05|06|07|08|09|10|11|

2015|01|02|07|11|12|

2016|01|03|05|07|08|09|