yuu_nkjm blog
2011-05-24(Tue) [長年日記] 編集
[openSUSE][NLP] openSUSE 11.2でTermExtractを動かす
専門用語自動抽出モジュールTermExtractをインストールした.オフィシャルの解説は,専門用語(キーワード)自動抽出用Perlモジュール "TermExtract"の解説にある.
Perlのインストール
Perl言語処理用ソフトウェアレポジトリを登録し,yastで以下をいれた.
- perl-Unicode-String
- perl-Unicode-Map
- perl-Text-Iconv
- perl-Path-Class
- perl-Log-Log4perl
- perl-File-Type
- perl-Class-Accessor
- perl-UNIVERSAL-require
- perl-ExtUtils-PkgConfig
- perl-ExtUtils-Depends
Mecab
mecabのインストール
ちょうど良いレポジトリが見つからなかったので,手動でインストール.
wget http://sourceforge.net/projects/mecab/files/mecab/0.98/mecab-0.98.tar.gz/download tar zxfv mecab-X.X.tar.gz cd mecab-X.X ./configure make make check su make install
mecab辞書のインストール
ちょうど良いレポジトリが見つからなかったので,手動でインストール.
wget http://sourceforge.net/projects/mecab/files/mecab-ipadic/2.7.0-20070801/mecab-ipadic-2.7.0-20070801.tar.gz/download tar zxfv mecab-ipadic-2.7.0-XXXX.tar.gz mecab-ipadic-2.7.0-XXXX ./configure make su make install
TermExtractのインストール
ダウンロード
専門用語(キーワード)自動抽出用Perlモジュール "TermExtract"の解説を参考にインストールした.Perlのモジュールのインストールには,ppmってコマンドがあるんだな.
オプション その1 高精度の英文専門用語抽出 PerlモジュールLingua::EN::Taggerがインストールされていない場合は次の手順でインストールします。なお、この手順はインターネットに接続されている環境が前提です。 1.コマンドプロンプト(MS-DOSプロンプト)を起動する。 2.ppm install Lingua-EN-Tagger とコマンドを投入する。インストールが開始される。 (※nkjm追記) プロキシが必要な環境であれば,"set HTTP_PROXY=http://xxx.xx.xxx.xx:8080"のように環境変数を設定する. 3.QUIT でコマンドプロンプトに戻る 4.EXIT でコマンドプロンプトを終了する。
UTF-8化
MeCab.pmがEUCになっているので,UTF-8に変換する.
cd TermExtract-4_08/blib/lib/TermExtract/ cp -a MeCab.pm MeCab.org.pm nkf -w --overwrite MeCab.pm
実行
mecab target.txt > mecab_out.txt perl SampleScripts/UNIX/ex_mecab.pl
関連ページ
MeCabの辞書をトレーニングするものが公開されていたけど,うまく行かなかった.後日再挑戦したい.
2011-05-23(Mon) [長年日記] 編集
[Wikipedia][CMS] Wikipediaのスナップショットを取得
自分でクローリングしなくてもWikipediaのダンプデータをダウンロードすることができる.というより,クローリングすると迷惑なので,データが欲しかったらダンプデータをダウンロードする.以下のページからのリンクをたどると,ダウンロードリンクがある.色々な種類(記事ページだけとか議論ページも入っているとか)のダンプがあるので,好きな種類を選ぶ.
以下,自分のコピペ用.
英語版Wikipedia(記事ページのみ)
wget http://download.wikimedia.org/enwiki/20091103/enwiki-20091103-pages-articles.xml.bz2 wget http://download.wikimedia.org/enwiki/20100116/enwiki-20100116-pages-articles.xml.bz2 wget http://download.wikimedia.org/enwiki/20100130/enwiki-20100130-pages-articles.xml.bz2 wget http://download.wikimedia.org/enwiki/20100730/enwiki-20100730-pages-articles.xml.bz2 wget http://download.wikimedia.org/enwiki/20100817/enwiki-20100817-pages-articles.xml.bz2 wget http://download.wikimedia.org/enwiki/20100904/enwiki-20100904-pages-articles.xml.bz2 wget http://download.wikimedia.org/enwiki/20100916/enwiki-20100916-pages-articles.xml.bz2 wget http://download.wikimedia.org/enwiki/20101011/enwiki-20101011-pages-articles.xml.bz2 wget http://download.wikimedia.org/enwiki/20110115/enwiki-20110115-pages-articles.xml.bz2 wget http://download.wikimedia.org/enwiki/20110317/enwiki-20110317-pages-articles.xml.bz2 wget http://download.wikimedia.org/enwiki/20110405/enwiki-20110405-pages-articles.xml.bz2 bunzip2 -k enwiki-20100730-pages-articles.xml.bz2 enwiki-20100904-pages-articles.xml.bz2 enwiki-20100817-pages-articles.xml.bz2
日本語版Wikipedia(記事ページのみ)
wget http://download.wikimedia.org/jawiki/20100226/jawiki-20100226-pages-articles.xml.bz2 wget http://download.wikimedia.org/jawiki/20100306/jawiki-20100306-pages-articles.xml.bz2 wget http://download.wikimedia.org/jawiki/20100317/jawiki-20100317-pages-articles.xml.bz2 wget http://download.wikimedia.org/jawiki/20100328/jawiki-20100328-pages-articles.xml.bz2 wget http://download.wikimedia.org/jawiki/20100607/jawiki-20100607-pages-articles.xml.bz2 wget http://download.wikimedia.org/jawiki/20100624/jawiki-20100624-pages-articles.xml.bz2 wget http://download.wikimedia.org/jawiki/20100729/jawiki-20100729-pages-articles.xml.bz2 wget http://download.wikimedia.org/jawiki/20100812/jawiki-20100812-pages-articles.xml.bz2 wget http://download.wikimedia.org/jawiki/20100827/jawiki-20100827-pages-articles.xml.bz2 wget http://download.wikimedia.org/jawiki/20100910/jawiki-20100910-pages-articles.xml.bz2 wget http://download.wikimedia.org/jawiki/20100924/jawiki-20100924-pages-articles.xml.bz2 wget http://download.wikimedia.org/jawiki/20101007/jawiki-20101007-pages-articles.xml.bz2 wget http://download.wikimedia.org/jawiki/20101018/jawiki-20101018-pages-articles.xml.bz2 wget http://download.wikimedia.org/jawiki/20101102/jawiki-20101102-pages-articles.xml.bz2 wget http://download.wikimedia.org/jawiki/20110129/jawiki-20110129-pages-articles.xml.bz2 wget http://download.wikimedia.org/jawiki/20110308/jawiki-20110308-pages-articles.xml.bz2 wget http://download.wikimedia.org/jawiki/20110404/jawiki-20110404-pages-articles.xml.bz2 wget http://download.wikimedia.org/jawiki/20110420/jawiki-20110420-pages-articles.xml.bz2 wget http://download.wikimedia.org/jawiki/20110507/jawiki-20110507-pages-articles.xml.bz2 bunzip2 -k jawiki-20100328-pages-articles.xml.bz2 jawiki-20101102-pages-articles.xml.bz2 jawiki-20100306-pages-articles.xml.bz2 jawiki-20101007-pages-articles.xml.bz2 jawiki-20110129-pages-articles.xml.bz2 jawiki-20110507-pages-articles.xml.bz2 jawiki-20100317-pages-articles.xml.bz2 jawiki-20101018-pages-articles.xml.bz2 jawiki-20110308-pages-articles.xml.bz2 jawiki-20100607-pages-articles.xml.bz2 jawiki-20100624-pages-articles.xml.bz2 jawiki-20100729-pages-articles.xml.bz2 jawiki-20100812-pages-articles.xml.bz2 jawiki-20100827-pages-articles.xml.bz2 jawiki-20100910-pages-articles.xml.bz2 jawiki-20100924-pages-articles.xml.bz2
2011-05-22(Sun) [長年日記] 編集
[openSUSE][PHP][Langrid][CMS] openSUSE 11.2に言語グリッドツールボックス(Language Grid Toolbox)をインストール
openSUSE 11.2が動作するマシン上に,言語グリッドツールボックス(Language Grid Toolbox, Langrid Toolbox)をインストールをする.
php 5.2系のインストール
php 5.3系(以降)では動かないことに注意する.今回は5.2系を入れた.openSUSE 11.2へのPHP 5.2インストールはopenSUSEにPHP 5.2をインストールする - yuu_nkjm blog(2011-05-21)を参照.
yastでphp-jason, php-mysql, php-pearなど,必要そうなライブラリを入れる.
php-pear-SOAPとphp-SOAPが異なることに注意する.php-pear-soapは以下でインストール出来る.
pear install soap-beta pear list
MySQLのインストール
MySQLの文字コードがUTF8になっていることを確認する.
mysql> show variables like "char%"; +--------------------------+----------------------------+ | Variable_name | Value | +--------------------------+----------------------------+ | character_set_client | utf8 | | character_set_connection | utf8 | | character_set_database | utf8 | | character_set_filesystem | binary | | character_set_results | utf8 | | character_set_server | utf8 | | character_set_system | utf8 | | character_sets_dir | /usr/share/mysql/charsets/ | +--------------------------+----------------------------+
データベースの作成
create database ${dbname} default character set utf8 collate utf8_general_ci; 例えば create database toolbox default character set utf8 collate utf8_general_ci;
ユーザの作成
grant all on *.* to toolbox@localhost; set password for toolbox@localhost=password('passwd');
XOOPSと言語グリッドToolboxのインストール
ここからは,インストール手順の通り実行する.
メモ
-
chmod 777 toolbox/html/uploads/ toolbox/html/cache/ toolbox/html/templates_c/ chmod 666 toolbox/html/mainfile.php chmod 777 toolbox/xoops_trust_path/cache chmod 777 toolbox/xoops_trust_path/templates_c chmod 777 toolbox/xoops_trust_path/session chmod 777 toolbox/xoops_trust_path/log chmod 777 toolbox/xoops_trust_path/modules/protector/configs
- メモリ割り当てを256Mにする.