yuu_nkjm blog


2011-05-24(Tue) [長年日記]

[openSUSE][NLP] openSUSE 11.2でTermExtractを動かす

専門用語自動抽出モジュールTermExtractをインストールした.オフィシャルの解説は,専門用語(キーワード)自動抽出用Perlモジュール "TermExtract"の解説にある.

Perlのインストール

Perl言語処理用ソフトウェアレポジトリを登録し,yastで以下をいれた.

  • perl-Unicode-String
  • perl-Unicode-Map
  • perl-Text-Iconv
  • perl-Path-Class
  • perl-Log-Log4perl
  • perl-File-Type
  • perl-Class-Accessor
  • perl-UNIVERSAL-require
  • perl-ExtUtils-PkgConfig
  • perl-ExtUtils-Depends

Mecab

mecabのインストール

ちょうど良いレポジトリが見つからなかったので,手動でインストール.

wget http://sourceforge.net/projects/mecab/files/mecab/0.98/mecab-0.98.tar.gz/download
 
tar zxfv mecab-X.X.tar.gz
cd mecab-X.X
./configure 
make
make check
su
make install

mecab辞書のインストール

ちょうど良いレポジトリが見つからなかったので,手動でインストール.

wget http://sourceforge.net/projects/mecab/files/mecab-ipadic/2.7.0-20070801/mecab-ipadic-2.7.0-20070801.tar.gz/download
 
tar zxfv mecab-ipadic-2.7.0-XXXX.tar.gz
mecab-ipadic-2.7.0-XXXX
./configure
make
su
make install

TermExtractのインストール

ダウンロード

専門用語(キーワード)自動抽出用Perlモジュール "TermExtract"の解説を参考にインストールした.Perlのモジュールのインストールには,ppmってコマンドがあるんだな.

オプション その1 高精度の英文専門用語抽出
PerlモジュールLingua::EN::Taggerがインストールされていない場合は次の手順でインストールします。なお、この手順はインターネットに接続されている環境が前提です。
 
1.コマンドプロンプト(MS-DOSプロンプト)を起動する。
2.ppm install Lingua-EN-Tagger とコマンドを投入する。インストールが開始される。
(※nkjm追記) プロキシが必要な環境であれば,"set HTTP_PROXY=http://xxx.xx.xxx.xx:8080"のように環境変数を設定する.
3.QUIT でコマンドプロンプトに戻る
4.EXIT でコマンドプロンプトを終了する。

UTF-8化

MeCab.pmがEUCになっているので,UTF-8に変換する.

cd TermExtract-4_08/blib/lib/TermExtract/
cp -a  MeCab.pm MeCab.org.pm
nkf -w --overwrite MeCab.pm

実行

mecab target.txt > mecab_out.txt
perl SampleScripts/UNIX/ex_mecab.pl

関連ページ

MeCabの辞書をトレーニングするものが公開されていたけど,うまく行かなかった.後日再挑戦したい.


トップ «前の日記(2011-05-23(Mon)) 最新 次の日記(2011-05-25(Wed))» 月表示 編集 設定
2006|01|06|12|
2007|06|09|
2008|01|03|04|06|07|08|09|10|12|
2009|01|02|05|06|07|08|10|11|12|
2010|03|04|05|06|07|08|09|10|11|
2011|01|02|03|04|05|06|07|08|09|11|12|
2012|01|02|04|06|07|08|10|11|12|
2013|01|02|03|07|08|10|11|12|
2014|01|02|04|05|06|07|08|09|10|11|
2015|01|02|07|11|12|
2016|01|03|05|07|08|09|