yuu_nkjm blog
2011-05-24(Tue) [長年日記]
[openSUSE][NLP] openSUSE 11.2でTermExtractを動かす
専門用語自動抽出モジュールTermExtractをインストールした.オフィシャルの解説は,専門用語(キーワード)自動抽出用Perlモジュール "TermExtract"の解説にある.
Perlのインストール
Perl言語処理用ソフトウェアレポジトリを登録し,yastで以下をいれた.
- perl-Unicode-String
- perl-Unicode-Map
- perl-Text-Iconv
- perl-Path-Class
- perl-Log-Log4perl
- perl-File-Type
- perl-Class-Accessor
- perl-UNIVERSAL-require
- perl-ExtUtils-PkgConfig
- perl-ExtUtils-Depends
Mecab
mecabのインストール
ちょうど良いレポジトリが見つからなかったので,手動でインストール.
wget http://sourceforge.net/projects/mecab/files/mecab/0.98/mecab-0.98.tar.gz/download tar zxfv mecab-X.X.tar.gz cd mecab-X.X ./configure make make check su make install
mecab辞書のインストール
ちょうど良いレポジトリが見つからなかったので,手動でインストール.
wget http://sourceforge.net/projects/mecab/files/mecab-ipadic/2.7.0-20070801/mecab-ipadic-2.7.0-20070801.tar.gz/download tar zxfv mecab-ipadic-2.7.0-XXXX.tar.gz mecab-ipadic-2.7.0-XXXX ./configure make su make install
TermExtractのインストール
ダウンロード
専門用語(キーワード)自動抽出用Perlモジュール "TermExtract"の解説を参考にインストールした.Perlのモジュールのインストールには,ppmってコマンドがあるんだな.
オプション その1 高精度の英文専門用語抽出 PerlモジュールLingua::EN::Taggerがインストールされていない場合は次の手順でインストールします。なお、この手順はインターネットに接続されている環境が前提です。 1.コマンドプロンプト(MS-DOSプロンプト)を起動する。 2.ppm install Lingua-EN-Tagger とコマンドを投入する。インストールが開始される。 (※nkjm追記) プロキシが必要な環境であれば,"set HTTP_PROXY=http://xxx.xx.xxx.xx:8080"のように環境変数を設定する. 3.QUIT でコマンドプロンプトに戻る 4.EXIT でコマンドプロンプトを終了する。
UTF-8化
MeCab.pmがEUCになっているので,UTF-8に変換する.
cd TermExtract-4_08/blib/lib/TermExtract/ cp -a MeCab.pm MeCab.org.pm nkf -w --overwrite MeCab.pm
実行
mecab target.txt > mecab_out.txt perl SampleScripts/UNIX/ex_mecab.pl
関連ページ
MeCabの辞書をトレーニングするものが公開されていたけど,うまく行かなかった.後日再挑戦したい.
- https://www.google.co.jp/ ×72
- http://b.hatena.ne.jp/kondonator/ ×6
- https://www.google.com/ ×5
- https://www.google.co.jp/ ×2
- https://www.google.co.jp/webhp?hl=ja ×1
- http://b.hatena.ne.jp/kondonator/?with_favorites=1... ×1
- http://search.fenrir-inc.com/?q=ppm NKF&hl=ja&safe... ×1
- TermExtract ×9 / TermExtract MeCab.pm インストール ×4 / openSUSE mecab ×2 / TermExtract php ×2 / 専門用語 自動抽出 java ×2 / termextract ×2 / openSUSE Factory ×2 / SUSE mecab-ipadic ダウンロード ×2 / Lingua::EN::Tagger unix ×2 / TermExtract mecab 辞書 ×1 / termextract 辞書を作成 ×1 / mecab プロンプト EUC ×1 / Lingua::EN::Tagger インストール ×1 / windows server 2008 64bit mecab perl ×1 / Perl Log4 ×1 / mecab 辞書 トレーニング ×1 / mecab overdrive perl path::Class ×1 / opensuse 2011 ×1 / TermExtract perl ×1 / openSUSE 環境変数 プロキシ ×1 / mecab.pm utf-8 ×1 / TermExtract OpenSuse ×1 / は TermExtract UTF8 ×1 / TermExtract c++ ×1 / MeCab in Linux Opensuse ×1 / Mecab 重要語抽出 Java ×1 / google ×1 / java termextract ×1 / SUSE mecab-ipadic ×1 / wikipediaのデータや顔文字辞書からmecabのユーザ辞書を作成するフレームワーク ×1 / TermExtract UTF-8 ×1 / TermExtract 使い方 ×1 / termextract 使い方 ×1 / mecab 英文作成 ×1 / http_proxy SuSE ×1 / MeCab.pm UTF-8 ×1 / mecab ユーザー 辞書 ×1 / xx.xxx.xx 0.98 ×1