yuu_nkjm blog


2011-05-24(Tue) [長年日記] 編集

[openSUSE][NLP] openSUSE 11.2でTermExtractを動かす

専門用語自動抽出モジュールTermExtractをインストールした.オフィシャルの解説は,専門用語(キーワード)自動抽出用Perlモジュール "TermExtract"の解説にある.

Perlのインストール

Perl言語処理用ソフトウェアレポジトリを登録し,yastで以下をいれた.

  • perl-Unicode-String
  • perl-Unicode-Map
  • perl-Text-Iconv
  • perl-Path-Class
  • perl-Log-Log4perl
  • perl-File-Type
  • perl-Class-Accessor
  • perl-UNIVERSAL-require
  • perl-ExtUtils-PkgConfig
  • perl-ExtUtils-Depends

Mecab

mecabのインストール

ちょうど良いレポジトリが見つからなかったので,手動でインストール.

wget http://sourceforge.net/projects/mecab/files/mecab/0.98/mecab-0.98.tar.gz/download
 
tar zxfv mecab-X.X.tar.gz
cd mecab-X.X
./configure 
make
make check
su
make install

mecab辞書のインストール

ちょうど良いレポジトリが見つからなかったので,手動でインストール.

wget http://sourceforge.net/projects/mecab/files/mecab-ipadic/2.7.0-20070801/mecab-ipadic-2.7.0-20070801.tar.gz/download
 
tar zxfv mecab-ipadic-2.7.0-XXXX.tar.gz
mecab-ipadic-2.7.0-XXXX
./configure
make
su
make install

TermExtractのインストール

ダウンロード

専門用語(キーワード)自動抽出用Perlモジュール "TermExtract"の解説を参考にインストールした.Perlのモジュールのインストールには,ppmってコマンドがあるんだな.

オプション その1 高精度の英文専門用語抽出
PerlモジュールLingua::EN::Taggerがインストールされていない場合は次の手順でインストールします。なお、この手順はインターネットに接続されている環境が前提です。
 
1.コマンドプロンプト(MS-DOSプロンプト)を起動する。
2.ppm install Lingua-EN-Tagger とコマンドを投入する。インストールが開始される。
(※nkjm追記) プロキシが必要な環境であれば,"set HTTP_PROXY=http://xxx.xx.xxx.xx:8080"のように環境変数を設定する.
3.QUIT でコマンドプロンプトに戻る
4.EXIT でコマンドプロンプトを終了する。

UTF-8化

MeCab.pmがEUCになっているので,UTF-8に変換する.

cd TermExtract-4_08/blib/lib/TermExtract/
cp -a  MeCab.pm MeCab.org.pm
nkf -w --overwrite MeCab.pm

実行

mecab target.txt > mecab_out.txt
perl SampleScripts/UNIX/ex_mecab.pl

関連ページ

MeCabの辞書をトレーニングするものが公開されていたけど,うまく行かなかった.後日再挑戦したい.


2011-05-23(Mon) [長年日記] 編集

[Wikipedia][CMS] Wikipediaのスナップショットを取得

自分でクローリングしなくてもWikipediaのダンプデータをダウンロードすることができる.というより,クローリングすると迷惑なので,データが欲しかったらダンプデータをダウンロードする.以下のページからのリンクをたどると,ダウンロードリンクがある.色々な種類(記事ページだけとか議論ページも入っているとか)のダンプがあるので,好きな種類を選ぶ.

以下,自分のコピペ用.

英語版Wikipedia(記事ページのみ)

wget http://download.wikimedia.org/enwiki/20091103/enwiki-20091103-pages-articles.xml.bz2
wget http://download.wikimedia.org/enwiki/20100116/enwiki-20100116-pages-articles.xml.bz2
wget http://download.wikimedia.org/enwiki/20100130/enwiki-20100130-pages-articles.xml.bz2
wget http://download.wikimedia.org/enwiki/20100730/enwiki-20100730-pages-articles.xml.bz2
wget http://download.wikimedia.org/enwiki/20100817/enwiki-20100817-pages-articles.xml.bz2
wget http://download.wikimedia.org/enwiki/20100904/enwiki-20100904-pages-articles.xml.bz2
wget http://download.wikimedia.org/enwiki/20100916/enwiki-20100916-pages-articles.xml.bz2
wget http://download.wikimedia.org/enwiki/20101011/enwiki-20101011-pages-articles.xml.bz2
wget http://download.wikimedia.org/enwiki/20110115/enwiki-20110115-pages-articles.xml.bz2
wget http://download.wikimedia.org/enwiki/20110317/enwiki-20110317-pages-articles.xml.bz2
wget http://download.wikimedia.org/enwiki/20110405/enwiki-20110405-pages-articles.xml.bz2
 
bunzip2 -k enwiki-20100730-pages-articles.xml.bz2  enwiki-20100904-pages-articles.xml.bz2 enwiki-20100817-pages-articles.xml.bz2  

日本語版Wikipedia(記事ページのみ)

wget http://download.wikimedia.org/jawiki/20100226/jawiki-20100226-pages-articles.xml.bz2
wget http://download.wikimedia.org/jawiki/20100306/jawiki-20100306-pages-articles.xml.bz2
wget http://download.wikimedia.org/jawiki/20100317/jawiki-20100317-pages-articles.xml.bz2
wget http://download.wikimedia.org/jawiki/20100328/jawiki-20100328-pages-articles.xml.bz2
wget http://download.wikimedia.org/jawiki/20100607/jawiki-20100607-pages-articles.xml.bz2
wget http://download.wikimedia.org/jawiki/20100624/jawiki-20100624-pages-articles.xml.bz2
wget http://download.wikimedia.org/jawiki/20100729/jawiki-20100729-pages-articles.xml.bz2
wget http://download.wikimedia.org/jawiki/20100812/jawiki-20100812-pages-articles.xml.bz2
wget http://download.wikimedia.org/jawiki/20100827/jawiki-20100827-pages-articles.xml.bz2
wget http://download.wikimedia.org/jawiki/20100910/jawiki-20100910-pages-articles.xml.bz2
wget http://download.wikimedia.org/jawiki/20100924/jawiki-20100924-pages-articles.xml.bz2
wget http://download.wikimedia.org/jawiki/20101007/jawiki-20101007-pages-articles.xml.bz2
wget http://download.wikimedia.org/jawiki/20101018/jawiki-20101018-pages-articles.xml.bz2
wget http://download.wikimedia.org/jawiki/20101102/jawiki-20101102-pages-articles.xml.bz2
wget http://download.wikimedia.org/jawiki/20110129/jawiki-20110129-pages-articles.xml.bz2
wget http://download.wikimedia.org/jawiki/20110308/jawiki-20110308-pages-articles.xml.bz2
wget http://download.wikimedia.org/jawiki/20110404/jawiki-20110404-pages-articles.xml.bz2
wget http://download.wikimedia.org/jawiki/20110420/jawiki-20110420-pages-articles.xml.bz2
wget http://download.wikimedia.org/jawiki/20110507/jawiki-20110507-pages-articles.xml.bz2
 
bunzip2 -k jawiki-20100328-pages-articles.xml.bz2  jawiki-20101102-pages-articles.xml.bz2 jawiki-20100306-pages-articles.xml.bz2  jawiki-20101007-pages-articles.xml.bz2  jawiki-20110129-pages-articles.xml.bz2  jawiki-20110507-pages-articles.xml.bz2 jawiki-20100317-pages-articles.xml.bz2  jawiki-20101018-pages-articles.xml.bz2  jawiki-20110308-pages-articles.xml.bz2 jawiki-20100607-pages-articles.xml.bz2 jawiki-20100624-pages-articles.xml.bz2 jawiki-20100729-pages-articles.xml.bz2 jawiki-20100812-pages-articles.xml.bz2 jawiki-20100827-pages-articles.xml.bz2 jawiki-20100910-pages-articles.xml.bz2 jawiki-20100924-pages-articles.xml.bz2

2011-05-22(Sun) [長年日記] 編集

[openSUSE][PHP][Langrid][CMS] openSUSE 11.2に言語グリッドツールボックス(Language Grid Toolbox)をインストール

openSUSE 11.2が動作するマシン上に,言語グリッドツールボックス(Language Grid Toolbox, Langrid Toolbox)をインストールをする.

php 5.2系のインストール

php 5.3系(以降)では動かないことに注意する.今回は5.2系を入れた.openSUSE 11.2へのPHP 5.2インストールはopenSUSEにPHP 5.2をインストールする - yuu_nkjm blog(2011-05-21)を参照.

yastでphp-jason, php-mysql, php-pearなど,必要そうなライブラリを入れる.

php-pear-SOAPとphp-SOAPが異なることに注意する.php-pear-soapは以下でインストール出来る.

pear install soap-beta
pear list

MySQLのインストール

MySQLの文字コードがUTF8になっていることを確認する.

mysql> show variables like "char%";
 
+--------------------------+----------------------------+
| Variable_name            | Value                      |
+--------------------------+----------------------------+
| character_set_client     | utf8                       |
| character_set_connection | utf8                       |
| character_set_database   | utf8                       |
| character_set_filesystem | binary                     |
| character_set_results    | utf8                       |
| character_set_server     | utf8                       |
| character_set_system     | utf8                       |
| character_sets_dir       | /usr/share/mysql/charsets/ |
+--------------------------+----------------------------+

データベースの作成

create database ${dbname} default character set utf8 collate utf8_general_ci;
例えば
create database toolbox default character set utf8 collate utf8_general_ci;

ユーザの作成

grant all on *.* to toolbox@localhost;
set password for toolbox@localhost=password('passwd');

XOOPSと言語グリッドToolboxのインストール

ここからは,インストール手順の通り実行する.

メモ

  • chmod 777 toolbox/html/uploads/ toolbox/html/cache/ toolbox/html/templates_c/
    chmod 666 toolbox/html/mainfile.php
    chmod 777 toolbox/xoops_trust_path/cache
    chmod 777 toolbox/xoops_trust_path/templates_c
    chmod 777 toolbox/xoops_trust_path/session
    chmod 777 toolbox/xoops_trust_path/log
    chmod 777 toolbox/xoops_trust_path/modules/protector/configs
    
  • メモリ割り当てを256Mにする.

トップ 最新 追記 設定
2006|01|06|12|
2007|06|09|
2008|01|03|04|06|07|08|09|10|12|
2009|01|02|05|06|07|08|10|11|12|
2010|03|04|05|06|07|08|09|10|11|
2011|01|02|03|04|05|06|07|08|09|11|12|
2012|01|02|04|06|07|08|10|11|12|
2013|01|02|03|07|08|10|11|12|
2014|01|02|04|05|06|07|08|09|10|11|
2015|01|02|07|11|12|
2016|01|03|05|07|08|09|