
Galatea SSM のための Chasen, Unidic, Chaone インストール作業

2007-07-12 西本卓也 (nishimoto@m.ieice.org)

 作業環境 Vine Linux 3.2

 概要：
 過去のバージョンを上書きしないように
 morph の実行イメージを /usr/local/istc/ に作る。
 /usr/local/istc/chasen-2.4.1-istc ... chasen
 /usr/local/istc/unidic-1.3.0-pkg  ... unidic (eucj)
 /usr/local/istc/chaone-1.3.0-istc ... chaone

* chasen-2.4.1

 用意するファイル
 chasen-2.4.1.tar.gz

 $ tar xvfz chasen-2.4.1.tar.gz
 $ cd chasen-2.4.1
 $ ./configure --prefix=/usr/local/istc/chasen-2.4.1-istc
 $ make
 $ make install

* unidic-1.3.0-pkg

 用意するファイル
 unidic-1.3.0-pkg.tar.gz

 $ tar xvfz unidic-1.3.0-pkg.tar.gz
 $ cd unidic-1.3.0-pkg

 $ export PATH=/usr/local/istc/chasen-2.4.1-istc/bin:$PATH
 $ sh configure --with-packagedir=/usr/local/istc/unidic-1.3.0-pkg
 $ make
 $ make install

* unidic-1.3.0_eucj への差し替え

 用意するファイル
 unidic-1.3.0_eucj.tar.gz

 $ tar xvfz unidic-1.3.0_eucj.tar.gz
 $ cp unidic/* /usr/local/istc/unidic-1.3.0-pkg/dic/

* chasen の辞書設定

 chasen の dicdir を確認してリンクをはる

 $ /usr/local/istc/chasen-2.4.1-istc/bin/chasen-config --dicdir
 /usr/local/istc/chasen-2.4.1-istc/lib/chasen/dic

 $ cd /usr/local/istc/chasen-2.4.1-istc/lib
 $ mkdir chasen
 $ cd chasen/
 $ ln -s /usr/local/istc/unidic-1.3.0-pkg/dic dic

 デフォルトの chasenrc を作る

 $ cd /usr/local/istc/chasen-2.4.1-istc/
 $ mkdir etc
 $ cd etc/
 $ cp /usr/local/istc/unidic-1.3.0-pkg/dic/chasenrc .

 [chasenrc] の追加および修正

 ;; 変更箇所
 (GRAMMAR /usr/local/istc/chasen-2.4.1-istc/lib/chasen/dic)
 ;; 
 ;; 変更箇所 (改行を挿入)
 (OUTPUT_FORMAT "<W1 orth=\"%m\" kana=\"%?U/%m/%y/\"
  pron=\"%?U/%m/%a/\" pos=\"%U(%P-)\"%?T/ cType=\"%T \"//%?F/
  cForm=\"%F \"//%?I/ %i//>%m</W1>\n")
 ;; 
 ;; 変更箇所 (改行を挿入)
 (ANNOTATION
	(("<" ">") "%m\n")
	(("\"") "<W1 orth=\"&#x22;\" kana=\"&#x22;\"
  pron=\"&#x22;\" pos=\"%U(%P-)\"%?T/ cType=\"%T \"//%?F/
  cForm=\"%F \"//%?I/ %i//>%m</W1>\n")
 )
 ;; 
 ;; 追加
 (BOS_STRING "<S>\n")
 (EOS_STRING "</S>\n")

* chasen + unidic の動作確認  (出力に改行を挿入)

 $ echo "今日はいい天気です。" | /usr/local/istc/chasen-2.4.1-istc/bin/chasen

 <S>
 <W1 orth="今日" kana="キョウ" pron="キョー" pos="名詞-普通名詞-副詞可能" 
 orthBase="今日" kanaBase="キョウ" pronBase="キョー" lForm="キョウ"
 lemma="今日" form="キョウ" aType="1" aConType="C3">今日</W1>
 <W1 orth="は" kana="ハ" pron="ワ" pos="助詞-係助詞" orthBase="は"
 kanaBase="ハ" pronBase="ワ" lF orm="ハ" lemma="は" form="ハ"
 aConType="動詞%F5,名詞%F1,形容詞%F2@-1">は</W1>
 (以下略)

* chaone-1.3.0

 /usr/local/istc/chaone-1.3.0-istc にインストールする

 用意するファイル
 chaone-1.3.0.tar.gz

 その前に Vine Linxu 3.1 のバグ回避(?)
 # su
 # cd /usr/include
 # ln -s libxml2/libxml .

 $ tar xvfz chaone-1.3.0.tar.gz
 $ cd chaone-1.3.0
 $ sh configure --with-chaonedir=/usr/local/istc/chaone-1.3.0-istc
 $ make
 $ make install

* chasen + unidic + chaone の動作確認 (出力に改行を挿入)

 $ echo "今日はいい天気です。"
   | /usr/local/istc/chasen-2.4.1-istc/bin/chasen
   | /usr/local/istc/chaone-1.3.0-istc/chaone

 <S>
  <cha:W2 xmlns:cha="http://www.unidic.org/chasen/ns/structure/1.0"
   orth="今日" pos="名詞-普通名詞-副詞可能" pron="キョー">
    <cha:W1 orth="今日" kana="キョウ" pron="キョー" 
    pos="名詞-普通名詞-副詞可能" orthBase="今日" kanaBase="キョウ"
    pronBase="キョー" lForm="キョウ" lemma="今日" form="キョウ" aType="1"
    aConType="C3">今日</cha:W1>
  </cha:W2>
  <cha:W2 xmlns:cha="http://www.unidic.org/chasen/ns/structure/1.0"
    orth="は" pos="助詞-係助詞" pron="ワ">
    <cha:W1 orth="は" kana="ハ" pron="ワ" pos="助詞-係助詞" orthBase="は"
     kanaBase="ハ" pronBase="ワ" lForm="ハ" lemma="は" form="ハ"
     aConType="動詞%F5,名詞%F1,形容詞%F2@-1">は</cha:W1>
  </cha:W2>
 (以下略)

