■■■ morogram-0.7.1x ■■■

morogram-0.7.1x は、師さん作の Unicode対応 N グラムツール
morogram[1] の 極悪拡張＆ Win32 実行形式版 です。

Win32 実行形式に変換する前の morogram-0.7.1x.pl と
morogram-sort-0.7.1x.c もこのアーカイブに同梱してあります。
オリジナルの morogram 同様、自由に改変・配布してかまいません。

バグの報告は morogram のメーリングリスト[2] にお願いします。
morogram-0.7.1x 固有のものと思われるバグ・要望・質問は僕個人
宛てでも ok です[3]。



■■■ 注意 ■■■

基本的にオリジナルの morogram とコンパチですが、--P
（delete Punctuation）オプションの挙動が異なります。

オリジナルの morogram が削除する文字：

-!"'(),./:;?[]_{}|!≪≫?‘’??“”??‥…???、。〈〉《》「」
『』【】〔〕???????〟｡｢｣､･！（），－．／：；？［＼］＿｛｜｝

morogram-0.7.1x が削除する文字：

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~、、。。，．・：；？！゛゜´
｀¨＾￣＿〃―‐／＼～∥｜…‥‘’“”（）〔〕［］｛｝〈〉
《》「「」」『』【】＋－±×÷＝≠＜＞≦≧∞∴♂♀°′″℃￥
＄￠￡％＃＆＊＠§☆★○●◎◇◆□■△▲▽▼※〒→←↑↓〓∈
∋⊆⊇⊂⊃∧∨⇒⇔∀∃⌒∂∇≪≫∽∝∬‰♯♭♪†‡¶◯─│┌
┐┘└├┬┤┴┼━┃┏┓┛┗┣┳┫┻╋┠┯┨┷┿┝┰┥┸╂㍉
㌔㌢㍍㌘㌧㌃㌶㍑㍗㌍㌦㌣㌫㍊㌻㎜㎝㎞㎎㎏㏄㎡㍻〝〟㏍㊤㊥㊦㊧
㊨㈲㈹㍾㍽㍼∮∑∟⊿"|´∪∩∠⊥≡≒√∫№℡㈱￢∵・



■■■ 極悪拡張 ■■■

● オプション
以前の morogram-0.7.1w.exe はオリジナルの morogram をなるべ
くいじらないまま実行形式にしていましたが、morogram-0.7.1x は
かなり改変してオプションを増やしています：

--f=2,4 といった形式で頻度の上限を指定できます。
--c を指定するとアルファベットの大文字小文字を区別します。
--w を指定すると単語単位で処理します。
--I=sjis といった形式で入力の文字コードを指定できます。
--O=sjis といった形式で出力の文字コードを指定できます。
--V でバージョンと指定可能な文字コード一覧を表示します。

● 単語モードオプション
--w 指定時の「単語」とは、空白または改行で区切られた文字列で
す。--p を指定すると、句読点なども単語の境界とみなします。
「を」を単語の境界とみなすオプションもありましたが、今回は実
装してません。厳密にやる場合は KAKASI などを使って事前に分か
ち書き加工してください。

● 文字コードの指定
--I,--O で指定できる文字コードは、morogram-0.7.1x のバリエー
ションによって異なります。ファイル名が、morogram-0.7.1x.exe
となっているものはユニコードのみ（utf8 や UTF-16BE, UCS-2LE,
etc.）指定できます。morogram-0.7.1xCJKT.exe となっているもの
はユニコードと中国・日本・韓国・台湾の文字コード（euc-cn や
shiftjis, euc-jp, 7bit-jis, euc-kr, big-eten, etc.）が指定で
きます。標準は morogram-0.7.1x.exe です。他のものは要望があ
れば配布します。パソコンに ActivePerl v5.8.3 以上がインスト
ールしてあるなら、morogram-0.7.1x.exe ではなく
morogram-0.7.1x.pl を使うことで KOI8 なども含め全ての文字コ
ードが使えるはずです。

--O を指定しない場合、出力の文字コードは入力ファイルと同じに
なります。

● 文字コードの自動判別
その他、--I=Guess を指定すると文字コードを自動判別します。自
動判別できる文字コードは

o utf8 UTF-16 UTF-32

の３種です。
ファイル名が morogram-0.7.1xCJKT や morogram-0.7.1xCJKT と
なっている場合はさらに

o euc-cn	
o shiftjis euc-jp 7bit-jis
o euc-kr
o big5-eten

の６種が追加されます。判別時の優先順位はありません。判別で
きない場合や候補が複数ある場合は警告なしに utf8 になります。

自動判別の候補を追加するには、morogram-0.7.1x.pl の場合はス
クリプト名を morogram-0.7.1xCJKT.pl に変えるだけで ok です。
実行形式の場合は .exe を作るときに対応文字コードが決まって
しまうので、morogram-0.7.1xCJKT.exe というファイル名がついて
いるバージョンをダウンロードしてください[2]。ファイル名
（morogram-0.7.1x.exe, morogram-0.7.1xCJKT.exe）は変更しな
いでください。

● GUI モード
morogram-0.7.1x をマウスでダブルクリックしたり、オプション
なしで起動したときは入力と出力のファイル名を選択するダイア
ログが開きます。このときはオプションは指定できませんが、
--I=Guess が設定されます。
従来どおりオプション一覧を表示するには、オプション --? を指
定してください。



[1] http://www.ya.sakura.ne.jp/~moro/resources/ngram/morogram.html
[2] http://sourceforge.jp/projects/morogram/
[3] 極悪（安田敏博）, FZH01112@nifty.ne.jp
[4] http://www.activestate.com/Products/ActivePerl/
