MeCab とりあえずよく分からず
いい加減 Namazu はやめたいんだけど、なんか基本的な部分で分かっていないことが多い。形態素解析もその一つなんだけど、今どき形態素解析は MeCab よね、と思ったけど、MeCab のサイト見ても意味がよく分からない。
ChaSen のときも思ったけど、理屈が前面に出てこられても興味がないので頭にさっぱり入ってこない。そしてサンプルがあまりにそっけなさすぎて全然分からない。
例えば辞書は EUC-JP が標準だと。じゃあ EUC-JP で表現できないデータを MeCab に突っ込みたくなったらどうすればいいのか。そういうことは MeCab の仕事の範疇の外? 詳しくないからよく分からない疑問が次々に湧いてきて全然本論に入れない、いちばんダメなパターンでぐーるぐる。
辞書の再構築の方法は載っている。いや違うんだ、おれが欲しいのは辞書の再構築の方法じゃない。と思ったけど、こういうことか?
- 辞書に依存しない云々という記述はあるが、パンピーは気にしちゃいけない。UTF-8 のデータをそのまま解析したけりゃやはり UTF-8 の辞書が要る?
- むしろ辞書に依存しない汎用的な設計 = 辞書をガンガン作れる = 辞書をガンガン作れ?
- 辞書の指定方法は
-d --dictdir=DIR
-u --userdic=FILE
しかなさげなので、EUC-JP のシステム辞書も UTF-8 のシステム辞書も欲しい場合は複数のディレクトリを用意して置いておき、利用するときに -d で指定する?
- じゃあバインディングからそれらを使い分けたいときはどうしたら?
- あー mecab バイナリと同じパラメータを文字列で MeCab::Tagger() に与えるってか
- つか普通使い分けとかそういうことは考えない?
- MeCab に突っ込む前に変換すりゃいいじゃん?
- 変換のコストがバカにならない場合は?
- 周辺ツールにはパスも通ってないし man もないし HTML 上にもほとんど情報がない
むーん。
を見ても……。なんだろう。何かしようと思ったら辞書を構築すべし、ってことなの? 毎回辞書の構築なんてやってられないよね? よく見る方法はシステム辞書のディレクトリを -d で指定してるけど、ユーザー辞書は何に使うの?
むーん。