2007-11-25

MeCab とりあえずよく分からず

いい加減 Namazu はやめたいんだけど、なんか基本的な部分で分かっていないことが多い。形態素解析もその一つなんだけど、今どき形態素解析は MeCab よね、と思ったけど、MeCab のサイト見ても意味がよく分からない。

ChaSen のときも思ったけど、理屈が前面に出てこられても興味がないので頭にさっぱり入ってこない。そしてサンプルがあまりにそっけなさすぎて全然分からない。

例えば辞書は EUC-JP が標準だと。じゃあ EUC-JP で表現できないデータを MeCab に突っ込みたくなったらどうすればいいのか。そういうことは MeCab の仕事の範疇の外? 詳しくないからよく分からない疑問が次々に湧いてきて全然本論に入れない、いちばんダメなパターンでぐーるぐる。

辞書の再構築の方法は載っている。いや違うんだ、おれが欲しいのは辞書の再構築の方法じゃない。と思ったけど、こういうことか?

  • 辞書に依存しない云々という記述はあるが、パンピーは気にしちゃいけない。UTF-8 のデータをそのまま解析したけりゃやはり UTF-8 の辞書が要る?
    • むしろ辞書に依存しない汎用的な設計 = 辞書をガンガン作れる = 辞書をガンガン作れ?
  • 辞書の指定方法は
-d --dictdir=DIR
-u --userdic=FILE

しかなさげなので、EUC-JP のシステム辞書も UTF-8 のシステム辞書も欲しい場合は複数のディレクトリを用意して置いておき、利用するときに -d で指定する?

  • じゃあバインディングからそれらを使い分けたいときはどうしたら?
    • あー mecab バイナリと同じパラメータを文字列で MeCab::Tagger() に与えるってか
    • つか普通使い分けとかそういうことは考えない?
    • MeCab に突っ込む前に変換すりゃいいじゃん?
    • 変換のコストがバカにならない場合は?
  • 周辺ツールにはパスも通ってないし man もないし HTML 上にもほとんど情報がない

むーん。

MeCab の辞書構造と汎用テキスト変換ツールとしての利用

を見ても……。なんだろう。何かしようと思ったら辞書を構築すべし、ってことなの? 毎回辞書の構築なんてやってられないよね? よく見る方法はシステム辞書のディレクトリを -d で指定してるけど、ユーザー辞書は何に使うの?

むーん。

About

例によって個人のなんちゃらです

Recent Posts

Categories

Tool 日々 Web Biz Net Apple MS ことば News Unix howto Food PHP Movie Edu Community Book Security Text TV Perl Ruby Music Pdoc 生き方 RDoc ViewCVS CVS Rsync Disk Mail FreeBSD Cygwin PDF Photo Zebedee Debian OSX Comic Cron Sysadmin Font Analog iCal Sunbird DNS Linux Wiki Emacs Thunderbird Sitecopy Terminal Drawing tDiary AppleScript Life Money Omni PukiWiki Xen XREA Zsh Screen CASL Firefox Fink zsh haXe Ecmascript PATH_INFO SQLite PEAR Lighttpd FastCGI Subversion au prototype.js jsUnit Apache Trac Template Java Rhino Mochikit Feed Bloglines CSS del.icio.us SBS qwikWeb gettext Ajax JSDoc Rails HTML CHM EPWING NDTP EB IE CLI ck ThinkPad Toy WSH RFC readline rlwrap ImageMagick epeg Frenzy sysprep Ubuntu MeCab DTP ERD DBMS eclipse Eclipse Awk RD Diigo XAMPP RubyGems PHPDoc iCab DOM YAML Camino Geekmonkey w3m Scheme Gauche Lisp JSAN Google VMware DSL SLAX Safari Markdown Textile IRC Jabber Fastladder MacPorts LLSpirit CPAN Mozilla Twitter OpenFL Rswatch ITS NTP GUI Pragger Yapra XML Mobile Git Study JSON VirtualBox Samba Pear Growl Mercurial Rack Capistrano Rake Win RSS Mechanize Sitemaps Android JavaScript Python RTM OOo iPod Yahoo Unicode Github iTunes God SBM friendfeed Friendfeed HokuUn Sinatra TDD Test Project Evernote iPad Geohash Location Map Search Simplenote Image WebKit RSpec Phone CSV WiMAX USB Chrome RubyKaigi RubyKaigi2011 Space CoffeeScript Nokogiri Hpricot Rubygems jQuery Node GTD CI UX Design VCS Kanazawa.rb Kindle Amazon Agile Vagrant Chef Windows Composer Dotenv PaaS Itamae SaaS Docker Swagger Grape WebAPI Microservices OmniAuth HTTP 分析基盤 CDN Terraform IaaS HCL Webpack Vue.js BigQuery Middleman CMS AWS PNG Laravel Selenium OAuth OpenAPI GitHub UML GCP TypeScript SQL Hanami Document SVG AsciiDoc Pandoc DocBook Develop Jekyll macOS Node.js Vite Heroku Transformer AI Data Cloud Wasm