2004-01-08

utf-8 なページ for Namazu

NKF でそれぞれのページを euc に変換してからわかち書きのプログラムに食わせるので、NKF の対応していないコードだと正しくインデックスを起こせない。

nkf は 2.02 以降で utf-8 対応を果たした。また、これに対応する NKF.pm も出ているので、NKF.pm と実際のライブラリバイナリを 2.02 以上に上げると utf-8 なページに対応できる。nkf の実行バイナリでインデックスを起こすと遅いので NKF.pm を選択しないメリットはない。FreeBSD では ports で入れられる。deb パッケージもあるので Debian も ok. あとは知らない。

Unicode 周り

Perl は 5.6.x 以降 unicode 対応だが、どうもデキが悪いらしく、5.8.1 以降が本命の様子。ただし、Perl はベースシステムに入っているので Debian で 5.8.x に上げるのはちと面倒。FreeBSD ではやってみてないけど、ports で入れる分には勝手にしろって感じじゃないのかな? ということで Debian では 5.6.1 のまま Jcode.pm をかますのが無難。Jcode.pm はパッケージですぐ入れられる。(ports もあるで。)Jcode.pm と use Encoding と両方で動くバージョンを書くのはさすがに大変か? だろうなぁ。

Ruby では Kconv が標準ライブラリなので unicode 以外の扱いは楽。unicode を扱う Uconv は別途インストールが必要だが、Debian パッケージ、ports ともに入っているのでインストールは楽。Ruby の場合は Uconv 前提でスクリプトを書くのがまだしばらくは主流だろう。

あ、PHP は mbstring モジュールが utf-8 対応なので、日本語を扱うために mbstring を有効にしたらそのまま Unicode が扱える。PHP がいちばん手厚いな。

IT系ニュースサイトが相次いでリニューアル

まぁ ZDNet Japan → ITmedia はずいぶん前に決まっていたので CNET はそれに合わせてデザインをリニューアルしようということになったのだと思いますが、どちらもちょっとデザインがあっさり目になりましたね。でも CNET の方はともかく、ITmedia は少し見にくくなったような。。。ナビゲーションは前より使いやすくなってるような気がするのですが、配色が以前と比べるとあまりにのっぺりしているので、どこに注目したらいいのかよく分からないんですよね。

白系のあっさり目の配色に移行したのは blog サイトの影響を受けているのかなぁとか思ったり。こういうサイトはデータと見た目が分離してるからデザインリニューアルは楽そうだなぁと思ったり。

About

例によって個人のなんちゃらです