HTMLかどうかの判定にbodyだけでなくheaderも使う話

※ 実際には8月22日のできごと。

あるテキストデータが HTML かどうか(プレインテキストでないかどうか)を判別する処理の話で、

Hpricot を使っていたときはこう書いていた。

d = Hpricot( src )
d.inspect.include?( 'elem' )

これは Hpricot が

{elem {elem ...

って感じで要素の階層構造を表現してくれることに依存してるんだけど、あまりに乱暴かつ Nokogiri の場合はそっけなく

Nokogiri::XML::Document

だということしか分からないのでどうしようかと思っていた。で、どうしようって Twitter でつぶやいて返事をもらった瞬間に、

どうせ open-uri で取得したものなんだからメタデータで判別すればいいじゃん

と気づいたので、

.meta['content-type']

で確認するようにしてみた。これなら Hpricot か Nokogiri かに関わらず使える。うむ。なんて簡単なことだったのだ。

というわけで実際にできたのはこれ。

Commit 0ce737eb55f968a22f143244a3e7fbf8adf0d34f to wtnabe/pukiassist - GitHub

中身だけで判断しなければいけなくなったときが来たらそのとき考えよう。ちなみに、 /<html/i で判別する方法もなくはないんだけど、データの中に入ってくる可能性もあるかと思って却下としました。ないかもしんないけど、心配したくないしね。

GeohashのグリッドをGoogle Maps上に再現するツール書いた

一ヶ月ほど前に Geohash を知って以来とても興味深く思っていたんだけど、ふと「グリッド」に自由が利かなくて不便な気もして、とりあえず直感的に目視できるツールが欲しくなったので作ってみた。

できること

  • Geohash を与えるとそれを Google Maps 上に展開する
  • 現在の Geohash と Map の Zoom level を表示
  • Map を scroll させるとちゃんと Geohash のグリッドが追随する
  • 上の情報を Fragment ID と同期しているので URL を人に渡せる
  • ついでに Geocoding も

必要なもの

  1. davetroy's geohash-js at master - GitHub から geohash.js
  2. Rake
    • 上の geohash.js の取得や初期値などの反映に必要。ただし手で書いてもらってもよい。

入手

gist: 541945 - Geohash Visualizer- GitHub

から git clone か download でどうぞ。

すぐに動かしたい人向け

Geohashエリア確認ツール

に置きました。iPhone でも試せるサイズにしてあります。

感想

Rake むずい。でも便利。

じゃなくて。

Geohash は面白いんだけど、例えば「金沢駅西エリア」を人間の意図通りに一つの Hash 文字列で表現するのはちょっと難しい。(四つ合わせると金沢駅周辺を表現することはできる。)こうなると文字列の前方一致だけで包含関係を表せるという Geohash のメリットはちょっと微妙なんじゃないかと感じている。「○○周辺」みたいなボカした表現にせざるを得ないのかなぁ。カーナビならそれでもいいんだよな。

参考

複数のGeohashでどのようなエリアを作れるか確認できるツールを書いた

Hash と map と key の順序

[ruby-list:43857] Hashへの生成順は保障されないのか?

ここから、本人は放っといて Hash が順序を保持してくれると嬉しいときはある、いやいやそれはインタ−フェイスが似ていればいいんであって map 使えばいいじゃん?とか話が膨らむ辺りがステキなわけですが。

以前 PHP の array はマップだってマニュアルにも書いてある で触れたように、PHP 使いが他の環境に移ってまず最初に面食らうのはここじゃないかと思う。(SQL が分かるのならそれはそれでそんなもんだと思うかもしれない。)個人的には PHP の array は遅い遅いとかつて評判だった頃からこの map 方式の array にはいい印象を抱いていない。順序の保持は必ずしも人間の直感に従うわけではなく、例えばすでに生成された array の中身を書き換えた際、その添字が数値でないなら修正した値がいちばん最後になったりするわけです。

BEFORE

$a['foo'] = 'hoge';
$a['bar'] = 'fuga';

処理

$a['foo'] = 'hogege';

AFTER

$a['bar'] = 'fuga';
$a['foo'] = 'hogege';

みたいな1

これって、どうせ順序を「保持」するなら BEFORE の方を「保持」してほしくないすか?

こういう罠があるので、結局順序が必要な場合は別個に array で2保持しておいて、そこから key を取り出してそれを利用してアクセスする、という方法を採ってたりします。どうしても順序が大事な場合だけね。

※ ちなみに上の例に関しては、自分の扱ったものの中で実際に順序が思っていたのと違う場合があり、じゃあ別に持てばいいやとさっさと切り替えてしまったもので、その後深く追跡したりはしてないです。

つかむしろ PHP に素の Hash 欲しいです。その方が速いなら、だけど。

……。

なんと! Ruby 1.9 の Hash は順序を保持するパッチが入ってしまった! 当面は仕様として明記しないようです。

  1. 未テスト注意。あくまで感覚をつかんでもらうための例ですので。 

  2. PHP だと結局全部 array なんだけど 

IP Messenger が10周年らしい

IP Messenger 歴史と由来

によると 8月19日に ver.1.0 が出たらしい。個人的にはしばらく使わない時期があったけど、最近また使うようになってきたかな?

新機能は、ずばりユーザーリストの検索機能があると嬉しいデス。あと各種スクリプト言語のバインディングが登場して Ajax 版 IP messenger とか出たらさらに面白いかも。(言うのはタダ。)

情熱大陸「福山雅治」

福山はね、好きだけどきらいなんですよ。

好きな福山はええ声とラジオのバカキャラ。きらいなのは写真かな。これはできあがりがきらいなのではなく、恵まれすぎていると強く感じるから。ま、どうでもいいひがみなわけだけど。あとは特に興味もないというレベル(暴言)。正直、すごいとは少しも思わない。あちこちに顔を出し、どれもそつなくこなす感じは、近くにいたらきっと友だちにはなりたくないタイプだ。

しかし彼がエンターテイメントを提供する人間であるということを考えると、その一つ一つのことにこだわるのはたいした意味はないんだなぁと少し思わされた。

しかし男性ソロでトップセールスですか。失礼だけどすっげー意外。

インポート完了

手元のものやスラドのものを統合。あー疲れた。

About

例によって個人のなんちゃらです