HTMLかどうかの判定にbodyだけでなくheaderも使う話

※ 実際には8月22日のできごと。

あるテキストデータが HTML かどうか(プレインテキストでないかどうか)を判別する処理の話で、

Hpricot を使っていたときはこう書いていた。

d = Hpricot( src )
d.inspect.include?( 'elem' )

これは Hpricot が

{elem {elem ...

って感じで要素の階層構造を表現してくれることに依存してるんだけど、あまりに乱暴かつ Nokogiri の場合はそっけなく

Nokogiri::XML::Document

だということしか分からないのでどうしようかと思っていた。で、どうしようって Twitter でつぶやいて返事をもらった瞬間に、

どうせ open-uri で取得したものなんだからメタデータで判別すればいいじゃん

と気づいたので、

.meta['content-type']

で確認するようにしてみた。これなら Hpricot か Nokogiri かに関わらず使える。うむ。なんて簡単なことだったのだ。

というわけで実際にできたのはこれ。

Commit 0ce737eb55f968a22f143244a3e7fbf8adf0d34f to wtnabe/pukiassist - GitHub

中身だけで判断しなければいけなくなったときが来たらそのとき考えよう。ちなみに、 /<html/i で判別する方法もなくはないんだけど、データの中に入ってくる可能性もあるかと思って却下としました。ないかもしんないけど、心配したくないしね。

More

Categories

Tool 日々 Web Biz Net Apple MS ことば News Unix howto Food PHP Movie Edu Community Book Security Text TV Perl Ruby Music Pdoc 生き方 RDoc ViewCVS CVS Rsync Disk Mail FreeBSD Cygwin PDF Photo Zebedee Debian OSX Comic Cron Sysadmin Font Analog iCal Sunbird DNS Linux Wiki Emacs Thunderbird Sitecopy Terminal Drawing tDiary AppleScript Life Money Omni PukiWiki Xen XREA Zsh Screen CASL Firefox Fink zsh haXe Ecmascript PATH_INFO SQLite PEAR Lighttpd FastCGI Subversion au prototype.js jsUnit Apache Trac Template Java Rhino Mochikit Feed Bloglines CSS del.icio.us SBS qwikWeb gettext Ajax JSDoc Rails HTML CHM EPWING NDTP EB IE CLI ck ThinkPad Toy WSH RFC readline rlwrap ImageMagick epeg Frenzy sysprep Ubuntu MeCab DTP ERD DBMS eclipse Eclipse Awk RD Diigo XAMPP RubyGems PHPDoc iCab DOM YAML Camino Geekmonkey w3m Scheme Gauche Lisp JSAN Google VMware DSL SLAX Safari Markdown Textile IRC Jabber Fastladder MacPorts LLSpirit CPAN Mozilla Twitter OpenFL Rswatch ITS NTP GUI Pragger Yapra XML Mobile Git Study JSON VirtualBox Samba Pear Growl Mercurial Rack Capistrano Rake Win RSS Mechanize Sitemaps Android JavaScript Python RTM OOo iPod Yahoo Unicode Github iTunes God SBM friendfeed Friendfeed HokuUn Sinatra TDD Test Project Evernote iPad Geohash Location Map Search Simplenote Image WebKit RSpec Phone CSV WiMAX USB Chrome RubyKaigi RubyKaigi2011 Space CoffeeScript Nokogiri Hpricot Rubygems jQuery Node GTD CI UX Design VCS Kanazawa.rb Kindle Amazon Agile Vagrant Chef Windows Composer Dotenv PaaS Itamae SaaS Docker Swagger Grape WebAPI Microservices OmniAuth HTTP 分析基盤 CDN Terraform IaaS HCL Webpack Vue.js BigQuery Middleman CMS AWS PNG Laravel Selenium OAuth OpenAPI GitHub UML GCP TypeScript SQL Hanami Develop Document Jekyll