2010-07-31

pbzip2は標準入出力を扱っても速い(ただし1.1.0以降)

feed消化していて思い出したけど pbzip2 を試そうと思っていたんだった。

Parallel BZIP2 (PBZIP2)

いろいろな都合でディスクを節約したいということで tar アーカイブを転送しながら pbzip2 で圧縮するという想定で、cpio と組み合わせて以下のように試してみた。(フォーマットを tar にしていないのは長過ぎるファイル名のものがあるため。)

ちなみに stdin から入力を与えて正しく並列に処理できるのは 1.1.0 かららしい。今(2010-07-31)のところ Debian は unstable にしか該当バージョンがないので、lenny の人も squeeze の人も恩恵には与れないはず。

試したのは MacBook ( Core 2 Duo ) + MacPorts の pbzip2 1.1.1 で対象はPC説教講座の素材とか。

結果、生成済みのファイルではなく標準入出力を使った場合でも pbzip2 の方が速かった。当たり前なんだろうけど、一応確認しないとね。

ということは

find FOO | cpio -o -H ustar | pbzip2 > FOO.tbz2

ってやると

tar jxf FOO.tbz2

で、展開できるアーカイブができあがる。こうなればある程度 portable と言っていいんじゃないかな?

なお、できあがる圧縮ファイルは bzip2 より微妙に pbzip2 の方が大きい。と言ってもほんとに微妙。gzip とは比べるまでもないので、この程度の差でスピードが確保できるなら十分すぎるほど実用的だと思う。

展開も pbzip2 を使った方が速いんだろうけど、最後は tar などに集約されてしまうので、どれだけ速くなるんだろう? これを書いているときは空いててそれなりの性能の出る機械がなかったので試してない。


実際に想定しているケースは

nc -l -p PORT | pbzip2 > FOO.tbz2

で待ってるホストに対して

find FOO | cpio -o -H ustar | nc HOST PORT

で飛ばして処理しようと思っている。rsync の方が転送効率はいいし安心なんだろうけど、ベタにディスクスペースを食っちゃうのを避けたいという、とても姑息なことを考えている状態。

※ と思ったら想定していた remote の機械はマルチプロセッサ、マルチコアじゃないから速くならなかった! あほか!

About

例によって個人のなんちゃらです

Recent Posts

Categories

Tool 日々 Web Biz Net Apple MS ことば News Unix howto Food PHP Movie Edu Community Book Security Text TV Perl Ruby Music Pdoc 生き方 RDoc ViewCVS CVS Rsync Disk Mail FreeBSD Cygwin PDF Photo Zebedee Debian OSX Comic Cron Sysadmin Font Analog iCal Sunbird DNS Linux Wiki Emacs Thunderbird Sitecopy Terminal Drawing tDiary AppleScript Life Money Omni PukiWiki Xen XREA Zsh Screen CASL Firefox Fink zsh haXe Ecmascript PATH_INFO SQLite PEAR Lighttpd FastCGI Subversion au prototype.js jsUnit Apache Trac Template Java Rhino Mochikit Feed Bloglines CSS del.icio.us SBS qwikWeb gettext Ajax JSDoc Rails HTML CHM EPWING NDTP EB IE CLI ck ThinkPad Toy WSH RFC readline rlwrap ImageMagick epeg Frenzy sysprep Ubuntu MeCab DTP ERD DBMS eclipse Eclipse Awk RD Diigo XAMPP RubyGems PHPDoc iCab DOM YAML Camino Geekmonkey w3m Scheme Gauche Lisp JSAN Google VMware DSL SLAX Safari Markdown Textile IRC Jabber Fastladder MacPorts LLSpirit CPAN Mozilla Twitter OpenFL Rswatch ITS NTP GUI Pragger Yapra XML Mobile Git Study JSON VirtualBox Samba Pear Growl Mercurial Rack Capistrano Rake Win RSS Mechanize Sitemaps Android JavaScript Python RTM OOo iPod Yahoo Unicode Github iTunes God SBM friendfeed Friendfeed HokuUn Sinatra TDD Test Project Evernote iPad Geohash Location Map Search Simplenote Image WebKit RSpec Phone CSV WiMAX USB Chrome RubyKaigi RubyKaigi2011 Space CoffeeScript Nokogiri Hpricot Rubygems jQuery Node GTD CI UX Design VCS Kanazawa.rb Kindle Amazon Agile Vagrant Chef Windows Composer Dotenv PaaS Itamae SaaS Docker Swagger Grape WebAPI Microservices OmniAuth HTTP 分析基盤 CDN Terraform IaaS HCL Webpack Vue.js BigQuery Middleman CMS AWS PNG Laravel Selenium OAuth OpenAPI GitHub UML GCP TypeScript SQL Hanami Document SVG AsciiDoc Pandoc DocBook Develop Jekyll macOS Node.js Vite Heroku Transformer AI Data Cloud Wasm