2018-11-13

jq -cとawkでndjsonを本来のJSONにする

[追記] 予想通り、このスクリプトは不要でした!

| jq <filter> | jq -s

でイケます! ポイントは jq と jq -s を分けること! jq -s はレコード指向ではなく全体をまるっと扱うオプションなんだけど、おかげで filter の指定方法が変わってしまう。しかし「抽出、加工」と「整形」を分けてしまうことでその問題も解決できちゃう。

さすがっす…。


改めてまとめると、jq の出力だけに注目すると

default謎の format
-cndjson
-sいわゆるJSON

ただし、-s オプションは filter の動作も変わってしまうので、

jq <filter> | jq -s

で出力するとよい。


以下は要らんドヤりでっす!

jq は JSON の中から欲しいデータを抽出したりできる便利なコマンドなんだけど、そのまま出力すると NDJSON ( Newline Delimitted JSON ) のようなものになる。

{
  "key": "value"
}
{
  "key2": 2
}
{
  "key": null
}

このように Array を意味する "[" "]" もその区切りの "," もない形になってしまう。

ndjson

正確には1行1レコードじゃないので NDJSON とも呼べなくて、こういう微妙なフォーマットをデフォルトにされると他のツールと互換性がなくなってしまうので嬉しくない。

そこでいわゆる本来の JSON にしたい場合はちょっと工夫が必要になる。

※ もしかしたら jq 自身にそういうオプションがあるかもしれないので、その場合は以下のコードは無駄です。

jq には -c オプションがあるので、これを使って出力すると余計な改行などがカットされて正しく NDJSON になる。そのうえで、こんな awk スクリプトを用意して、

#! /usr/bin/awk -f

BEGIN {
    print "["
}

{
    if ( last_line ) { print last_line  "," }
    last_line = $0
}

END {
    print last_line
    print "]"
}

以下のように

| jq -c <filter> | awk -f nd2purejson.awk

みたいなことをして各行のお尻に "," を付加して [ と ] で挟んでやれば ok.

awk はこんな風に面倒なロジックを考えずにちょっとした工夫で加工が済んじゃうのがいいんだよねぇ。

今回の工夫は今読み込んだ行を出力するのではなく、さっき読み込んだ行を出力するようにタイミングをずらしてやると、最後の END で自動的に最終行だけ異なる出力にすることができるというもの。これでいわゆる「ケツカンマ」を避けて正しい JSON を作ることができる。

※ 逆に JSON は jq -c . だけで NDJSON になるよという話でもあるんだけど、さすがにこれだけで独立したエントリ書くのははばかられますな。

About

例によって個人のなんちゃらです

Recent Posts

Categories

Tool 日々 Web Biz Net Apple MS ことば News Unix howto Food PHP Movie Edu Community Book Security Text TV Perl Ruby Music Pdoc 生き方 RDoc ViewCVS CVS Rsync Disk Mail FreeBSD Cygwin PDF Photo Zebedee Debian OSX Comic Cron Sysadmin Font Analog iCal Sunbird DNS Linux Wiki Emacs Thunderbird Sitecopy Terminal Drawing tDiary AppleScript Life Money Omni PukiWiki Xen XREA Zsh Screen CASL Firefox Fink zsh haXe Ecmascript PATH_INFO SQLite PEAR Lighttpd FastCGI Subversion au prototype.js jsUnit Apache Trac Template Java Rhino Mochikit Feed Bloglines CSS del.icio.us SBS qwikWeb gettext Ajax JSDoc Rails HTML CHM EPWING NDTP EB IE CLI ck ThinkPad Toy WSH RFC readline rlwrap ImageMagick epeg Frenzy sysprep Ubuntu MeCab DTP ERD DBMS eclipse Eclipse Awk RD Diigo XAMPP RubyGems PHPDoc iCab DOM YAML Camino Geekmonkey w3m Scheme Gauche Lisp JSAN Google VMware DSL SLAX Safari Markdown Textile IRC Jabber Fastladder MacPorts LLSpirit CPAN Mozilla Twitter OpenFL Rswatch ITS NTP GUI Pragger Yapra XML Mobile Git Study JSON VirtualBox Samba Pear Growl Mercurial Rack Capistrano Rake Win RSS Mechanize Sitemaps Android JavaScript Python RTM OOo iPod Yahoo Unicode Github iTunes God SBM friendfeed Friendfeed HokuUn Sinatra TDD Test Project Evernote iPad Geohash Location Map Search Simplenote Image WebKit RSpec Phone CSV WiMAX USB Chrome RubyKaigi RubyKaigi2011 Space CoffeeScript Nokogiri Hpricot Rubygems jQuery Node GTD CI UX Design VCS Kanazawa.rb Kindle Amazon Agile Vagrant Chef Windows Composer Dotenv PaaS Itamae SaaS Docker Swagger Grape WebAPI Microservices OmniAuth HTTP 分析基盤 CDN Terraform IaaS HCL Webpack Vue.js BigQuery Middleman CMS AWS PNG Laravel Selenium OAuth OpenAPI GitHub UML GCP TypeScript SQL Hanami Document SVG AsciiDoc Pandoc DocBook Develop Jekyll macOS Node.js Vite Heroku Transformer AI Data Cloud Wasm