データ活用設計のシフトレフト

何を今さらシリーズ。

データの安全性、共有可能性には段階がある

「一部」のグレードがもっと細かくなるかどうかの違いはあるにせよ、基本は以下のような3段階になるはず。

  1. 一部の人のみ利用可能なデータ
  2. 一定までの配慮で共有可能なデータ
  3. 完全に公開、共有可能なデータ

データ共有が始まると共有物は無限に増える

多くの場合、組織は 1 ではなく 2 のグレーな状態のデータを扱っている。具体的にはさすがに社内限定くらいはなんとなく思っているが、特定の業務に携わっている人のみ限定して閲覧可能、みたいなもデータも当然増えてくる。(例えば個人情報、プライバシー情報など)

広がったデータに対して課題が見つかったらどうする?

例えば上図のレポート3の部分で課題を見つけた人がいたとする。

これがレポート3の固有の問題ではなく、同じデータをレポート3’ でもレポート3’’ でも利用していることが分かった場合は修正が必要になるかもしれないし、他の関連しないはずのレポートでも、同じデータを利用しているのだから、少なくともチェックは必要になってしまう。

このようなレポートは基本的に増えることはあってもなかなか減らないはずなので、このデータのツリー上の各ノードで対処を考えるようにすると対象となるレポートを数え挙げ切れるとは限らないので一言で言うなら無限と考えてよい。(もちろん実際には有限だけど。)

つまり、対応方法としては不適切と言える。

定義に立ち返る

ここでセキュリティの業界で考え方の一つとしてすでに普及しているシフトレフトに沿って考えると、

ノードではなくルートに近い位置の設計を安全に倒す方がリスクは小さくなり、時間を含む対応のコストも小さくなる

はずなので、以下のように方針が成り立つはず。

  • 元データへの直接アクセスをやめる
  • そもそも権限と内容を適切に設定されたデータを用意し、それを利用したレポート作成などの活用を行う
  • 以降の派生はもともとのアクセス権と内容に従うようにする

図にするとこんな感じ。

運用については、例えば秘匿性の高いデータを扱うメンバーの管理者がそのデータへのアクセス許可もコントロールするのが素直な設計と言えるだろう。

More