ビッグデータは、データの量、ワークロード、ツールの管理に新たな課題をもたらしました。ますます増大するデータの保護は、情報ライフサイクル全体に対応する優れたガバナンスモデルを採用することから始まります。その後で、さまざまな脆弱性に対応するため特定の制御を導入すればよいのです。すべての課題に確実に対応するために役立つ質問を紹介します。
1. リスクと価値が高いデータはどれか?
データの分類は、労力がかかりますが避けて通れない作業です。最も価値または機密性が高いデータには最高レベルのセキュリティが必要な為、分類は当然必要です。ビジネス部門チームは、法務およびセキュリティ担当者と協力して適切にデータを分類しなければなりません。明確に定義された分類システムを確立するとともに、データ管理者も決定してください。データの所有者を決めなければ、データの管理や適切な使用に対する説明責任の所在がわからず、情報ライフサイクルポリシーの適用も難しくなります。
2. どのようなデータの保持/削除ポリシーを採用しているか?
どの企業にもデータの保持方法や保持期間に関する明確な方針が必要です。他の優れたポリシーがそうであるように、このポリシーも誰もが遵守できるように明確化して施行し、遵守を徹底する必要があります。
データ量が多いほどビジネスの可能性が高まりますが、同時にリスクも高まります。そのリスクを低減する最初のステップは、不要なデータの削除です。これは情報ライフサイクル管理の基本原則です。目的を持たないデータは負担になるだけです。プライバシー面のこの負担を減らす方法の1つは、データを保管する前に匿名化技法を適用することです。そうすれば、傾向を探るためにデータを使用できる一方で、データが特定の個人に関連付けられることがなくなります。匿名化はあらゆるビジネスニーズに適切というわけではありませんが、利用できるようにしておくと便利です。
3. 誰がどのデータにアクセスするかをどのように追跡しているか?
データとデータにアクセスするユーザーの追跡する方法は、セキュリティの基本的要素です。分析プログラムが成功するにつれ、機密性の高いデータに遭遇する機会が増えるため、追跡機能があらかじめ装備されたツールとストレージメカニズムは最初から導入しておく必要があります。最初に適切な追跡ツールを導入しておかないと、後からこうしたツールを追加するのは困難です。
4. ユーザーは自社のデータのコピーを作成しているか?
もちろんです。データはコピーされています。分析を高速化するためにデータベースのローカルコピーを作成している部門もあれば、Excelスプレッドシートにデータをコピーしているユーザーもいるかもしれません。
ですから、次に回答を確認すべき質問は、「このプロセスのガバナンスモデルはどうなっているか?」「新しいコピーとこのリソースの管理者には制御ポリシーがどのように引き継がれるか?」です。組織としてのこの質問への回答を明確化することで、機密情報が徐々に安全性の低いリポジトリに移行されていっても漏えいを防止できるようになります。
5. どのようなタイプの暗号化およびデータ整合性メカニズムが必要か?
暗号化の強度、ハッシュ、ソルトといった技術的問題の前に対応すべき見過ごされがちな質問があります。
- 現在の暗号化は本当にエンドツーエンドで行われているか?データの取得から暗号化までの間や、データが分析のために復号される時点で脆弱な時間帯はないか?世間の注目を浴びたデータ侵害の多くは、ハッカーがデータを取得した時点で発生しています。
- 使用している暗号化手法は環境全体でシームレスに機能しているか?
- 暗号鍵は安全に保管、管理しているか?これらの鍵には誰がアクセス権を持っているか?
暗号化によってデータを窃盗から保護することはできますが、データの整合性は保証されません。一部のユースケースでは、独立したデータ整合性保持手法が必要です。データ量も使用するデータソースも増加しているため、こうした手法の重要性はますます高まっています。たとえば、データポイズニングやデータ汚染のリスクを低減するために、企業は予期する量、サイズ、パターンと一致しない受信データに自動的にチェックフラグを付ける機能を導入できます。
6. 独自のアルゴリズムやデータ分析手法を採用している場合は、アルゴリズムと手法をどのように保護しているか?
保護しているのは発見した内容ですか?それだけでは不十分です。見逃されやすいのは、その発見にたどり着いた手段の保護です。競争が激しい業界においては、優れたアルゴリズムが非常に価値の高い知的財産になります。
重要視されるのはデータとシステムですが、分析手法は法的にも技術的にも同レベルの保護を受けるに値します。このタイプの情報を安全に扱う計画の検討や立案を行っていますか?
7. 分析コンピューティングクラスタ内のすべての物理ノードと仮想ノードのセキュリティ体制はどのように検証しているか?
ビッグデータ分析では、多くの場合分散コンピューティングのパワーを活用します。不正なノードや感染したノードは、クラスタ内のデータ漏えいを引き起こす可能性があります。したがって、ハードウェアベースの制御を考慮すべきです。
8. モノのインターネットセンサーによって生成されたデータを使用しているか?
IoTとの関連で重要なのは、エッジからデータセンターまでのデータを一貫して確実に保護することです。特にプライバシー関連のデータには注意が必要です。IoTセンサーは独自のセキュリティの課題をもたらす可能性があります。ゲートウェイやその他のエッジデバイスはすべて十分に保護されていますか?産業デバイスはパッチに適用が難しく、脆弱性管理プロセスの成熟度が低い場合があります。
9. 分析プログラムでクラウドはどのような役割を果たしていますか?
データのホスティングや処理を行う業者の契約義務や内部ポリシーを再確認してください。これらの業者がどのような物理的な場所を使用しているか、これらの施設は一貫した(論理的および)物理的セキュリティ制御で保護されているかを把握することが重要です。その地理的な場所は、法規制コンプライアンスプログラムに影響を及ぼす場合があります。
10. IT組織内の誰がビッグデータツールセットに関する特別なセキュリティスキルと知識を習得していますか?
プロジェクトのリスト、データセット、ツール群は経時的に増大していきます。社員が環境内の知識を習得するほど、セキュリティに関してさらに重要な質問が生まれるようになります。
元の投稿については、Dark Reading(英文)を参照してください。
※本ページの内容は2016年5月3日更新のMcAfee Blog の抄訳です。
原文: 10 Questions To Ask Yourself About Securing Big Data
著者: Vincent Weafer (Senior Vice President)
【参考資料】
Dark Reading