データ分類とは何ですか? ガイドラインとプロセス

ユーザーが毎日何百万ものファイルと電子メールを作成する10,000人の組織のCISOであると想像してください。 その情報のいくつかは非常に機密性が高いです—漏洩または盗まれた場合、あなたは見出しを作る違反と七桁の罰則に直面しています。 しかし、毎日作成されたデータのほとんどは、事件なしにタイムズのフロントページに公開することができました。

どの情報が軍事レベルの保護を必要としているかわからない場合、リスク軽減の優先順位を付けたり、プライバシー法を遵守したりすることは事実上不可能な場合があります。 それがデータ分類の出番です。

データ分類の定義

データ分類の図

データ分類は、構造化または非構造化データを分析し、ファイルの種類、内容、およびその他のメタデータに基づいてカテゴ

データ分類は、組織がリスクを軽減し、データガバナンスポリシーを管理する方法を知らせるデータに関する重要な質問に答えるのに役立ちます。 最も重要なデータをどこに保存しているのか、ユーザーが最も頻繁に作成する機密データの種類を伝えることができます。 最新のデータプライバシー規制を遵守するには、包括的なデータ分類が必要です(ただし、十分ではありません)。

DCEおよびDW構成のスクリーンショット

データ分類ソフトウェアにより、組織は組織の利益に関連する情報を識別することができます。 たとえば、ネットワーク上の”Szechuan Sauce”へのすべての参照を検索したり、法的発見のために”glyphosate”のすべての言及を検索したり、ネットワーク上のすべてのHIPAA関連ファ

データプライバシー規制を遵守するために、組織は通常、データストア上の個人識別情報(PII)を発見するために分類プロジェクトを立ち上げ、それが適切に管

データ分類はデータ索引付けと同じではありませんが、両者の間にはいくつかの類似点があります。 どちらも、キーワードやコンセプトに関連するかどうかを決定するためにコンテンツを見る必要がありますが、分類は必ずしも検索可能なインデック

多くの場合、分類結果には、オブジェクトの内容のインデックスを格納せずに、オブジェクト名と一致したポリシーまたはパターンが一覧表示されます:

  • オブジェクト:顧客。xls
  • 一致したパターン: カリフォルニア州の運転免許証(CCPA)、アメリカン-エキスプレス(PCI-DSS)

一部のデータ分類ソリューションでは、データ主体アクセス要求(DSAR)および忘れられる権利要求を満たすために、迅速かつ効率的な検索を可能にするインデ

データ分類の目的

データ分類の図

ファイル分析ソフトウェアの最新マーケットガイドでは、Gartnerは四つの高レベルのユースケースをリストしています:

  • リスク軽減
    • 個人を特定できる情報(PII)へのアクセスを制限
    • 知的財産(IP)への場所とアクセスを制御
    • 機密データへの攻撃表面積を減らす
    • DLP
  • ガバナンス/コンプライアンス
    • GDPR、HIPAA、CCPA、PCI、SOX、および将来の規制に準拠したデータの特定
    • 保護されたデータにメタデータタグを適用して追加の追跡と制御を可能にする
    • 検疫、法的保持を可能にする, アーカイブおよびその他の規制-必要な措置
    • は、”忘れられる権利”およびデータ主体のアクセス要求(DSARs)を容易にします)
  • 効率性と最適化
    • は、タイプ、使用状況などに基づいてコンテンツへの効率的なアクセスを可能にします。
    • 古くなったデータや冗長なデータを発見して排除
    • 使用頻度の高いデータをより高速なデバイスやクラウドベースのインフラストラクチャに移動
  • 分析
    • メタデータのタグ付けを有効にしてビジネス活動を最適化
    • データの場所と使用状況について組織に通知する

データを分類することは、基本的な最初のステップですが、上記のユースケースの多くを達成するために意味のある行動を取るには、通常は十分ではないこ アクセス許可やデータ使用アクティビティなどのメタデータストリームを追加すると、分類結果を使用して主要な目標を達成する能力が大幅に向上しま

ファイルサーバーのスクリーンショット

Varonis Data Security Platformの最も人気のある機能の一つは、すべての従業員にも公開されている機密データのサブセットを明

データ感度レベル

データ感度レベルのイラスト

組織は、さまざまなタイプの分類されたデータをどのように扱うかを区別するために、データ感度レベ たとえば、米国政府には7つのレベルの分類があります。 彼らは、最高から最低までです:

  1. 制限されたデータ/以前の制限されたデータ
  2. コードワード分類
  3. トップシークレット
  4. 秘密
  5. 機密
  6. パブリックトラスト
  7. 制御された未分類情報(CUI)

Center for Internet Security(CIS)では、分類感度レベルが高、中、低の場合、「機密」、「ビジネス機密」、および「公開」という用語を使用しています。

分類の3つのレベルは、通常、ほとんどの組織のための右の番号です。 三つ以上のレベルは、維持することが困難である可能性が複雑さを追加し、三つ未満はあまりにも単純化され、不十分なプライバシーと保護につながる可

以下は、三つの感度レベルを持つ分類タクソノミの推奨される定義です:

  • 高感度データ:GDPR、CCPA、HIPAAなどの法律で保護されていることが多く、違反した場合に個人または組織に重大な害を及ぼす可能性があるため、厳格なアクセ
  • 中感度データ: 内部使用のみを目的としていますが、データ侵害の影響は壊滅的なものではありません。 例としては、開発中の商業ビルへの識別不能な人事データや建築計画があります。
  • 低感度データ:低感度データは、アクセス制限を必要としない公開情報です。 例としては、公開webページ、求人投稿、ブログ投稿などがあります。

異なる命名法を使用することができ、ユースケースに応じて三つ以上のカテゴリを持つことができます。

データ分類のタイプ

データ分類のタイプのイラスト

データ分類プロセスを実装するときに従うべき二つの主要なパラダイムがあります。 他にもありますが、ユースケースの大部分はこれらのカテゴリのいずれかに分類されます。 作成したデータを分類してユーザーにタスクを実行することも、自動化されたソリューションを使用してユーザーのためにタスクを実行することもできます。

User

ユーザーに自分のデータを分類するようにタスクするときは、感度レベルを定義し、各レベルを識別するようにユーザーを訓練し、作成したすべての新し

財務履歴スクリーンショット

ほとんどの分類システムは、ユーザーによってタグ付けされた機密データを追跡および保護するデータ損失防止(DLP)ソフ DLPポリシーの例では、”高感度”とタグ付けされたファイルがDropboxにアップロードされないようにすることができます。

ユーザー分類の利点は、人間が情報が敏感であるかどうかを判断するのがかなり得意であることです。 適切なツールと理解しやすいルールを使用すると、分類の精度は非常に優れていますが、ユーザーの勤勉さに大きく依存し、データ作成に追いつくためにスケー

手動でデータにタグを付けるのは面倒で、多くのユーザーはタスクを忘れたり無視したりします。 また、大量の既存のデータ(またはマシンで生成されたデータ)がある場合、ユーザーに履歴データを遡って遡及的にタグ付けすることは非常に困難です。

自動化された

自動化されたデータ分類エンジンは、ファイルパーサーと文字列解析システムを組み合わせてファイル内のデータを検索します。 ファイルパーサーを使用すると、データ分類エンジンは、いくつかの異なる種類のファイルの内容を読み取ることができます。 次に、文字列解析システムは、ファイル内のデータを定義された検索パラメータに照合します。

自動分類は、ユーザーベースの分類よりもはるかに効率的ですが、精度はパーサーの品質に依存します。 Varonisのデータ分類エンジンには、結果を検証し、偽陽性を減らすのに役立ついくつかの重要な機能、すなわちテキストの近接性、除外キーワード、一致範囲、および

edit rule screenshot

自動分類製品を選択する際には、精度、効率、スケーラビリティに加えて、重要な考慮事項があります。 何百もの大規模なデータストアがある環境では、スキャンするストアのリソースをあまり消費せずに複数のシステムに一度に取り組むことができるよ

大規模なマルチペタバイト環境の最初の分類スキャンを完了する時間は重要な場合があります。 真の増分スキャンは、後続のスキャンを高速化するのに役立ちます。 Varonisはすべてのデータの作成/変更を監視するため、スキャンエンジンは、以前のスキャン以降に新しく作成または変更されたファイルのみをスキャンし、各

一部の分類エンジンは、分類する各オブジェクトのインデックスを必要とします。 記憶域容量が問題になる場合は、インデックスを必要としないエンジン、または特定のポリシーまたはパターンに一致するオブジェクトのみをインデ

組織は、どちらか一方、またはユーザー分類と自動化分類の両方の組み合わせで解決することができます。 データ保護に従事するためのトレーニングと機能をユーザーに提供することは常に良いことであり、物事が亀裂を通過しないように自動化をフォローアップす

データ分類プロセス

データ分類プロセス

データ分類プロセスは、プロジェクトの目的によって若干異なります。 ほとんどのデータ分類プロジェクトでは、企業が毎日作成する驚異的な量のデータを処理するために自動化が必要です。 一般的に、データ分類の取り組みを成功させるためのベストプラクティスがいくつかあります。

1。 データ分類プロセスの目的を定義する

  • あなたは何を探していますか? どうして?
  • どのシステムが初期分類フェーズのスコープ内にありますか?
  • あなたの組織にはどのようなコンプライアンス規制が適用されますか?
  • あなたが取り組みたい他のビジネス目標はありますか? (例えば、リスク軽減、ストレージの最適化、分析)

2. データ型の分類

  • 組織が作成するデータの種類を特定する(顧客リスト、財務記録、ソースコード、製品計画など)
  • 専有データと公開データの境界線を描く
  • GDPR、CCPA、またはその他の規制されたデータを見つけることを期待していますか?

3. 分類レベルを設定する

  • 必要な分類レベルはいくつですか?
  • 各レベルを文書化し、例を提供
  • データを分類するためにユーザーを訓練する(手動分類が計画されている場合)

4. 自動分類プロセスの定義

  • 最初にスキャンするデータに優先順位を付ける方法を定義する(たとえば、古いものよりもアクティブ、保護されたものよりも

5. カテゴリと分類基準を定義する

  • 高レベルのカテゴリを定義し、例を提供します(例:,PII,PHI)
  • 適用可能な分類パターンとラベルを定義または有効にする
  • ユーザー分類と自動化された結果の両方を確認および検証するプロセスを確立する

6. 分類されたデータの結果と使用法を定義する

  • リスク軽減ステップと自動化されたポリシーを文書化する(例: 180日間使用されていない場合は、機密データを含むフォルダからグローバルアクセスグループを自動的に削除します)
  • 分類結果に分析を適用するプロセスを定義します
  • 分析分析から期待される結果を確立します

7. 監視と保守

  • 新規または更新されたデータを分類するための継続的なワークフローを確立する
  • 分類プロセスを確認し、ビジネスや新しい規制の変更によ たとえば、データ内のすべてのVISAクレジットカード番号を検索する場合、正規表現は次のようになります:
    \b(?<!)(4\d{3}\d{4}\d{4}\d{4}\b|4\d{12}(?:\d{3})?)\b

    このシーケンスは、’4’で始まり、’-で区切られた4つの四重奏を持つ16文字の数字を探します。 正規表現に一致する文字列のみが直接肯定的な結果を生成します。 さらに一歩進んで、この結果はLuhnアルゴリズムによって検証することができます。

    ここでは、正規表現だけでは仕事をしない場合があります。 この正規表現は、検証された電子メールアドレスを検索しますが、個人用電子メールとビジネス電子メールを区別できません:

    expression screenshot

    より洗練されたデータ分類ポリシーでは、正規表現を使用してパターンマッチングを行い、辞書検索を適用して、Gmail、Outlookなどの個人用電子メールアドレ

    テキスト内のパターンを探す正規表現に加えて、多くのパーサーはファイルのメタデータ(ファイル拡張子、所有者、拡張プロパティなど)を調べて分類を決定し 一部のスキャンエンジンは、ファイルの内容を超えてアクセス許可と使用状況を分類ルールに組み込むのに十分な堅牢性を備えています。

    高度なデータ分類は、機械学習を使用して、辞書や正規表現で構成される事前定義されたルールやポリシーにのみ依存せずにデータを検索します。 たとえば、機械学習アルゴリズムに1,000の法的文書のコーパスを供給して、典型的な法的文書がどのように見えるかをエンジンに訓練することがで エンジンは、文字列の一致に依存せずに、モデルに基づいて新しい法的文書を検出できます。

    データ分類のベストプラクティス

    大規模なデータ分類ポリシーを実装および実行する際に従うべきベストプラクティスをいくつか示します。

    • 組織に適用されるコンプライアンス規制やプライバシー法を特定し、それに応じて分類計画を構築
    • 現実的なスコープ(海を沸騰させない)と緊密に定義されたパターン(PCI-DSSなど)
    • 自動化されたツールを使用して大量のデータを迅速に処理
    • 必要に応じてカスタム分類ルールを作成しますが、ホイールを再発明しないでください
    • 必要に応じて分類ルール/レベルを調整する
    • 分類結果を検証する
    • 結果を最適に使用し、分類を次のように適用する方法を理解する データセキュリティからビジネスインテリジェンス

    データ分類は、全体的なデータ保護戦略の一部です。 どのデータが機密であるかを知ったら、そのデータにアクセスできるユーザーと、そのデータに常に何が起こっているかを把握します。 そうすれば、機密データを保護し、組織が不幸な見出しに表示されないようにすることができます。

    データ分類リソース

    • スケールでデータ分類を行う方法
    • データ分類のヒント: クレジットカード番号の検索
    • データ分類ラベル
    • CCPA分類
    • データプライバシー
    • データガバナンス

    データ分類は複雑である必要はありません。 Varonisには、事前に構築されたルール、インテリジェントな検証、およびほとんどの作業を行うために必要な近接マッチングがあります。 このマスタークラスをチェックして、顧客が機密データをどのように分類するかを確認してください。

コメントを残す

メールアドレスが公開されることはありません。