Was ist Datenklassifizierung? Richtlinien und Prozess

Stellen Sie sich vor, Sie sind der CISO einer 10.000-köpfigen Organisation, in der Benutzer täglich Millionen von Dateien und E-Mails erstellen. Einige dieser Informationen sind hochsensibel – wenn Sie durchgesickert oder gestohlen werden, stehen Sie vor einem schlagzeilenträchtigen Verstoß und siebenstelligen Strafen. Die meisten der täglich erstellten Daten konnten jedoch ohne Zwischenfälle auf der Titelseite der Times veröffentlicht werden.

Es kann praktisch unmöglich sein, die Risikominderung zu priorisieren oder die Datenschutzgesetze einzuhalten, wenn Sie nicht wissen, welche Informationen einen militärischen Schutz erfordern. Hier kommt die Datenklassifizierung ins Spiel.

Definition der Datenklassifizierung

Illustration der Datenklassifizierung

Die Datenklassifizierung ist der Prozess der Analyse strukturierter oder unstrukturierter Daten und ihrer Organisation in Kategorien basierend auf Dateityp, Inhalt und anderen Metadaten.

Die Datenklassifizierung hilft Unternehmen bei der Beantwortung wichtiger Fragen zu ihren Daten, die Aufschluss darüber geben, wie sie Risiken mindern und Data Governance-Richtlinien verwalten. Es kann Ihnen sagen, wo Sie Ihre wichtigsten Daten speichern oder welche Arten von sensiblen Daten Ihre Benutzer am häufigsten erstellen. Eine umfassende Datenklassifizierung ist notwendig (aber nicht ausreichend), um den modernen Datenschutzbestimmungen zu entsprechen.

Screenshot der DCE- und DW-Konfiguration

Mit der Datenklassifizierungssoftware können Organisationen Informationen identifizieren, die für die Interessen einer Organisation relevant sind. Beispielsweise müssen Sie möglicherweise alle Verweise auf „Szechuan-Sauce“ in Ihrem Netzwerk finden, alle Erwähnungen von „Glyphosat“ suchen, um legal entdeckt zu werden, oder alle HIPAA-bezogenen Dateien in Ihrem Netzwerk markieren, damit sie automatisch verschlüsselt werden können.

Um die Datenschutzbestimmungen einzuhalten, starten Unternehmen in der Regel Klassifizierungsprojekte, um personenbezogene Daten (PII) in Ihren Datenspeichern zu ermitteln, damit Sie den Prüfern nachweisen können, dass sie ordnungsgemäß verwaltet werden.

Datenklassifizierung ist nicht dasselbe wie Datenindizierung, obwohl es einige Parallelen zwischen den beiden gibt. Während beide Inhalte betrachten müssen, um zu entscheiden, ob sie für ein Keyword oder ein Konzept relevant sind, erzeugt die Klassifizierung nicht unbedingt einen durchsuchbaren Index.

In vielen Fällen werden in den Klassifizierungsergebnissen der Objektname und die übereinstimmende Richtlinie oder das übereinstimmende Muster aufgeführt, ohne einen Index des Objektinhalts zu speichern:

  • Objekt: Kunden.xls
  • Übereinstimmende Muster: Kalifornischer Führerschein (CCPA), American Express (PCI-DSS)

Einige Datenklassifizierungslösungen erstellen einen Index, um eine schnelle und effiziente Suche zu ermöglichen, um Data Subject Access Requests (DSAR) und Right-to-be-Forgotten-Anfragen zu erfüllen.

Zweck der Datenklassifizierung

Illustration der Datenklassifizierung

Im neuesten Market Guide für Dateianalysesoftware listet Gartner vier hochrangige Anwendungsfälle auf:

  • Risikominderung
    • Beschränkung des Zugriffs auf personenbezogene Daten
    • Kontrolle des Standorts und des Zugriffs auf geistiges Eigentum
    • Reduzierung der Angriffsfläche auf sensible Daten
    • Integration der Klassifizierung in DLP und andere richtliniendurchsetzende Anwendungen
  • Governance /Compliance
    • Identifizieren von Daten, die der DSGVO, HIPAA, CCPA, PCI, SOX und zukünftigen Vorschriften unterliegen
    • Anwenden von Metadaten-Tags auf geschützte Daten, um zusätzliche Nachverfolgung und Kontrollen zu ermöglichen
    • Aktivieren von Quarantäne, Legal Hold, archivierung und andere gesetzlich vorgeschriebene Maßnahmen
    • Erleichterung des „Rechts auf Vergessenwerden“ und der Zugriffsanfragen von Datensubjekten (DSAR)
  • Effizienz und Optimierung
    • Ermöglichen Sie einen effizienten Zugriff auf Inhalte basierend auf Typ, Verwendung usw.
    • Entdecken und eliminieren Sie veraltete oder redundante Daten
    • Verschieben Sie stark genutzte Daten auf schnellere Geräte oder cloudbasierte Infrastrukturen
  • Analytics
    • Aktivieren Sie Metadaten-Tagging, um Geschäftsaktivitäten zu optimieren
    • Informieren Sie die Organisation über den Standort und die Verwendung von Daten

Es ist wichtig zu beachten, dass die Klassifizierung von Daten — obwohl sie ein grundlegender erster Schritt ist — in der Regel nicht ausreicht, um sinnvolle Maßnahmen zu ergreifen, um viele der oben genannten Anwendungsfälle zu erreichen. Das Hinzufügen zusätzlicher Metadatenströme wie Berechtigungen und Datennutzungsaktivitäten kann Ihre Fähigkeit, Ihre Klassifizierungsergebnisse zum Erreichen wichtiger Ziele zu verwenden, erheblich verbessern.

Screenshot von Dateiservern

Eine der beliebtesten Funktionen der Varonis Data Security Platform ist ein Dashboard, das die Teilmenge sensibler Daten anzeigt, die auch jedem Mitarbeiter ausgesetzt sind, sodass Sie genau wissen, wo Sie mit Ihren Bemühungen zur Risikominderung beginnen müssen.

Datenempfindlichkeitsstufen

Abbildungen von Datenempfindlichkeitsstufen

Organisationen legen häufig Datenempfindlichkeitsstufen fest, um zu unterscheiden, wie verschiedene Arten von klassifizierten Daten behandelt werden. Die Regierung der Vereinigten Staaten zum Beispiel hat sieben Klassifizierungsstufen. Sie sind, vom höchsten zum niedrigsten:

  1. Eingeschränkte Daten / Ehemals eingeschränkte Daten
  2. Codewortklassifizierung
  3. Streng geheim
  4. Geheim
  5. Vertraulich
  6. Öffentliches Vertrauen
  7. Kontrollierte nicht klassifizierte Informationen (CUI)

Das Center for Internet Security (CIS) verwendet die Begriffe „sensibel“, „geschäftlich vertraulich“ und „öffentlich“ für hohe, mittlere und niedrige Klassifizierungsempfindlichkeitsstufen.

Drei Klassifizierungsstufen sind normalerweise die richtige Zahl für die meisten Organisationen. Mehr als drei Ebenen erhöhen die Komplexität, die möglicherweise schwer zu pflegen ist, und weniger als drei sind zu simpel und können zu unzureichender Privatsphäre und unzureichendem Schutz führen.

Hier sind empfohlene Definitionen für eine Klassifikationstaxonomie mit drei Sensitivitätsstufen:

  • Hochsensible Daten: Erfordern strenge Zugriffskontrollen und Schutzmaßnahmen, da sie häufig durch Gesetze wie GDPR, CCPA und HIPAA geschützt sind und bei Verstößen einem Einzelnen oder der Organisation erheblichen Schaden zufügen können.
  • Daten mittlerer Empfindlichkeit: nur für den internen Gebrauch bestimmt, aber die Auswirkungen einer Datenverletzung sind nicht katastrophal. Beispiele sind nicht identifizierbare Personaldaten oder Architekturpläne zu einem in Entwicklung befindlichen Gewerbegebäude.
  • Daten mit geringer Empfindlichkeit: Daten mit geringer Empfindlichkeit sind öffentliche Informationen, für die keine Zugriffsbeschränkungen erforderlich sind. Beispiele hierfür sind öffentliche Webseiten, Stellenausschreibungen und Blogbeiträge.

Sie können unterschiedliche Nomenklaturen verwenden und je nach Anwendungsfall mehr als drei Kategorien haben.

Arten der Datenklassifizierung

Abbildungen der Arten der Datenklassifizierung

Bei der Implementierung eines Datenklassifizierungsprozesses sind zwei primäre Paradigmen zu beachten. Es gibt andere, aber die meisten Anwendungsfälle fallen in eine dieser Kategorien. Sie können Benutzer damit beauftragen, die von ihnen erstellten Daten zu klassifizieren, oder Sie können dies mit einer automatisierten Lösung für sie tun.

Benutzer

Wenn Sie Benutzer mit der Klassifizierung ihrer eigenen Daten beauftragen, müssen Sie Empfindlichkeitsstufen definieren, Ihre Benutzer darin schulen, jede Ebene zu identifizieren, und einen Mechanismus zum Markieren und Klassifizieren aller neuen Dateien bereitstellen, die sie erstellen.

Finanzhistorie Screenshot

Die meisten Klassifizierungssysteme bieten Integrationen zu Lösungen zur Durchsetzung von Richtlinien, wie z. B. DLP-Software (Data Loss Prevention), die sensible Daten, die von Benutzern markiert wurden, verfolgen und schützen. Eine Beispiel-DLP-Richtlinie möchte möglicherweise, dass Dateien mit dem Tag „Hohe Empfindlichkeit“ nicht in Dropbox hochgeladen werden.

Der Vorteil der Benutzerklassifizierung besteht darin, dass Menschen ziemlich gut beurteilen können, ob Informationen sensibel sind oder nicht. Mit geeigneten Werkzeugen und leicht verständlichen Regeln kann die Klassifizierungsgenauigkeit recht gut sein, hängt jedoch stark von der Sorgfalt Ihrer Benutzer ab und wird nicht skaliert, um mit der Datenerstellung Schritt zu halten.

Das manuelle Markieren von Daten ist mühsam und viele Benutzer werden die Aufgabe entweder vergessen oder vernachlässigen. Wenn Sie über große Mengen bereits vorhandener Daten (oder maschinengenerierter Daten) verfügen, ist es eine enorme Herausforderung, Benutzer dazu zu bringen, historische Daten rückwirkend zu markieren.

Automated

Automated Data classification Engines verwenden einen Dateiparser in Kombination mit einem String-Analysesystem, um Daten in Dateien zu finden. Ein Dateiparser ermöglicht es der Datenklassifizierungs-Engine, den Inhalt verschiedener Dateitypen zu lesen. Ein String-Analysesystem gleicht dann die Daten in den Dateien mit definierten Suchparametern ab.

Die automatisierte Klassifizierung ist viel effizienter als die benutzerbasierte Klassifizierung, aber die Genauigkeit hängt von der Qualität des Parsers ab. Die Datenklassifizierungs-Engine von Varonis enthält einige wichtige Funktionen, mit denen Ergebnisse validiert und Fehlalarme verringert werden können — nämlich die Nähe von Text, negative Schlüsselwörter, Übereinstimmungsbereiche und Validierungsalgorithmen.

Screenshot der Bearbeitungsregel

Neben der Genauigkeit sind Effizienz und Skalierbarkeit wichtige Faktoren bei der Auswahl eines Produkts für die automatisierte Klassifizierung. Für Umgebungen mit Hunderten von großen Datenspeichern benötigen Sie eine verteilte Multithread-Engine, die mehrere Systeme gleichzeitig bewältigen kann, ohne zu viele Ressourcen für die gescannten Speicher zu verbrauchen.

Die Zeit bis zum Abschluss eines ersten Klassifizierungsscans einer großen Multi-Petabyte-Umgebung kann erheblich sein. Echtes inkrementelles Scannen kann helfen, nachfolgende Scans zu beschleunigen. Da Varonis alle erstellten / geänderten Daten überwacht, scannt unsere Scan-Engine nur die Dateien, die seit dem vorherigen Scan neu erstellt oder geändert wurden, ohne dass jede Datei auf einen Zeitstempel „Änderungsdatum“ überprüft werden muss.

Einige Klassifizierungsmodule benötigen einen Index für jedes Objekt, das sie klassifizieren. Wenn die Speicherkapazität ein Problem darstellt, suchen Sie nach einer Engine, die keinen Index benötigt oder nur Objekte indiziert, die einer bestimmten Richtlinie oder einem bestimmten Muster entsprechen.

Organisationen können sich auf die eine oder andere oder eine Kombination aus Benutzer- und Automatisierungsklassifizierung einigen. Es ist immer gut, den Benutzern die Schulungen und Funktionen für den Datenschutz zur Verfügung zu stellen, und es ist ratsam, die Automatisierung zu verfolgen, um sicherzustellen, dass die Dinge nicht durch die Ritzen fallen.

Datenklassifizierungsprozess

Datenklassifizierungsprozess

Die Datenklassifizierungsprozesse unterscheiden sich je nach den Projektzielen geringfügig. Die meisten Datenklassifizierungsprojekte erfordern Automatisierung, um die erstaunliche Datenmenge zu verarbeiten, die Unternehmen jeden Tag erstellen. Im Allgemeinen gibt es einige Best Practices, die zu erfolgreichen Datenklassifizierungsinitiativen führen:

1. Definieren Sie die Ziele des Datenklassifizierungsprozesses

  • Wonach suchen Sie? Warum?
  • Welche Systeme sind für die erste Klassifizierungsphase vorgesehen?
  • Welche Compliance-Vorschriften gelten für Ihre Organisation?
  • Gibt es andere Geschäftsziele, die Sie angehen möchten? (z. B. Risikominderung, Speicheroptimierung, Analyse)

2. Kategorisieren von Datentypen

  • Identifizieren Sie, welche Arten von Daten die Organisation erstellt (z. B. Kundenlisten, Finanzunterlagen, Quellcode, Produktpläne)
  • Abgrenzen proprietärer Daten im Vergleich zu öffentlichen Daten
  • Erwarten Sie, dass Sie DSGVO-, CCPA- oder andere regulierte Daten finden?

3. Klassifizierungsstufen festlegen

  • Wie viele Klassifizierungsstufen benötigen Sie?
  • Dokumentieren Sie jede Ebene und geben Sie Beispiele
  • Trainieren Sie Benutzer, Daten zu klassifizieren (wenn eine manuelle Klassifizierung geplant ist)

4. Definieren Sie den automatisierten Klassifizierungsprozess

  • Definieren Sie, wie Sie priorisieren, welche Daten zuerst gescannt werden sollen (z. B. priorisieren Sie active vor stale, open vor protected)
  • Legen Sie die Häufigkeit und die Ressourcen fest, die Sie der automatisierten Datenklassifizierung widmen

5. Definieren Sie die Kategorien und Klassifizierungskriterien

  • Definieren Sie Ihre übergeordneten Kategorien und geben Sie Beispiele an (z., PII, PHI)
  • Definieren oder Aktivieren von anwendbaren Klassifizierungsmustern und Labels
  • Einrichten eines Prozesses zur Überprüfung und Validierung sowohl von Benutzern klassifizierter als auch automatisierter Ergebnisse

6. Ergebnisse und Nutzung klassifizierter Daten definieren

  • Schritte zur Risikominderung und automatisierte Richtlinien (z., PHI verschieben oder archivieren, wenn sie 180 Tage lang nicht verwendet wurde, globale Zugriffsgruppen automatisch aus Ordnern mit sensiblen Daten entfernen)
  • Definieren Sie einen Prozess zum Anwenden von Analysen auf Klassifizierungsergebnisse
  • Ermitteln Sie die erwarteten Ergebnisse der analytischen Analyse

7. Überwachen und pflegen

  • Einrichten eines fortlaufenden Workflows zur Klassifizierung neuer oder aktualisierter Daten
  • Überprüfen Sie den Klassifizierungsprozess und aktualisieren Sie ihn bei Bedarf aufgrund von Geschäftsänderungen oder neuen Vorschriften

Beispiele für die Datenklassifizierung

RegEx – kurz für regulärer Ausdruck – ist eines der gängigsten String-Analysesysteme, die Besonderheiten von Suchmustern definieren. Wenn ich beispielsweise alle VISA-Kreditkartennummern in meinen Daten finden möchte, würde der reguläre Ausdruck folgendermaßen aussehen:

\b(?<!)(4\d{3}\d{4}\d{4}\d{4}\b|4\d{12}(?:\d{3})?)\b

Diese Sequenz sucht nach einer 16-stelligen Zahl, die mit einer ‚4‘ beginnt und 4 Quartette hat, die durch ein ‚- . ‚ Nur eine Zeichenfolge, die direkt mit dem regulären Ausdruck übereinstimmt, generiert ein positives Ergebnis. Noch einen Schritt weiter kann dieses Ergebnis durch einen Luhn-Algorithmus validiert werden.

Hier ist ein Fall, in dem ein regulärer Ausdruck allein die Arbeit nicht erledigt. Dieser reguläre Ausdruck findet validierte E-Mail-Adressen, kann jedoch keine persönlichen von geschäftlichen E-Mails unterscheiden:

expression screenshot

Eine komplexere Datenklassifizierungsrichtlinie verwendet möglicherweise einen regulären Ausdruck für den Mustervergleich und wendet dann eine Wörterbuchsuche an, um die Ergebnisse basierend auf einer Bibliothek persönlicher E-Mail-Adressdienste wie Google Mail, Outlook usw. einzugrenzen.

Zusätzlich zu regulären Ausdrücken, die nach Mustern im Text suchen, betrachten viele Parser auch die Metadaten einer Datei – wie die Dateierweiterung, den Eigentümer und die erweiterten Eigenschaften —, um ihre Klassifizierung zu bestimmen. Einige Scan-Engines sind robust genug, um über den Inhalt der Datei hinauszugehen und Berechtigungen und Nutzungsaktivitäten in die Klassifizierungsregel aufzunehmen.

Advanced Data Classification verwendet maschinelles Lernen, um Daten zu finden, ohne sich ausschließlich auf vordefinierte Regeln oder Richtlinien zu verlassen, die aus Wörterbüchern und regulären Ausdrücken bestehen. Beispielsweise können Sie einem maschinellen Lernalgorithmus einen Korpus von 1.000 Rechtsdokumenten zuführen, um die Engine zu trainieren, wie ein typisches Rechtsdokument aussieht. Die Engine kann neue Rechtsdokumente basierend auf ihrem Modell entdecken, ohne sich auf String-Matching zu verlassen.

Best Practices für die Datenklassifizierung

Hier finden Sie einige Best Practices, die Sie bei der Implementierung und Ausführung einer Datenklassifizierungsrichtlinie in großem Maßstab befolgen sollten.

  • Identifizieren Sie, welche Compliance-Vorschriften oder Datenschutzgesetze für Ihr Unternehmen gelten, und erstellen Sie Ihren Klassifizierungsplan entsprechend
  • Beginnen Sie mit einem realistischen Umfang (kochen Sie nicht den Ozean) und eng definierten Mustern (wie PCI-DSS)
  • Verwenden Sie automatisierte Tools, um große Datenmengen schnell zu verarbeiten
  • Erstellen Sie bei Bedarf benutzerdefinierte Klassifizierungsregeln, aber erfinden Sie das Rad nicht neu
  • Passen Sie die Klassifizierungsregeln / -stufen nach Bedarf an
  • Validieren Sie Ihre Klassifizierungsergebnisse
  • Finden Sie heraus, wie Sie Ihre Ergebnisse am besten nutzen und von der Datensicherheit bis zur Business Intelligence

Die Datenklassifizierung ist Teil einer umfassenden Datenschutzstrategie. Sobald Sie wissen, welche Daten vertraulich sind, finden Sie heraus, wer Zugriff auf diese Daten hat und was zu jeder Zeit mit diesen Daten geschieht. Auf diese Weise können Sie Ihre sensiblen Daten schützen und verhindern, dass Ihre Organisation in einer unglücklichen Überschrift erscheint.

Ressourcen zur Datenklassifizierung

  • Datenklassifizierung in großem Maßstab
  • Tipps zur Datenklassifizierung: Kreditkartennummern finden
  • Datenklassifizierungsetiketten
  • CCPA-Klassifizierung
  • Datenschutz
  • Data Governance

Die Datenklassifizierung muss nicht kompliziert sein. Varonis verfügt über vorgefertigte Regeln, intelligente Validierung und Proximity Matching, die Sie für die meiste Arbeit benötigen. In dieser Masterclass erfahren Sie, wie Kunden ihre sensiblen Daten klassifizieren.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.