Wat is gegevensclassificatie? Richtlijnen en proces

stel je voor dat je de CISO bent van een 10.000-persoons organisatie waar gebruikers dagelijks miljoenen bestanden en e-mails aanmaken. Sommige van die informatie is zeer gevoelig—als gelekt of gestolen, je geconfronteerd met een kop-making inbreuk en zeven-cijferige straffen. De meeste gegevens die elke dag worden gemaakt, kunnen echter zonder incidenten op de voorpagina van The Times worden gepubliceerd.

het kan vrijwel onmogelijk zijn om prioriteit te geven aan risicobeperking of privacywetten na te leven wanneer u niet weet welke informatie bescherming van militaire kwaliteit vereist. Dat is waar dataclassificatie van pas komt.

gegevensclassificatie definitie

illustratie van gegevensclassificatie

gegevensclassificatie is het proces van het analyseren van gestructureerde of ongestructureerde gegevens en het ordenen ervan in categorieën op basis van Bestandstype, inhoud en andere metagegevens.

gegevensclassificatie helpt organisaties om belangrijke vragen over hun gegevens te beantwoorden die informatie geven over hoe zij risico ‘ s beperken en het beleid inzake gegevensbeheer beheren. Het kan u vertellen waar u uw belangrijkste gegevens opslaat of welke soorten gevoelige gegevens uw gebruikers het vaakst maken. Uitgebreide gegevensclassificatie is noodzakelijk (maar niet voldoende) om te voldoen aan de moderne regelgeving inzake gegevensbescherming.

screenshot van DCE-en DW-configuratie

Gegevensclassificatiesoftware stelt organisaties in staat informatie te identificeren die relevant is voor de belangen van een organisatie. U kunt bijvoorbeeld verplicht zijn om alle verwijzingen naar “Szechuan Sauce” op uw netwerk te vinden, alle vermeldingen van “glyfosaat” te vinden voor juridische ontdekking, of alle HIPAA-gerelateerde bestanden op uw netwerk te taggen zodat ze automatisch kunnen worden versleuteld.

om te voldoen aan de regelgeving inzake gegevensbescherming, organiseren organisaties classificatieprojecten om alle persoonlijk identificeerbare informatie (PII) op uw gegevensopslag te ontdekken, zodat u aan auditors kunt bewijzen dat deze correct wordt beheerd.

gegevensclassificatie is niet hetzelfde als gegevensindexering, hoewel er enkele parallellen tussen beide zijn. Hoewel beide vereisen te kijken naar inhoud om te beslissen of het relevant is voor een zoekwoord of een concept, classificatie niet noodzakelijk een doorzoekbare index produceren.

in veel gevallen zullen classificatieresultaten De objectnaam en het beleid of patroon weergeven dat overeenkwam zonder een index van de inhoud van het object op te slaan:

  • voorwerp: klanten.XLS
  • overeenkomende patronen: California Driver ‘ s License (CCPA), American Express (PCI-DSS))

sommige oplossingen voor gegevensclassificatie maken wel een index om snel en efficiënt zoeken mogelijk te maken om te helpen bij het voldoen aan verzoeken om toegang tot gegevens (dsar) en verzoeken om te worden vergeten.

doel van de gegevensclassificatie

 illustratie van de gegevensclassificatie

in de meest recente Marktgids voor software voor bestandsanalyse noemt Gartner vier use cases op hoog niveau:

  • risicobeperking
    • Beperk de toegang tot persoonlijk identificeerbare informatie (PII)
    • Instellingen > locatie en de toegang tot de intellectuele eigendom (IP)
    • Verminderen aanval oppervlakte tot gevoelige gegevens
    • Integreren indeling in DLP en het andere beleid-de handhaving van toepassingen
  • Governance/Compliance
    • Identificeren van gegevens geregeld door de GDPR, HIPAA, CCPA, PCI, SOX, en toekomstige regelgeving
    • Toepassen metadata-tags tot beschermde gegevens om extra tracking en controles
    • Inschakelen in quarantaine plaatsen, wettelijke bewaarplicht, archivering en andere regelgeving-vereiste acties
    • vergemakkelijken “recht om te worden vergeten” en verzoeken om toegang tot gegevens (DSARs))
  • efficiëntie en optimalisatie
    • maken efficiënte toegang tot inhoud mogelijk op basis van type, gebruik, enz.
    • verouderde of redundante gegevens ontdekken en verwijderen
    • zwaar gebruikte gegevens verplaatsen naar snellere apparaten of cloudgebaseerde infrastructuur
  • Analytics
    • laat metadata-tagging toe om bedrijfsactiviteiten te optimaliseren
    • Informeer de organisatie over locatie en gebruik van gegevens

het is belangrijk op te merken dat het classificeren van gegevens—terwijl een fundamentele eerste stap—is meestal niet genoeg om zinvolle actie te ondernemen om veel van de bovenstaande use cases te bereiken. Door extra metadatastromen toe te voegen, zoals machtigingen en gegevensgebruiksactiviteiten, kunt u uw classificatieresultaten aanzienlijk beter gebruiken om belangrijke doelstellingen te bereiken.

screenshot van bestandsservers

een van de meest populaire functies van het Varonis Data Security Platform is een dashboard dat de subset van gevoelige gegevens onthult die ook aan elke werknemer wordt blootgesteld, zodat u precies weet waar u moet beginnen met uw risicobeperkende inspanningen.

Gegevensgevoeligheidsniveaus

 illustraties van gegevensgevoeligheidsniveaus

organisaties stellen vaak gegevensgevoeligheidsniveaus vast om een onderscheid te maken tussen de behandeling van verschillende soorten gerubriceerde gegevens. De regering van de Verenigde Staten heeft bijvoorbeeld zeven classificatieniveaus. Ze zijn, van hoog naar laag:

  1. beperkte gegevens / voorheen beperkte gegevens
  2. codewoordclassificatie
  3. Top Secret
  4. geheim
  5. vertrouwelijk
  6. publiek vertrouwen
  7. gecontroleerde niet-geclassificeerde informatie (CUI))

Center for Internet Security (CIS) gebruikt de termen “gevoelig”, “Zakelijk vertrouwelijk” en “openbaar” voor hoge, gemiddelde en lage classificatie gevoeligheidsniveaus.

drie classificatieniveaus zijn meestal het juiste nummer voor de meeste organisaties. Meer dan drie niveaus voegen complexiteit toe die moeilijk te handhaven kan zijn, en minder dan drie is te simplistisch en kan leiden tot onvoldoende privacy en bescherming.

hier worden aanbevolen definities voor een classificatie taxonomie met drie gevoeligheidsniveaus:

  • hoge gevoeligheid gegevens: vereist strenge toegangscontroles en beveiligingen, zowel omdat het wordt vaak beschermd door wetten zoals GDPR, CCPA, en HIPAA en omdat het aanzienlijke schade kan veroorzaken aan een individu of de organisatie als geschonden.
  • Gegevens Over Gemiddelde Gevoeligheid: alleen bedoeld voor intern gebruik, maar de impact van een datalek is niet catastrofaal. Voorbeelden zijn niet-identificeerbare personeelsgegevens of architectuurplannen voor een commercieel gebouw in ontwikkeling.
  • gegevens met lage gevoeligheid: gegevens met lage gevoeligheid zijn openbare informatie waarvoor geen toegangsbeperkingen nodig zijn. Voorbeelden zijn openbare webpagina ‘ s, Vacatures en blogberichten.

u kunt een andere nomenclatuur gebruiken, en u kunt meer dan drie categorieën hebben, afhankelijk van uw use cases.

typen gegevensclassificatie

illustraties van typen gegevensclassificatie

er zijn twee primaire paradigma ‘ s te volgen wanneer u een gegevensclassificatieproces implementeert. Er zijn andere, maar de meerderheid van de use cases zal vallen in een van deze categorieën. Je zou kunnen taak gebruikers met het classificeren van de gegevens die ze maken, of je zou het voor hen kunnen doen met een geautomatiseerde oplossing.

gebruiker

wanneer u gebruikers opdracht geeft hun eigen gegevens te classificeren, moet u gevoeligheidsniveaus definiëren, uw gebruikers trainen om elk niveau te identificeren en een mechanisme bieden om alle nieuwe bestanden te taggen en te classificeren.

financiële geschiedenis screenshot

de meeste classificatiesystemen bieden integraties voor beleid afdwingende oplossingen, zoals data loss prevention (DLP) – software, die gevoelige gegevens bijhouden en beschermen die door gebruikers zijn getagd. Een voorbeeld van DLP-beleid zou kunnen blokkeren van bestanden met het label “Hoge Gevoeligheid” worden geüpload naar Dropbox.

het voordeel van gebruikersclassificatie is dat mensen vrij goed kunnen beoordelen of informatie gevoelig is of niet. Met de juiste tooling en gemakkelijk te begrijpen regels, classificatie nauwkeurigheid kan heel goed zijn, maar het is sterk afhankelijk van de toewijding van uw gebruikers, en zal niet schaal om gelijke tred te houden met het creëren van gegevens.

het handmatig taggen van gegevens is vervelend en veel gebruikers zullen de taak vergeten of verwaarlozen. Ook, als je grote hoeveelheden van reeds bestaande gegevens (of machine-gegenereerde gegevens), het is een monumentale uitdaging om gebruikers terug te gaan en met terugwerkende kracht taggen Historische gegevens.

Automated

Automated Data classification engines maken gebruik van een bestand parser gecombineerd met een string analyse systeem om gegevens in bestanden te vinden. Een bestand parser kan de data classification engine om de inhoud van verschillende soorten bestanden te lezen. Een string analyse systeem koppelt de gegevens in de bestanden aan gedefinieerde zoekparameters.

geautomatiseerde classificatie is veel efficiënter dan op gebruikers gebaseerde classificatie, maar de nauwkeurigheid hangt af van de kwaliteit van de parser. Varonis ‘ Data Classification Engine bevat een paar belangrijke functies om resultaten te valideren en valse positieven te verminderen-namelijk nabijheid van tekst, negatieve zoekwoorden, match ranges en validatiealgoritmen.

regel bewerken schermafbeelding

naast nauwkeurigheid, efficiëntie en schaalbaarheid zijn belangrijke overwegingen bij het selecteren van een geautomatiseerd classificatieproduct. Voor omgevingen met honderden grote dataopslag wilt u een gedistribueerde, multi-threaded engine die meerdere systemen tegelijk kan aanpakken zonder te veel middelen te verbruiken op de winkels die worden gescand.

de tijd om een eerste classificatiescan van een grote multi-petabyte omgeving te voltooien kan significant zijn. True incrementele scannen kan helpen bij het versnellen van de volgende scans. Omdat Varonis alle gegevens controleert die worden aangemaakt/gewijzigd, scant onze scanengine alleen die bestanden die sinds de vorige scan nieuw zijn gemaakt of gewijzigd zonder dat u elk bestand hoeft te controleren op een “datum gewijzigd” tijdstempel.

sommige classificatiemotoren vereisen een index van elk object dat zij classificeren. Als opslagcapaciteit een punt van zorg is, zoek dan naar een engine die geen index vereist of alleen objecten indexeert die overeenkomen met een bepaald beleid of patroon.

organisaties kunnen zich richten op de ene of de andere, of op een combinatie van zowel gebruikers-als automatiseringsclassificatie. Het is altijd goed om gebruikers te voorzien van de training en functionaliteit om deel te nemen aan gegevensbescherming, en het is verstandig om follow-up met automatisering om ervoor te zorgen dat dingen niet door de mazen vallen.

Gegevensclassificatieproces

gegevensclassificatieproces

gegevensclassificatieprocessen verschillen enigszins afhankelijk van de doelstellingen van het project. De meeste dataclassificatieprojecten vereisen automatisering om de verbazingwekkende hoeveelheid gegevens te verwerken die bedrijven elke dag maken. In het algemeen zijn er enkele goede praktijken die leiden tot succesvolle initiatieven voor gegevensclassificatie:

1. Definieer de doelstellingen van het Gegevensclassificatieproces

  • wat zoekt u? Waarom?
  • welke systemen zijn in aanmerking voor de initiële classificatiefase?
  • welke compliance-voorschriften zijn van toepassing op uw organisatie?
  • zijn er andere zakelijke doelstellingen die u wilt bereiken? (bijv. risicobeperking, opslagoptimalisatie, analytics)

2. Categoriseer gegevenstypen

  • Identificeer welke soorten gegevens de organisatie maakt (bijv. klantenlijsten, financiële records, broncode, productplannen)
  • bepaal eigen gegevens Versus openbare gegevens
  • verwacht u GDPR, CCPA of andere gereguleerde gegevens te vinden?

3. Stel classificatieniveaus

  • hoeveel classificatieniveaus hebt u nodig?
  • documenteer elk niveau en geef voorbeelden
  • Treingebruikers om gegevens te classificeren (indien handmatige classificatie is gepland)

4. Definieer het geautomatiseerde classificatieproces

  • bepaal hoe prioriteit te geven aan welke gegevens het eerst moeten worden gescand (bijvoorbeeld prioriteit geven aan actief boven oud, open boven beschermd)
  • Bepaal de frequentie en middelen die u wilt besteden aan geautomatiseerde gegevensclassificatie

5. Definieer de categorieën en classificatiecriteria

  • Definieer uw categorieën op hoog niveau en geef voorbeelden (bijv., PII, PHI)
  • toepasselijke classificatiepatronen en labels definiëren of inschakelen
  • een proces opzetten om zowel door de gebruiker geclassificeerde als geautomatiseerde resultaten te beoordelen en te valideren

6. Definieer resultaten en gebruik van gerubriceerde gegevens

  • Document risicobeperkende stappen en geautomatiseerd beleid (bijv. indien 180 dagen niet gebruikt, verwijder globale toegangsgroepen automatisch uit mappen met gevoelige gegevens)
  • Definieer een proces om analytics toe te passen op classificatieresultaten
  • Bepaal de verwachte resultaten van de analytische analyse

7. Monitor en onderhoud

  • Stel een doorlopende workflow op om nieuwe of bijgewerkte gegevens te classificeren
  • herzie het classificatieproces en update indien nodig vanwege veranderingen in het bedrijfsleven of nieuwe regelgeving

voorbeelden van gegevensclassificatie

RegEx –kort voor reguliere expressie – is een van de meest voorkomende stringanalysesystemen die specifieke kenmerken van zoekpatronen definiëren. Bijvoorbeeld, als ik wilde alle Visa credit card nummers in mijn gegevens te vinden, zou de RegEx eruit zien als:

\b(?<!)(4\d{3}\d{4}\d{4}\d{4}\b|4\d{12}(?:\d{3})?)\b

deze reeks zoekt naar een getal van 16 tekens dat begint met een’ 4, ‘en 4 kwartetten heeft gescheiden door een’ -. ‘Alleen een reeks tekens die direct overeenkomt met de RegEx genereert een positief resultaat. Nog een stap verder, dit resultaat kan worden gevalideerd door een Luhn algoritme.

hier is een geval waarin een RegEx alleen het werk niet zal doen. Deze RegEx vindt valideren e – mailadressen, maar kan geen onderscheid maken tussen persoonlijke en zakelijke e-mails:

expressieschermafbeelding

een meer geavanceerd gegevensclassificatiebeleid kan een RegEx gebruiken voor patroonvergelijking en vervolgens een woordenboek opzoeken om de resultaten te verfijnen op basis van een bibliotheek met persoonlijke e-mailadresdiensten zoals Gmail, Outlook, enz.

naast reguliere expressies die zoeken naar patronen in tekst, zullen veel parsers ook kijken naar de metadata van een bestand—zoals de bestandsextensie, eigenaar en uitgebreide eigenschappen—om de classificatie ervan te bepalen. Sommige scanmotoren zijn robuust genoeg om verder te gaan dan de inhoud van het bestand en machtigingen en gebruiksactiviteit op te nemen in de classificatieregel.Geavanceerde gegevensclassificatie maakt gebruik van machine learning om gegevens te vinden zonder uitsluitend te vertrouwen op vooraf gedefinieerde regels of beleid dat bestaat uit woordenboeken en Regexen. Bijvoorbeeld, je zou in staat zijn om een machine learning algoritme een corpus van 1.000 juridische documenten te voeden om de motor te trainen hoe een typisch juridisch document eruit ziet. De motor kan nieuwe juridische documenten op basis van zijn model te ontdekken zonder te vertrouwen op string matching.

best Practices voor gegevensclassificatie

hier zijn enkele best practices die u kunt volgen als u een beleid voor gegevensclassificatie op schaal implementeert en uitvoert.

  • Identificeer welke compliance regelgeving of privacywetten van toepassing zijn op uw organisatie, en stel uw classificatieplan dienovereenkomstig op
  • begin met een realistische scope (kook de oceaan niet) en strak gedefinieerde patronen (zoals PCI-DSS)
  • gebruik geautomatiseerde tools om grote hoeveelheden gegevens snel te verwerken
  • Maak aangepaste classificatieregels indien nodig, maar vind het wiel niet opnieuw uit
  • pas classificatieregels/niveaus indien nodig aan
  • Valideer uw classificatieresultaten
  • zoek uit hoe u uw resultaten het beste kunt gebruiken en pas classificatie toe op alles van gegevensbeveiliging tot business intelligence

gegevensclassificatie maakt deel uit van een algemene strategie voor gegevensbescherming. Als je eenmaal weet welke gegevens gevoelig zijn, zoek dan uit wie toegang heeft tot die gegevens, en wat er te allen tijde met die gegevens gebeurt. Op die manier kunt u uw gevoelige gegevens beschermen en voorkomen dat uw organisatie in een ongelukkige kop verschijnt.

gegevensclassificatie bronnen

  • Hoe moet de gegevensclassificatie op schaal
  • gegevensclassificatie Tips: Het vinden van creditcardnummers
  • Gegevensclassificatielabels
  • CCPA-classificatie
  • gegevensprivacy
  • gegevensbeheer

gegevensclassificatie hoeft niet ingewikkeld te zijn. Varonis heeft de vooraf gebouwde regels, intelligente validatie en proximity matching die u nodig hebt om het meeste werk te doen. Bekijk deze Masterclass om te zien hoe klanten hun gevoelige gegevens classificeren.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.