Hvad er Dataklassificering? Retningslinjer og proces

Forestil dig, at du er CISO for en 10.000-personers organisation, hvor brugere opretter millioner af filer og e-mails hver dag. Nogle af disse oplysninger er meget følsomme—hvis de lækkes eller stjæles, står du over for et overskriftsbrud og syv-cifrede sanktioner. De fleste af de data, der oprettes hver dag, kunne imidlertid offentliggøres på forsiden af Times uden hændelse.

det kan være næsten umuligt at prioritere risikoreduktion eller overholde privatlivslovgivningen, når du ikke ved, hvilke oplysninger der kræver beskyttelse af militær kvalitet. Det er her dataklassificering kommer ind.

definition af Dataklassifikation

illustration af dataklassificering

Dataklassificering er processen med at analysere strukturerede eller ustrukturerede data og organisere dem i kategorier baseret på filtype, indhold og andre metadata.

dataklassificering hjælper organisationer med at besvare vigtige spørgsmål om deres data, der informerer om, hvordan de mindsker risikoen og styrer datastyringspolitikker. Det kan fortælle dig, hvor du gemmer dine vigtigste data, eller hvilke slags følsomme data dine brugere opretter oftest. Omfattende dataklassificering er nødvendig (men ikke nok) for at overholde moderne databeskyttelsesbestemmelser.

skærmbillede af DCE-og DV-konfiguration

dataklassificeringsprogrammer giver organisationer mulighed for at identificere oplysninger, der er relevante for en organisations interesser. For eksempel kan du have et krav om at finde alle henvisninger til “glyphosat” på dit netværk, finde alle omtaler af “glyphosat” til lovlig opdagelse eller tagge alle HIPAA-relaterede filer på dit netværk, så de kan krypteres automatisk.

for at overholde reglerne om databeskyttelse spinder organisationer typisk klassificeringsprojekter for at finde personlige identificerbare oplysninger (PII) i dine datalagre, så du kan bevise over for revisorer, at det er korrekt styret.

Dataklassificering er ikke det samme som dataindeksering, selvom der er nogle paralleller mellem de to. Mens begge kræver at se på indhold for at afgøre, om det er relevant for et søgeord eller et koncept, producerer klassificering ikke nødvendigvis et søgbart indeks.

i mange tilfælde viser klassificeringsresultater objektnavnet og den politik eller det mønster, der blev matchet uden at gemme et indeks over objektets indhold:

  • formål: kunder.
  • matchede mønstre: Californien kørekort (CCPA), Amerikansk Ekspres (PCI-DSS)

nogle dataklassificeringsløsninger opretter et indeks, der muliggør hurtig og effektiv søgning for at hjælpe med at opfylde anmodninger om adgang til registrerede (DSAR) og anmodninger om ret til at blive glemt.

formålet med Dataklassificering

illustration af dataklassificering

i den seneste Markedsvejledning til Filanalyseprogram viser Gartner fire brugssager på højt niveau:

  • risikoreduktion
    • Begræns adgang til personligt identificerbare oplysninger (PII)
    • kontrol placering og adgang til intellektuel ejendom (IP)
    • reducer angrebets overfladeareal til følsomme data
    • Integrer klassificering i DLP og andre politikker, der håndhæver applikationer
  • Governance / Compliance
    • Identificer data reguleret af GDPR, HIPAA, CCPA, PCI og fremtidige regler
    • Anvend metadatatags på beskyttede data for at muliggøre yderligere sporing og kontrol
    • aktiver karantæne, juridisk hold, arkivering og andre reguleringskrav
    • Letter” ret til at blive glemt ” og anmodninger om adgang til registrerede (Dsars)
  • effektivitet og optimering
    • aktiver effektiv adgang til indhold baseret på type, brug osv.
    • Opdag og fjern forældede eller overflødige data
    • Flyt stærkt udnyttede data til hurtigere enheder eller skybaseret infrastruktur
  • Analytics
    • aktiver metadatatagging for at optimere forretningsaktiviteter
    • Informer organisationen om placering og brug af data

det er vigtigt at bemærke, at Klassificering af data—mens det er et grundlæggende første skridt—typisk ikke er nok til at tage meningsfuld handling for at opnå mange af ovenstående brugssager. Tilføjelse af yderligere metadatastrømme, såsom tilladelser og dataforbrugsaktivitet, kan dramatisk øge din evne til at bruge dine klassificeringsresultater til at nå vigtige mål.

skærmbillede af filservere

en af de mest populære funktioner i Varonis Datasikkerhedsplatform er et dashboard, der afslører delmængden af følsomme data, der også udsættes for enhver medarbejder, så du ved nøjagtigt, hvor du skal starte med din risikobegrænsende indsats.

Datafølsomhedsniveauer

illustrationer af datafølsomhedsniveauer

organisationer etablerer ofte datafølsomhedsniveauer for at differentiere, hvordan man behandler forskellige typer klassificerede data. Den amerikanske regering har for eksempel syv klassificeringsniveauer. De er, fra højeste til laveste:

  1. begrænsede Data / tidligere begrænsede Data
  2. klassificering af kodeord
  3. tophemmelighed
  4. hemmelighed
  5. fortroligt
  6. offentlig tillid
  7. kontrolleret uklassificeret Information (CUI)

Center for Internet Security (CIS) bruger udtrykkene “sensitive”, “business confidential” og “public” til høje, mellemstore og lave klassificeringsfølsomhedsniveauer.

tre klassificeringsniveauer er normalt det rigtige antal for de fleste organisationer. Mere end tre niveauer tilføjer kompleksitet, der kan være vanskelig at opretholde, og færre end tre er for forenklede og kan føre til utilstrækkelig privatliv og beskyttelse.

her er anbefalede definitioner for en klassificeringstaksonomi med tre følsomhedsniveauer:

  • data med høj følsomhed: kræver strenge adgangskontroller og beskyttelse, både fordi de ofte er beskyttet af love som GDPR, CCPA og HIPAA, og fordi det kan forårsage betydelig skade for en person eller organisationen, hvis den overtrædes.
  • Mellemfølsomhedsdata: kun beregnet til intern brug, men virkningen af et databrud er ikke katastrofalt. Eksempler er ikke-identificerbare personaledata eller arkitekturplaner til en kommerciel bygning under udvikling.
  • data med lav følsomhed: data med lav følsomhed er offentlige oplysninger, der ikke kræver nogen adgangsbegrænsninger. Eksempler er offentlige hjemmesider, jobopslag og blogindlæg.

du kan bruge en anden nomenklatur, og du kan have mere end tre kategorier, afhængigt af dine brugssager.

typer af Dataklassificering

illustrationer af typer af dataklassificering

der er to primære paradigmer, der skal følges, når du implementerer en dataklassificeringsproces. Der er andre, men de fleste brugssager falder ind under en af disse kategorier. Du kan opgave brugere med at klassificere de data, de opretter, eller du kan gøre det for dem med en automatiseret løsning.

bruger

når du tildeler brugere at klassificere deres egne data, skal du definere følsomhedsniveauer, træne dine brugere til at identificere hvert niveau og give en mekanisme til at tagge og klassificere alle nye filer, de opretter.

skærmbillede af finanshistorik

de fleste klassificeringssystemer giver integrationer til politikhåndhævende løsninger, såsom DLP-programmer, der sporer og beskytter følsomme data, der er tagget af brugere. Et eksempel på DLP-politik vil muligvis blokere filer, der er mærket “høj følsomhed”, fra at blive uploadet til Dropboks.

fordelen ved brugerklassificering er, at mennesker er ret gode til at bedømme, om information er følsom eller ej. Med passende værktøj og letforståelige regler kan klassificeringsnøjagtighed være ganske god, men den er meget afhængig af dine brugeres omhu og skaleres ikke for at følge med i oprettelsen af data.

manuel tagging af data er kedelig, og mange brugere vil enten glemme eller forsømme opgaven. Hvis du har store mængder allerede eksisterende data (eller maskingenererede data), er det også en monumental udfordring at få brugerne til at gå tilbage og med tilbagevirkende kraft tagge Historiske data.

automatiseret

automatiserede dataklassificeringsmotorer anvender en filparser kombineret med et strenganalysesystem til at finde data i filer. En fil parser tillader data klassificering motor til at læse indholdet af flere forskellige typer af filer. Et strenganalysesystem matcher derefter data i filerne til definerede søgeparametre.

automatiseret klassificering er meget mere effektiv end brugerbaseret klassificering, men nøjagtigheden afhænger af parserens kvalitet. Varonis ‘ Dataklassificeringsmotor indeholder et par nøglefunktioner, der hjælper med at validere resultater og mindske falske positiver—nemlig nærhed af tekst, negative søgeord, matchområder og valideringsalgoritmer.

Rediger regelskærmbillede

ud over nøjagtighed er effektivitet og skalerbarhed vigtige overvejelser, når du vælger et automatiseret klassificeringsprodukt. For miljøer med hundredvis af store datalagre vil du have en distribueret, multi-threaded motor, end der kan tackle flere systemer på en gang uden at forbruge for mange ressourcer på de butikker, der scannes.

tiden til at gennemføre en indledende klassificeringsscanning af et stort multi-petabyte-miljø kan være betydelig. Ægte Inkremental scanning kan hjælpe med at fremskynde efterfølgende scanninger. Fordi Varonis overvåger alle data skaber / ændrer, scanner vores scanningsmotor kun de filer, der er nyoprettede eller ændret siden den forrige scanning uden at skulle kontrollere hver fil for en “dato ændret” tidsstempel.

nogle klassificeringsmotorer kræver et indeks for hvert objekt, de klassificerer. Hvis lagerkapacitet er et problem, skal du kigge efter en motor, der ikke kræver et indeks, eller kun indekserer objekter, der matcher en bestemt politik eller et bestemt mønster.

organisationer kan slå sig ned på den ene eller den anden eller en kombination af både bruger-og automatiseringsklassificering. Det er altid godt at give brugerne træning og funktionalitet til at engagere sig i databeskyttelse, og det er klogt at følge op med automatisering for at sikre, at ting ikke falder gennem revnerne.

Dataklassificeringsproces

dataklassificeringsproces

Dataklassificeringsprocesser varierer lidt afhængigt af projektets mål. De fleste dataklassificeringsprojekter kræver automatisering for at behandle den forbløffende mængde data, som virksomheder opretter hver dag. Generelt er der nogle bedste fremgangsmåder, der fører til vellykkede dataklassificeringsinitiativer:

1. Definer målene for Dataklassificeringsprocessen

  • hvad Leder du efter? Hvorfor?
  • hvilke systemer er omfattet af den indledende klassificeringsfase?
  • hvilke compliance regler gælder for din organisation?
  • er der andre forretningsmål, du vil tackle? (f. eks. risikoreduktion, lageroptimering, analyse)

2. Kategoriser datatyper

  • Identificer, hvilke typer data organisationen opretter (f. eks. kundelister, regnskaber, kildekode, produktplaner)
  • afgræns proprietære data vs. offentlige data
  • forventer du at finde GDPR, CCPA eller andre regulerede data?

3. Etablere Klassificeringsniveauer

  • hvor mange klassificeringsniveauer har du brug for?
  • dokumenter hvert niveau og giv eksempler
  • træn brugere til at klassificere data (hvis manuel klassificering er planlagt)

4. Definer den automatiserede Klassificeringsproces

  • Definer, hvordan du prioriterer, hvilke data der skal scannes først (f. eks. Prioriter aktiv frem for forældet, åben over beskyttet)
  • Opret den frekvens og de ressourcer, du vil afsætte til automatiseret dataklassificering

5. Definer kategorierne og klassificeringskriterierne

  • Definer dine kategorier på højt niveau og giv eksempler (f. eks., PII, PHI)
  • Definer eller aktiver gældende klassificeringsmønstre og etiketter
  • Opret en proces til gennemgang og validering af både brugerklassificerede og automatiserede resultater

6. Definer resultater og brug af klassificerede Data

  • dokumentrisikoreduktionstrin og automatiserede politikker (f. eks. hvis de ikke bruges i 180 dage, skal du automatisk fjerne globale adgangsgrupper fra mapper med følsomme data)
  • Definer en proces til anvendelse af analyser på klassificeringsresultater
  • etablere forventede resultater fra den analytiske analyse

7. Overvåg og vedligehold

  • Opret en løbende arbejdsgang til klassificering af nye eller opdaterede data
  • gennemgå klassificeringsprocessen og opdater om nødvendigt på grund af ændringer i forretning eller nye regler

eksempler på Dataklassificering

Regeks –forkortelse for regulært udtryk – er et af de mere almindelige strenganalysesystemer, der definerer detaljer om søgemønstre. For eksempel, hvis jeg ville finde alle VISA-kreditkortnumre i mine data, ville Regekset se ud:

\b(?<!)(4\d{3}\d{4}\d{4}\d{4}\b|4\d{12}(?:\d{3})?)\b

denne sekvens ser efter et nummer på 16 tegn, der starter med en ‘4’ og har 4 kvartetter afgrænset af en’ -. ‘Kun en række tegn, der matcher Regekset, genererer direkte et positivt resultat. Gå et skridt videre, dette resultat kan valideres af en Luhn algoritme.

her er et tilfælde, hvor en Regeks alene ikke vil gøre jobbet. Denne Regeks finder validere e-mail-adresser, men kan ikke skelne personlige fra forretnings-e-mails:

ekspressionsskærmbillede

en mere sofistikeret politik for dataklassificering kan bruge et Regeks til mønstertilpasning og derefter anvende et ordbogsopslag for at indsnævre resultaterne baseret på et bibliotek med personlige e-mail-adressetjenester som Gmail, Outlook osv.

ud over regulære udtryk, der ser efter mønstre i tekst, vil mange parsere også se på en fils metadata—som filtypen, ejeren og udvidede egenskaber—for at bestemme dens klassificering. Nogle scanningsmotorer er robuste nok til at gå ud over indholdet af filen og inkorporere tilladelser og brugsaktivitet i klassificeringsreglen.

avanceret dataklassificering bruger maskinlæring til at finde data uden udelukkende at stole på foruddefinerede regler eller politikker, der består af ordbøger og Regekser. For eksempel kan du muligvis fodre en maskinlæringsalgoritme med et korpus på 1.000 juridiske dokumenter for at træne motoren, hvordan et typisk juridisk dokument ser ud. Motoren kan opdage nye juridiske dokumenter baseret på sin model uden at stole på strengtilpasning.

bedste praksis for Dataklassificering

her er nogle bedste fremgangsmåder, du skal følge, når du implementerer og udfører en dataklassificeringspolitik i stor skala.

  • Identificer, hvilke overholdelsesbestemmelser eller privatlivslove der gælder for din organisation, og opbyg din klassificeringsplan i overensstemmelse hermed
  • Start med et realistisk omfang (kog ikke havet) og tæt definerede mønstre (som PCI-DSS)
  • brug automatiserede værktøjer til hurtigt at behandle store datamængder
  • Opret brugerdefinerede klassificeringsregler, når det er nødvendigt, men genopfind ikke hjulet
  • juster klassificeringsregler/niveauer efter behov
  • valider dine klassificeringsresultater
  • find ud af, hvordan du bedst bruger dine resultater og anvender klassificering til alt fra datasikkerhed til business intelligence

Dataklassificering er en del af en overordnet databeskyttelsesstrategi. Når du ved, hvilke data der er følsomme, skal du finde ud af, hvem der har adgang til disse data, og hvad der sker med disse data til enhver tid. På den måde kan du beskytte dine følsomme data og forhindre, at din organisation vises i en uheldig overskrift.

Dataklassificeringsressourcer

  • Sådan gør du Dataklassificering i skala
  • Dataklassificeringstips: Find kreditkortnumre
  • Dataklassificeringsetiketter
  • CCPA-klassificering
  • datasikkerhed
  • datastyring

dataklassificering behøver ikke at være kompliceret. Varonis har de forudbyggede regler, intelligent validering, og nærhedstilpasning, du har brug for for at udføre det meste af arbejdet. Tjek denne Masterclass for at se, hvordan kunder klassificerer deres følsomme data.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.