Vad är Dataklassificering? Riktlinjer och Process | Varonis

Tänk dig att du är CISO för en 10 000-personers organisation där användare skapar miljontals filer och e-postmeddelanden varje dag. En del av denna information är mycket känslig—om läckt eller stulen, du står inför en rubrik-making brott och sjusiffriga påföljder. De flesta data som skapas varje dag kan dock publiceras på framsidan av The Times utan incident.

det kan vara praktiskt taget omöjligt att prioritera riskreducering eller följa sekretesslagar när du inte vet vilken information som kräver skydd av militär kvalitet. Det är där dataklassificering kommer in.

få den kostnadsfria viktiga guiden till USA: s efterlevnad och regler för dataskydd
Dataklassificering Definition
syftet med Dataklassificering
Datakänslighetsnivåer
typer av Dataklassificering
användare
automatiserad
Dataklassificeringsprocess
exempel på Dataklassificering
bästa praxis för Dataklassificering
Dataklassificeringsresurser

få den kostnadsfria viktiga guiden till USA: s efterlevnad och regler för dataskydd

Dataklassificering Definition

illustration av dataklassificering

dataklassificering är processen att analysera strukturerad eller ostrukturerad data och organisera den i kategorier baserat på filtyp, innehåll och andra metadata.

dataklassificering hjälper organisationer att svara på viktiga frågor om deras data som informerar hur de minskar risken och hanterar datastyrningspolicyer. Det kan berätta var du lagrar dina viktigaste data eller vilka typer av känsliga data dina användare skapar oftast. Omfattande dataklassificering är nödvändig (men inte tillräckligt) för att följa moderna dataskyddsbestämmelser.

skärmdump av DCE-och DW-konfiguration

dataklassificeringsprogramvara gör det möjligt för organisationer att identifiera information som är relevant för en organisations intressen. Du kan till exempel ha ett krav på att hitta alla referenser till ”Szechuan Sauce” i ditt nätverk, hitta alla omnämnanden av ”glyfosat” för laglig upptäckt eller tagga alla HIPAA-relaterade filer i ditt nätverk så att de kan krypteras automatiskt.

för att följa datasekretessföreskrifterna spinner organisationer vanligtvis upp klassificeringsprojekt för att upptäcka någon personligt identifierbar information (PII) i dina datalager så att du kan bevisa för revisorer att den är korrekt reglerad.

dataklassificering är inte detsamma som dataindexering, även om det finns några paralleller mellan de två. Medan båda kräver att man tittar på innehåll för att avgöra om det är relevant för ett nyckelord eller ett koncept, ger klassificering inte nödvändigtvis ett sökbart index.

i många fall kommer klassificeringsresultaten att lista objektnamnet och policyn eller mönstret som matchades utan att lagra ett index för objektets innehåll:

objekt: kunder.XLS
matchade mönster: Kalifornien Körkort (CCPA), American Express (PCI-DSS)

vissa dataklassificeringslösningar skapar ett index för att möjliggöra snabb och effektiv sökning för att hjälpa till att uppfylla data subject access requests (dsar) och höger-till-glömda förfrågningar.

syftet med Dataklassificering

illustration av dataklassificering

i den senaste Marknadsguiden för Filanalysprogramvara listar Gartner fyra användningsfall på hög nivå:

riskreducering
- begränsa åtkomsten till personligt identifierbar information (PII)
- kontrollplats och tillgång till immateriella rättigheter (IP)
- minska attackytan till känsliga data
- integrera klassificering i DLP och andra policystyrande applikationer

styrning / efterlevnad
- identifiera data som regleras av GDPR, HIPAA, CCPA, PCI, SOX och framtida föreskrifter
- använd metadatataggar till skyddade data för att möjliggöra ytterligare spårning och kontroller
- aktivera karantän, lagligt håll, arkivering och annan reglering-nödvändiga åtgärder
- underlätta ”rätten att bli bortglömd” och Begäran om åtkomst till registrerade (DSARs)

effektivitet och optimering
- möjliggör effektiv åtkomst till innehåll baserat på typ, användning etc.
- Upptäck och eliminera inaktuella eller överflödiga data
- flytta kraftigt utnyttjade data till snabbare enheter eller molnbaserad infrastruktur

Analytics
- aktivera metadatataggning för att optimera affärsaktiviteter
- informera organisationen om plats och användning av data

det är viktigt att notera att klassificering av data—medan ett grundläggande första steg—inte är tillräckligt för att vidta meningsfulla åtgärder för att uppnå många av ovanstående användningsfall. Att lägga till ytterligare metadataströmmar, till exempel behörigheter och dataanvändningsaktivitet, kan dramatiskt öka din förmåga att använda dina klassificeringsresultat för att uppnå viktiga mål.

skärmdump av filservrar

en av de mest populära funktionerna i Varonis Datasäkerhetsplattform är en instrumentpanel som avslöjar delmängden känslig data som också utsätts för varje anställd så att du vet exakt var du ska börja med dina riskreduceringsinsatser.

Datakänslighetsnivåer

illustrationer av datakänslighetsnivåer

organisationer fastställer ofta datakänslighetsnivåer för att skilja hur man behandlar olika typer av klassificerade data. USA: s regering har till exempel sju nivåer av klassificering. De är, från Högsta till lägsta:

begränsade Data / tidigare begränsade Data
kodordsklassificering
topphemlig
hemlig
konfidentiell
offentligt förtroende
kontrollerad oklassificerad Information (CUI)

Center for Internet Security (CIS) använder termerna ”sensitive”, ”business confidential” och ”public” för höga, medelstora och låga klassificeringskänslighetsnivåer.

tre klassificeringsnivåer är vanligtvis rätt nummer för de flesta organisationer. Mer än tre nivåer lägger till komplexitet som kan vara svår att upprätthålla, och färre än tre är för förenklade och kan leda till otillräcklig integritet och skydd.

här rekommenderas definitioner för en klassificeringstaxonomi med tre känslighetsnivåer:

högkänslig Data: kräver stränga åtkomstkontroller och skydd både för att det ofta skyddas av lagar som GDPR, CCPA och HIPAA och för att det kan orsaka betydande skador på en individ eller organisation om det bryts.
Medelkänslighetsdata: endast avsedd för internt bruk, men effekterna av ett dataintrång är inte katastrofala. Exempel är icke-identifierbara personaldata eller arkitekturplaner för en kommersiell byggnad under utveckling.
Lågkänslighetsdata: lågkänslighetsdata är offentlig information som inte kräver några åtkomstbegränsningar. Exempel är offentliga webbsidor, jobbannonser och blogginlägg.

du kan använda olika nomenklatur, och du kan ha mer än tre kategorier, beroende på dina användningsfall.

typer av Dataklassificering

illustrationer av typer av dataklassificering

det finns två primära paradigmer att följa när du implementerar en dataklassificeringsprocess. Det finns andra, men de flesta användningsfall kommer att falla i en av dessa kategorier. Du kan uppgiften användare med att klassificera de data de skapar, eller så kan du göra det för dem med en automatiserad lösning.

användare

när du uppgift användare att klassificera sina egna data, måste du definiera känslighetsnivåer, träna användarna att identifiera varje nivå och ger en mekanism för att märka och klassificera alla nya filer de skapar.

skärmdump av finansiell historik

de flesta klassificeringssystem tillhandahåller integrationer till policystyrande lösningar, till exempel DLP-programvara (data loss prevention), som spårar och skyddar känsliga data taggade av användare. Ett exempel DLP-policy kanske vill blockera filer taggade ”hög känslighet” från att laddas upp till Dropbox.

fördelen med användarklassificering är att människor är ganska bra på att bedöma om information är känslig eller inte. Med lämpliga verktyg och lättförståeliga regler kan klassificeringsnoggrannheten vara ganska bra, men det är mycket beroende av användarnas noggrannhet och kommer inte att skala för att hålla jämna steg med dataskapandet.

manuellt taggning av data är tråkigt och många användare kommer antingen att glömma eller försumma uppgiften. Om du har stora mängder redan existerande data (eller maskingenererade data) är det också en monumental utmaning att få användare att gå tillbaka och retroaktivt märka historiska data.

automatiserad

automatiserade dataklassificeringsmotorer använder en filparser kombinerad med ett stränganalyssystem för att hitta data i filer. En fil parser tillåter dataklassificering motorn att läsa innehållet i flera olika typer av filer. Ett stränganalyssystem matchar sedan data i filerna till definierade sökparametrar.

automatiserad klassificering är mycket effektivare än användarbaserad klassificering, men noggrannheten beror på parserns kvalitet. Varonis Dataklassificeringsmotor innehåller några viktiga funktioner för att validera resultat och minska falska positiva effekter—nämligen närhet till text, negativa sökord, matchningsintervall och valideringsalgoritmer.

Redigera regel skärmdump

förutom noggrannhet, effektivitet och skalbarhet är viktiga överväganden när man väljer en automatiserad klassificering produkt. För miljöer med hundratals stora datalager vill du ha en distribuerad, flertrådad motor än vad som kan hantera flera system samtidigt utan att konsumera för många resurser på butikerna som skannas.

tiden för att slutföra en initial klassificeringssökning av en stor miljö med flera petabyte kan vara betydande. Sann inkrementell skanning kan hjälpa till att påskynda efterföljande skanningar. Eftersom Varonis övervakar alla data skapar / modifierar, skannar vår skanningsmotor endast de filer som nyligen skapats eller ändrats sedan föregående genomsökning utan att behöva kontrollera varje fil för en ”Datum modifierad” tidsstämpel.

vissa klassificeringsmotorer kräver ett index för varje objekt de klassificerar. Om lagringskapacitet är ett problem, leta efter en motor som inte kräver ett index eller bara indexerar objekt som matchar en viss policy eller ett visst mönster.

organisationer kan lösa sig på det ena eller det andra, eller en kombination av både användar-och automatiseringsklassificering. Det är alltid bra att ge användarna utbildning och funktionalitet för att engagera sig i dataskydd, och det är klokt att följa upp med automatisering för att se till att saker inte faller igenom sprickorna.

Dataklassificeringsprocess

dataklassificeringsprocess

dataklassificeringsprocesser skiljer sig något beroende på projektets mål. De flesta dataklassificeringsprojekt kräver automatisering för att bearbeta den häpnadsväckande mängd data som företag skapar varje dag. I allmänhet finns det några bästa metoder som leder till framgångsrika dataklassificeringsinitiativ:

1. Definiera målen för Dataklassificeringsprocessen

Vad letar du efter? Varför?
vilka system omfattas av den inledande klassificeringsfasen?
vilka regler gäller för din organisation?
finns det andra affärsmål du vill ta itu med? (t. ex. riskreducering, lagringsoptimering, analys)

2. Kategorisera datatyper

identifiera vilka typer av data organisationen skapar (t. ex. kundlistor, finansiella poster, källkod, produktplaner)
avgränsa proprietära data jämfört med offentliga data
förväntar du dig att hitta GDPR, CCPA eller annan reglerad data?

3. Fastställa klassificeringsnivåer

hur många klassificeringsnivåer behöver du?
dokumentera varje nivå och ge exempel
träna användare att klassificera data (om manuell klassificering är planerad)

4. Definiera den automatiska klassificeringsprocessen

definiera hur man prioriterar vilka data som ska skannas först (t. ex. prioritera aktiv över inaktuell, öppen över skyddad)
fastställa frekvensen och resurserna du kommer att ägna åt automatiserad dataklassificering

5. Definiera kategorier och klassificeringskriterier

definiera dina högnivåkategorier och ge exempel (t. ex., PII, PHI)
definiera eller aktivera tillämpliga klassificeringsmönster och etiketter
upprätta en process för att granska och validera både användarklassificerade och automatiserade resultat

6. Definiera resultat och användning av sekretessbelagda Data

dokumentera riskreduceringssteg och automatiserade policyer (t. ex., flytta eller arkivera PHI om det inte används i 180 dagar, ta automatiskt bort globala åtkomstgrupper från mappar med känslig data)
definiera en process för att tillämpa analyser på klassificeringsresultat
upprätta förväntade resultat från analytisk analys

7. Övervaka och underhålla

upprätta ett pågående arbetsflöde för att klassificera nya eller uppdaterade data
granska klassificeringsprocessen och uppdatera vid behov på grund av förändringar i verksamheten eller nya regler

exempel på Dataklassificering

RegEx –kort för Reguljärt uttryck – är ett av de vanligaste stränganalyssystemen som definierar detaljer om sökmönster. Om jag till exempel ville hitta alla VISA-kreditkortsnummer i mina data skulle RegEx se ut:

\b(?<!)(4\d{3}\d{4}\d{4}\d{4}\b|4\d{12}(?:\d{3})?)\b

den sekvensen letar efter ett 16-teckental som börjar med en ’4’ och har 4 kvartetter avgränsade av en’ -. ’Endast en sträng av tecken som matchar RegEx direkt genererar ett positivt resultat. Att gå ett steg längre kan detta resultat valideras av en Luhn-algoritm.

här är ett fall där en RegEx ensam inte kommer att göra jobbet. Denna RegEx hittar validera e-postadresser, men kan inte skilja personliga Från företags e-postmeddelanden:

expression screenshot

en mer sofistikerad dataklassificeringspolicy kan använda en RegEx för mönstermatchning och sedan använda en ordbokssökning för att begränsa resultaten baserat på ett bibliotek med personliga e-postadresstjänster som Gmail, Outlook, etc.

förutom reguljära uttryck som letar efter mönster i text, kommer många parsers också att titta på en fils metadata—som filändelsen, ägaren och utökade egenskaper—för att bestämma dess klassificering. Vissa skanningsmotorer är tillräckligt robusta för att gå utöver innehållet i filen och införliva behörigheter och användningsaktivitet i klassificeringsregeln.

avancerad dataklassificering använder maskininlärning för att hitta data utan att enbart förlita sig på fördefinierade regler eller policyer som består av ordböcker och RegExes. Till exempel kanske du kan mata en maskininlärningsalgoritm ett korpus med 1000 juridiska dokument för att träna motorn hur ett typiskt juridiskt dokument ser ut. Motorn kan upptäcka nya juridiska dokument baserat på sin modell utan att förlita sig på strängmatchning.

bästa praxis för Dataklassificering

här är några bästa metoder att följa när du implementerar och utför en dataklassificeringspolicy i stor skala.

identifiera vilka efterlevnadsregler eller sekretesslagar som gäller för din organisation och bygg din klassificeringsplan i enlighet därmed
börja med ett realistiskt omfång (koka inte havet) och tätt definierade mönster (som PCI-DSS)
Använd automatiska verktyg för att snabbt bearbeta stora datamängder
skapa anpassade klassificeringsregler när det behövs, men uppfinna inte hjulet på nytt
justera klassificeringsregler/nivåer efter behov
validera dina klassificeringsresultat
ta reda på hur du bäst använder dina resultat och tillämpa Klassificering på allt från datasäkerhet till business intelligence

dataklassificering är en del av en övergripande dataskyddsstrategi. När du väl vet vilken data som är känslig, ta reda på vem som har tillgång till den informationen och vad som händer med den informationen hela tiden. På så sätt kan du skydda dina känsliga data och hålla din organisation från att visas i en olycklig rubrik.

Dataklassificeringsresurser

hur man gör Dataklassificering i Skala
Dataklassificeringstips: Hitta kreditkortsnummer
Dataklassificeringsetiketter
CCPA-klassificering
datasekretess
datastyrning

dataklassificering behöver inte vara komplicerad. Varonis har färdiga regler, intelligent validering, och närhet matchning du behöver för att göra det mesta av arbetet. Kolla in denna Masterclass för att se hur kunder klassificerar sina känsliga data.