Ce este Clasificarea datelor? Ghid și proces / Varonis

Imaginați-vă că sunteți CISO-ul unei organizații de 10.000 de persoane în care utilizatorii creează milioane de fișiere și e-mailuri în fiecare zi. Unele dintre aceste informații sunt extrem de sensibile—dacă sunt scurgeri sau furate, vă confruntați cu o încălcare a titlului și cu sancțiuni de șapte cifre. Cu toate acestea, majoritatea datelor create în fiecare zi ar putea fi publicate pe prima pagină a Times fără incidente.

poate fi practic imposibil să acordați prioritate atenuării riscurilor sau să respectați legile privind confidențialitatea atunci când nu știți ce informații necesită protecție militară. Aici intervine Clasificarea datelor.

obțineți ghidul esențial gratuit pentru respectarea și reglementările privind protecția datelor din SUA
Clasificarea datelor definiție
scopul clasificării datelor
niveluri de sensibilitate la date
tipuri de clasificare a datelor
User
automat
procesul de clasificare a datelor
Exemple de clasificare a datelor
cele mai bune practici de clasificare a datelor
resurse de clasificare a datelor

obțineți ghidul esențial gratuit pentru respectarea și reglementările privind protecția datelor din SUA

Clasificarea datelor definiție

ilustrarea clasificării datelor

Clasificarea datelor este procesul de analiză a datelor structurate sau nestructurate și organizarea acestora în categorii bazate pe tipul de fișier, conținut și alte metadate.

Clasificarea datelor ajută organizațiile să răspundă la întrebări importante despre datele lor, care informează modul în care acestea atenuează riscurile și gestionează politicile de guvernanță a datelor. Vă poate spune unde stocați cele mai importante date sau ce tipuri de date sensibile creează utilizatorii dvs. cel mai des. Clasificarea completă a datelor este necesară (dar nu suficientă) pentru a respecta reglementările moderne privind confidențialitatea datelor.

captură de ecran a configurației DCE și DW

software-ul de clasificare a datelor permite organizațiilor să identifice informații pertinente intereselor unei organizații. De exemplu, este posibil să aveți o cerință pentru a găsi toate referințele la „sos Szechuan” în rețeaua dvs., localizați toate mențiunile de „glifosat” pentru descoperirea legală sau etichetați toate fișierele legate de HIPAA din rețeaua dvs., astfel încât acestea să poată fi criptate automat.

pentru a respecta reglementările privind confidențialitatea datelor, organizațiile derulează de obicei proiecte de clasificare pentru a descoperi orice informații de identificare personală (PII) din magazinele dvs. de date, astfel încât să puteți dovedi auditorilor că sunt guvernate în mod corespunzător.

Clasificarea datelor nu este aceeași cu indexarea datelor, deși există unele paralele între cele două. Deși ambele necesită analizarea conținutului pentru a decide dacă este relevant pentru un cuvânt cheie sau un concept, clasificarea nu produce neapărat un index care poate fi căutat.

în multe cazuri, rezultatele clasificării vor enumera numele obiectului și Politica sau modelul care a fost asociat fără a stoca un index al conținutului obiectului:

obiect: clienții.xls
modele potrivite: California permis de conducere (CCPA) , American Express (PCI-DSS)

unele soluții de clasificare a datelor creează un index pentru a permite căutarea rapidă și eficientă pentru a ajuta la îndeplinirea cererilor de acces la persoanele vizate (DSAR) și a cererilor de dreptul de a fi uitate.

scopul clasificării datelor

ilustrarea clasificării datelor

în cel mai recent Ghid de piață pentru Software-ul de analiză a fișierelor, Gartner enumeră patru cazuri de utilizare la nivel înalt:

reducerea riscurilor
- limitarea accesului la informații de identificare personală (PII)
- controlul locației și accesul la proprietatea intelectuală (IP)
- reducerea suprafeței de atac la date sensibile
- integrarea clasificării în DLP și alte aplicații de aplicare a politicilor

guvernanță/conformitate
- identificați datele reglementate de GDPR, HIPAA, CCPA, PCI, SOX și reglementările viitoare
- aplicați etichete de metadate datelor protejate pentru a permite urmărirea și controalele suplimentare
- activați carantina, reținerea legală, arhivarea și alte acțiuni necesare reglementării
- facilitează” dreptul de a fi uitat ” și cererile de acces la persoanele vizate (Dsar)

eficiența și optimizarea
- permit accesul eficient la conținut în funcție de tip, utilizare etc.
- Descoperiți și eliminați datele învechite sau redundante
- Mutați datele puternic utilizate pe dispozitive mai rapide sau infrastructură bazată pe cloud

Analytics
- permite etichetarea metadatelor pentru a optimiza activitățile de afaceri
- informează organizația cu privire la locația și utilizarea datelor

este important să rețineți că clasificarea datelor—deși este un prim pas fundamental—nu este de obicei suficientă pentru a lua măsuri semnificative pentru a realiza multe dintre cazurile de utilizare de mai sus. Adăugarea de fluxuri de metadate suplimentare, cum ar fi permisiunile și activitatea de utilizare a datelor, vă poate crește dramatic capacitatea de a utiliza rezultatele clasificării pentru a atinge obiectivele cheie.

captură de ecran a serverelor de fișiere

una dintre cele mai populare caracteristici ale platformei de securitate a datelor Varonis este un tablou de bord care dezvăluie subsetul de date sensibile care este, de asemenea, expus fiecărui angajat, astfel încât să știți exact de unde să începeți cu eforturile dvs. de diminuare a riscurilor.

niveluri de sensibilitate la date

ilustrații ale nivelurilor de sensibilitate la date

organizațiile stabilesc adesea niveluri de sensibilitate la date pentru a diferenția modul de tratare a diferitelor tipuri de date clasificate. Guvernul Statelor Unite, de exemplu, are șapte niveluri de clasificare. Ele sunt, de la cel mai înalt la cel mai mic:

date restricționate / date restricționate anterior
Clasificarea cuvintelor Cod
Top Secret
Secret
confidențial
încredere publică
informații neclasificate controlate (CUI)

Center for Internet Security (CIS) folosește termenii „sensibil”, „confidențial de afaceri” și „public” pentru niveluri de sensibilitate ridicate, medii și scăzute de clasificare.

trei niveluri de clasificare sunt de obicei numărul potrivit pentru majoritatea organizațiilor. Mai mult de trei niveluri adaugă complexitate care ar putea fi dificil de întreținut, iar mai puțin de trei este prea simplist și ar putea duce la confidențialitate și protecție insuficiente.

aici sunt definiții recomandate pentru o taxonomie de clasificare cu trei niveluri de sensibilitate:

date de înaltă sensibilitate: necesită controale stricte de acces și protecții atât pentru că este adesea protejat de legi precum GDPR, CCPA și HIPAA, cât și pentru că ar putea provoca daune semnificative unei persoane sau organizației dacă este încălcată.
Date De Sensibilitate Medie: destinat numai pentru uz intern, dar impactul unei încălcări a datelor nu este catastrofal. Exemple sunt date de personal neidentificabile sau planuri de arhitectură pentru o clădire comercială în curs de dezvoltare.
date de sensibilitate scăzută: datele de sensibilitate scăzută sunt informații publice care nu necesită restricții de acces. Exemplele includ pagini web publice, postări de locuri de muncă și postări pe blog.

puteți utiliza nomenclaturi diferite și puteți avea mai mult de trei categorii, în funcție de cazurile de utilizare.

tipuri de clasificare a datelor

ilustrații ale tipurilor de clasificare a datelor

există două paradigme primare de urmat atunci când implementați un proces de clasificare a datelor. Există și altele, dar majoritatea cazurilor de utilizare se vor încadra într-una din aceste categorii. Ai putea sarcina utilizatorilor cu Clasificarea datelor pe care le creează, sau ai putea face pentru ei cu o soluție automată.

User

când utilizatorii sarcina de a clasifica propriile date, aveți nevoie pentru a defini nivelurile de sensibilitate, tren utilizatorii să identifice fiecare nivel și să ofere un mecanism pentru a eticheta și clasifica toate fișierele noi pe care le creează.

captură de ecran istoric financiar

majoritatea sistemelor de clasificare oferă integrări la soluții de aplicare a politicilor, cum ar fi software-ul de prevenire a pierderilor de date (DLP), care urmăresc și protejează datele sensibile etichetate de utilizatori. Un exemplu de politică DLP ar putea dori blocarea fișierelor etichetate „sensibilitate ridicată” de a fi încărcate în Dropbox.

avantajul clasificării utilizatorilor este că oamenii sunt destul de buni la a judeca dacă informațiile sunt sensibile sau nu. Cu scule adecvate și reguli ușor de înțeles, precizia clasificării poate fi destul de bună, dar depinde foarte mult de diligența utilizatorilor dvs. și nu va scala pentru a ține pasul cu crearea de date.

etichetarea manuală a datelor este obositoare și mulți utilizatori vor uita sau neglija sarcina. De asemenea, dacă aveți cantități mari de date preexistente (sau date generate de mașini), este o provocare monumentală să îi determinați pe utilizatori să se întoarcă și să eticheteze retroactiv datele istorice.

automat

motoarele automate de clasificare a datelor folosesc un analizor de fișiere combinat cu un sistem de analiză a șirurilor pentru a găsi date în fișiere. Un analizor de fișiere permite motorului de clasificare a datelor să citească conținutul mai multor tipuri diferite de fișiere. Un sistem de analiză șir apoi se potrivește datele din fișierele la parametrii de căutare definite.

clasificarea automată este mult mai eficientă decât clasificarea bazată pe utilizator, dar precizia depinde de calitatea parserului. Motorul de clasificare a datelor Varonis include câteva caracteristici cheie pentru a ajuta la validarea rezultatelor și la scăderea falsurilor pozitive—și anume proximitatea textului, a cuvintelor cheie negative, a intervalelor de potrivire și a algoritmilor de validare.

editare screenshot regulă

în plus față de precizie, eficiență și scalabilitate sunt considerente importante atunci când selectarea unui produs de clasificare automată. Pentru medii cu sute de magazine mari de date, veți dori un motor distribuit, multi-threaded, care poate aborda mai multe sisteme simultan, fără a consuma prea multe resurse în magazinele scanate.

timpul pentru a finaliza o scanare inițială de clasificare a unui mediu mare multi-petabyte poate fi semnificativ. Scanarea incrementală adevărată poate ajuta la accelerarea scanărilor ulterioare. Deoarece Varonis monitorizează toate datele create / modificate, motorul nostru de scanare scanează numai acele fișiere care sunt nou create sau modificate de la scanarea anterioară, fără a fi nevoie să verificați fiecare fișier pentru o marcă de timp „data modificată”.

unele motoare de clasificare necesită un index al fiecărui obiect pe care îl clasifică. Dacă capacitatea de stocare este o preocupare, căutați un motor care nu necesită un index sau doar indexează obiecte care se potrivesc cu o anumită politică sau model.

organizațiile pot soluționa pe una sau alta, sau o combinație atât de utilizator și de clasificare de automatizare. Este întotdeauna bine să oferiți utilizatorilor instruirea și funcționalitatea pentru a se angaja în protecția datelor și este înțelept să urmați automatizarea pentru a vă asigura că lucrurile nu cad prin fisuri.

procesul de clasificare a datelor

procesele de clasificare a datelor diferă ușor în funcție de obiectivele proiectului. Majoritatea proiectelor de clasificare a datelor necesită automatizare pentru a procesa cantitatea uimitoare de date pe care companiile o creează în fiecare zi. În general, există câteva bune practici care duc la inițiative de clasificare a datelor de succes:

1. Definiți obiectivele procesului de clasificare a datelor

ce căutați? De ce?
ce sisteme sunt prevăzute pentru faza inițială de clasificare?
ce reglementări de conformitate se aplică organizației dumneavoastră?
există alte obiective de afaceri pe care doriți să le abordați? (de exemplu, reducerea riscurilor, optimizarea stocării, analize)

2. Clasificați tipurile de date

identificați ce tipuri de date creează organizația (de exemplu, liste de clienți, înregistrări financiare, cod sursă, planuri de produse)
delimitați datele proprietare vs. datele publice
vă așteptați să găsiți GDPR, CCPA sau alte date reglementate?

3. Stabiliți niveluri de clasificare

de câte niveluri de clasificare aveți nevoie?
documentează fiecare nivel și oferă exemple
antrenează utilizatorii să clasifice datele (dacă este planificată clasificarea manuală)

4. Definiți procesul de clasificare automată

definiți cum să acordați prioritate datelor care trebuie scanate mai întâi (de exemplu, prioritizați activ peste învechit, deschis peste protejat)
stabiliți frecvența și resursele pe care le veți dedica clasificării automate a datelor

5. Definiți categoriile și criteriile de clasificare

definiți categoriile de nivel înalt și furnizați exemple (de ex., PII, PHI)
definiți sau activați modelele și etichetele de clasificare aplicabile
stabiliți un proces de revizuire și validare a rezultatelor clasificate și automatizate ale utilizatorilor

6. Definiți rezultatele și utilizarea datelor clasificate

documentați etapele de diminuare a riscurilor și politicile automatizate (de ex., mutați sau arhivați PHI dacă nu este utilizat timp de 180 de zile, eliminați automat grupurile de acces global din folderele cu date sensibile)
definiți un proces de aplicare a analizelor la rezultatele clasificării
stabiliți rezultatele așteptate din analiza analitică

7. Monitorizați și mențineți

stabiliți un flux de lucru continuu pentru a clasifica date noi sau actualizate
examinați procesul de clasificare și actualizați, dacă este necesar, din cauza modificărilor în afaceri sau a noilor reglementări

Exemple de clasificare a datelor

RegEx –scurt pentru expresie regulată – este unul dintre cele mai comune sisteme de analiză a șirurilor care definesc specificul modelelor de căutare. De exemplu, dacă aș vrea să găsesc toate numerele cărților de credit VISA în datele mele, Regexul ar arăta:

\b(?<!)(4\d{3}\d{4}\d{4}\d{4}\b|4\d{12}(?:\d{3})?)\b

acea secvență caută un număr de 16 caractere care începe cu un ‘4’ și are 4 cvartete delimitate de un’ -. ‘Doar un șir de caractere care se potrivește cu Regexul generează direct un rezultat pozitiv. Mergând un pas mai departe, acest rezultat poate fi validat printr-un algoritm Luhn.

Iată un caz în care un RegEx singur nu va face treaba. Acest RegEx găsește validarea adreselor de e-mail, dar nu poate distinge e-mailurile personale de afaceri:

expression screenshot

o politică mai sofisticată de clasificare a datelor ar putea utiliza un RegEx pentru potrivirea modelelor și apoi să aplice o căutare în dicționar pentru a restrânge rezultatele pe baza unei biblioteci de servicii de adrese de e-mail personale precum Gmail, Outlook etc.

în plus față de expresiile regulate care caută modele în text, mulți analizatori vor analiza, de asemenea, metadatele unui fișier—cum ar fi extensia fișierului, proprietarul și proprietățile extinse—pentru a determina clasificarea acestuia. Unele motoare de scanare sunt suficient de robuste pentru a depăși conținutul fișierului și pentru a încorpora permisiunile și activitatea de utilizare în regula de clasificare.

Clasificarea avansată a datelor utilizează învățarea automată pentru a găsi date fără a se baza exclusiv pe reguli sau politici predefinite formate din dicționare și Regexuri. De exemplu, s-ar putea să puteți alimenta un algoritm de învățare automată un corpus de 1.000 de documente legale pentru a instrui motorul cum arată un document legal tipic. Motorul poate descoperi noi documente legale pe baza modelului său fără a se baza pe potrivirea șirurilor.

cele mai bune practici de clasificare a datelor

iată câteva dintre cele mai bune practici de urmat pe măsură ce implementați și executați o politică de clasificare a datelor la scară largă.

identificați ce reglementări de conformitate sau legi de confidențialitate se aplică organizației dvs. și construiți planul de clasificare în consecință
începeți cu un domeniu realist (nu fierbeți oceanul) și modele bine definite (cum ar fi PCI-DSS)
utilizați instrumente automate pentru a procesa rapid volume mari de date
creați reguli de clasificare personalizate atunci când este necesar, dar nu reinventați roata
ajustați regulile/nivelurile de clasificare după cum este necesar
validați rezultatele clasificării
aflați cum să utilizați cel mai bine rezultatele și să aplicați clasificarea la totul, de la securitatea datelor la Business intelligence

Clasificarea datelor face parte dintr-o strategie generală de protecție a datelor. Odată ce știți ce date sunt sensibile, aflați cine are acces la aceste date și ce se întâmplă cu aceste date în orice moment. În acest fel, vă puteți proteja datele sensibile și vă puteți împiedica organizația să apară într-un titlu nefericit.

resurse de clasificare a datelor

cum se face Clasificarea datelor la scară
sfaturi de clasificare a datelor: Găsirea numerelor cărților de Credit
etichete de clasificare a datelor
Clasificarea CCPA
confidențialitatea datelor
guvernanța datelor

Clasificarea datelor nu trebuie să fie complicată. Varonis are regulile pre-construite, validarea inteligentă și potrivirea de proximitate de care aveți nevoie pentru a face cea mai mare parte a muncii. Consultați acest Masterclass pentru a vedea cum își clasifică clienții datele sensibile.

ce este Clasificarea datelor | Linii directoare și proces