Cos’è la classificazione dei dati? Linee guida e processo

Immagina di essere il CISO di un’organizzazione di 10.000 persone in cui gli utenti creano milioni di file ed e-mail ogni giorno. Alcune di queste informazioni sono altamente sensibili – se trapelate o rubate, stai affrontando una violazione del titolo e sanzioni a sette cifre. La maggior parte dei dati creati ogni giorno, tuttavia, potrebbe essere pubblicato sulla prima pagina del Times senza incidenti.

Può essere praticamente impossibile dare priorità alla mitigazione del rischio o rispettare le leggi sulla privacy quando non sai quali informazioni richiedono una protezione di livello militare. Ecco dove entra in gioco la classificazione dei dati.

la Classificazione dei Dati Definizione

illustrazione di classificazione dei dati

classificazione dei Dati è il processo di analisi strutturato o non strutturato dati e organizzarli in categorie in base al tipo di file, contenuti e altri metadati.

La classificazione dei dati aiuta le organizzazioni a rispondere a domande importanti sui loro dati che informano su come mitigare i rischi e gestire le politiche di governance dei dati. Può dirti dove stai memorizzando i tuoi dati più importanti o quali tipi di dati sensibili i tuoi utenti creano più spesso. La classificazione completa dei dati è necessaria (ma non sufficiente) per conformarsi alle moderne normative sulla privacy dei dati.

screenshot della configurazione DCE e DW

Il software di classificazione dei dati consente alle organizzazioni di identificare le informazioni pertinenti agli interessi di un’organizzazione. Ad esempio, potresti avere l’obbligo di trovare tutti i riferimenti a “Salsa di Szechuan” sulla tua rete, individuare tutte le menzioni di “glifosato” per la scoperta legale o taggare tutti i file correlati a HIPAA sulla tua rete in modo che possano essere crittografati automaticamente.

Per rispettare le normative sulla privacy dei dati, le organizzazioni in genere avviano progetti di classificazione per scoprire informazioni personali identificabili (PII) sui tuoi archivi dati in modo da poter dimostrare agli auditor che sono correttamente governate.

La classificazione dei dati non è la stessa dell’indicizzazione dei dati, sebbene ci siano alcuni paralleli tra i due. Mentre entrambi richiedono di guardare il contenuto per decidere se è rilevante per una parola chiave o un concetto, la classificazione non produce necessariamente un indice ricercabile.

In molti casi, i risultati della classificazione elencheranno il nome dell’oggetto e il criterio o il modello che è stato abbinato senza memorizzare un indice del contenuto dell’oggetto:

  • Oggetto: Clienti.xls
  • Modelli abbinati: Patente di guida California (CCPA), American Express (PCI-DSS)

Alcune soluzioni di classificazione dei dati creano un indice per consentire una ricerca rapida ed efficiente per soddisfare le richieste di accesso ai dati (DSAR) e le richieste di diritto all’oblio.

Scopo della classificazione dei dati

 illustrazione della classificazione dei dati

Nella più recente Guida di mercato per il software di analisi dei file, Gartner elenca quattro casi d’uso di alto livello:

  • Mitigazione del Rischio
    • Limitare l’accesso alle informazioni di identificazione personale (PII)
    • Controllare la posizione e l’accesso alla proprietà intellettuale (IP)
    • Ridurre la superficie di attacco di dati sensibili
    • Integrare la classificazione in DLP e di altri criteri di applicazione applicazioni
  • Governance e Compliance
    • Identificare i dati governata da GDPR, HIPAA, CCPA, PCI, SOX, e la futura normativa
    • Applicare il tag di metadati per i dati protetti per consentire ulteriori monitoraggio e controlli
    • Attivare la funzione di quarantena, legal hold, archiviazione e altre azioni richieste dal regolamento
    • Facilitano il “Diritto all’oblio” e le richieste di accesso all’interessato (DSAR)
  • Efficienza e ottimizzazione
    • Consentono un accesso efficiente ai contenuti in base al tipo,all’utilizzo, ecc.
    • Scoprire ed eliminare raffermo o di dati ridondanti
    • Sposta pesantemente utilizzati dati a dispositivi più veloci o l’infrastruttura cloud-based
  • Analytics
    • Abilita il tagging dei metadati per ottimizzare le attività di business
    • Informare l’organizzazione di posizione e di utilizzo dei dati

È importante notare che la classificazione dei dati—mentre un fondamentale primo passo, non è in genere sufficiente per adottare misure significative per il raggiungimento di molti sopra i casi di utilizzo. L’aggiunta di ulteriori flussi di metadati, come autorizzazioni e attività di utilizzo dei dati, può aumentare notevolmente la capacità di utilizzare i risultati della classificazione per raggiungere gli obiettivi chiave.

screenshot dei file server

Una delle caratteristiche più popolari di Varonis Data Security Platform è una dashboard che rivela il sottoinsieme di dati sensibili che è esposto anche a tutti i dipendenti in modo da sapere esattamente da dove cominciare con i vostri sforzi di mitigazione del rischio.

Livelli di sensibilità dei dati

illustrazioni dei livelli di sensibilità dei dati

Le organizzazioni spesso stabiliscono livelli di sensibilità dei dati per differenziare come trattare vari tipi di dati classificati. Il governo degli Stati Uniti, ad esempio, ha sette livelli di classificazione. Sono, dal più alto al più basso:

  1. Limitato di Dati Già Limitato di Dati
  2. Parola di Codice di classificazione
  3. Top Secret
  4. Segreto
  5. Confidenziale
  6. Fiducia
  7. Controllate Informazioni non classificate (CUI)

Center for Internet Security (CIS) utilizza i termini “sensibili” di “affari riservati,”e “pubblico” per alta, media e bassa classificazione dei livelli di sensibilità.

Tre livelli di classificazione sono di solito il numero giusto per la maggior parte delle organizzazioni. Più di tre livelli aggiungono complessità che potrebbe essere difficile da mantenere, e meno di tre è troppo semplicistico e potrebbe portare a insufficiente privacy e protezione.

Qui sono raccomandate le definizioni per una tassonomia di classificazione con tre livelli di sensibilità:

  • Dati ad alta sensibilità: richiede controlli di accesso rigorosi e protezioni sia perché è spesso protetto da leggi come GDPR, CCPA e HIPAA sia perché potrebbe causare danni significativi a un individuo o all’organizzazione in caso di violazione.
  • Dati di sensibilità media: solo per uso interno, ma l’impatto di una violazione dei dati non è catastrofico. Esempi sono dati personali non identificabili o piani di architettura di un edificio commerciale in fase di sviluppo.
  • Dati a bassa sensibilità: i dati a bassa sensibilità sono informazioni pubbliche che non richiedono restrizioni di accesso. Gli esempi includono pagine Web pubbliche, annunci di lavoro e post di blog.

È possibile utilizzare diverse nomenclature e si possono avere più di tre categorie, a seconda dei casi d’uso.

Tipi di classificazione dei dati

illustrazioni dei tipi di classificazione dei dati

Ci sono due paradigmi principali da seguire quando si implementa un processo di classificazione dei dati. Ce ne sono altri, ma la maggior parte dei casi d’uso cadrà in una di queste categorie. Si potrebbe compito agli utenti con la classificazione dei dati che creano, o si potrebbe fare per loro con una soluzione automatizzata.

Utente

Quando si compito agli utenti di classificare i propri dati, è necessario definire i livelli di sensibilità, addestrare gli utenti a identificare ogni livello e fornire un meccanismo per taggare e classificare tutti i nuovi file che creano.

financial history screenshot

La maggior parte dei sistemi di classificazione fornisce integrazioni a soluzioni di applicazione delle policy, come il software DLP (Data Loss Prevention), che tengono traccia e proteggono i dati sensibili taggati dagli utenti. Un criterio DLP di esempio potrebbe richiedere che i file di blocco contrassegnati come “Alta sensibilità” vengano caricati su Dropbox.

Il vantaggio della classificazione degli utenti è che gli esseri umani sono abbastanza bravi a giudicare se le informazioni sono sensibili o meno. Con strumenti appropriati e regole di facile comprensione, l’accuratezza della classificazione può essere abbastanza buona, ma dipende fortemente dalla diligenza degli utenti e non si ridimensiona per tenere il passo con la creazione dei dati.

Taggare manualmente i dati è noioso e molti utenti dimenticheranno o trascureranno l’attività. Inoltre, se si dispone di grandi quantità di dati preesistenti (o dati generati dalla macchina), è una sfida monumentale convincere gli utenti a tornare indietro e taggare retroattivamente i dati storici.

Automatizzato

I motori automatizzati di classificazione dei dati impiegano un parser di file combinato con un sistema di analisi delle stringhe per trovare i dati nei file. Un parser di file consente al motore di classificazione dei dati di leggere il contenuto di diversi tipi di file. Un sistema di analisi delle stringhe corrisponde quindi i dati nei file ai parametri di ricerca definiti.

La classificazione automatica è molto più efficiente della classificazione basata sull’utente, ma la precisione dipende dalla qualità del parser. Il motore di classificazione dei dati di Varonis include alcune funzionalità chiave per aiutare a convalidare i risultati e ridurre i falsi positivi, ovvero la vicinanza di testo, parole chiave negative, intervalli di corrispondenza e algoritmi di convalida.

modifica schermata regola

Oltre alla precisione, l’efficienza e la scalabilità sono considerazioni importanti quando si seleziona un prodotto di classificazione automatica. Per gli ambienti con centinaia di grandi archivi di dati, è necessario un motore distribuito e multi-threaded che possa affrontare più sistemi contemporaneamente senza consumare troppe risorse nei negozi sottoposti a scansione.

Il tempo necessario per completare una scansione iniziale di classificazione di un grande ambiente multi-petabyte può essere significativo. La vera scansione incrementale può aiutare ad accelerare le scansioni successive. Poiché Varonis monitora tutti i dati creati / modificati, il nostro motore di scansione analizza solo i file appena creati o modificati dalla scansione precedente senza dover controllare ogni file per un timestamp “data modificata”.

Alcuni motori di classificazione richiedono un indice di ogni oggetto che classificano. Se la capacità di archiviazione è un problema, cercare un motore che non richiede un indice o indicizza solo gli oggetti che corrispondono a un determinato criterio o modello.

Le organizzazioni possono stabilirsi su uno o l’altro, o una combinazione di classificazione utente e automazione. È sempre bene fornire agli utenti la formazione e le funzionalità per impegnarsi nella protezione dei dati, ed è consigliabile seguire l’automazione per assicurarsi che le cose non cadano attraverso le fessure.

Processo di classificazione dei dati

processo di classificazione dei dati

I processi di classificazione dei dati differiscono leggermente a seconda degli obiettivi del progetto. La maggior parte dei progetti di classificazione dei dati richiede l’automazione per elaborare la sorprendente quantità di dati che le aziende creano ogni giorno. In generale, ci sono alcune best practice che portano a iniziative di classificazione dei dati di successo:

1. Definire gli obiettivi del processo di classificazione dei dati

  • Cosa stai cercando? Perché?
  • Quali sistemi sono nell’ambito della fase iniziale di classificazione?
  • Quali norme di conformità si applicano alla vostra organizzazione?
  • Ci sono altri obiettivi di business che si desidera affrontare? (ad esempio, mitigazione del rischio, ottimizzazione dello storage, analisi)

2. Categorizza i tipi di dati

  • Identifica i tipi di dati creati dall’organizzazione (ad esempio elenchi di clienti, record finanziari, codice sorgente, piani di prodotto)
  • Delineare i dati proprietari rispetto ai dati pubblici
  • Ti aspetti di trovare GDPR, CCPA o altri dati regolamentati?

3. Stabilire livelli di classificazione

  • Quanti livelli di classificazione avete bisogno?
  • Documentare ogni livello e fornire esempi
  • Addestrare gli utenti a classificare i dati (se è prevista la classificazione manuale)

4. Definire il processo di classificazione automatica

  • Definire come dare la priorità a quali dati scansionare per primi (ad esempio, dare la priorità attiva su stantio, aperta su protetta)
  • Stabilire la frequenza e le risorse che dedicherai alla classificazione automatica dei dati

5. Definire le categorie e i criteri di classificazione

  • Definire le categorie di alto livello e fornire esempi (ad es., PII, PHI)
  • Definire o abilitare i modelli e le etichette di classificazione applicabili
  • Stabilire un processo per esaminare e convalidare sia i risultati classificati dall’utente che quelli automatizzati

6. Definire i risultati e l’utilizzo dei dati classificati

  • Documentare le fasi di mitigazione del rischio e le politiche automatizzate (ad es., spostare o archiviare PHI se inutilizzato per 180 giorni, rimuovere automaticamente i gruppi di accesso globale da cartelle con dati sensibili)
  • Definire un processo per applicare l’analisi ai risultati di classificazione
  • Stabilire i risultati attesi dall’analisi analitica

7. Monitorare e Mantenere

  • Stabilire un costante flusso di lavoro di classificare i dati nuovi o aggiornati
  • Rivedere il processo di classificazione e di aggiornamento, se necessario, a causa di cambiamenti o nuovi regolamenti

Esempi di Classificazione dei Dati

RegEx –breve per l’espressione regolare è una delle più comuni stringa di sistemi di analisi che definire specifiche sui modelli di ricerca. Ad esempio, se volessi trovare tutti i numeri di carta di credito VISA nei miei dati, la RegEx sarebbe simile:

\b(?<!)(4\d{3}\d{4}\d{4}\d{4}\b|4\d{12}(?:\d{3})?)\b

Quella sequenza cerca un numero di 16 caratteri che inizia con un ‘4’ e ha 4 quartetti delimitati da un’ -. ‘Solo una stringa di caratteri che corrisponde alla RegEx genera direttamente un risultato positivo. Andando un ulteriore passo avanti, questo risultato può essere convalidato da un algoritmo Luhn.

Ecco un caso in cui una RegEx da sola non farà il lavoro. Questa espressione regolare trova convalidare gli indirizzi e-mail, ma non può distinguere le e-mail personali da quelle aziendali:

expression screenshot

Una politica di classificazione dei dati più sofisticata potrebbe utilizzare una RegEx per la corrispondenza dei pattern e quindi applicare una ricerca del dizionario per restringere i risultati in base a una libreria di servizi di indirizzi e-mail personali come Gmail, Outlook, ecc.

Oltre alle espressioni regolari che cercano modelli all’interno del testo, molti parser esamineranno anche i metadati di un file, come l’estensione del file, il proprietario e le proprietà estese, per determinarne la classificazione. Alcuni motori di scansione sono abbastanza robusti da andare oltre il contenuto del file e incorporare autorizzazioni e attività di utilizzo nella regola di classificazione.

La classificazione avanzata dei dati utilizza l’apprendimento automatico per trovare i dati senza fare affidamento esclusivamente su regole o criteri predefiniti costituiti da dizionari e REGEX. Ad esempio, si potrebbe essere in grado di alimentare un algoritmo di apprendimento automatico un corpus di 1.000 documenti legali per addestrare il motore ciò che un tipico documento legale assomiglia. Il motore può scoprire nuovi documenti legali in base al suo modello senza fare affidamento sulla corrispondenza delle stringhe.

Best practice di classificazione dei dati

Ecco alcune best practice da seguire durante l’implementazione e l’esecuzione di una politica di classificazione dei dati su larga scala.

  • Identificare la cui osservanza dei regolamenti o leggi sulla privacy applicabili all’organizzazione, e costruire il vostro piano di classificazione, di conseguenza,
  • Inizia con una portata realistica (non bollire l’oceano) e ben definiti modelli (come il PCI-DSS)
  • Utilizzo di strumenti automatizzati per elaborare grandi volumi di dati in modo rapido
  • Creazione personalizzata di regole di classificazione, quando necessario, ma non reinventare la ruota
  • Regolare regole di classificazione/livelli come necessario
  • Convalidare il risultato della classificazione
  • capire come utilizzare al meglio i risultati e applicare la classificazione tutto, dalla sicurezza dei dati alla business intelligence

La classificazione dei dati fa parte di una strategia globale di protezione dei dati. Una volta che sai quali dati sono sensibili, scopri chi ha accesso a quei dati e cosa sta succedendo a quei dati in ogni momento. In questo modo, puoi proteggere i tuoi dati sensibili e impedire alla tua organizzazione di apparire in un titolo sfortunato.

Risorse di classificazione dei dati

  • Come fare Classificazione dei dati su scala
  • Suggerimenti per la classificazione dei dati: Trovare numeri di carta di credito
  • Etichette di classificazione dei dati
  • Classificazione CCPA
  • Privacy dei dati
  • Governance dei dati

La classificazione dei dati non deve essere complicata. Varonis ha le regole pre-costruite, la convalida intelligente e la corrispondenza di prossimità necessarie per fare la maggior parte del lavoro. Dai un’occhiata a questa Masterclass per vedere come i clienti classificano i loro dati sensibili.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.