Qu’est-ce que la Classification des données ? Lignes directrices et processus

Imaginez que vous êtes le RSSI d’une organisation de 10 000 personnes où les utilisateurs créent des millions de fichiers et d’e-mails chaque jour. Certaines de ces informations sont très sensibles — en cas de fuite ou de vol, vous êtes confronté à une violation de titre et à des sanctions à sept chiffres. La plupart des données créées chaque jour, cependant, pourraient être publiées sur la première page du Times sans incident.

Il peut être pratiquement impossible de prioriser l’atténuation des risques ou de se conformer aux lois sur la protection de la vie privée lorsque vous ne savez pas quelles informations nécessitent une protection de niveau militaire. C’est là que la classification des données entre en jeu.

Définition de la classification des données

 illustration de la classification des données

La classification des données consiste à analyser des données structurées ou non structurées et à les organiser en catégories en fonction du type de fichier, du contenu et d’autres métadonnées.

La classification des données aide les organisations à répondre à des questions importantes sur leurs données qui éclairent la façon dont elles atténuent les risques et gèrent les politiques de gouvernance des données. Il peut vous indiquer où vous stockez vos données les plus importantes ou quels types de données sensibles vos utilisateurs créent le plus souvent. Une classification complète des données est nécessaire (mais pas suffisante) pour se conformer aux réglementations modernes en matière de confidentialité des données.

 capture d'écran de la configuration DCE et DW

Le logiciel de classification des données permet aux organisations d’identifier les informations pertinentes aux intérêts d’une organisation. Par exemple, vous devrez peut-être trouver toutes les références à « Sauce Szechuan » sur votre réseau, localiser toutes les mentions de « glyphosate » pour une découverte légale ou étiqueter tous les fichiers liés à HIPAA sur votre réseau afin qu’ils puissent être cryptés automatiquement.

Pour se conformer à la réglementation sur la confidentialité des données, les organisations lancent généralement des projets de classification pour découvrir toute information personnellement identifiable (PII) sur vos magasins de données afin que vous puissiez prouver aux auditeurs qu’elle est correctement régie.

La classification des données n’est pas la même que l’indexation des données, bien qu’il existe des parallèles entre les deux. Alors que les deux nécessitent d’examiner le contenu pour décider s’il est pertinent pour un mot-clé ou un concept, la classification ne produit pas nécessairement un index interrogeable.

Dans de nombreux cas, les résultats de classification listeront le nom de l’objet et la stratégie ou le modèle qui a été mis en correspondance sans stocker un index du contenu de l’objet:

  • Objet : Clients.xls
  • Motifs assortis: Permis de conduire californien (CCPA), American Express (PCI-DSS)

Certaines solutions de classification des données créent un index pour permettre une recherche rapide et efficace afin de répondre aux demandes d’accès des personnes concernées (DSAR) et aux demandes de droit à l’oubli.

Objet de la Classification des données

 illustration de la classification des données

Dans le dernier Guide du Marché des logiciels d’analyse de fichiers, Gartner énumère quatre cas d’utilisation de haut niveau:

  • Atténuation des risques
    • Limiter l’accès aux informations personnelles identifiables (PII)
    • Contrôler l’emplacement et l’accès à la propriété intellectuelle (PI)
    • Réduire la surface d’attaque aux données sensibles
    • Intégrer la classification dans la DLP et d’autres applications d’application des politiques
  • Gouvernance /conformité
    • Identifier les données régies par le RGPD, HIPAA, CCPA, PCI, SOX et les réglementations futures
    • Appliquer des balises de métadonnées aux données protégées pour permettre un suivi et des contrôles supplémentaires
    • Activer la mise en quarantaine, la rétention légale, archivage et autres actions réglementaires requises
    • Facilitent le  » Droit à l’oubli  » et les Demandes d’accès des Personnes Concernées (DSAR)
  • Efficacité et optimisation
    • Permettent un accès efficace au contenu en fonction du type, de l’utilisation, etc.
    • Découvrez et éliminez les données périmées ou redondantes
    • Déplacez les données fortement utilisées vers des appareils plus rapides ou une infrastructure basée sur le cloud
  • Analytics
    • Activer le marquage des métadonnées pour optimiser les activités commerciales
    • Informer l’organisation sur l’emplacement et l’utilisation des données

Il est important de noter que la classification des données — bien qu’elle soit une première étape fondamentale — n’est généralement pas suffisante pour prendre des mesures significatives pour réaliser bon nombre des cas d’utilisation ci-dessus. L’ajout de flux de métadonnées supplémentaires, tels que les autorisations et l’activité d’utilisation des données, peut considérablement augmenter votre capacité à utiliser les résultats de votre classification pour atteindre les objectifs clés.

 capture d'écran des serveurs de fichiers

L’une des fonctionnalités les plus populaires de la plateforme de sécurité des données Varonis est un tableau de bord qui révèle le sous-ensemble de données sensibles qui est également exposé à chaque employé afin que vous sachiez exactement par où commencer vos efforts d’atténuation des risques.

Niveaux de sensibilité des données

 illustrations des niveaux de sensibilité des données

Les organisations établissent souvent des niveaux de sensibilité des données pour différencier la façon de traiter les différents types de données classifiées. Le gouvernement des États-Unis, par exemple, a sept niveaux de classification. Ils sont, du plus haut au plus bas:

  1. Données restreintes / Données Anciennement Restreintes
  2. Classification des mots de code
  3. Top Secret
  4. Secret
  5. Confidentiel
  6. Confiance du public
  7. Informations non classifiées contrôlées (CUI)

Center for Internet Security (CIS) utilise les termes « sensible », « confidentiel commercial » et « public » pour les niveaux de sensibilité de classification élevés, moyens et faibles.

Trois niveaux de classification sont généralement le bon nombre pour la plupart des organisations. Plus de trois niveaux ajoutent une complexité qui pourrait être difficile à maintenir, et moins de trois sont trop simplistes et pourraient conduire à une protection et à une protection insuffisantes de la vie privée.

Voici les définitions recommandées pour une taxonomie de classification avec trois niveaux de sensibilité:

  • Données à haute sensibilité : nécessite des contrôles d’accès et des protections rigoureux, car elles sont souvent protégées par des lois telles que GDPR, CCPA et HIPAA et parce qu’elles pourraient causer des dommages importants à un individu ou à l’organisation en cas de violation.
  • Données de sensibilité moyenne: destiné à un usage interne uniquement, mais l’impact d’une violation de données n’est pas catastrophique. Des exemples sont des données personnelles non identifiables ou des plans d’architecture d’un bâtiment commercial en cours de développement.
  • Données de faible sensibilité : Les données de faible sensibilité sont des informations publiques qui ne nécessitent aucune restriction d’accès. Les exemples incluent des pages Web publiques, des offres d’emploi et des articles de blog.

Vous pouvez utiliser une nomenclature différente, et vous pouvez avoir plus de trois catégories, selon vos cas d’utilisation.

Types de classification des données

 illustrations des types de classification des données

Il existe deux paradigmes principaux à suivre lorsque vous implémentez un processus de classification des données. Il y en a d’autres, mais la majorité des cas d’utilisation tomberont dans l’une de ces catégories. Vous pouvez charger les utilisateurs de classer les données qu’ils créent, ou vous pouvez le faire pour eux avec une solution automatisée.

Utilisateur

Lorsque vous chargez les utilisateurs de classer leurs propres données, vous devez définir des niveaux de sensibilité, former vos utilisateurs à identifier chaque niveau et fournir un mécanisme pour étiqueter et classer tous les nouveaux fichiers qu’ils créent.

 capture d'écran de l'historique financier

La plupart des systèmes de classification intègrent des solutions d’application des politiques, telles que les logiciels de prévention des pertes de données (DLP), qui suivent et protègent les données sensibles étiquetées par les utilisateurs. Un exemple de stratégie DLP peut vouloir bloquer le téléchargement de fichiers étiquetés  » Haute sensibilité  » vers Dropbox.

L’avantage de la classification des utilisateurs est que les humains sont assez bons pour juger si les informations sont sensibles ou non. Avec un outillage approprié et des règles faciles à comprendre, la précision de la classification peut être très bonne, mais elle dépend fortement de la diligence de vos utilisateurs et ne s’adapte pas à la création de données.

Le marquage manuel des données est fastidieux et de nombreux utilisateurs oublieront ou négligeront la tâche. De plus, si vous disposez de grandes quantités de données préexistantes (ou de données générées par la machine), il est extrêmement difficile d’amener les utilisateurs à revenir en arrière et à étiqueter rétroactivement les données historiques.

Automatisées

Les moteurs automatisés de classification des données utilisent un analyseur de fichiers combiné à un système d’analyse de chaînes pour rechercher des données dans les fichiers. Un analyseur de fichiers permet au moteur de classification des données de lire le contenu de plusieurs types de fichiers différents. Un système d’analyse de chaînes fait ensuite correspondre les données des fichiers aux paramètres de recherche définis.

La classification automatisée est beaucoup plus efficace que la classification basée sur l’utilisateur, mais la précision dépend de la qualité de l’analyseur. Le moteur de classification des données de Varonis comprend quelques fonctionnalités clés pour aider à valider les résultats et à réduire les faux positifs, à savoir la proximité du texte, les mots-clés négatifs, les plages de correspondance et les algorithmes de validation.

 edit rule screenshot

En plus de la précision, l’efficacité et l’évolutivité sont des considérations importantes lors de la sélection d’un produit de classification automatisé. Pour les environnements avec des centaines de grands magasins de données, vous aurez besoin d’un moteur distribué et multithread capable de gérer plusieurs systèmes à la fois sans consommer trop de ressources sur les magasins analysés.

Le temps nécessaire pour effectuer une analyse de classification initiale d’un environnement de plusieurs pétaoctets volumineux peut être important. Une véritable analyse incrémentielle peut aider à accélérer les analyses ultérieures. Étant donné que Varonis surveille toutes les données créées/modifiées, notre moteur d’analyse analyse uniquement les fichiers nouvellement créés ou modifiés depuis l’analyse précédente sans avoir à vérifier l’horodatage de chaque fichier « date de modification ».

Certains moteurs de classification nécessitent un index de chaque objet qu’ils classent. Si la capacité de stockage est un problème, recherchez un moteur qui ne nécessite pas d’index ou indexe uniquement des objets qui correspondent à une certaine stratégie ou à un certain modèle.

Les organisations peuvent choisir l’une ou l’autre, ou une combinaison de classification utilisateur et d’automatisation. Il est toujours bon de fournir aux utilisateurs la formation et les fonctionnalités nécessaires pour s’engager dans la protection des données, et il est sage de suivre l’automatisation pour s’assurer que les choses ne tombent pas entre les mailles du filet.

Processus de classification des données

 processus de classification des données

Les processus de classification des données diffèrent légèrement selon les objectifs du projet. La plupart des projets de classification des données nécessitent une automatisation pour traiter la quantité étonnante de données que les entreprises créent chaque jour. En général, certaines pratiques exemplaires mènent à des initiatives fructueuses de classification des données :

1. Définir les objectifs du Processus de Classification des données

  • Que recherchez-vous ? Pourquoi?
  • Quels systèmes entrent dans le champ d’application de la phase de classification initiale?
  • Quels règlements de conformité s’appliquent à votre organisation?
  • Y a-t-il d’autres objectifs commerciaux que vous souhaitez atteindre ? (p. ex., atténuation des risques, optimisation du stockage, analyse)

2. Catégoriser les types de données

  • Identifier les types de données créées par l’organisation (par exemple, listes de clients, dossiers financiers, code source, plans de produits)
  • Délimiter les données propriétaires par rapport aux données publiques
  • Vous attendez-vous à trouver des données GDPR, CCPA ou d’autres données réglementées?

3. Établissez des niveaux de classification

  • De combien de niveaux de classification avez-vous besoin?
  • Documenter chaque niveau et fournir des exemples
  • Former les utilisateurs à classer les données (si une classification manuelle est prévue)

4. Définir le processus de classification automatisée

  • Définir comment hiérarchiser les données à analyser en premier (par exemple, hiérarchiser les données actives plutôt que périmées, ouvertes plutôt que protégées)
  • Établir la fréquence et les ressources que vous consacrerez à la classification automatisée des données

5. Définissez les catégories et les Critères de classification

  • Définissez vos catégories de haut niveau et fournissez des exemples (par ex., IPI, PHI)
  • Définir ou activer les modèles de classification et les étiquettes applicables
  • Établir un processus d’examen et de validation des résultats classifiés et automatisés des utilisateurs

6. Définir les résultats et l’utilisation des Données classifiées

  • Documenter les étapes d’atténuation des risques et les politiques automatisées (p. ex. de données sensibles)
  • Définir un processus pour appliquer l’analyse aux résultats de classification
  • Établir les résultats attendus de l’analyse analytique

7. Surveiller et maintenir

  • Établir un flux de travail continu pour classer les données nouvelles ou mises à jour
  • Revoir le processus de classification et mettre à jour si nécessaire en raison de changements dans les activités ou de nouvelles réglementations

Exemples de classification des données

RegEx – abréviation d’expression régulière – est l’un des systèmes d’analyse de chaînes les plus courants qui définissent des spécificités concernant les modèles de recherche. Par exemple, si je voulais trouver tous les numéros de carte de crédit VISA dans mes données, l’expression régulière ressemblerait à:

\b(?<!)(4\d{3}\d{4}\d{4}\d{4}\b|4\d{12}(?:\d{3})?)\b

Cette séquence recherche un nombre de 16 caractères commençant par un ‘4’ et comportant 4 quatuors délimités par un ‘-. ‘Seule une chaîne de caractères qui correspond à l’expression régulière génère directement un résultat positif. Allant plus loin, ce résultat peut être validé par un algorithme de Luhn.

Voici un cas où une expression régulière seule ne fera pas le travail. Cette expression régulière trouve les adresses e-mail de validation, mais ne peut pas distinguer les e-mails personnels des e-mails professionnels:

 capture d'écran d'expression

Une politique de classification des données plus sophistiquée peut utiliser une expression régulière pour la correspondance de modèles, puis appliquer une recherche de dictionnaire pour affiner les résultats en fonction d’une bibliothèque de services d’adresses e-mail personnelles tels que Gmail, Outlook, etc.

En plus des expressions régulières qui recherchent des motifs dans le texte, de nombreux analyseurs analyseront également les métadonnées d’un fichier — comme l’extension de fichier, le propriétaire et les propriétés étendues — pour déterminer sa classification. Certains moteurs d’analyse sont suffisamment robustes pour aller au-delà du contenu du fichier et intégrer les autorisations et l’activité d’utilisation dans la règle de classification.

La classification avancée des données utilise l’apprentissage automatique pour trouver des données sans se fier uniquement à des règles ou des politiques prédéfinies composées de dictionnaires et d’expressions régulières. Par exemple, vous pourriez être en mesure d’alimenter un algorithme d’apprentissage automatique d’un corpus de 1 000 documents juridiques pour former le moteur à quoi ressemble un document juridique typique. Le moteur peut découvrir de nouveaux documents juridiques en fonction de son modèle sans compter sur la correspondance des chaînes.

Meilleures pratiques de classification des données

Voici quelques bonnes pratiques à suivre lorsque vous implémentez et exécutez une politique de classification des données à grande échelle.

  • Identifiez les réglementations de conformité ou les lois de confidentialité qui s’appliquent à votre organisation et élaborez votre plan de classification en conséquence
  • Commencez par une portée réaliste (ne faites pas bouillir l’océan) et des modèles bien définis (comme PCI-DSS)
  • Utilisez des outils automatisés pour traiter rapidement de gros volumes de données
  • Créez des règles de classification personnalisées en cas de besoin, mais ne réinventez pas la roue
  • Ajustez les règles /niveaux de classification au besoin
  • Validez vos résultats de classification
  • Déterminez comment utiliser au mieux vos résultats et appliquez la classification à tout, de la sécurité des données à la business intelligence

La classification des données fait partie d’une stratégie globale de protection des données. Une fois que vous savez quelles données sont sensibles, déterminez qui a accès à ces données et ce qui leur arrive à tout moment. De cette façon, vous pouvez protéger vos données sensibles et empêcher votre organisation d’apparaître dans un titre malheureux.

Ressources de classification des données

  • Comment procéder à la Classification des données à l’échelle
  • Conseils de classification des données: Trouver des numéros de carte de crédit
  • Étiquettes de classification des données
  • Classification CCPA
  • Confidentialité des données
  • Gouvernance des données

La classification des données ne doit pas être compliquée. Varonis dispose des règles prédéfinies, de la validation intelligente et de la correspondance de proximité dont vous avez besoin pour effectuer la majeure partie du travail. Découvrez cette Masterclass pour voir comment les clients classent leurs données sensibles.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.