What is Data Classification? Guidelines and Process

Imagine que você é o CISO de uma organização de 10.000 pessoas, onde os usuários criam milhões de arquivos e E-mails todos os dias. Algumas dessas informações são altamente sensíveis – se vazadas ou roubadas, você está enfrentando uma quebra de manchete e sanções de sete dígitos. A maioria dos dados criados a cada dia, no entanto, poderia ser publicado na primeira página do Times sem incidentes.

pode ser virtualmente impossível priorizar a mitigação de riscos ou cumprir as leis de privacidade quando você não sabe que informações requerem proteção militar. É aí que entra a Classificação dos dados.

Classificação de Dados de Definição

ilustração de classificação de dados

classificação de Dados é o processo de análise estruturada ou não estruturada de dados e organizá-los em categorias com base no tipo de arquivo, conteúdo e outros metadados.

a Classificação dos dados ajuda as organizações a responder a questões importantes sobre os seus dados que informam como mitigam o risco e gerem as Políticas de governação dos dados. Ele pode dizer onde você está armazenando seus dados mais importantes ou que tipos de dados sensíveis que seus usuários criam mais frequentemente. A classificação completa dos dados é necessária (mas não suficiente) para cumprir as modernas normas de privacidade dos dados.

screenshot of DCE and DW configuration

Data classification software allows organizations to identify information that is relevant to an organization’s interests. Por exemplo, você pode ter um requisito para encontrar todas as referências ao “molho Szechuan” em sua rede, Localizar todas as menções de “glyphosate” para a descoberta legal, ou marcar todos os arquivos relacionados com HIPAA em sua rede para que eles possam ser auto-criptografados.

para cumprir com as regras de privacidade dos dados, as organizações tipicamente desenvolvem projetos de classificação para descobrir qualquer informação pessoalmente identificável (PII) em suas lojas de dados para que você possa provar aos auditores que ele é devidamente governado.

a Classificação dos dados não é a mesma que a indexação dos dados, embora haja alguns paralelos entre os dois. Enquanto ambos requerem olhar para o conteúdo para decidir se ele é relevante para uma palavra-chave ou um conceito, a classificação não necessariamente produz um índice pesquisável.

em muitos casos, os resultados da classificação irão listar o nome do objeto e a política ou padrão que foi correspondido sem armazenar um índice do conteúdo do objeto:

  • objecto: clientes.XLS
  • padrões correspondentes: Carta de condução da Califórnia (CCPA), American Express (PCI-DSS)

algumas soluções de classificação de dados criam um índice para permitir uma pesquisa rápida e eficiente para ajudar a atender pedidos de acesso a pessoas de dados (DSAR) e pedidos de direito-de-ser-esquecido.

finalidade da Classificação dos dados

 ilustração da Classificação dos dados

no mais recente Guia de mercado para Software de Análise de Ficheiros, a Gartner lista quatro casos de utilização de alto nível:

  • o Risco de Mitigação
    • Limitar o acesso a informações pessoalmente identificáveis (PII)
    • o Controle local e o acesso à propriedade intelectual (IP)
    • Reduzir a superfície de ataque de área para dados confidenciais
    • Integrar classificação em DLP e outros-a política de aplicação aplicações
  • Governança/Cumprimento
    • dados de identificação regido por GDPR, HIPAA, CCPA, PCI, SOX, e regulamentação futura
    • Aplicar marcas de metadados para dados protegidos para habilitar o controle adicional e controles
    • Ativar quarentena retenção legal, arquivamento e outras regulamento-ações necessárias
    • Facilitar o “Direito de ser Esquecido” de Dados e Sujeitos Solicitações de Acesso (DSARs)
  • Eficiência e Otimização
    • Permitir acesso eficiente ao conteúdo com base no tipo de utilização, etc.
    • Descobrir e eliminar obsoletos ou redundantes de dados
    • Mover fortemente os dados utilizados para dispositivos mais rápidos ou infraestrutura baseada em nuvem
  • o google Analytics
    • Activar a marcação de metadados para otimizar as atividades de negócios
    • Informar a organização sobre a localização e o uso de dados

É importante observar que a classificação de dados, enquanto um princípio fundamental do primeiro passo, não é normalmente suficiente para tomar medidas significativas para a realização de muitos dos acima de casos de uso. Adicionar fluxos adicionais de metadados, tais como permissões e atividade de uso de dados pode aumentar drasticamente a sua capacidade de usar os resultados de sua classificação para alcançar objetivos-chave.

screenshot of file servers

uma das características mais populares da plataforma de segurança de dados Varonis é um painel que revela o subconjunto de dados sensíveis que também é exposto a todos os funcionários, para que você saiba exatamente onde começar com seus esforços de mitigação de riscos.

níveis de sensibilidade aos dados

ilustrações dos níveis de sensibilidade aos dados

as organizações estabelecem frequentemente níveis de sensibilidade aos dados para diferenciar como tratar vários tipos de dados classificados. O governo dos Estados Unidos, Por exemplo, tem sete níveis de classificação. São, do mais alto ao mais baixo:

  1. Dados Restritos/antes Restrita de Dados
  2. Palavra de Código classificação
  3. Top Secret
  4. Segredo
  5. Confidencial
  6. a Confiança do Público
  7. Controlada não classificados Informação (CUI)

Center for Internet Security (CIS) utiliza os termos “sensíveis”, “empresa confidencial”e de “público” para o alto, médio e baixo de classificação de níveis de sensibilidade.

três níveis de classificação são geralmente o número certo para a maioria das organizações. Mais de três níveis acrescentam complexidade que pode ser difícil de manter, e menos de três são demasiado simplistas e podem levar a uma Privacidade e protecção insuficientes.

Aqui estão as definições recomendadas para uma taxonomia de classificação com três níveis de sensibilidade:

  • dados de alta sensibilidade: requer controles de acesso rigorosos e proteções, tanto porque é muitas vezes protegido por leis como GDPR, CCPA, e HIPAA e porque pode causar danos significativos para um indivíduo ou a organização, se violado.Dados De Sensibilidade Média: destinado apenas para uso interno, mas o impacto de uma violação de dados não é catastrófico. Exemplos disso são dados de pessoal não identificáveis ou planos de arquitetura para um edifício comercial em desenvolvimento.Dados de baixa sensibilidade: dados de baixa sensibilidade são informações públicas que não requerem quaisquer restrições de acesso. Exemplos incluem páginas web públicas, postagens de trabalho e postagens de blogs.

pode usar uma nomenclatura diferente e pode ter mais de três categorias, dependendo dos casos de uso.

Tipos de Classificação de Dados

ilustrações de tipos de classificação de dados

Existem dois principais paradigmas a seguir quando você implementar um processo de classificação de dados. Há outros, mas a maioria dos casos de uso cairá em uma dessas categorias. Você pode classificar os usuários com a Classificação dos dados que eles criam, ou você pode fazê-lo por eles com uma solução automatizada.

Usuário

Quando tarefa de usuários para classificar os seus próprios dados, você precisa definir níveis de sensibilidade, treinar os usuários para identificar cada nível e fornecem um mecanismo para marcar e classificar todos os novos ficheiros que criar.

screenshot de história financeira

a maioria dos sistemas de classificação fornecem integrações a soluções de aplicação de políticas, tais como software de prevenção da perda de dados (DLP), que rastreiam e protegem dados sensíveis marcados pelos usuários. Uma política de exemplo DLP pode querer arquivos de bloco marcados como “alta sensibilidade” de serem enviados para Dropbox.

a vantagem da classificação de usuário é que os seres humanos são muito bons a julgar se a informação é sensível ou não. Com ferramentas adequadas e fácil de entender as regras, precisão de classificação pode ser muito bom, mas é altamente dependente da diligência de seus usuários, e não vai escalar para acompanhar a criação de dados.

a marcação manual dos dados é tediosa e muitos utilizadores esquecerão ou negligenciarão a tarefa. Além disso, se você tem grandes quantidades de dados pré-existentes (ou dados gerados por máquina), é um desafio monumental para fazer com que os usuários voltem e marcem retroativamente os dados históricos.

Automated

Automatic data classification engines employed a file parser combined with a string analysis system to find data in files. Um analisador de arquivos permite que o motor de classificação de dados para ler o conteúdo de vários tipos diferentes de arquivos. Um sistema de análise de string, em seguida, corresponde aos dados nos arquivos para definir parâmetros de pesquisa.

classificação automatizada é muito mais eficiente do que a classificação baseada no usuário, mas a precisão depende da qualidade do analisador. O motor de classificação de dados de Varonis inclui algumas características-chave para ajudar a validar resultados e diminuir falsos positivos – nomeadamente a proximidade de texto, palavras-chave negativas, gamas de correspondência e algoritmos de validação.

edite rule screenshot

além da precisão, eficiência e escalabilidade são considerações importantes ao selecionar um produto de classificação automatizada. Para ambientes com centenas de grandes lojas de dados, você vai querer um motor distribuído e multi-threaded do que pode enfrentar vários sistemas de uma vez sem consumir muitos recursos nas lojas que estão sendo digitalizados.

o tempo para completar uma análise de classificação inicial de um grande ambiente multi-petabyte pode ser significativo. A digitalização incremental verdadeira pode ajudar a acelerar as varreduras subsequentes. Como Varonis monitora todos os dados cria/modifica, nosso motor de digitalização varre apenas os arquivos que são recentemente criados ou modificados desde a digitalização anterior, sem ter que verificar cada arquivo para um” data modificada ” timestamp.

alguns motores de classificação requerem um índice de cada objeto que classificam. Se a capacidade de armazenamento é uma preocupação, procure por um motor que não necessita de um índice ou apenas indexa objetos que correspondam a uma determinada política ou padrão.

as organizações podem estabelecer-se numa ou noutra, ou numa combinação da classificação do utilizador e da automatização. É sempre bom fornecer aos usuários o treinamento e a funcionalidade para se engajarem na proteção de dados, e é sábio seguir com a automação para garantir que as coisas não caiam pelas fendas.

processo de Classificação dos dados

 processo de classificação dos dados

processos de classificação dos dados diferem ligeiramente consoante os objectivos do projecto. A maioria dos projetos de classificação de dados requerem automação para processar a quantidade surpreendente de dados que as empresas criam todos os dias. Em geral, existem algumas boas práticas que levam a iniciativas bem sucedidas de classificação de dados:

1. Definir os Objetivos do processo de classificação de dados

  • o que você está procurando? Por quê?
  • quais os sistemas abrangidos pela fase de classificação inicial?Que regras de Conformidade se aplicam à sua organização?Há outros objectivos empresariais que queira abordar? (por exemplo, mitigação de riscos, otimização de armazenamento, análise)

2. Categorizar os Tipos de Dados

  • Identificar que tipos de dados que a organização cria (por exemplo, listas de clientes, registros financeiros, código-fonte, planos de produto)
  • Delinear de dados proprietários vs. dados públicos
  • você espera encontrar GDPR, CCPA, ou outros dados regulados?

3. Estabelecer níveis de classificação

  • de quantos níveis de classificação precisa?
  • documentar cada nível e dar exemplos
  • utilizadores do comboio para classificar os dados (se estiver prevista a classificação manual)

4. Define o processo de classificação automatizado

  • Define como priorizar quais os dados a digitalizar primeiro (por exemplo, priorizar ativo sobre o estado, abrir sobre protegido)
  • estabelecer a frequência e os recursos que irá dedicar à classificação automatizada dos dados

5. Defina as categorias e os critérios de classificação

  • defina as suas categorias de alto nível e forneça exemplos (por exemplo:, PII, PHI)
  • definir ou permitir os padrões e rótulos de classificação aplicáveis
  • estabelecer um processo de revisão e validação dos resultados tanto classificados como automatizados pelo utilizador

6. Definir os resultados e a utilização de dados classificados

  • document risk mitigation steps and automatic policies (e.g., mover ou arquivar PHI se não for utilizado por 180 dias, remover automaticamente os grupos de acesso global de pastas com dados sensíveis)
  • definir um processo para aplicar análises aos resultados de classificação
  • estabelecer os resultados esperados a partir da análise analítica

7. Monitorar e Manter

  • Estabelecer um fluxo de trabalho em andamento para classificar novos ou atualizados dados
  • Revisão do processo de classificação e atualizações, se necessárias devido a mudanças nos negócios ou novas regulamentações

Exemplos de Classificação de Dados

RegEx –abreviação para a expressão regular – é um dos mais comuns para a análise de cadeia de sistemas que definem detalhes sobre os padrões de pesquisa. Por exemplo, se eu quisesse encontrar todos os números de cartão de crédito VISA em meus dados, o RegEx seria como:

\b(?<!)(4\d{3}\d{4}\d{4}\d{4}\b|4\d{12}(?:\d{3})?)\b

essa sequência procura por um número de 16 caracteres que começa com um ‘ 4,’ e tem 4 quartetos delimitados por um’ -. “Apenas uma sequência de caracteres que corresponda à expressão regular gera directamente um resultado positivo. Indo um passo mais longe, este resultado pode ser validado por um algoritmo de Luhn.

aqui está um caso em que um RegEx por si só não fará o trabalho. Esta expressão regular encontra endereços de E-mail validados, mas não consegue distinguir os pessoais dos E-mails de negócios:

screenshot de expressão

uma política mais sofisticada de classificação de dados pode usar um RegEx para correspondência de padrões e, em seguida, aplicar uma pesquisa de dicionário para reduzir os resultados com base em uma biblioteca de serviços de endereços pessoais de email como Gmail, Outlook, etc.

in addition to regular expressions that look for patterns within text, many parsers will also look at a file’s metadata—like the file extension, owner, and extended properties—to determine its classification. Alguns motores de digitalização são robustos o suficiente para ir além do conteúdo do arquivo e incorporar permissões e atividade de uso na regra de classificação.

a Classificação Avançada de Dados utiliza o aprendizado de máquina para encontrar dados sem depender apenas de regras ou políticas pré-definidas compostas de dicionários e expressões regulares. Por exemplo, você pode ser capaz de alimentar um algoritmo de aprendizagem de máquina um corpus de 1.000 documentos legais para treinar o motor como um documento legal típico se parece. O motor pode descobrir novos documentos legais baseados em seu modelo sem depender de correspondência de strings.

as melhores práticas de classificação de dados

Aqui estão algumas boas práticas a seguir à medida que você implementa e executa uma política de classificação de dados em escala.

  • Identificar qual a conformidade com os regulamentos ou leis de privacidade aplicáveis à sua organização, e construir o seu plano de classificação de acordo
  • Iniciar com um alcance realista (não ferver o oceano) e rigidamente definidos padrões (como PCI-DSS)
  • Utilizar ferramentas automatizadas para processar grandes volumes de dados de forma rápida
  • Criar regras de classificação, quando necessário, mas não reinvente a roda
  • Ajustar as regras de classificação/níveis, conforme necessário
  • Validar seus resultados de classificação em
  • descobrir a melhor forma de utilizar seus resultados e aplicar a classificação de tudo, desde a segurança dos dados à inteligência de negócios

a Classificação dos dados faz parte de uma estratégia global de proteção de dados. Uma vez que você saiba o que os dados são sensíveis, descubra quem tem acesso a esses dados, e o que está acontecendo com esses dados em todos os momentos. Dessa forma, você pode proteger seus dados sensíveis e manter sua organização de aparecer em uma manchete infeliz.

recursos para a Classificação dos dados

  • como fazer a Classificação dos dados à escala
  • dicas para a Classificação dos dados: Encontrar números de cartão de crédito
  • Etiquetas de Classificação dos dados
  • classificação CCPA
  • privacidade dos dados
  • governação dos dados

a Classificação dos dados não tem de ser complicada. Varonis tem as regras pré-construídas, validação inteligente e aproximação que você precisa para fazer a maior parte do trabalho. Confira esta Masterclass para ver como os clientes classificam seus dados sensíveis.

Deixe uma resposta

O seu endereço de email não será publicado.