¿Qué es la Clasificación de datos? Pautas y proceso

Imagine que es el CISO de una organización de 10,000 personas donde los usuarios crean millones de archivos y correos electrónicos cada día. Parte de esa información es altamente confidencial: si se filtra o es robada, se enfrenta a una violación de titulares y sanciones de siete cifras. La mayoría de los datos creados cada día, sin embargo, podrían publicarse en la primera página del Times sin incidentes.

Puede ser prácticamente imposible priorizar la mitigación de riesgos o cumplir con las leyes de privacidad cuando no sabe qué información requiere protección de grado militar. Ahí es donde entra en juego la clasificación de datos.

Definición de clasificación de datos

 Ilustración de clasificación de datos

La clasificación de datos es el proceso de analizar datos estructurados o no estructurados y organizarlos en categorías basadas en el tipo de archivo, el contenido y otros metadatos.

La clasificación de datos ayuda a las organizaciones a responder preguntas importantes sobre sus datos que informan sobre cómo mitigar el riesgo y administrar las políticas de gobernanza de datos. Puede indicarle dónde está almacenando sus datos más importantes o qué tipos de datos confidenciales crean más a menudo sus usuarios. La clasificación de datos exhaustiva es necesaria (pero no suficiente) para cumplir con las normas modernas de privacidad de datos.

 captura de pantalla de la configuración de DCE y DW

El software de clasificación de datos permite a las organizaciones identificar información pertinente a los intereses de una organización. Por ejemplo, es posible que tenga el requisito de encontrar todas las referencias a «Salsa Szechuan» en su red, localizar todas las menciones de «glifosato» para su descubrimiento legal, o etiquetar todos los archivos relacionados con HIPAA en su red para que puedan cifrarse automáticamente.

Para cumplir con las regulaciones de privacidad de datos, las organizaciones generalmente implementan proyectos de clasificación para descubrir cualquier información de identificación personal (PII) en sus almacenes de datos para que pueda demostrar a los auditores que se rige adecuadamente.

La clasificación de datos no es lo mismo que la indexación de datos, aunque hay algunos paralelismos entre los dos. Si bien ambos requieren mirar el contenido para decidir si es relevante para una palabra clave o un concepto, la clasificación no necesariamente produce un índice con capacidad de búsqueda.

En muchos casos, los resultados de clasificación enumerarán el nombre del objeto y la política o el patrón que coincidieron sin almacenar un índice del contenido del objeto:

  • Objeto: Clientes.xls
  • Patrones coincidentes: Licencia de Conducir de California (CCPA), American Express (PCI-DSS)

Algunas soluciones de clasificación de datos crean un índice que permite una búsqueda rápida y eficiente para ayudar a cumplir con las solicitudes de acceso a los sujetos de datos (DSAR) y las solicitudes con derecho a ser olvidadas.

Finalidad de la Clasificación de datos

 ilustración de la clasificación de datos

En la Guía de Mercado más reciente para Software de Análisis de Archivos, Gartner enumera cuatro casos de uso de alto nivel:

  • Mitigación de riesgos
    • Limitar el acceso a la información de identificación personal (PII)
    • Controlar la ubicación y el acceso a la propiedad intelectual (PI)
    • Reducir el área de superficie de ataque a datos confidenciales
    • Integrar la clasificación en DLP y otras aplicaciones que aplican políticas
  • Gobernanza / Cumplimiento
    • Identifique los datos regidos por el RGPD, HIPAA, CCPA, PCI, SOX y futuras regulaciones
    • Aplique etiquetas de metadatos a los datos protegidos para habilitar el seguimiento y los controles adicionales
    • Habilitar la cuarentena, retención legal, el archivo y otras acciones requeridas por la normativa
    • Facilitan el «Derecho al Olvido» y las Solicitudes de Acceso de los Interesados (DSARs)
  • Eficiencia y optimización
    • Permiten un acceso eficiente al contenido en función del tipo, el uso, etc.
    • Descubra y elimine datos obsoletos o redundantes
    • Mueva los datos muy utilizados a dispositivos más rápidos o infraestructura basada en la nube
  • Analytics
    • Habilitar el etiquetado de metadatos para optimizar las actividades empresariales
    • Informar a la organización sobre la ubicación y el uso de los datos

Es importante tener en cuenta que la clasificación de datos, aunque es un primer paso fundamental, no suele ser suficiente para tomar medidas significativas para lograr muchos de los casos de uso anteriores. Agregar flujos de metadatos adicionales, como permisos y actividad de uso de datos, puede aumentar drásticamente su capacidad de usar los resultados de su clasificación para lograr objetivos clave.

 captura de pantalla de servidores de archivos

Una de las características más populares de la Plataforma de seguridad de datos Varonis es un panel que revela el subconjunto de datos confidenciales que también se exponen a todos los empleados para que sepa exactamente por dónde comenzar con sus esfuerzos de mitigación de riesgos.

Niveles de sensibilidad de datos

 Ilustraciones de niveles de sensibilidad de datos

Las organizaciones a menudo establecen niveles de sensibilidad de datos para diferenciar cómo tratar varios tipos de datos clasificados. El gobierno de los Estados Unidos, por ejemplo, tiene siete niveles de clasificación. Lo son, de mayor a menor:

  1. Datos Restringidos / Datos Anteriormente Restringidos
  2. Clasificación de palabras de código
  3. Top Secret
  4. Secreto
  5. Confidencial
  6. Confianza pública
  7. Información No Clasificada controlada (CUI)

El Centro para la Seguridad de Internet (CIS) utiliza los términos «confidencial», «confidencial comercial» y «público» para los niveles de sensibilidad de clasificación altos, medios y bajos.

Tres niveles de clasificación suelen ser el número correcto para la mayoría de las organizaciones. Más de tres niveles agregan complejidad que podría ser difícil de mantener, y menos de tres es demasiado simplista y podría conducir a una privacidad y protección insuficientes.

Aquí están las definiciones recomendadas para una taxonomía de clasificación con tres niveles de sensibilidad:

  • Datos de alta sensibilidad: requiere estrictos controles de acceso y protecciones, tanto porque a menudo están protegidos por leyes como GDPR, CCPA e HIPAA, como porque podrían causar daños significativos a un individuo o a la organización si se infringen.
  • Datos de Sensibilidad Media: está diseñado solo para uso interno, pero el impacto de una filtración de datos no es catastrófico. Los ejemplos son datos personales no identificables o planos de arquitectura de un edificio comercial en desarrollo.
  • Datos de baja sensibilidad: Los datos de baja sensibilidad son información pública que no requiere restricciones de acceso. Los ejemplos incluyen páginas web públicas, publicaciones de empleo y publicaciones de blog.

Puede usar una nomenclatura diferente y puede tener más de tres categorías, dependiendo de sus casos de uso.

Tipos de clasificación de datos

 ilustraciones de tipos de clasificación de datos

Hay dos paradigmas principales a seguir cuando implementa un proceso de clasificación de datos. Hay otros, pero la mayoría de los casos de uso caerán en una de estas categorías. Puede encargar a los usuarios que clasifiquen los datos que crean, o puede hacerlo por ellos con una solución automatizada.

Usuario

Cuando se encarga a los usuarios que clasifiquen sus propios datos, es necesario definir niveles de sensibilidad, capacitar a los usuarios para identificar cada nivel y proporcionar un mecanismo para etiquetar y clasificar todos los archivos nuevos que crean.

captura de pantalla del historial financiero

La mayoría de los sistemas de clasificación proporcionan integraciones a soluciones de aplicación de políticas, como el software de prevención de pérdida de datos (DLP), que rastrean y protegen los datos confidenciales etiquetados por los usuarios. Una política DLP de ejemplo podría querer que los archivos de bloqueo etiquetados como «Alta sensibilidad» no se carguen en Dropbox.

La ventaja de la clasificación de usuarios es que los humanos son bastante buenos para juzgar si la información es sensible o no. Con herramientas adecuadas y reglas fáciles de entender, la precisión de la clasificación puede ser bastante buena, pero depende en gran medida de la diligencia de sus usuarios y no se escalará para mantenerse al día con la creación de datos.

Etiquetar manualmente los datos es tedioso y muchos usuarios olvidarán o descuidarán la tarea. Además, si tiene grandes cantidades de datos preexistentes (o datos generados por máquinas), es un reto monumental conseguir que los usuarios vuelvan y etiqueten datos históricos de forma retroactiva.

Automated

Los motores de clasificación de datos automatizados emplean un analizador de archivos combinado con un sistema de análisis de cadenas para encontrar datos en los archivos. Un analizador de archivos permite al motor de clasificación de datos leer el contenido de varios tipos diferentes de archivos. A continuación, un sistema de análisis de cadenas hace coincidir los datos de los archivos con los parámetros de búsqueda definidos.

La clasificación automatizada es mucho más eficiente que la clasificación basada en el usuario, pero la precisión depende de la calidad del analizador. El motor de clasificación de datos de Varonis incluye algunas características clave para ayudar a validar los resultados y reducir los falsos positivos, a saber, proximidad de texto, palabras clave negativas, rangos de coincidencia y algoritmos de validación.

 captura de pantalla de edición de reglas

Además de la precisión, la eficiencia y la escalabilidad son consideraciones importantes al seleccionar un producto de clasificación automatizada. Para entornos con cientos de grandes almacenes de datos, querrá un motor distribuido de múltiples subprocesos que pueda abordar varios sistemas a la vez sin consumir demasiados recursos en las tiendas que se están escaneando.

El tiempo para completar un escaneo de clasificación inicial de un entorno de varios petabytes de gran tamaño puede ser significativo. El escaneo incremental verdadero puede ayudar a acelerar los escaneos posteriores. Debido a que Varonis monitorea todos los datos creados/modificados, nuestro motor de escaneo escanea solo aquellos archivos que se crean o modifican recientemente desde el escaneo anterior sin tener que verificar que cada archivo tenga una marca de tiempo de «fecha modificada».

Algunos motores de clasificación requieren un índice de cada objeto que clasifican. Si la capacidad de almacenamiento es un problema, busque un motor que no requiera un índice o solo indexe objetos que coincidan con una determinada directiva o patrón.

Las organizaciones pueden optar por una u otra, o por una combinación de clasificación de usuarios y automatización. Siempre es bueno proporcionar a los usuarios la capacitación y la funcionalidad para participar en la protección de datos, y es aconsejable hacer un seguimiento con la automatización para asegurarse de que las cosas no se caigan por las grietas.

Proceso de clasificación de datos

 proceso de clasificación de datos

Los procesos de clasificación de datos difieren ligeramente según los objetivos del proyecto. La mayoría de los proyectos de clasificación de datos requieren automatización para procesar la asombrosa cantidad de datos que las empresas crean todos los días. En general, hay algunas mejores prácticas que conducen a iniciativas de clasificación de datos exitosas:

1. Defina los Objetivos del Proceso de Clasificación de Datos

  • ¿Qué está buscando? ¿Por qué?
  • ¿Qué sistemas están dentro del alcance de la fase de clasificación inicial?
  • ¿Qué normas de cumplimiento se aplican a su organización?
  • ¿Hay otros objetivos de negocio que desee abordar? (por ejemplo, mitigación de riesgos, optimización del almacenamiento, análisis)

2. Categorizar tipos de datos

  • Identificar qué tipos de datos crea la organización (por ejemplo, listas de clientes, registros financieros, código fuente, planes de productos)
  • Delinear datos de propiedad frente a datos públicos
  • ¿Espera encontrar datos del RGPD, la CCPA u otros datos regulados?

3. Establecer niveles de clasificación

  • ¿Cuántos niveles de clasificación necesita?
  • Documente cada nivel y proporcione ejemplos
  • Capacite a los usuarios para clasificar los datos (si está prevista la clasificación manual)

4. Definir el Proceso de Clasificación automatizada

  • Definir cómo priorizar qué datos escanear primero (por ejemplo, priorizar activos sobre obsoletos, abiertos sobre protegidos)
  • Establecer la frecuencia y los recursos que dedicará a la clasificación automatizada de datos

5. Defina las Categorías y los Criterios de Clasificación

  • Defina sus categorías de alto nivel y proporcione ejemplos (p. ej., PII, PHI)
  • Definir o habilitar patrones y etiquetas de clasificación aplicables
  • Establecer un proceso para revisar y validar tanto los resultados clasificados por el usuario como los resultados automatizados

6. Defina los Resultados y el Uso de Datos clasificados

  • Documente los pasos de mitigación de riesgos y las políticas automatizadas (p. ej., mover o archivar PHI si no se usa durante 180 días, eliminar automáticamente grupos de acceso global de carpetas con datos confidenciales)
  • Definir un proceso para aplicar análisis a los resultados de clasificación
  • Establecer los resultados esperados del análisis analítico

7. Supervisar y mantener

  • Establecer un flujo de trabajo continuo para clasificar datos nuevos o actualizados
  • Revisar el proceso de clasificación y actualizarlo si es necesario debido a cambios en el negocio o nuevas regulaciones

Ejemplos de clasificación de datos

RegEx, abreviatura de expresión regular, es uno de los sistemas de análisis de cadenas más comunes que definen detalles sobre los patrones de búsqueda. Por ejemplo, si quisiera encontrar todos los números de tarjeta de crédito VISA en mis datos, la expresión regular se vería como:

\b(?<!)(4\d{3}\d{4}\d{4}\d{4}\b|4\d{12}(?:\d{3})?)\b

Esa secuencia busca un número de 16 caracteres que comienza con un ‘ 4 ‘y tiene 4 cuartetos delimitados por un’ -. ‘Solo una cadena de caracteres que coincida con la expresión regular genera directamente un resultado positivo. Yendo un paso más allá, este resultado puede ser validado por un algoritmo de Luhn.

Aquí hay un caso en el que una expresión regular por sí sola no hará el trabajo. Esta expresión regular encuentra direcciones de correo electrónico validadas, pero no puede distinguir los correos electrónicos personales de los comerciales:

 captura de pantalla de expresión

Una política de clasificación de datos más sofisticada podría usar una expresión regular para la coincidencia de patrones y luego aplicar una búsqueda de diccionario para reducir los resultados en función de una biblioteca de servicios de direcciones de correo electrónico personales como Gmail, Outlook, etc.

Además de las expresiones regulares que buscan patrones dentro del texto, muchos analizadores también revisarán los metadatos de un archivo, como la extensión de archivo, el propietario y las propiedades extendidas, para determinar su clasificación. Algunos motores de escaneo son lo suficientemente robustos como para ir más allá del contenido del archivo e incorporar permisos y actividad de uso en la regla de clasificación.

La clasificación avanzada de datos utiliza el aprendizaje automático para buscar datos sin depender únicamente de reglas o políticas predefinidas compuestas por diccionarios y expresiones regulares. Por ejemplo, es posible que pueda alimentar un algoritmo de aprendizaje automático con un corpus de 1000 documentos legales para capacitar al motor sobre el aspecto de un documento legal típico. El motor puede descubrir nuevos documentos legales basados en su modelo sin depender de la coincidencia de cadenas.

Prácticas recomendadas de clasificación de datos

Estas son algunas de las prácticas recomendadas que debe seguir al implementar y ejecutar una política de clasificación de datos a escala.

  • Identifique qué regulaciones de cumplimiento o leyes de privacidad se aplican a su organización y cree su plan de clasificación en consecuencia
  • Comience con un alcance realista (no hierva el océano) y patrones bien definidos (como PCI-DSS)
  • Use herramientas automatizadas para procesar grandes volúmenes de datos rápidamente
  • Cree reglas de clasificación personalizadas cuando sea necesario, pero no reinvente la rueda
  • Ajuste las reglas/niveles de clasificación según sea necesario
  • Valide sus resultados de clasificación
  • Descubra cómo utilizar mejor sus resultados y aplicar la clasificación a todo, desde la seguridad de los datos hasta la inteligencia empresarial

La clasificación de datos forma parte de una estrategia general de protección de datos. Una vez que sepa qué datos son confidenciales, averigüe quién tiene acceso a esos datos y qué está sucediendo con esos datos en todo momento. De esa manera, puede proteger sus datos confidenciales y evitar que su organización aparezca en un título desafortunado.

Recursos de Clasificación de datos

  • Cómo hacer la Clasificación de Datos a Escala
  • Consejos de Clasificación de datos: Encontrar Números de tarjetas de crédito
  • Etiquetas de Clasificación de datos
  • Clasificación CCPA
  • Privacidad de datos
  • Gobernanza de datos

La clasificación de datos no tiene que ser complicada. Varonis tiene las reglas predefinidas, la validación inteligente y la coincidencia de proximidad que necesita para hacer la mayor parte del trabajo. Echa un vistazo a esta clase magistral para ver cómo los clientes clasifican sus datos confidenciales.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.