데이터 분류란? 지침 및 프로세스

사용자가 매일 수백만 개의 파일과 이메일을 만드는 10,000 명의 개인 조직의 시소라고 상상해보십시오. 그 정보 중 일부는 매우 민감하다—유출 또는 도난당한 경우,당신은 헤드 라인 만들기 위반 일곱 그림 처벌에 직면하고 있습니다. 그러나 매일 생성 된 대부분의 데이터는 사고없이 타임즈의 첫 페이지에 게시 될 수 있습니다.

어떤 정보가 군사 등급 보호를 요구하는지 모를 때 위험 완화를 우선시하거나 개인 정보 보호법을 준수하는 것은 사실상 불가능할 수 있습니다. 그것이 데이터 분류가 들어오는 곳입니다.

데이터 분류 정의

데이터 분류의 예시

데이터 분류는 구조화 또는 비구조화 데이터를 분석하여 파일 형식,내용 및 기타 메타데이터를 기반으로 범주로 구성하는 프로세스입니다.

데이터 분류를 통해 조직은 위험을 완화하고 데이터 거버넌스 정책을 관리하는 방법을 알려주는 데이터에 대한 중요한 질문에 답변할 수 있습니다. 그것은 당신이 당신의 가장 중요한 데이터 또는 사용자가 가장 자주 만드는 민감한 데이터의 종류를 저장하는 위치를 알 수 있습니다. 최신 데이터 개인 정보 보호 규정을 준수하기 위해서는 포괄적 인 데이터 분류가 필요합니다(그러나 충분하지 않음).데이터 분류 소프트웨어를 사용하면 조직에서 조직의 관심사와 관련된 정보를 식별할 수 있습니다. 예를 들어,네트워크에서”사천 소스”에 대한 모든 참조를 찾거나 법적 발견을 위해”글 리포 세이트”에 대한 모든 언급을 찾거나 네트워크의 모든 히파 관련 파일에 태그를 지정하여 자동 암호화 할 수 있어야합니다.

데이터 개인 정보 보호 규정을 준수하기 위해 조직에서는 일반적으로 분류 프로젝트를 시작하여 데이터 저장소에서 개인 식별 정보를 검색하여 감사인에게 해당 정보가 적절하게 관리됨을 입증할 수 있습니다.

데이터 분류는 데이터 인덱싱과 동일하지 않지만 둘 사이에는 몇 가지 유사점이 있습니다. 둘 다 키워드나 개념과 관련이 있는지 여부를 결정하기 위해 콘텐츠를 검토해야 하지만 분류에서 반드시 검색 가능한 인덱스가 생성되는 것은 아닙니다.

대부분의 경우 분류 결과에 개체 이름 및 개체 콘텐츠의 인덱스를 저장하지 않고 일치하는 정책 또는 패턴이 나열됩니다:

  • 사물:고객.7651>
  • 일치하는 패턴: 캘리포니아 운전 면허증,아메리칸 익스프레스)

일부 데이터 분류 솔루션은 데이터 주체 액세스 요청 및 잊어 버릴 권리 요청을 수행하는 데 도움이되는 빠르고 효율적인 검색을 가능하게하는 인덱스를 만듭니다.

데이터 분류의 목적

데이터 분류의 그림

파일 분석 소프트웨어에 대한 가장 최근의 시장 가이드에서 가트너는 네 가지 높은 수준의 사용 사례를 나열합니다:

  • 위험 완화
    • 개인 식별 정보에 대한 액세스 제한
    • 지적 재산권에 대한 위치 및 액세스 제어
    • 민감한 데이터로 공격 노출 영역 감소
  • 보호된 데이터에 메타데이터 태그를 적용하여 추가 추적 및 제어 가능
  • 격리,법적 보존 활성화, 보관 및 기타 규제에 필요한 조치
  • “잊혀 질 권리”및 데이터 주체 액세스 요청을 용이하게합니다.)
  • 효율성 및 최적화
    • 유형,사용 등을 기반으로 콘텐츠에 효율적으로 액세스 할 수 있습니다.
    • 부실 또는 중복 데이터 검색 및 제거
    • 많이 사용되는 데이터를 더 빠른 장치 또는 클라우드 기반 인프라로 이동
  • 분석
    • 메타데이터 태깅을 사용하여 비즈니스 활동 최적화
    • 조직에 데이터 위치 및 사용 정보를 알립니다.

데이터를 분류하는 것은 기본적인 첫 번째 단계이지만 일반적으로 위의 많은 사용 사례를 달성하기 위해 의미있는 조치를 취하기에 충분하지 않다는 점에 유의하는 것이 중요합니다. 권한 및 데이터 사용 활동과 같은 메타데이터 스트림을 추가하면 분류 결과를 사용하여 주요 목표를 달성하는 기능이 크게 향상될 수 있습니다.

파일 서버 스크린샷

바로니스 데이터 보안 플랫폼의 가장 인기 있는 기능 중 하나는 모든 직원에게 노출되는 민감한 데이터의 하위 집합을 보여주는 대시보드이므로 위험 완화 노력으로 어디서부터 시작해야 할지 정확히 알 수 있습니다.

데이터 민감도 수준

데이터 민감도 수준 그림

조직은 종종 다양한 유형의 분류 된 데이터를 처리하는 방법을 구별하기 위해 데이터 민감도 수준을 설정합니다. 예를 들어,미국 정부는 7 가지 수준의 분류를 가지고 있습니다. 그들은 가장 높은 것에서 가장 낮은 것까지:

  1. 제한된 데이터/이전에 제한된 데이터
  2. 코드 워드 분류
  3. 일급 비밀
  4. 비밀
  5. 기밀
  6. 공공 신뢰
  7. 통제된 분류되지 않은 정보)

인터넷 보안 센터에서는 분류 민감도 수준이 높음,보통 및 낮음 수준에 대해”중요”,”비즈니스 기밀”및”공개”라는 용어를 사용합니다.

세 가지 수준의 분류는 일반적으로 대부분의 조직에 적합한 숫자입니다. 세 개 이상의 수준은 유지하기 어려울 수 있습니다 복잡성을 추가하고,세 미만 너무 단순하고 불충분 한 개인 정보 보호 및 보호로 이어질 수 있습니다.

민감도 수준이 세 개인 분류 분류법에 대한 권장 정의는 다음과 같습니다:

  • 고감도 데이터:엄격한 액세스 제어 및 보호가 필요합니다.
  • 중간 감도 데이터: 내부 용도로만 사용되지만 데이터 유출의 영향은 치명적이지 않습니다. 예를 들어 개발중인 상업용 건물에 대한 식별 불가능한 인사 데이터 또는 아키텍처 계획이 있습니다.
  • 저감도 데이터:저감도 데이터는 액세스 제한이 필요없는 공개 정보입니다. 예를 들어 공개 웹 페이지,작업 게시물 및 블로그 게시물이 있습니다.

다른 명명법을 사용할 수 있으며 사용 사례에 따라 세 개 이상의 범주가 있을 수 있습니다.

데이터 분류 유형

데이터 분류 유형 그림

데이터 분류 프로세스를 구현할 때 따라야 할 두 가지 기본 패러다임이 있습니다. 다른 경우도 있지만 대부분의 사용 사례는 이러한 범주 중 하나에 속합니다. 사용자가 만든 데이터를 분류하여 작업하거나 자동화 된 솔루션으로 사용자를 위해 작업을 수행 할 수 있습니다.

사용자

사용자가 자신의 데이터를 분류하도록 작업할 때는 민감도 수준을 정의하고 사용자가 각 수준을 식별하도록 교육하며 사용자가 만든 모든 새 파일에 태그를 지정하고 분류하는 메커니즘을 제공해야 합니다.

재무 이력 스크린샷

대부분의 분류 시스템은 사용자가 태그가 지정된 중요한 데이터를 추적하고 보호하는 정책 적용 솔루션에 통합을 제공합니다. 예를 들어”고감도”태그가 지정된 블록 파일이 드롭박스에 업로드되지 않도록 할 수 있습니다.

사용자 분류의 장점은 인간이 정보가 민감한지 아닌지를 판단하는 데 매우 능숙하다는 것이다. 적절한 툴링과 이해하기 쉬운 규칙을 통해 분류 정확도는 매우 우수할 수 있지만,이는 사용자의 부지런함에 따라 크게 좌우되며 데이터 생성에 따라 확장되지 않습니다.

수동으로 데이터에 태그를 지정하는 것은 지루하며 많은 사용자가 작업을 잊거나 무시합니다. 또한 많은 양의 기존 데이터(또는 기계 생성 데이터)가 있는 경우 사용자가 과거 데이터에 다시 태그를 지정하여 소급하는 것은 매우 어려운 일입니다.

자동화된

자동화된 데이터 분류 엔진은 문자열 분석 시스템과 결합된 파일 파서를 사용하여 파일에서 데이터를 찾습니다. 파일 파서는 데이터 분류 엔진이 파일의 여러 가지 유형의 내용을 읽을 수 있습니다. 그런 다음 문자열 분석 시스템은 파일의 데이터를 정의된 검색 매개 변수와 일치시킵니다.

자동 분류는 사용자 기반 분류보다 훨씬 효율적이지만 정확도는 파서의 품질에 따라 다릅니다. 바로니스의 데이터 분류 엔진에는 결과를 검증하고 가양성을 줄이는 데 도움이 되는 몇 가지 주요 기능,즉 텍스트 근접성,제외 키워드,일치 범위 및 유효성 검사 알고리즘이 포함되어 있습니다.

규칙 편집 스크린샷

자동화 분류 제품을 선택할 때 정확성 외에도 효율성과 확장성이 중요한 고려 사항입니다. 수백 개의 대용량 데이터 저장소가 있는 환경의 경우 스캔 중인 저장소에 너무 많은 리소스를 소비하지 않고 한 번에 여러 시스템을 처리할 수 있는 것보다 분산된 다중 스레드 엔진을 사용해야 합니다.

대규모 멀티 페타바이트 환경의 초기 분류 스캔을 완료하는 데 걸리는 시간은 중요할 수 있습니다. 진정한 증분 스캔은 후속 스캔 속도를 높이는 데 도움이 될 수 있습니다. 바로니스는 모든 데이터 생성/수정을 모니터링하기 때문에,우리의 검색 엔진은”수정 날짜”타임 스탬프에 대한 각 파일을 검사 할 필요없이 이전 검색 이후 새로 생성되거나 수정 된 파일 만 검색합니다.

일부 분류 엔진에는 분류하는 각 개체의 인덱스가 필요합니다. 저장소 용량이 중요한 경우 인덱스가 필요하지 않거나 특정 정책이나 패턴과 일치하는 개체만 인덱싱하는 엔진을 찾습니다.

조직은 하나 또는 다른 하나 또는 사용자 및 자동화 분류의 조합에 정착 할 수 있습니다. 그것은 데이터 보호에 종사하는 교육 및 기능을 사용자에게 제공하는 것이 좋다,그것은 확실히 일이 균열을 통해 빠지지 않도록 자동화에 따라하는 것이 현명하다.

데이터 분류 프로세스

데이터 분류 프로세스

데이터 분류 프로세스는 프로젝트의 목표에 따라 약간 다릅니다. 대부분의 데이터 분류 프로젝트는 기업이 매일 만드는 놀라운 양의 데이터를 처리하기 위해 자동화가 필요합니다. 일반적으로 성공적인 데이터 분류 이니셔티브로 이어지는 몇 가지 모범 사례가 있습니다.

1. 데이터 분류 프로세스의 목표 정의

  • 무엇을 찾고 계십니까? 왜?
  • 어떤 시스템이 초기 분류 단계에 적용됩니까?
  • 조직에 적용되는 규정 준수 규정은 무엇입니까?
  • 당신이 해결하고 싶은 다른 비즈니스 목표가 있습니까? (예:위험 완화,스토리지 최적화,분석)

2. 데이터 유형 분류

  • 조직에서 생성하는 데이터의 종류 식별(예:고객 목록,재무 기록,소스 코드,제품 계획)
  • 독점 데이터와 공개 데이터 구분
  • 데이터 유형 분류

3. 분류 수준 설정

  • 얼마나 많은 분류 수준이 필요합니까?
  • 각 레벨을 문서화하고
  • 사용자가 데이터를 분류하도록 교육(수동 분류가 계획된 경우)

4. 자동 분류 프로세스 정의

  • 먼저 스캔할 데이터의 우선 순위를 지정하는 방법 정의(예:부실 데이터보다 활성 데이터 우선 순위 지정,보호 데이터보다 개방 데이터 우선 순위 지정)
  • 자동화된 데이터 분류에 사용할 빈도 및 리소스 설정

5. 카테고리 및 분류 기준 정의

  • 상위 레벨 카테고리를 정의하고 예제를 제공합니다(예:
  • 적용 가능한 분류 패턴 및 레이블 정의 또는 활성화
  • 사용자 분류 결과와 자동화된 결과를 모두 검토하고 검증하는 프로세스 설정

6. 분류된 데이터의 결과 및 사용 정의

  • 위험 완화 단계 및 자동화된 정책 문서화(예: 분류 결과에 분석을 적용하는 프로세스 정의
  • 분석 분석에서 예상되는 결과 설정

7. 모니터링 및 유지 관리

  • 새 데이터 또는 업데이트된 데이터를 분류하기 위한 지속적인 워크플로 설정
  • 비즈니스 또는 새로운 규정의 변경으로 인해 분류 프로세스를 검토하고 필요한 경우 업데이트

데이터 분류의 예

정규 표현식에 대한 짧은 정규식은 검색 패턴에 대한 세부 사항을 정의하는 일반적인 문자열 분석 시스템 중 하나입니다. 예를 들어,내 데이터에서 모든 비자 신용 카드 번호를 찾고 싶다면 정규식은 다음과 같습니다:

\b(?<!)(4\d{3}\d{4}\d{4}\d{4}\b|4\d{12}(?:\d{3})?)\b

이 시퀀스는’4’로 시작하여’-‘로 구분된 4 개의 4 중주를 갖는 16 자 숫자를 찾습니다. ‘정규식과 일치하는 문자열 만 직접 긍정적 인 결과를 생성합니다. 한 단계 더 나아가,이 결과는 룬 알고리즘에 의해 검증 될 수있다.

정규식만으로는 작업을 수행하지 않는 경우가 있습니다. 이 정규식은 이메일 주소를 확인하지만 개인 이메일과 비즈니스 이메일을 구별 할 수 없습니다:

표현식 스크린 샷

보다 정교한 데이터 분류 정책은 패턴 일치를 위해 정규식을 사용한 다음 사전 조회를 적용하여 개인 이메일 주소 서비스 라이브러리를 기반으로 결과를 좁힐 수 있습니다.

텍스트 내에서 패턴을 찾는 정규 표현식 외에도 많은 파서는 파일 확장자,소유자 및 확장 속성과 같은 파일의 메타 데이터를 확인하여 분류를 결정합니다. 일부 검색 엔진은 파일 내용을 넘어 권한 및 사용 활동을 분류 규칙에 통합할 수 있을 정도로 강력합니다.

고급 데이터 분류는 기계 학습을 사용하여 사전 및 정규식으로 구성된 사전 정의된 규칙 또는 정책에만 의존하지 않고 데이터를 찾습니다. 예를 들어 기계 학습 알고리즘에 1,000 개의 법률 문서 모음을 공급하여 일반적인 법률 문서의 모양을 엔진을 훈련시킬 수 있습니다. 엔진은 문자열 일치에 의존하지 않고 모델을 기반으로 새로운 법률 문서를 검색 할 수 있습니다.

데이터 분류 모범 사례

규모에 따라 데이터 분류 정책을 구현하고 실행할 때 따라야 할 몇 가지 모범 사례는 다음과 같습니다.

  • 어떤 규정 준수 규정 또는 개인 정보 보호 법률이 조직에 적용되는지 확인하고 그에 따라 분류 계획을 수립하십시오.
  • 현실적인 범위(바다를 끓이지 마십시오)와 엄격하게 정의 된 패턴으로 시작하십시오.
  • 자동화된 도구를 사용하여 대량의 데이터를 신속하게 처리하십시오.
  • 필요할 때 맞춤 분류 규칙을 만들지 만 바퀴를 재발견하지 마십시오.
  • 필요에 따라 분류 규칙/수준 조정
  • 분류 결과 유효성 검사
  • 결과를 가장 잘 사용하고 다음에 분류를 적용하는 방법을 파악합니다. 데이터 보안에서 비즈니스 인텔리전스

에 이르기까지 모든 데이터 분류는 전반적인 데이터 보호 전략의 일부입니다. 어떤 데이터가 민감한 지 알게되면 누가 해당 데이터에 액세스 할 수 있는지,그리고 항상 해당 데이터에 어떤 일이 일어나고 있는지 파악하십시오. 그런 식으로,당신은 당신의 중요한 데이터를 보호하고 불행한 제목에 표시에서 조직을 유지할 수 있습니다.

데이터 분류 리소스

  • 규모로 데이터 분류를 수행하는 방법
  • 데이터 분류 팁: 신용 카드 번호 찾기
  • 데이터 분류 레이블
  • 데이터 프라이버시
  • 데이터 거버넌스

데이터 분류는 복잡하지 않아도 됩니다. 바로 니스는 대부분의 작업을 수행하는 데 필요한 사전 구축 된 규칙,지능형 검증 및 근접 일치를 가지고 있습니다. 고객이 민감한 데이터를 분류하는 방법을 보려면이 마스터 클래스를 확인하십시오.

답글 남기기

이메일 주소는 공개되지 않습니다.