czym jest klasyfikacja danych? Wytyczne i proces

wyobraź sobie, że jesteś CISO 10 000-osobowej organizacji, w której użytkownicy tworzą miliony plików i wiadomości e-mail każdego dnia. Niektóre z tych informacji są bardzo wrażliwe – jeśli wyciekną lub zostaną skradzione, grozi ci naruszenie zasad i siedmiocyfrowe kary. Większość danych tworzonych każdego dnia mogłaby jednak zostać opublikowana na pierwszej stronie Times ’ a bez incydentów.

ustalenie priorytetów w zakresie ograniczania ryzyka lub przestrzegania przepisów dotyczących prywatności może być praktycznie niemożliwe, jeśli nie wiesz, które informacje wymagają ochrony na poziomie wojskowym. Tu pojawia się klasyfikacja danych.

klasyfikacja danych definicja

ilustracja klasyfikacji danych

klasyfikacja danych to proces analizy ustrukturyzowanych lub nieustrukturyzowanych danych i organizowania ich w Kategorie na podstawie typu pliku, zawartości i innych metadanych.

klasyfikacja danych pomaga organizacjom odpowiadać na ważne pytania dotyczące ich danych, które informują, w jaki sposób ograniczają ryzyko i zarządzają zasadami zarządzania danymi. Dzięki niemu dowiesz się, gdzie przechowujesz najważniejsze dane lub jakie rodzaje wrażliwych danych użytkownicy tworzą najczęściej. Kompleksowa klasyfikacja danych jest konieczna (ale nie wystarczająca) do zapewnienia zgodności z nowoczesnymi przepisami dotyczącymi prywatności danych.

zrzut ekranu konfiguracji DCE i DW

oprogramowanie do klasyfikacji danych pozwala organizacjom identyfikować informacje, które są istotne dla interesów organizacji. Na przykład możesz mieć wymóg znalezienia wszystkich odniesień do ” sosu Szechuan „w sieci, zlokalizowania wszystkich wzmianek o” glifosacie ” w celu wykrycia prawnego lub oznaczyć wszystkie pliki związane z HIPAA w sieci, aby mogły być automatycznie szyfrowane.

aby zachować zgodność z przepisami dotyczącymi prywatności danych, organizacje zazwyczaj opracowują projekty klasyfikacji, aby odkryć wszelkie dane osobowe (PII) w Twoich magazynach danych, abyś mógł udowodnić audytorom, że są one prawidłowo zarządzane.

klasyfikacja danych nie jest taka sama jak indeksowanie danych, chociaż istnieją pewne podobieństwa między nimi. Podczas gdy obie strony wymagają spojrzenia na treść, aby zdecydować, czy jest ona istotna dla słowa kluczowego, czy pojęcia, klasyfikacja nie musi prowadzić do przeszukiwania indeksu.

w wielu przypadkach wyniki klasyfikacji będą wyświetlać nazwę obiektu oraz dopasowaną zasadę lub wzorzec bez przechowywania indeksu zawartości obiektu:

  • obiekt: Klienci.XLS
  • dopasowane wzory: Kalifornijskie prawo jazdy (CCPA), American Express (PCI-DSS)

niektóre rozwiązania do klasyfikacji danych tworzą indeks, aby umożliwić szybkie i skuteczne wyszukiwanie w celu spełnienia żądań dostępu osób, których dane dotyczą (dsar) i żądań dotyczących prawa do bycia zapomnianym.

cel klasyfikacji danych

 ilustracja klasyfikacji danych

w najnowszym Przewodniku po rynku oprogramowania do analizy plików firma Gartner wymienia cztery przypadki użycia na wysokim poziomie:

  • ograniczanie ryzyka
    • Ogranicz dostęp do danych osobowych (PII)
    • Kontroluj lokalizację i dostęp do własności intelektualnej (IP)
    • zmniejsz powierzchnię ataku do wrażliwych danych
    • Zintegruj klasyfikację z DLP i innymi aplikacjami egzekwującymi Zasady
  • Zarządzanie/Zgodność
    • Zidentyfikuj dane podlegające RODO, HIPAA, CCPA, PCI, SOX i przyszłym przepisom
    • Zastosuj znaczniki metadanych do chronionych danych, aby umożliwić dodatkowe śledzenie i kontrolę
    • Włącz kwarantannę, blokadę prawną, archiwizacja i inne regulacje – wymagane działania
    • ułatwiają” prawo do bycia zapomnianym ” i żądania dostępu do danych osobowych (DSARs)
  • wydajność i optymalizacja
    • umożliwiają sprawny dostęp do treści w oparciu o Typ, użycie itp.
    • Odkryj i wyeliminuj przestarzałe lub nadmiarowe dane
    • Przenieś mocno wykorzystane dane do szybszych urządzeń lub infrastruktury opartej na chmurze
  • analityka
    • Włącz tagowanie metadanych w celu optymalizacji działań biznesowych
    • informowanie organizacji o lokalizacji i wykorzystaniu danych

ważne jest, aby pamiętać, że klasyfikowanie danych—choć podstawowym pierwszym krokiem—zwykle nie wystarcza do podjęcia znaczących działań w celu osiągnięcia wielu z powyższych przypadków użycia. Dodanie dodatkowych strumieni metadanych, takich jak uprawnienia i aktywność w zakresie wykorzystania danych, może znacznie zwiększyć możliwość wykorzystania wyników klasyfikacji do osiągnięcia kluczowych celów.

zrzut ekranu serwerów plików

jedną z najpopularniejszych funkcji platformy bezpieczeństwa danych Varonis jest pulpit nawigacyjny, który ujawnia podzbiór poufnych danych, które są również narażone na działanie każdego pracownika, dzięki czemu dokładnie wiesz, od czego zacząć wysiłki ograniczające ryzyko.

poziomy wrażliwości danych

ilustracje poziomów wrażliwości danych

organizacje często ustanawiają poziomy wrażliwości danych, aby odróżnić sposób traktowania różnych rodzajów danych niejawnych. Na przykład rząd Stanów Zjednoczonych ma siedem poziomów klasyfikacji. Są, od najwyższej do najniższej:

  1. dane zastrzeżone/dane wcześniej zastrzeżone
  2. Klasyfikacja słów kodowych
  3. ściśle tajne
  4. tajne
  5. poufne
  6. zaufanie publiczne
  7. kontrolowane informacje niesklasyfikowane (CUI)

Center for Internet Security (CIS) używa terminów „wrażliwy”, „poufny biznes” i „publiczny” w odniesieniu do wysokiego, średniego i niskiego poziomu czułości klasyfikacji.

trzy poziomy klasyfikacji są zwykle odpowiednią liczbą dla większości organizacji. Więcej niż trzy poziomy zwiększają złożoność, która może być trudna do utrzymania, a mniej niż trzy są zbyt uproszczone i mogą prowadzić do niewystarczającej Prywatności i ochrony.

oto zalecane definicje dla taksonomii klasyfikacyjnej z trzema poziomami czułości:

  • Dane O Wysokiej Czułości: wymagają rygorystycznych kontroli dostępu i zabezpieczeń, zarówno dlatego, że są często chronione przez prawa, takie jak RODO, CCPA i HIPAA, a także dlatego, że mogą spowodować znaczne szkody dla osoby lub organizacji w przypadku ich naruszenia.
  • Dane Średniej Czułości: przeznaczony wyłącznie do użytku wewnętrznego, ale wpływ naruszenia danych nie jest katastrofalny. Przykładami są nieidentyfikowalne dane osobowe lub plany architektoniczne budynku komercyjnego w trakcie realizacji.
  • dane o niskiej czułości: DANE o niskiej czułości to informacje publiczne, które nie wymagają żadnych ograniczeń dostępu. Przykłady obejmują publiczne strony internetowe, oferty pracy i posty na blogu.

możesz używać innej nomenklatury i możesz mieć więcej niż trzy kategorie, w zależności od przypadków użycia.

rodzaje klasyfikacji danych

ilustracje typów klasyfikacji danych

podczas wdrażania procesu klasyfikacji danych należy przestrzegać dwóch podstawowych paradygmatów. Są inne, ale większość przypadków użycia należy do jednej z tych kategorii. Możesz zlecić użytkownikom klasyfikację tworzonych przez nich danych lub zrobić to za nich za pomocą zautomatyzowanego rozwiązania.

użytkownik

gdy użytkownik ma za zadanie klasyfikować własne dane, należy zdefiniować poziomy czułości, wyszkolić użytkowników, aby identyfikowali każdy poziom i zapewnić mechanizm tagowania i klasyfikowania wszystkich nowych plików, które tworzą.

zrzut ekranu historii finansowej

większość systemów klasyfikacji zapewnia integrację z rozwiązaniami egzekwującymi Zasady, takimi jak oprogramowanie DLP (data loss prevention), które śledzą i chronią poufne dane oznaczone przez użytkowników. Przykładowe zasady DLP mogą blokować przesyłanie plików oznaczonych tagiem „wysoka czułość” do Dropbox.

zaletą klasyfikacji użytkowników jest to, że ludzie są całkiem dobrzy w ocenianiu, czy informacje są wrażliwe, czy nie. Dzięki odpowiedniemu oprzyrządowaniu i łatwym do zrozumienia regułom dokładność klasyfikacji może być całkiem dobra, ale w dużym stopniu zależy od staranności użytkowników i nie będzie skalowana, aby nadążyć za tworzeniem danych.

ręczne oznaczanie danych jest żmudne i wielu użytkowników zapomni lub zaniedbuje zadanie. Ponadto, jeśli masz duże ilości wcześniej istniejących danych (lub danych generowanych maszynowo), ogromnym wyzwaniem jest zachęcenie użytkowników do cofnięcia się i wstecznego oznaczania danych historycznych.

zautomatyzowane

automatyczne mechanizmy klasyfikacji danych wykorzystują parser plików połączony z systemem analizy ciągów, aby znaleźć dane w plikach. Parser plików pozwala silnikowi klasyfikacji danych odczytać zawartość kilku różnych typów plików. System analizy ciągów następnie dopasowuje dane w plikach do zdefiniowanych parametrów wyszukiwania.

Automatyczna klasyfikacja jest znacznie wydajniejsza niż klasyfikacja oparta na użytkowniku, ale dokładność zależy od jakości parsera. Silnik klasyfikacji danych Varonis zawiera kilka kluczowych funkcji, które pomagają w sprawdzaniu wyników i zmniejszaniu liczby fałszywych alarmów—a mianowicie bliskość tekstu, wykluczające słowa kluczowe, zakresy dopasowań i algorytmy walidacji.

zrzut ekranu reguły edycji

oprócz dokładności, wydajności i skalowalności są ważnymi względami przy wyborze produktu do automatycznej klasyfikacji. W środowiskach z setkami dużych magazynów danych potrzebujesz rozproszonego, wielowątkowego silnika, który poradzi sobie z wieloma systemami jednocześnie bez zużywania zbyt wielu zasobów w skanowanych magazynach.

czas na ukończenie wstępnego skanu klasyfikacji dużego środowiska wielowątkowego może być znaczący. Prawdziwe skanowanie przyrostowe może przyspieszyć kolejne skanowanie. Ponieważ Varonis monitoruje wszystkie dane tworzone/modyfikowane, nasz silnik skanujący skanuje tylko te pliki, które zostały nowo utworzone lub zmodyfikowane od poprzedniego skanowania bez konieczności sprawdzania KAŻDEGO pliku pod kątem znacznika czasu „data zmodyfikowana”.

niektóre silniki klasyfikacyjne wymagają indeksu każdego obiektu, który klasyfikują. Jeśli problemem jest pojemność pamięci masowej, poszukaj silnika, który nie wymaga indeksu lub indeksuje tylko obiekty pasujące do określonej zasady lub wzorca.

organizacje mogą rozliczać się na jednej lub drugiej, lub kombinacji zarówno klasyfikacji użytkowników, jak i automatyzacji. Zawsze dobrze jest zapewnić użytkownikom szkolenia i funkcjonalność, aby zaangażować się w ochronę danych, i dobrze jest kontynuować automatyzację, aby upewnić się, że rzeczy nie wpadną w tarapaty.

proces klasyfikacji danych

proces klasyfikacji danych

procesy klasyfikacji danych różnią się nieznacznie w zależności od celów projektu. Większość projektów klasyfikacji danych wymaga automatyzacji, aby przetwarzać zadziwiającą ilość danych, które firmy tworzą każdego dnia. Ogólnie rzecz biorąc, istnieją pewne najlepsze praktyki, które prowadzą do udanych inicjatyw klasyfikacji danych:

1. Określ cele procesu klasyfikacji danych

  • czego szukasz? Dlaczego?
  • które systemy są w zakresie wstępnej fazy klasyfikacji?
  • jakie przepisy dotyczące zgodności mają zastosowanie do Twojej organizacji?
  • czy są inne cele biznesowe, którymi chcesz się zająć? (np. ograniczanie ryzyka, Optymalizacja pamięci masowej, analityka)

2. Kategoryzuj typy danych

  • określ, jakie rodzaje danych tworzy organizacja (np. listy klientów, dokumentacja finansowa, kod źródłowy, plany produktów)
  • Określ dane własne vs. dane publiczne
  • czy spodziewasz się znaleźć RODO, CCPA lub inne dane regulowane?

3. Ustal poziomy klasyfikacji

  • ile poziomów klasyfikacji potrzebujesz?
  • udokumentuj każdy poziom i podaj przykłady
  • trenuj użytkowników do klasyfikacji danych (jeśli planowana jest klasyfikacja ręczna)

4. Zdefiniuj proces automatycznej klasyfikacji

  • Zdefiniuj priorytet, które dane mają być najpierw skanowane (np. priorytet aktywny nad przestarzały, otwarty nad chroniony)
  • ustal częstotliwość i zasoby, które poświęcisz automatycznej klasyfikacji danych

5. Określ kategorie i kryteria klasyfikacji

  • Określ swoje kategorie wysokiego poziomu i podaj przykłady (np., PII, PHI)
  • Definiowanie lub włączanie odpowiednich wzorców klasyfikacji i etykiet
  • ustanowienie procesu przeglądu i walidacji zarówno sklasyfikowanych przez Użytkownika, jak i zautomatyzowanych wyników

6. Zdefiniuj wyniki i Wykorzystanie danych niejawnych

  • dokumentuj kroki ograniczania ryzyka i zautomatyzowane zasady (np. jeśli nieużywane przez 180 dni, automatycznie usuwaj globalne grupy dostępu z folderów z wrażliwymi danymi)
  • Zdefiniuj proces stosowania analityki do wyników klasyfikacji
  • ustal oczekiwane wyniki analizy analitycznej

7. Monitoruj i utrzymuj

  • Stwórz ciągły przepływ pracy, aby sklasyfikować nowe lub zaktualizowane dane
  • przejrzyj proces klasyfikacji i zaktualizuj w razie potrzeby ze względu na zmiany w działalności lub nowe przepisy

przykłady klasyfikacji danych

RegEx –skrót od wyrażenia regularnego – jest jednym z bardziej popularnych systemów analizy ciągów znaków, które definiują specyfikę wzorców wyszukiwania. Na przykład, jeśli chciałbym znaleźć wszystkie numery kart kredytowych VISA w moich danych, Wyrażenie regularne wyglądałoby tak:

\b(?<!)(4\d{3}\d{4}\d{4}\d{4}\b|4\d{12}(?:\d{3})?)\b

ta sekwencja szuka 16-znakowej liczby zaczynającej się od '4,’ i ma 4 kwartety rozdzielone przez ’-. 'Tylko ciąg znaków pasujący do wyrażenia regularnego bezpośrednio generuje wynik dodatni. Idąc o krok dalej, wynik ten może zostać zatwierdzony przez algorytm Luhna.

oto przypadek, w którym RegEx sam w sobie nie wykona zadania. To wyrażenie regularne znajduje poprawne adresy e-mail, ale nie można odróżnić osobistych od biznesowych wiadomości e-mail:

zrzut ekranu wyrażenia

bardziej wyrafinowana Polityka klasyfikacji danych może używać wyrażenia regularnego do dopasowywania wzorców, a następnie zastosować wyszukiwanie słownikowe, aby zawęzić wyniki na podstawie biblioteki osobistych usług adresów e-mail, takich jak Gmail, Outlook itp.

oprócz wyrażeń regularnych, które szukają wzorców w tekście, wiele parserów będzie również sprawdzać metadane pliku—takie jak rozszerzenie pliku, właściciel i rozszerzone właściwości—w celu określenia jego klasyfikacji. Niektóre silniki skanujące są wystarczająco wytrzymałe, aby wykraczać poza zawartość pliku i włączać uprawnienia i aktywność użytkowania Do reguły klasyfikacji.

zaawansowana klasyfikacja danych wykorzystuje uczenie maszynowe do wyszukiwania danych bez polegania wyłącznie na predefiniowanych regułach lub zasadach składających się ze słowników i wyrażeń regularnych. Na przykład możesz być w stanie przekazać algorytmowi uczenia maszynowego korpus 1000 dokumentów prawnych, aby wytrenować silnik, jak wygląda typowy dokument prawny. Silnik może odkrywać nowe dokumenty prawne w oparciu o swój model bez polegania na dopasowywaniu ciągów znaków.

najlepsze praktyki klasyfikacji danych

oto kilka najlepszych praktyk, które należy stosować podczas wdrażania i wykonywania zasad klasyfikacji danych na dużą skalę.

  • określ, które przepisy dotyczące zgodności lub prawa dotyczące prywatności mają zastosowanie do Twojej organizacji i odpowiednio Zbuduj swój plan klasyfikacji
  • zacznij od realistycznego zakresu (nie gotuj oceanu) i ściśle określonych wzorców (takich jak PCI-DSS)
  • użyj zautomatyzowanych narzędzi do szybkiego przetwarzania dużych ilości danych
  • twórz niestandardowe reguły klasyfikacji, gdy są potrzebne, ale nie odkrywaj koła na nowo
  • > dostosuj reguły/poziomy klasyfikacji w razie potrzeby
  • potwierdź wyniki klasyfikacji
  • dowiedz się, jak najlepiej wykorzystać wyniki i zastosować klasyfikację do wszystko, od bezpieczeństwa danych po Business intelligence

klasyfikacja danych jest częścią ogólnej strategii ochrony danych. Gdy już wiesz, jakie dane są wrażliwe, dowiedz się, kto ma do nich dostęp i co się z nimi dzieje przez cały czas. W ten sposób możesz chronić poufne dane i zapobiegać pojawianiu się organizacji w niefortunnym nagłówku.

zasoby klasyfikacji danych

  • jak zrobić klasyfikację danych w skali
  • Wskazówki dotyczące klasyfikacji danych: Wyszukiwanie numerów kart kredytowych
  • etykiety klasyfikacji danych
  • klasyfikacja CCPA
  • Ochrona danych
  • zarządzanie danymi

klasyfikacja danych nie musi być skomplikowana. Varonis ma wbudowane reguły, inteligentną walidację i dopasowanie zbliżeniowe, których potrzebujesz, aby wykonać większość pracy. Sprawdź tę klasę mistrzowską, aby zobaczyć, jak klienci klasyfikują swoje wrażliwe dane.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.