Analisi di frequenza

In un semplice codice di sostituzione, ogni lettera del testo in chiaro viene sostituita con un’altra e qualsiasi lettera particolare nel testo in chiaro verrà sempre trasformata nella stessa lettera nel testo cifrato. Ad esempio, se tutte le occorrenze della lettera e si trasformano nella lettera X, un messaggio di testo cifrato contenente numerose istanze della lettera X suggerirebbe a un crittoanalista che X rappresenta e.

L’uso di base dell’analisi della frequenza è quello di contare prima la frequenza delle lettere di testo cifrato e quindi associare le lettere in chiaro indovinate. Più Xs nel testo cifrato di ogni altra cosa suggerisce che X corrisponde a e nel testo in chiaro, ma questo non è certo; t e a sono anche molto comuni in inglese, quindi X potrebbe essere anche uno di loro. È improbabile che sia un testo in chiaro z o q che sono meno comuni. Pertanto, il cryptanalyst potrebbe dover provare diverse combinazioni di mappature tra testo cifrato e lettere in chiaro.

È possibile concepire un uso più complesso delle statistiche, ad esempio considerando i conteggi di coppie di lettere (bigrammi), terzine (trigrammi) e così via. Questo viene fatto per fornire ulteriori informazioni al crittoanalista, ad esempio, Q e U si verificano quasi sempre insieme in quell’ordine in inglese, anche se Q stesso è raro.

Un exampleEdit

Supponiamo che Eva ha intercettato il crittogramma di seguito, ed è noto per essere crittografati utilizzando un semplice cifrario a sostituzione come segue:

LIVITCSWPIYVEWHEVSRIQMXLEYVEOIEWHRXEXIPFEMVEWHKVSTYLXZIXLIKIIXPIJVSZEYPERRGERIMWQLMGLMXQERIWGPSRIHMXQEREKIETXMJTPRGEVEKEITREWHEXXLEXXMZITWAWSQWXSWEXTVEPMRXRSJGSTVRIEYVIEXCVMUIMWERGMIWXMJMGCSMWXSJOMIQXLIVIQIVIXQSVSTWHKPEGARCSXRWIEVSWIIBXVIZMXFSJXLIKEGAEWHEPSWYSWIWIEVXLISXLIVXLIRGEPIRQIVIIBGIIHMWYPFLEVHEWHYPSRRFQMXLEPPXLIECCIEVEWGISJKTVWMRLIHYSPHXLIQIMYLXSJXLIMWRIGXQEROIVFVIZEVAEKPIEWHXEAMWYEPPXLMWYRMWXSGSWRMHIVEXMSWMGSTPHLEVHPFKPEZINTCMXIVJSVLMRSCMWMSWVIRCIGXMWYMX

Per questo esempio, le lettere maiuscole sono utilizzati per indicare un testo cifrato, lettere minuscole vengono utilizzati per indicare in chiaro (o tentativi a tale), e X~t è usato per esprimere una supposizione che ciphertext lettera X rappresenta la lettera t.

Eve potrebbe utilizzare l’analisi della frequenza per aiutare a risolvere il messaggio lungo le seguenti linee: il conteggio delle lettere nel crittogramma mostra che I è la lettera singola più comune, XL bigram più comune e XLI è il trigramma più comune. e è la lettera più comune nella lingua inglese, th è il bigram più comune e l ‘ è il trigramma più comune. Ciò suggerisce fortemente che X ~ t, L ~ h e I~e. La seconda lettera più comune nel crittogramma è E; poiché la prima e la seconda lettera più frequente nella lingua inglese, e e t sono contabilizzate, Eve indovina che E~a, la terza lettera più frequente. Facendo provvisoriamente queste ipotesi, si ottiene il seguente messaggio parziale decifrato.

heVeTCSWPeYVaWHaVSReQMthaYVaOeaWHRtatePFaMVaWHKVSTYhtZetheKeetPeJVSZaYPaRRGaReMWQhMGhMtQaReWGPSReHMtQaRaKeaTtMJTPRGaVaKaeTRaWHatthattMZeTWAWSQWtSWatTVaPMRtRSJGSTVReaYVeatCVMUeMWaRGMeWtMJMGCSMWtSJOMeQtheVeQeVetQSVSTWHKPaGARCStRWeaVSWeeBtVeZMtFSJtheKaGAaWHaPSWYSWeWeaVtheStheVtheRGaPeRQeVeeBGeeHMWYPFhaVHaWHYPSRRFQMthaPPtheaCCeaVaWGeSJKTVWMRheHYSPHtheQeMYhtSJtheMWReGtQaROeVFVeZaVAaKPeaWHtaAMWYaPPthMWYRMWtSGSWRMHeVatMSWMGSTPHhaVHPFKPaZeNTCMteVJSVhMRSCMWMSWVeRCeGtMWYMt

Usando queste ipotesi iniziali, Eve può individuare modelli che confermano le sue scelte, come “quello”. Inoltre, altri modelli suggeriscono ulteriori ipotesi. “Rtate” potrebbe essere “state”, che significherebbe R~s. Allo stesso modo” atthattMZe “potrebbe essere indovinato come” atthattime”, producendo M~i e Z~m. Inoltre,” heVe “potrebbe essere” here”, dando V~r. Compilando queste ipotesi, Eve ottiene:

hereTCSWPeYraWHarSseQithaYraOeaWHstatePFairaWHKrSTYhtmetheKeetPeJrSmaYPassGaseiWQhiGhitQaseWGPSseHitQasaKeaTtiJTPsGaraKaeTsaWHatthattimeTWAWSQWtSWatTraPistsSJGSTrseaYreatCriUeiWasGieWtiJiGCSiWtSJOieQthereQeretQSrSTWHKPaGAsCStsWearSWeeBtremitFSJtheKaGAaWHaPSWYSWeWeartheStherthesGaPesQereeBGeeHiWYPFharHaWHYPSssFQithaPPtheaCCearaWGeSJKTrWisheHYSPHtheQeiYhtSJtheiWseGtQasOerFremarAaKPeaWHtaAiWYaPPthiWYsiWtSGSWsiHeratiSWiGSTPHharHPFKPameNTCiterJSrhisSCiWiSWresCeGtiWYit

A loro volta, queste ipotesi suggeriscono altri ancora (ad esempio, “remarA” potrebbe essere “osservazione”, che implica A~k) e così via, ed è relativamente semplice dedurre il resto delle lettere, alla fine producendo il testo in chiaro.

hereuponlegrandarosewithagraveandstatelyairandbroughtmethebeetlefromaglasscaseinwhichitwasencloseditwasabeautifulscarabaeusandatthattimeunknowntonaturalistsofcourseagreatprizeinascientificpointofviewthereweretworoundblackspotsnearoneextremityofthebackandalongoneneartheotherthescaleswereexceedinglyhardandglossywithalltheappearanceofburnishedgoldtheweightoftheinsectwasveryremarkableandtakingallthingsintoconsiderationicouldhardlyblamejupiterforhisopinionrespectingit

A questo punto, sarebbe una buona idea per Eve inserire spazi e punteggiatura:

Hereupon Legrand arose, with a grave and stately air, and brought me the beetlefrom a glass case in which it was enclosed. It was a beautiful scarabaeus, and, atthat time, unknown to naturalists—of course a great prize in a scientific pointof view. There were two round black spots near one extremity of the back, and along one near the other. The scales were exceedingly hard and glossy, with all theappearance of burnished gold. The weight of the insect was very remarkable, and,taking all things into consideration, I could hardly blame Jupiter for his opinionrespecting it.

In questo esempio dal Gold-Bug, le ipotesi di Eve erano tutte corrette. Questo non sarebbe sempre il caso, però; la variazione delle statistiche per i singoli testi in chiaro può significare che le ipotesi iniziali non sono corrette. Potrebbe essere necessario risalire a ipotesi errate o analizzare le statistiche disponibili in modo molto più approfondito rispetto alle giustificazioni un po ‘ semplificate fornite nell’esempio precedente.

È anche possibile che il testo in chiaro non mostri la distribuzione prevista delle frequenze delle lettere. È probabile che i messaggi più brevi mostrino più variazioni. È anche possibile costruire testi artificialmente distorti. Ad esempio, sono stati scritti interi romanzi che omettono del tutto la lettera “e” — una forma di letteratura nota come lipogramma.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.