Análise de frequência

numa cifra de substituição simples, cada letra do texto simples é substituída por outra, e qualquer letra em particular no texto simples será sempre transformada na mesma letra no texto cifrado. Por exemplo, se todas as ocorrências da letra e se transformar em letra X, um texto cifrado a mensagem que contém inúmeras ocorrências da letra X gostaria de sugerir para um criptoanalista que X representa e.

uso básico de análise de freqüência é a primeira a contar a frequência de texto cifrado letras e, em seguida, associar adivinhou texto simples cartas com eles. Mais Xs no texto cifrado do que qualquer outra coisa sugere que X corresponde a e no texto simples, mas isso não é certo; t e a também são muito comuns em inglês, então X pode ser qualquer um deles também. É improvável que seja um Z ou q de texto simples que sejam menos comuns. Assim, o criptoanalista pode precisar tentar várias combinações de mapeamentos entre cifrotexto e letras de texto simples.

o uso mais complexo de Estatísticas pode ser concebido, tais como considerando Condes de pares de letras (bigrams), trigêmeos (trigramas), e assim por diante. Isto é feito para fornecer mais informações para o criptoanalista, por exemplo, Q E U quase sempre ocorrem juntos nessa ordem em inglês, mesmo que Q em si é raro.

Um exampleEdit

Suponha que Eva foi interceptado o criptograma abaixo, e é conhecido por ser criptografada usando uma cifra de substituição simples da seguinte maneira:

LIVITCSWPIYVEWHEVSRIQMXLEYVEOIEWHRXEXIPFEMVEWHKVSTYLXZIXLIKIIXPIJVSZEYPERRGERIMWQLMGLMXQERIWGPSRIHMXQEREKIETXMJTPRGEVEKEITREWHEXXLEXXMZITWAWSQWXSWEXTVEPMRXRSJGSTVRIEYVIEXCVMUIMWERGMIWXMJMGCSMWXSJOMIQXLIVIQIVIXQSVSTWHKPEGARCSXRWIEVSWIIBXVIZMXFSJXLIKEGAEWHEPSWYSWIWIEVXLISXLIVXLIRGEPIRQIVIIBGIIHMWYPFLEVHEWHYPSRRFQMXLEPPXLIECCIEVEWGISJKTVWMRLIHYSPHXLIQIMYLXSJXLIMWRIGXQEROIVFVIZEVAEKPIEWHXEAMWYEPPXLMWYRMWXSGSWRMHIVEXMSWMGSTPHLEVHPFKPEZINTCMXIVJSVLMRSCMWMSWVIRCIGXMWYMX

Para este exemplo, as letras maiúsculas são usadas para indicar texto cifrado, letras minúsculas são usadas para indicar texto simples (ou suposições em tais), e X~t é usado para expressar um palpite de que o texto cifrado letra X representa o plaintext letra t.

Eve poderia usar a análise de frequência para ajudar a resolver a mensagem ao longo das seguintes linhas: contagens das letras no criptograma mostram que eu é a letra única mais comum, XL bigram mais comum, e XLI é o trigrama mais comum. e é a letra mais comum na língua inglesa, é o bigram mais comum, e o é o trigrama mais comum. Isto sugere fortemente que X~t, L~h e i~e. A segunda letra mais comum no criptograma é E; desde que a primeira e segunda letras mais freqüentes na língua inglesa, e E t são contabilizadas, Eve adivinha que e~a, a terceira carta mais freqüente. Fazendo estas suposições, obtém-se a seguinte mensagem parcial descodificada.

heVeTCSWPeYVaWHaVSReQMthaYVaOeaWHRtatePFaMVaWHKVSTYhtZetheKeetPeJVSZaYPaRRGaReMWQhMGhMtQaReWGPSReHMtQaRaKeaTtMJTPRGaVaKaeTRaWHatthattMZeTWAWSQWtSWatTVaPMRtRSJGSTVReaYVeatCVMUeMWaRGMeWtMJMGCSMWtSJOMeQtheVeQeVetQSVSTWHKPaGARCStRWeaVSWeeBtVeZMtFSJtheKaGAaWHaPSWYSWeWeaVtheStheVtheRGaPeRQeVeeBGeeHMWYPFhaVHaWHYPSRRFQMthaPPtheaCCeaVaWGeSJKTVWMRheHYSPHtheQeMYhtSJtheMWReGtQaROeVFVeZaVAaKPeaWHtaAMWYaPPthMWYRMWtSGSWRMHeVatMSWMGSTPHhaVHPFKPaZeNTCMteVJSVhMRSCMWMSWVeRCeGtMWYMt

usando estas suposições iniciais, Eve pode detectar padrões que confirmam suas escolhas, tais como “aquilo”. Além disso, outros padrões sugerem mais palpites. “Rtate” pode ser “estado”, o que significaria R~s. Da mesma forma “atthattMZe” poderia ser imaginado como “atthattime”, produzindo M~i e Z~m. Além disso, “heVe” pode ser “aqui”, dando V~r. A preencher estas suposições, a Eve recebe:

hereTCSWPeYraWHarSseQithaYraOeaWHstatePFairaWHKrSTYhtmetheKeetPeJrSmaYPassGaseiWQhiGhitQaseWGPSseHitQasaKeaTtiJTPsGaraKaeTsaWHatthattimeTWAWSQWtSWatTraPistsSJGSTrseaYreatCriUeiWasGieWtiJiGCSiWtSJOieQthereQeretQSrSTWHKPaGAsCStsWearSWeeBtremitFSJtheKaGAaWHaPSWYSWeWeartheStherthesGaPesQereeBGeeHiWYPFharHaWHYPSssFQithaPPtheaCCearaWGeSJKTrWisheHYSPHtheQeiYhtSJtheiWseGtQasOerFremarAaKPeaWHtaAiWYaPPthiWYsiWtSGSWsiHeratiSWiGSTPHharHPFKPameNTCiterJSrhisSCiWiSWresCeGtiWYit

por sua vez, essas suposições sugerem ainda outras (por exemplo, “remarA” poderia ser “observação”, implicando um~k) e assim por diante, e é relativamente direto deduzir o resto das letras, eventualmente rendendo o texto simples.

hereuponlegrandarosewithagraveandstatelyairandbroughtmethebeetlefromaglasscaseinwhichitwasencloseditwasabeautifulscarabaeusandatthattimeunknowntonaturalistsofcourseagreatprizeinascientificpointofviewthereweretworoundblackspotsnearoneextremityofthebackandalongoneneartheotherthescaleswereexceedinglyhardandglossywithalltheappearanceofburnishedgoldtheweightoftheinsectwasveryremarkableandtakingallthingsintoconsiderationicouldhardlyblamejupiterforhisopinionrespectingit

neste ponto, seria uma boa ideia para Eva inserir espaços e pontuação:

Hereupon Legrand arose, with a grave and stately air, and brought me the beetlefrom a glass case in which it was enclosed. It was a beautiful scarabaeus, and, atthat time, unknown to naturalists—of course a great prize in a scientific pointof view. There were two round black spots near one extremity of the back, and along one near the other. The scales were exceedingly hard and glossy, with all theappearance of burnished gold. The weight of the insect was very remarkable, and,taking all things into consideration, I could hardly blame Jupiter for his opinionrespecting it.

neste exemplo do Gold-Bug, as suposições de Eve estavam todas corretas. Mas nem sempre seria assim.; a variação nas estatísticas para plaintexts individuais pode significar que as suposições iniciais são incorretas. Pode ser necessário voltar atrás em suposições incorretas ou analisar as estatísticas disponíveis em muito mais profundidade do que as justificações um pouco simplificadas dadas no exemplo acima.

também é possível que o texto simples não exiba a distribuição esperada de frequências de letras. Mensagens mais curtas são susceptíveis de mostrar mais variação. É também possível construir textos artificialmente distorcidos. Por exemplo, romances inteiros foram escritos que omitem a letra “e” completamente — uma forma de literatura conhecida como um lipograma.

Deixe uma resposta

O seu endereço de email não será publicado.