Análisis de frecuencia

En un cifrado de sustitución simple, cada letra del texto plano se reemplaza por otra, y cualquier letra en particular del texto plano siempre se transformará en la misma letra del texto cifrado. Por ejemplo, si todas las apariciones de la letra e se convierten en la letra X, un mensaje de texto cifrado que contiene numerosas instancias de la letra X sugeriría a un criptoanalista que X representa e.

El uso básico del análisis de frecuencia es contar primero la frecuencia de las letras de texto cifrado y luego asociar las letras de texto plano adivinadas con ellas. Más Xs en el texto cifrado que cualquier otra cosa sugiere que X corresponde a e en el texto plano, pero esto no es seguro; t y a también son muy comunes en inglés, por lo que X podría ser cualquiera de ellos también. Es poco probable que sea un texto plano z o q, que son menos comunes. Por lo tanto, el criptoanalista puede necesitar probar varias combinaciones de asignaciones entre texto cifrado y letras de texto plano.

Se puede concebir un uso más complejo de las estadísticas, como considerar conteos de pares de letras (bigramas), trillizos (trigramas), etc. Esto se hace para proporcionar más información al criptoanalista, por ejemplo, Q y U casi siempre aparecen juntos en ese orden en inglés, a pesar de que Q en sí es raro.

Un ejemploeditar

Supongamos que Eve ha interceptado el criptograma de abajo, y se sabe que está cifrado usando un cifrado de sustitución simple como sigue:

LIVITCSWPIYVEWHEVSRIQMXLEYVEOIEWHRXEXIPFEMVEWHKVSTYLXZIXLIKIIXPIJVSZEYPERRGERIMWQLMGLMXQERIWGPSRIHMXQEREKIETXMJTPRGEVEKEITREWHEXXLEXXMZITWAWSQWXSWEXTVEPMRXRSJGSTVRIEYVIEXCVMUIMWERGMIWXMJMGCSMWXSJOMIQXLIVIQIVIXQSVSTWHKPEGARCSXRWIEVSWIIBXVIZMXFSJXLIKEGAEWHEPSWYSWIWIEVXLISXLIVXLIRGEPIRQIVIIBGIIHMWYPFLEVHEWHYPSRRFQMXLEPPXLIECCIEVEWGISJKTVWMRLIHYSPHXLIQIMYLXSJXLIMWRIGXQEROIVFVIZEVAEKPIEWHXEAMWYEPPXLMWYRMWXSGSWRMHIVEXMSWMGSTPHLEVHPFKPEZINTCMXIVJSVLMRSCMWMSWVIRCIGXMWYMX

En este ejemplo, las letras mayúsculas se usan para denotar texto cifrado, las letras minúsculas se usan para denotar texto sin formato (o conjeturas), y X~t se usa para expresar una suposición de que la letra de texto cifrado X representa la letra de texto sin formato t.

Eve podría usar el análisis de frecuencia para ayudar a resolver el mensaje siguiendo las siguientes líneas: los recuentos de las letras en el criptograma muestran que I es la letra única más común, XL el bigrama más común y XLI es el trigrama más común. e es la letra más común en el idioma inglés, th es el bigrama más común, y la es el trigrama más común. Esto sugiere fuertemente que X~t, L ~ h e I~e. La segunda letra más común en el criptograma es E; dado que la primera y la segunda letras más frecuentes en el idioma inglés, e y t, se contabilizan, Eve adivina que E~a, la tercera letra más frecuente. Haciendo tentativamente estas suposiciones, se obtiene el siguiente mensaje descifrado parcial.

heVeTCSWPeYVaWHaVSReQMthaYVaOeaWHRtatePFaMVaWHKVSTYhtZetheKeetPeJVSZaYPaRRGaReMWQhMGhMtQaReWGPSReHMtQaRaKeaTtMJTPRGaVaKaeTRaWHatthattMZeTWAWSQWtSWatTVaPMRtRSJGSTVReaYVeatCVMUeMWaRGMeWtMJMGCSMWtSJOMeQtheVeQeVetQSVSTWHKPaGARCStRWeaVSWeeBtVeZMtFSJtheKaGAaWHaPSWYSWeWeaVtheStheVtheRGaPeRQeVeeBGeeHMWYPFhaVHaWHYPSRRFQMthaPPtheaCCeaVaWGeSJKTVWMRheHYSPHtheQeMYhtSJtheMWReGtQaROeVFVeZaVAaKPeaWHtaAMWYaPPthMWYRMWtSGSWRMHeVatMSWMGSTPHhaVHPFKPaZeNTCMteVJSVhMRSCMWMSWVeRCeGtMWYMt

Usando estas conjeturas iniciales, Eve puede detectar patrones que confirman sus elecciones, como «eso». Además, otros patrones sugieren más conjeturas. «Rtate» podría ser «state», lo que significaría R~s. De manera similar,» atthattMZe «podría adivinarse como» atthattime», dando M~i y Z~m. Además,» heVe «podría ser» here», dando V~r. Llenando estas conjeturas, Eve obtiene:

hereTCSWPeYraWHarSseQithaYraOeaWHstatePFairaWHKrSTYhtmetheKeetPeJrSmaYPassGaseiWQhiGhitQaseWGPSseHitQasaKeaTtiJTPsGaraKaeTsaWHatthattimeTWAWSQWtSWatTraPistsSJGSTrseaYreatCriUeiWasGieWtiJiGCSiWtSJOieQthereQeretQSrSTWHKPaGAsCStsWearSWeeBtremitFSJtheKaGAaWHaPSWYSWeWeartheStherthesGaPesQereeBGeeHiWYPFharHaWHYPSssFQithaPPtheaCCearaWGeSJKTrWisheHYSPHtheQeiYhtSJtheiWseGtQasOerFremarAaKPeaWHtaAiWYaPPthiWYsiWtSGSWsiHeratiSWiGSTPHharHPFKPameNTCiterJSrhisSCiWiSWresCeGtiWYit

A su vez, estas conjeturas sugieren otras (por ejemplo, «remarA» podría ser «observación», lo que implica una~k) y así sucesivamente, y es relativamente sencillo deducir el resto de las letras, eventualmente produciendo el texto plano.

hereuponlegrandarosewithagraveandstatelyairandbroughtmethebeetlefromaglasscaseinwhichitwasencloseditwasabeautifulscarabaeusandatthattimeunknowntonaturalistsofcourseagreatprizeinascientificpointofviewthereweretworoundblackspotsnearoneextremityofthebackandalongoneneartheotherthescaleswereexceedinglyhardandglossywithalltheappearanceofburnishedgoldtheweightoftheinsectwasveryremarkableandtakingallthingsintoconsiderationicouldhardlyblamejupiterforhisopinionrespectingit

En este punto, sería una buena idea que Eve insertara espacios y signos de puntuación:

Hereupon Legrand arose, with a grave and stately air, and brought me the beetlefrom a glass case in which it was enclosed. It was a beautiful scarabaeus, and, atthat time, unknown to naturalists—of course a great prize in a scientific pointof view. There were two round black spots near one extremity of the back, and along one near the other. The scales were exceedingly hard and glossy, with all theappearance of burnished gold. The weight of the insect was very remarkable, and,taking all things into consideration, I could hardly blame Jupiter for his opinionrespecting it.

En este ejemplo del Bicho Dorado, las conjeturas de Eva eran todas correctas. Sin embargo, este no siempre sería el caso; la variación en las estadísticas de textos planos individuales puede significar que las conjeturas iniciales son incorrectas. Puede ser necesario dar marcha atrás a conjeturas incorrectas o analizar las estadísticas disponibles con mucha más profundidad que las justificaciones un tanto simplificadas dadas en el ejemplo anterior.

También es posible que el texto plano no muestre la distribución esperada de frecuencias de letras. Es probable que los mensajes más cortos muestren más variación. También es posible construir textos sesgados artificialmente. Por ejemplo, se han escrito novelas enteras que omiten por completo la letra «e», una forma de literatura conocida como lipograma.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.