Analyse de fréquence

Dans un chiffrement de substitution simple, chaque lettre du texte en clair est remplacée par une autre, et toute lettre particulière dans le texte en clair sera toujours transformée en la même lettre dans le texte chiffré. Par exemple, si toutes les occurrences de la lettre e se transforment en lettre X, un message de texte chiffré contenant de nombreuses instances de la lettre X suggérerait à un cryptanalyste que X représente e.

L’utilisation de base de l’analyse fréquentielle consiste à compter d’abord la fréquence des lettres de texte chiffré, puis à y associer des lettres de texte en clair devinées. Plus de Xs dans le texte chiffré que toute autre chose suggère que X correspond à e dans le texte en clair, mais ce n’est pas certain; t et a sont également très courants en anglais, donc X pourrait aussi être l’un ou l’autre d’entre eux. Il est peu probable qu’il s’agisse d’un texte en clair z ou q qui sont moins courants. Ainsi, le cryptanalyste peut avoir besoin d’essayer plusieurs combinaisons de mappages entre le texte chiffré et les lettres en clair.

Une utilisation plus complexe des statistiques peut être conçue, par exemple en considérant le nombre de paires de lettres (bigrams), de triplets (trigrammes), etc. Ceci est fait pour fournir plus d’informations au cryptanalyste, par exemple, Q et U se produisent presque toujours ensemble dans cet ordre en anglais, même si Q lui-même est rare.

Un exempledit

Supposons qu’Eve ait intercepté le cryptogramme ci-dessous et qu’il soit connu pour être chiffré à l’aide d’un simple chiffrement de substitution comme suit:

LIVITCSWPIYVEWHEVSRIQMXLEYVEOIEWHRXEXIPFEMVEWHKVSTYLXZIXLIKIIXPIJVSZEYPERRGERIMWQLMGLMXQERIWGPSRIHMXQEREKIETXMJTPRGEVEKEITREWHEXXLEXXMZITWAWSQWXSWEXTVEPMRXRSJGSTVRIEYVIEXCVMUIMWERGMIWXMJMGCSMWXSJOMIQXLIVIQIVIXQSVSTWHKPEGARCSXRWIEVSWIIBXVIZMXFSJXLIKEGAEWHEPSWYSWIWIEVXLISXLIVXLIRGEPIRQIVIIBGIIHMWYPFLEVHEWHYPSRRFQMXLEPPXLIECCIEVEWGISJKTVWMRLIHYSPHXLIQIMYLXSJXLIMWRIGXQEROIVFVIZEVAEKPIEWHXEAMWYEPPXLMWYRMWXSGSWRMHIVEXMSWMGSTPHLEVHPFKPEZINTCMXIVJSVLMRSCMWMSWVIRCIGXMWYMX

Pour cet exemple, les lettres majuscules sont utilisées pour désigner le texte chiffré, les lettres minuscules sont utilisées pour désigner le texte en clair (ou les suppositions), et X ~ t est utilisé pour exprimer une supposition que la lettre de texte chiffré X représente la lettre de texte en clair t.

Eve pourrait utiliser l’analyse de fréquence pour aider à résoudre le message de la manière suivante: le comptage des lettres du cryptogramme montre que I est la lettre unique la plus courante, XL le bigram le plus courant et XLI le trigramme le plus courant. e est la lettre la plus courante dans la langue anglaise, th est le bigram le plus courant et le est le trigramme le plus courant. Cela suggère fortement que X ~ t, L ~ h et I ~ e. La deuxième lettre la plus courante dans le cryptogramme est E; étant donné que les première et deuxième lettres les plus fréquentes en langue anglaise, e et t sont comptabilisées, Eve devine que E ~ a, la troisième lettre la plus fréquente. En faisant provisoirement ces hypothèses, le message déchiffré partiel suivant est obtenu.

heVeTCSWPeYVaWHaVSReQMthaYVaOeaWHRtatePFaMVaWHKVSTYhtZetheKeetPeJVSZaYPaRRGaReMWQhMGhMtQaReWGPSReHMtQaRaKeaTtMJTPRGaVaKaeTRaWHatthattMZeTWAWSQWtSWatTVaPMRtRSJGSTVReaYVeatCVMUeMWaRGMeWtMJMGCSMWtSJOMeQtheVeQeVetQSVSTWHKPaGARCStRWeaVSWeeBtVeZMtFSJtheKaGAaWHaPSWYSWeWeaVtheStheVtheRGaPeRQeVeeBGeeHMWYPFhaVHaWHYPSRRFQMthaPPtheaCCeaVaWGeSJKTVWMRheHYSPHtheQeMYhtSJtheMWReGtQaROeVFVeZaVAaKPeaWHtaAMWYaPPthMWYRMWtSGSWRMHeVatMSWMGSTPHhaVHPFKPaZeNTCMteVJSVhMRSCMWMSWVeRCeGtMWYMt

En utilisant ces suppositions initiales, Eve peut repérer des motifs qui confirment ses choix, tels que « ça ». De plus, d’autres modèles suggèrent d’autres suppositions. « Rtate » pourrait être « état », ce qui signifierait R ~ s. De même « atthattMZe » pourrait être deviné comme « atthattime », donnant M ~ i et Z ~ m. De plus, « heVe » pourrait être « ici », donnant V ~ r. En remplissant ces suppositions, Eve obtient:

hereTCSWPeYraWHarSseQithaYraOeaWHstatePFairaWHKrSTYhtmetheKeetPeJrSmaYPassGaseiWQhiGhitQaseWGPSseHitQasaKeaTtiJTPsGaraKaeTsaWHatthattimeTWAWSQWtSWatTraPistsSJGSTrseaYreatCriUeiWasGieWtiJiGCSiWtSJOieQthereQeretQSrSTWHKPaGAsCStsWearSWeeBtremitFSJtheKaGAaWHaPSWYSWeWeartheStherthesGaPesQereeBGeeHiWYPFharHaWHYPSssFQithaPPtheaCCearaWGeSJKTrWisheHYSPHtheQeiYhtSJtheiWseGtQasOerFremarAaKPeaWHtaAiWYaPPthiWYsiWtSGSWsiHeratiSWiGSTPHharHPFKPameNTCiterJSrhisSCiWiSWresCeGtiWYit

À leur tour, ces suppositions en suggèrent d’autres encore (par exemple, « remarA » pourrait être « remarque », impliquant A ~ k) et ainsi de suite, et il est relativement simple de déduire le reste des lettres, donnant finalement le texte en clair.

hereuponlegrandarosewithagraveandstatelyairandbroughtmethebeetlefromaglasscaseinwhichitwasencloseditwasabeautifulscarabaeusandatthattimeunknowntonaturalistsofcourseagreatprizeinascientificpointofviewthereweretworoundblackspotsnearoneextremityofthebackandalongoneneartheotherthescaleswereexceedinglyhardandglossywithalltheappearanceofburnishedgoldtheweightoftheinsectwasveryremarkableandtakingallthingsintoconsiderationicouldhardlyblamejupiterforhisopinionrespectingit

À ce stade, ce serait une bonne idée pour Eve d’insérer des espaces et de la ponctuation:

Hereupon Legrand arose, with a grave and stately air, and brought me the beetlefrom a glass case in which it was enclosed. It was a beautiful scarabaeus, and, atthat time, unknown to naturalists—of course a great prize in a scientific pointof view. There were two round black spots near one extremity of the back, and along one near the other. The scales were exceedingly hard and glossy, with all theappearance of burnished gold. The weight of the insect was very remarkable, and,taking all things into consideration, I could hardly blame Jupiter for his opinionrespecting it.

Dans cet exemple de La Punaise d’Or, les suppositions d’Eve étaient toutes correctes. Ce ne serait cependant pas toujours le cas; la variation des statistiques pour chaque texte en clair peut signifier que les suppositions initiales sont incorrectes. Il peut être nécessaire de revenir sur des suppositions incorrectes ou d’analyser les statistiques disponibles de manière beaucoup plus approfondie que les justifications quelque peu simplifiées données dans l’exemple ci-dessus.

Il est également possible que le texte en clair ne présente pas la distribution attendue des fréquences des lettres. Les messages plus courts sont susceptibles de montrer plus de variation. Il est également possible de construire des textes artificiellement biaisés. Par exemple, des romans entiers ont été écrits qui omettent complètement la lettre « e » — une forme de littérature connue sous le nom de lipogramme.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.