Criptografía Clásica: Datos Estadísticos

Datos estadísticos son tan solo los datos obtenidos de un recuento o de un estudio. En nuestro caso son los datos obtenidos del estudio de las letras y palabras del castellano, concretamente de su frecuencia de aparición. El conocimiento de estos datos nos será de utilidad, entre otras cosas, para el estudio y análisis de textos cifrados.

Frecuencias de aparición de las letras en castellano

Para obtener las frecuencias reales para las letras del alfabeto lo ideal sería contabilizar la ocurrencia de cada letra en cada expresión posible es Castellano, pero esto es imposible. Se ha estudiado una muestra de texto plano suficientemente grande (más de 5 Mb) como para obtener unas frecuencias que no deben diferir en mucho de las reales.

A continuación se muestra una gráfica con los resultados obtenidos:


Para mayor facilidad de consulta se han ordenado las letras alfabéticamente y por frecuencias:

Ordenadas alfabéticamente

A continuación se muestra una tabla con las frecuencias de las letras que han dado lugar a la tabla anterior ordenadas por orden alfabético.

   a    0.088
   b    0.010
   c    0.034
   d    0.040
   e    0.094
   f    0.006
   g    0.010
   h    0.005
   i    0.051
   j    0.003
   k    0.000
   l    0.041
   m    0.020
   n    0.051
   ñ    0.001
   o    0.062
   p    0.020
   q    0.006
   r    0.048
   s    0.055
   t    0.033
   u    0.027
   v    0.007
   w    0.000
   x    0.002
   y    0.007
   z    0.003
espacio 0.164

Ordenadas por frecuencias

A continuación se muestra una tabla con las frecuencias de las letras que han dado lugar a la tabla anterior ordenadas por frecuencia de aparición.

espacio 0.164
   e    0.094
   a    0.088
   o    0.062
   s    0.055
   i    0.051
   n    0.051
   r    0.048
   l    0.041
   d    0.040
   c    0.034
   t    0.033
   u    0.027
   m    0.020
   p    0.020
   b    0.010
   g    0.010
   v    0.007
   y    0.007
   f    0.006
   q    0.006
   h    0.005
   j    0.003
   z    0.003
   x    0.002
   ñ    0.001
   k    0.000
   w    0.000

Palabras más frecuentes

A partir del estudio de un gran fichero de texto se ha llegado a la conclusión de que las palabras más usadas del Castellano son las siguientes:

palabra frecuencia
  de      0.0659
  la      0.0351
  a       0.0319
  el      0.0270
  en      0.0259
  y       0.0258
  que     0.0238
  los     0.0157
  del     0.0133
  se      0.0111
  las     0.0103
  por     0.0098
  con     0.0075
  un      0.0073
  su      0.0064
  una     0.0063
  no      0.0058
  para    0.0057
  al      0.0055
  es      0.0053
  lo      0.0042
  pero    0.0017
  ya      0.0012
  hasta   0.0011

Comentarios