La Ley de Zipf

George Zipf era un filólogo-lingüista cuyo trabajo se centró principalmente en la estadística del lenguaje, tanto inglés como muchos otros.

Él se percató de que la segunda palabra más usada en un libro, ensayo, página web, etc… aparece muy comúnmente la mitad de veces que la más usada, mientras que la tercera palabra más usada aparece un tercio de veces que la más usada, la cuarta: un cuarto de veces, etc…

Actualmente cada artículo y libro del mundo se encuentran en Internet, en el Corpus online de cada idioma, así que no cuesta mucho contar el número de veces que cada palabra aparece tanto en el Corpus como en Wikipedia, y siempre se obtiene un resultado similar.

Aquí podéis ver cómo la gráfica es casi exacta en todos los lenguajes, y que hay algunas diferencias durante las primeras mil palabras más usadas, pero una vez superado el primer millar de palabras, la frecuencia de uso del resto suele ser la misma, e incluso dentro de las primeras mil palabras la frecuencia de aparición es muy similar.

Lo que todavía es más curioso es que esta regla se aplica a cada idioma del mundo; incluso a idiomas que todavía no se han podido traducir.

Como información curiosa, os dejo las veinticinco palabras más usadas del español (que no del castellano, pues estamos contando también libros y textos de latino-américa)

1. de  2. la  3. que  4. el  5. en  6.7.8. los  9. se  10. del  11. las  12. un  13. por  14. con   15. no  16. una  17. su  18. para  19. es  20. al  21. lo  22. como  23. más  24.25. pero

Y mientras que la palabra no es la decimoquinta palabra más usada al escribir en español con un total de 1.465.503 veces utilizada, su adversaria, la palabra sí se encuentra en el puesto noventa y cuatro, con un total de 108.631 apariciones; casi catorce veces menos.

Además, la primera palabra con algo de significado individual es todo, en el puesto treinta y siete, con 247,340 resultados, y seguida por la palabra años, en la posición cuarenta y siete, con 203,027 apariciones.

REAL ACADEMIA ESPAÑOLA: Banco de datos (CREA) [en línea]. Corpus de referencia del español actual. < http://www.rae.es > [2019-01-24]

Por otro lado, en muchos artículos y pequeñas páginas web en español las 100 palabras más usadas de este idioma forman el 50% de todo lo que está escrito, mientras que la mayor parte del 50% de palabras restantes aparecen tan solo una vez.

A pesar de que en el habla coloquial no se cumpla la Ley de Zipf, ésta se cumple incluso en la organización de las secuencias de proteínas, en la intensidad de las llamaradas solares, la población de ciudades, las veces que se visitan las páginas web, apellidos, las veces que llamas por teléfono, la popularidad de las aperturas de ajedrez, y un sin fin de casos más…

Ley de Zipf al investigar el número de trabajadores de las empresas más grandes de Estados Unidos.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

es_ESES