11 febrero 2013

Bárcenas y Benford - Papeles y Probabilidad

Como consecuencia de la publicación por el periódico ABC del artículo "Un matemático aplica la ley de Benford a los papeles de Bárcenas y concluye que son falsos" se ha desatado una intensa polémica en los blogs, redes sociales y foros de internet.

Resumen de los hechos

Todos conocemos las informaciones desveladas en las últimas fechas por el periódico El País sobre una presunta contabilidad B registrada por el ex-tesorero del Partido Popular Luis Bárcenas. El pasado domingo 3 de febrero, el mencionado diario publicó "Todos los papeles de Bárcenas", la relación de los registros contables anotados por Bárcenas desde 1990 hasta 2008.

El 4 de febrero, Miguel Lacruz, profesor titular de Análisis Matemático de la Universidad de Sevilla, publica en su blog una entrada "Los papeles de Bárcenas" con los resultado de la aplicación del test de Benford a alguno de los registros publicados por El País, en concreto a "los 84 asientos que figuran en el debe desde julio de 2002 hasta diciembre de 2008". Concluyendo en dicha entrada "La gran discrepancia entre las frecuencias según Bárcenas y el valor esperado según la ley de Benford lleva a una clara conclusión: Luis Bárcenas miente". Miguel Lacruz añade los dos días siguientes sendas actualizaciones ampliando los datos con los registros desde 2008 hasta 2011 y con el cálculo de la media de las diferencias absolutas entre las frecuencias halladas de cada dígito y las esperadas por la ley de Benford.

El 6 de febrero, el periódico ABC publica una información titulada "Un matemático aplica la ley de Benford a los papeles de Bárcenas y concluye que son falsos" haciendo referencia a una carta escrita por Miguel Lacruz al director de dicho periódico. La noticia incluye referencias a los datos y conclusiones del blog de Lacruz.


Entre todo lo que he leido por internet relacionado con esta polémica me parece destacable por sus aportaciones y su análisis sereno, la publicación de Abel Fernández "La Ley de Benford y la presunta contabilidad B del PP" en el magnífico sitio "Sistenia". Me parece muy recomendable su lectura.

La Ley de Benford


Frecuencias de cada  dígito como cifra inicial
establecidas por la Ley de Benford
La ley de Benford, también conocida como ley del primer dígito, asegura que en muchos (pero no todos) tipos de números que proceden de cantidades medibles observadas en la naturaleza o producidas por las actividades desarrolladas por los seres humanos, los números que empiezan por 1 aparecen de forma mucho más frecuente que los que comienzan por 2, que a su vez son más frecuentes que los que empiezan por 3. Y que la frecuencia para cada cifra inicial va disminuyendo hasta ser mínima para el 9. 

Esta regularidad estadística es sorprendente, incluso para los expertos, por ir contra la intuición humana.

Historia de la ley de Benford


La ley de Benford tiene una llamativa historia, entre otros motivos por su curioso origen y por ser descubierta 2 veces.

Simon Newcomb
 

La primera de ellas en 1881, a partir de una curiosa observación, por Simon Newcomb (1835-1909), un astrónomo y matemático nacido en Canada, que desarrolló toda su carrera en Estados unidos.
En aquella época no había calculadoras ni ordenadores. Para realizar operaciones aritméticas con números de muchas cifras se utilizaban los logaritmos, por lo que era muy frecuente especialmente entre los astrónomos, el uso de tablas de logaritmos.

Newcomb observó que las hojas de los libros de las tablas de logaritmos no se gastaban de una forma uniforme. Las de los números que comenzaban por 1 eran las más oscurecidas, seguidas de las de los números que comenzaban por 2. La regla se mantenía en el resto de páginas, cuanto menor era la cifra inicial más gastadas estaban las páginas correspondientes. Su conclusión fue que los dígitos inicales de los números no ocurren con la misma frecuencia, la cifra 1 es por la que empiezan más números, seguida del 2, disminuyendo hasta el 9.


Newcomb, sin ofrecer ninguna demostración y recurriendo a la "evidencia", enunció el principio "los primeros dígitos están repartidos por igual en una escala logarítmica pero no en una escala lineal".


La "ley" de Newcomb cayó en el olvido, durante más de 50 años no se publicó ninguna aplicación o investigación relacionada con ella.

Frank Benford
 

En 1938 Frank Benford (1883-1948), ingeniero eléctrico y físico norteamericano, que trabajaba en General Electric, se dío cuenta de la misma regularidad.
 

Investigó tomando como muestra más de 20.000 números de muy diversas procedencias del mundo real y concluyó, al igual que Newcomb,  que la probabilidad de que un número comience por la cifra d es P(d) = log(1 + 1/d). Publicó sus resultados en una revista matemática en un artículo con el título no muy afortunado de "La ley de los números anómalos".

Roger Pinkham
 

Intuitivamente parece lógico pensar que la distribución de los dígitos en las series de datos debería mantenerse aunque se cambiaran las unidades de medida (por ejemplo, medir los ríos en metros y no en millas).

A partir de esta observación, en 1961 Roger Pinkham publica la demostración matemática de dos características de la Ley de Benford.
 -En primer lugar, la ley de Benford es "escala-invariante", es decir, se aplica con independencia de la escala, la multiplicación de los datos por una constante diferente de 0 mantiene inalterada la distribución original de dígitos.
- En segundo lugar, cualquier ley similar invariante frente a cambios de escala debe ser precisamente la Ley de Benford.




Theodore Hill
 

En la década de los 90 se producen avances significativos en la investigación y en el uso de la Ley de Benford.

Theodore Hill publica en 1996 la demostración de que la Ley de Benford “es la distribución de todas las distribuciones”, esto es, que si tomamos una serie de distribuciones seleccionadas al azar de manera no sesgada y las mezclamos, los primeros dígitos del conjunto de valores siguen la ley de Benford. Hill explica así la ubicuidad asombrosa de la ley de Benford. Mientras algunos números que describen fenómenos están bajo el control de una única distribución, muchos otros son dictados por una mezcla aleatoria de todo tipo de distribuciones.

¿Por qué? - La lógica detrás de la Ley de Benford


Por término medio, para que un número que comienza por la cifra 1 lo haga por la cifra 2 tiene que doblar su cantidad, lo que supone un incremento del 100%. Mientras que un número que comienza por la cifra 9 sólo necesita un incremento del 11% para comenzar por 1.

Tratemos de ver con un clásico y sencillo ejemplo porque muchas variables registradas se ajustan a esta distribución. Imaginemos una población de 10.000 habitantes. Supongamos también que esta población crece a un ritmo del 10% anual.

La cifra “1” será la primera del censo de esta población hasta que alcance los 20.000 habitantes, lo que tardará bastante tiempo en ocurrir según la tasa del 10% de crecimiento. Cuando la población tenga 20.000 habitantes, y manteniendo constante la tasa de crecimiento, el tiempo que transcurra hasta tener 30.000 habitantes será menor que el de pasar de los 10.000 a los 20.000, pero este período será a su vez mayor que el que tardará en pasar de los 30.000 a los 40.000. Esta sucesión se repetirá cuando la población alcance los 100.000 habitantes, volviéndose a establecer el valor “1” como primera cifra.


¿Cuándo funciona la ley de Benford?


¿Cuándo debe esperarse encontrar una distribución tipo Benford?

No todos los conjuntos de datos siguen la Ley de Benford, las dos reglas de oro son:

  • la muestra de números debe ser lo suficientemente grande como para dar a las proporciones predichas la oportunidad de "expresarse".
  • los números deben estar libres de límites artificiales.

Está claro que es inútil esperar, por ejemplo, que los precios de 10 tipos diferentes de cerveza cumplan con la ley de Benford. No sólo la muestra es muy pequeña, sino que además, y esto es más importante, los precios se ven obligados a permanecer dentro de un rango fijo y estrecho por las fuerzas del mercado.

Por otro lado, los números realmente aleatorios no se ajustan a la ley de Benford ya que las proporciones de los dígitos iniciales de ese número son, por definición iguales.


La Ley de Benford se aplica a datos que no son ni totalmente aleatorios ni demasiado restringidos por unos límites, sino que se encuentran en algún punto intermedio. Estos datos son típicamente el resultado de varios procesos con muchas influencias. Por ejemplo, el número de habitantes de las poblaciones puede variar desde menos de una decena hasta cientos de miles o millones, y se ve afectado por una gran variedad de factores.

¿Qué necesita una lista de números para estar distribuidos según la ley de Benford?
 

La distribución debe ser suave y amplia, extenderse a través de una amplia gama de valores y sin sesgo debido a máximos, mínimos o limitaciones especiales:

  • Deben ser distribuciones con una enorme variedad.
  • Datos distribuidos en varios órdenes de magnitud.
  • Más numeros pequeños que grandes.
  • No debe haber límites máximos o mínimos que sesgen los datos, como p.e. en las alturas de las personas.
  • No deben ser asignados, como p.e. los números de teléfono.
  • Los datos se distribuyan de forma "suave" entre todos los numeros. P.e. no valdrían los numeros que la gente elige para de lotería porque se evitan ciertos números por superstición.
Son distribuciones Benford:
  • La población de las ciudades de un país.
  • Los ingresos de un gran número de personas de poblaciones de numerosos países del mundo.
  • Un conjunto de números tomados de las declaraciones de impuestos de un país.
No son distribuciones Benford:
  • Los resultados de un generador de números aleatorios.
  • Los resultados de la lotería.
  • Las alturas o el coeficiente intelectual de una población.

¿Por qué esta distribución de dígitos es tan omnipresente?

De acuerdo con los trabajos de Theodore Hill la ley de Benford es “la distribución de todas las distribuciones”. Ello es admitido como la clave para explicar la asombrosa ubicuidad de datos que cumplen esta ley: numerosas magnitudes son el resultado de la interferencia aleatoria de muchas otras.
También hay que considerar la necesidad de que la medida de ciertos fenómenos no dependa de la escala aplicada ni del sistema de numeración empleado.



Aplicaciones de la ley de Benford


La idea de dar usos prácticos a la ley de Benford partió de Mark Nigrini, siendo estudiante graduado en la Universidad de Cincinnati en 1992, en su tesis doctoral titulada "La detección de la evasión de ingresos a través de un análisis de distribución digital"

Estudiando un gran número de declaraciones de la renta de Estados Unidos, Nigrini comprobó que se ajustaban con gran exactitud a la ley Benford. Al estudiar datos fraudulentos del condado de King, Nueva York, comprobó que las contabilidades y las nóminas no seguían la ley de Benford. Los datos fraudulentos o inventado tenían muchos menos números empezando por 1 y muchos más por 5 o 6 que los datos verdaderos.



Algunos de los usos actuales de la ley de Benford son la detección de fraude en las declaraciones de impuestos, de contabilidades falsas o alteradas y de fraude electoral. 

Es célebre la participación de la ley de Benford en el descubrimiento del fraude de la empresa estadounidense Enron. Al comprobar que los números de sus balances no cumplían con la ley de Benford se inicio a una investigación en profundidad que concluyo con la caida de dos gigantes: Enron y su empresa auditora Arthur Andersen.


Otra aplicación más reciente tiene que ver con el diseño de ordenadores. Se consigue optimizar el almacenamiento de datos mediante la asignación de espacio en disco de acuerdo con las proporciones dictadas por la ley de Benford.

También se utiliza para detectar irregularidades en los datos obtenidos en ensayos clínicos, como proceso de depuración o de detección de falsificación. 

La ley de Benford en "La aventura del Saber" de La 2 de RTVE





¿Qué matemáticas tienen en común los ríos, el fraude fiscal y las direcciones postales?
Javier Gómez Sánchez y Guadalupe Castellanos hablan sobre la Ley Benford

Benford's Law Online Calculator


Aquí está disponible una utilidad para calcular de forma online la Ley de Benford de cualquier serie numérica que podamos pegar en la página.


Conclusiones


Como profesor de mates, el hecho de que tengan una presencia importante en los medios de comunicación en relación con asuntos de la actualidad conocidos por todos es una gran noticia para los que nos gustan las Matemáticas y nos dedicamos a su enseñanza y divulgación para tratar que otros también las disfruten.

Como ciudadano indignado, no me queda claro si los papeles de Bárcenas deberían o no cumplir la ley de Benford, pero no tengo ninguna duda de si Bárcenas y algunos otros que deberían cumplir las leyes españolas lo hacen.



Agradecimientos y reconocimientos

Quiero aprovechar para hacer mención y recomendar el magnífico sitio "Estadísistica para todos" con muchos contenidos de gran calidad: talleres, historia, biografias, webquest, enlaces a fuentes de datos y software estadísticos, orientados principalmente a la enseñanza secundaria. En particular contiene un interesante taller sobre la "Ley de Benford" que me ha sido muy útil en la preparación de este artículo.

Así mismo me parecen destacables los artículos:
 - "Looking out for number one" de Jon Walthoe, que puede encontrarse traducido en
 - "En busca del número uno"  en
Matematicalia 
 - "La ley de Benford: ¿aprender a defraudar o a detectar fraudes?"  de Christiane Rousseau en el Blog Proyecto Klein.

No hay comentarios:

Publicar un comentario