La Legge di Benford è una legge che stabilisce la frequenza con cui è naturale aspettarsi un certo numero intero compreso tra 1 e 9 come cifra iniziale (cioè quella scritta più a sinistra) dei numeri che compongono un elenco di dati di origine progressiva (cioè composta da dati che rappresentano un’accumulo di una qualche grandezza, per esempio la popolazione, in corrispondenza di determinate "etichette", per esempio i comuni di un certo stato). Secondo tale legge la probabilità che un numero di un dato elenco inizi con la cifra n è
P10(n)=log10(n+1)_log10(n)
Tale legge potrebbe apparire una mera curiosità matematica, in realtà è molto importante perchè permette di controllare, con una certa affidabilità, se un elenco di dati è genuino oppure è stato inventato. Infatti un elenco di dati inventati avrà un distribuzione della prima cifra molto vicina a quella uniforme (stessa frequenza per tutti gli interi da 1 a 9). Per esempio con tale legge spesso le organizzazioni internazionali controllano l’affidabilità dei dati elettorali delle nazioni ad alto rischio di brogli. Naturalmente questa legge va impiegata con la dovuta cautela perché una sequenza di dati di origine reale può avere dei vincoli intrinseci più o meno che modificano la frequenza delle cifre (per esempio, se si analizzano i dati elettorali di un certo stato ma restringendosi ai soli comuni con popolazione compresa tra 1000 e 9999 abitanti, è molto probabile che la legge di Benford non sia rispettata anche se i dati sono genuini). Anche i controlli tributari di alcuni paesi (tra cui, purtroppo, non l’Italia) sono effettuati usando come guida la legge di Benford. Tuttavia c’è da dire che, una volta nota questa legge, è possibile scrivere un programma che permetta di produrre comunque elenchi di dati falsi in perfetto accordo con essa.
Tuttavia questa legge è valida se il sistema di numerazione è decimale, cioè che usa 10 cifre (gli interi da 0 a 9), e posizionale, cioè il valore numerico di una cifra è dato principalmente dal suo posizionamento all’interno del numero e solo in seconda istanza dal simbolo della cifra stessa. Se si cambia base di numerazione alla base b, mantenendo però un sistema posizionale, la legge di Benford deve essere modificata cambiando la base del logaritmo
Pb(n)=logb(n+1)_logb(n)
e naturalmente ora i valori di variazione di n sono da 1 a b_1.
Se si passa ad un sistema di numerazione non posizionale la legge di Benford non è più rispettata, neanche con modifiche della formula. In tali casi diventa molto difficile stabilire la frequenza delle diverse cifre ed è molto probabile che sia addirittura impossibile ricavare un’espressione analitica. Questo perché se il sistema di numerazione non è posizionale la presenza di una cifra o meno in un certo numero dipende da fattori molto complessi che è molto difficile considerare.
Un esempio di sistema di numerazione non posizionale è quello romano in cui i simboli hanno un valore numerico intrinseco: I vale sempre 1, V vale sempre 5, e così via. Ogni simbolo deve essere sempre posto a destra dei simboli di valore più alto, e in tal modo il loro valore numerico si somma. Tuttavia c’è l’eccezione dei simboli il cui valore nel sistema decimale inizia con 1, cioè I, X, C, M e così via, che possono avere valore negativo, se vengono scritti a sinistra di simboli dal valore più alto. Inoltre c’è la regola che ogni simbolo non può ripetersi più di tre volte consecutivamente.
In una situazione del genere è chiaro che la frequenza dei diversi simboli come prima cifra sarà molto diversa da quella di Benford e il calcolo di tale legge è probabilmente impossibile in termini generali a causa delle diverse regole ed eccezioni di cui bisogna tenere conto (a fronte invece del sistema posizionale in cui ci sono due sole regole e nessuna eccezione ad esse).
Questo significa che la matematica dipende dal sistema di numerazione?
La risposta è no, perché la legge di Benford non è una legge matematica, ma statistica (ad essere corretti infatti dovrebbe essere chiamata distribuzione di probabilità di Benford).
Una legge statistica descrive il comportamento di un certo tipo di dati, leggi di questo tipo ce ne sono tantissime e molto diverse tra loro, ciascuna delle quali si riferisce ad un particolare tipo di dati. Le più famose sono la distribuzione binomiale, legata ai fenomeni casuali dicotomici, tipo il lancio di una moneta, e la distribuzione gaussiana, che regola molti fenomeni fisici tipo il moto browniano dovuto all’agitazione termica delle molecole di un gas o un liquido. Queste leggi in generale associano un valore probabilistico (cioè compreso tra 0 e 1) ad un certo dato.
Nel caso della legge di Benford tale dato è la cifra iniziale di una distribuzione di numeri. Dato che il concetto di cifra, e quali cifre sono utilizzate, è una cosa strettamente legata al sistema di numerazione allora la legge di Benford cambia a seconda del sistema di numerazione. Ma essa non rappresenta una proprietà intrinseca dei numeri (come invece, ad esempio, essere un numero primo, essere divisibile per un certo numero, essere un quadrato perfetto, etc.) ma delle distribuzioni di dati espressi nel sistema decimale.
Le proprietà matematiche, e quindi la matematica pura, non dipendono dal sistema di numerazione, infatti qualunque teorema di algebra è valido qualunque sia la base numerica che si sceglie per rappresentare i numeri in un’eventuale verifica ed è valido anche se si sceglie di usare il sistema di numerazione romano (anche se, con questo ultimo sistema, ci sarebbe qualche difficoltà nell’eseguire alcune operazioni come l’elevamento a potenza e l’estrazione di radice, ma sono difficoltà tecniche legate alla complessità del sistema di numerazione, tali operazioni sono eseguibili comunque e hanno le identiche proprietà anche se eseguite su numeri rappresentati nel sistema di numerazione romano).