Как распознать фальшивые данные?

Вы когда-нибудь пользовались логарифмической линейкой? Для тех, кто не пользовался, поясню: в эпоху, когда еще не было компьютеров и калькулятор, люди умножали и делили числа с помощью таких линеек (или специальных книг с логарифмами). Операции умножения/деления при помощи таких книг сводились к простейшим операциям сложения и вычитания.

Некий господин Саймон Ньюкомб (Simon Newcomb), постоянно работая с книгой логарифмов, заметил, что первые страницы книги намного более потрепаны, нежели конечные. Ему показалось это странным и он подумал: а нет ли здесь какой-либо закономерности? То есть, почему люди чаще умножают/делят числа, у которых первая цифра от 1 до 4, нежели от 5 до 9?

Френк Бенфорд (Frank Benford) в 1938 году (почти 60 лет спустя) решил проверить это предположение на разнообразных наборах данных и подтвердил, что предположение Нькомба верно. 
Бенфорд исследовал около 20 таблиц, среди которых были данные о площади поверхности 335 рек, удельной теплоемкости и молекулярном весе тысяч химических соединений и даже номера домов первых 342 лиц, указанных в биографическом справочнике американских ученных. Проанализировав около 20 тысяч содержавшихся в таблицах чисел, Бенфорд установил удивительную закономерность. Казалось бы, все девять цифр 1, 2, 3, 4, 5, 6, 7, 8, 9 (из которых состоит любое мыслимое число) равноправны, и вероятность появления каждой из них в качестве первой значащей цифры должна составлять 1 ⁄ 9 = 0,111… (при равновероятном распределении первой значащей цифры). Однако, закон Бенфорда гласит, что в реальных данных чем больше цифра, тем меньше вероятности, что она будет стоять на первом месте в числе и подчиняется эта зависимось логарифмическому закону. То есть вероятнсть того, что на первом месте будет стоять 1 более 30%, а вероятность того что это будет 9 всего 4,6%. 
В статистике рождаемости, смертности, номерах домов – везде соблюдалась закономерность: первая цифра числа большинства реальных данных чаще оказывалась от 1 до 4.

Точнее даже, вероятность распределения следующая:


1 — 30.1% 
2 — 17.6% 
3 — 12.5% 
4 — 9.7% 
5 — 7.9% 
6 — 6.7% 
7 — 5.8% 
8 — 5.1% 
9 — 4.6% 

Причем эта закономерность сохранялась и в других системах (не только в десятичной). Разумеется, этому есть свое математическое объяснение, но нам интересно другое: как это применить?

Хэл Вэриан (да, да, тот самый Chief Economist of Google) в 1972 году решил проверить эту закономерность для обнаружения возможных искажений социо-экономических данных, а Марк Нигрини (Mark Nigrini) применил её для выверки бухгалтерских и финансовых данных. Кстати, во многих штатах несоответствие данных закону Бенфорда (так назвали эту закономерность) является формальной уликой для судебных органов.

Итак, что нужно чтобы распознать фальшивые данные? Просто возьмите эти данные и подсчитайте частоту первых цифр чисел, а затем сравните результаты с таблицей распределения вероятностей выше. И, если данные сильно разнятся, то… ваш бухгалтер  просто не читает наш блог :))

Кстати, не читая объяснения этой закономерности в Internet, кто может предположить, почему такая закономерность присутствует? И может  ли системное мышление как-то объяснить её?

Ссылка на источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *