Математика Начальный

Закон Бенфорда: первая цифра в данных подчиняется закону природы

В 1881 году астроном Ньюкомб заметил, что страницы логарифмических таблиц с единицей потрёпаны сильнее остальных. Это наблюдение превратилось в мощный математический закон: в большинстве реальных наборов данных первая цифра — 1 с вероятностью 30%. Сегодня этот закон раскрывает финансовые фальсификации и доказывает подлинность данных.

Длительность
1–2 часа
Бюджет
0 ₽
Возраст
14–99 лет
Сложность
Начальный
ИИ-анализ результатов
#закон бенфорда #статистика #первая цифра #вероятность #логарифм #фальсификация #криминалистика #инвариантность масштаба #финансы #математика #анализ данных

Схема носит иллюстративный характер и может содержать упрощения. Если вы заметили неточность — воспользуйтесь кнопкой обратной связи.

Закон Бенфорда: первая цифра в данных подчиняется закону природы

Нарративная зацепка

Перед вами таблица: численность населения всех стран мира. 195 строк. Цифры от десятков тысяч до миллиардов. Угадайте: сколько строк начинается с цифры 1? С цифры 9?

Интуитивно — поровну. Девять цифр, значит примерно 1/9 ≈ 11% для каждой.

Реальность: около 30% начинаются с 1. Около 4.6% — с 9. Это не случайность и не ошибка. Это закон природы.

И этот закон настолько устойчив, что бухгалтеры и налоговые органы используют его для выявления фальсифицированных данных. Если кто-то придумал числа «случайно» — распределение первых цифр выдаст его.

История

Ньюкомб, 1881

Саймон Ньюкомб (1835–1909) — американский астроном и математик. В 1881 году он опубликовал коротенькую заметку в American Journal of Mathematics:

«Тот факт, что первые страницы логарифмических таблиц изношены намного сильнее последних, вероятно, объясняется тем, что числа, начинающиеся на 1, используются гораздо чаще, чем числа, начинающиеся на 9».

Ньюкомб вывел правило: вероятность того, что первая цифра числа равна d, пропорциональна log₁₀(d+1) − log₁₀(d) = log₁₀(1 + 1/d).

Открытие осталось незамеченным на 57 лет.

Бенфорд, 1938

Фрэнк Бенфорд (1883–1948) — физик General Electric. В 1938 году он опубликовал статью «Закон аномальных чисел», в которой самостоятельно заново открыл то же правило — но подкрепил его 20 229 точками данных из 20 совершенно разных источников: площади рек, населённость городов, молекулярные веса, числа в газетных статьях, заряды атомных ядер, числа из случайных страниц справочника Reader’s Digest.

Везде — один и тот же закон. Имя дали Бенфорду.

Признание, 1996

Тед Хилл (Georgia Tech) в 1996 году дал строгое математическое доказательство: закон Бенфорда — единственное распределение, инвариантное относительно масштаба (умножения данных на любую константу) и первой цифры. Из этих двух требований закон следует неизбежно.

Формула

P(d) = log₁₀(1 + 1/d)

d = 1: P = log₁₀(2) ≈ 0.301 = 30.1%
d = 2: P = log₁₀(3/2) ≈ 0.176 = 17.6%
d = 3: P = log₁₀(4/3) ≈ 0.125 = 12.5%
d = 4: P = log₁₀(5/4) ≈ 0.097 = 9.7%
d = 5: P = log₁₀(6/5) ≈ 0.079 = 7.9%
d = 6: P = log₁₀(7/6) ≈ 0.067 = 6.7%
d = 7: P = log₁₀(8/7) ≈ 0.058 = 5.8%
d = 8: P = log₁₀(9/8) ≈ 0.051 = 5.1%
d = 9: P = log₁₀(10/9) ≈ 0.046 = 4.6%

Сумма = 1.000 (100%).

Опыт 1. Проверить реальные данные

Источники данных (бесплатные)

  • Численность населения городов России — данные Росстата (rosstat.gov.ru)
  • Площади озёр мира — Wikipedia или WISE-2 database
  • Цены акций на Московской бирже — moex.com
  • Длины рек России — открытые географические данные
  • Числа из любой газеты — вырезать все числа из статьи

Ход работы

  1. Скачайте или выпишите не менее 100 чисел из выбранного источника.
  2. Для каждого числа выделите первую значащую цифру (ненулевую). Примеры: 135 → 1; 0.0047 → 4; 2 800 000 → 2.
  3. Постройте гистограмму: по оси X — цифра (1–9), по оси Y — количество.
  4. Нанесите теоретическую кривую Бенфорда (красным).
  5. Сравните.

Анализ в Excel / Google Таблицах

=LEFT(TEXT(ABS(A1),"0.#########"),1)+0

Эта формула извлекает первую значащую цифру из числа в ячейке A1.

Затем: СЧЁТЕСЛИ, построить диаграмму.

Опыт 2. Выявить подделку

Это самая захватывающая часть эксперимента.

Задание классу (игра)

Разделите класс на две группы:

  • Группа А придумывает 100 «случайных» чисел от 1 до 1 000 000 (не думая специально о первых цифрах).
  • Группа Б берёт реальные данные — численность населения 100 городов.

Оба набора анонимно перемешиваются. Задача: определить, какой набор придуманный.

Как работает детектор:

  1. Подсчитайте частоту первых цифр в обоих наборах.
  2. Вычислите среднеквадратическое отклонение от распределения Бенфорда.
  3. Набор с большим отклонением — придуманный (люди интуитивно избегают больших первых цифр, перебирая «случайные» числа мысленно).

Почему люди плохо генерируют случайность

Когда человек «придумывает случайные числа», он подсознательно:

  • Избегает чисел, начинающихся на 1 (кажутся слишком маленькими)
  • Тяготеет к «красивым» числам (100, 500, 1000)
  • Избегает повторов
  • Распределяет первые цифры равномерно (интуитивно кажется «честным»)

Реальные данные так не ведут себя. Они подчиняются Бенфорду.

Опыт 3. Числа Фибоначчи, степени двойки и π

Математические последовательности тоже подчиняются закону Бенфорда.

Python: проверка чисел Фибоначчи

import math

def first_digit(n):
    if n == 0:
        return None
    s = str(n)
    # Убрать минус и ноли
    s = s.lstrip('-').lstrip('0')
    if not s or s[0] == '.':
        return None
    return int(s[0])

# Последовательность Фибоначчи
def fibonacci(n):
    seq = [1, 1]
    for _ in range(n - 2):
        seq.append(seq[-1] + seq[-2])
    return seq

# Подсчёт
fib = fibonacci(1000)
counts = {d: 0 for d in range(1, 10)}
for num in fib:
    d = first_digit(num)
    if d:
        counts[d] += 1

print("Цифра | Частота  | Теория Бенфорда")
for d in range(1, 10):
    freq = counts[d] / len(fib)
    benford = math.log10(1 + 1/d)
    print(f"  {d}   | {freq:.3f}    | {benford:.3f}")

Результат: частоты первых цифр чисел Фибоначчи точно следуют закону Бенфорда. Числа Фибоначчи «знают» о логарифмическом законе — потому что они экспоненциально растут.

Аналогично работают степени 2: 1, 2, 4, 8, 16, 32, 64, 128, 256…

Почему это работает: инвариантность к масштабу

Ключевое свойство распределения Бенфорда — инвариантность к масштабированию. Если данные о площадях озёр подчиняются Бенфорду в квадратных километрах, они будут подчиняться ему и в акрах, и в гектарах. Умножение на константу не меняет распределение первых цифр.

Единственное распределение, обладающее этим свойством — логарифмически равномерное. Если вероятность равномерно распределена по логарифмической шкале, то вероятность попасть в интервал [1, 2) равна log₁₀(2) − log₁₀(1) = log₁₀(2) ≈ 30.1%. Это и есть закон Бенфорда.

Реальные данные часто охватывают много порядков величин — от тысяч до миллиардов. На длинных шкалах логарифмическое распределение возникает естественно. Процессы роста (экспоненциальный рост населения, капитала, размеров) создают распределения, подчиняющиеся Бенфорду.

Применения в реальном мире

Финансовая криминалистика

Марк Нигрини (бухгалтер, докторская диссертация 1992) первым систематически применил закон Бенфорда для выявления бухгалтерских мошенничеств. Если в финансовых отчётах доля чисел, начинающихся на 1, существенно ниже 30% — это повод для проверки.

Компания KPMG и другие крупные аудиторские фирмы включают анализ по Бенфорду в стандартные процедуры аудита.

В США анализ Бенфорда принят как доказательство в судебных делах о налоговом мошенничестве.

Электоральная статистика

После выборов в ряде стран исследователи применяли закон Бенфорда к данным о голосовании по участкам. Отклонения от закона использовались как аргумент (хотя и спорный — применимость закона к таким данным дискуссионна).

Научные данные

В 2020 году группа исследователей проверила базы данных публикаций на предмет подтасованных экспериментальных данных — отклонения от Бенфорда были одним из критериев.

Когда закон НЕ работает

Закон Бенфорда применим не ко всем наборам данных:

  • Данные в узком диапазоне (например, рост людей 150–200 см — нет охвата нескольких порядков)
  • Равномерно распределённые данные (номера телефонов, PIN-коды — специально распределены равномерно)
  • Данные с жёсткими ограничениями снизу или сверху
  • Небольшие выборки (менее 100–200 точек)

Перед применением нужно проверить: охватывают ли данные несколько порядков величин? Нет ли искусственных ограничений на диапазон?

Вопросы для обсуждения

  1. Почему вы ожидали равномерного распределения первых цифр? Что именно ввело вас в заблуждение?
  2. Каков минимальный объём выборки для надёжной проверки по Бенфорду?
  3. Может ли честный человек случайно создать данные, которые «выглядят мошенническими» по критерию Бенфорда?
  4. Как применить этот закон, чтобы проверить достоверность данных из школьного эксперимента?

Итог

Числа — не беспристрастны. Они несут в себе отпечаток процессов, которые их породили. Рост, экспоненциальные процессы, широкий охват масштабов — всё это оставляет след: перекос в сторону малых первых цифр. Закон Бенфорда — это «подпись природы» на реальных данных. Подделать подпись трудно, если не знаешь о ней. А теперь вы знаете.

Что почитать

Книги

  • Бенфорд Ф.. The Law of Anomalous Numbers (1938) Оригинальная статья Бенфорда с 20 000 точками данных
  • Ньюкомб С.. Note on the Frequency of Use of the Different Digits in Natural Numbers (1881) Первое наблюдение феномена, в 57 лет опередившее Бенфорда
  • Нигрини М.. Benford's Law: Applications for Forensic Accounting, Auditing, and Fraud Detection (2012) Практическое применение в финансовой криминалистике
  • Миллер С. (ред.). Benford's Law: Theory and Applications (2015) Академический сборник — математика, применения, проверки

Онлайн

Обратная связь
Тип обращения
Ваша оценка
Сообщение
Подтверждение
Загрузка...

без персональных данных