Теория информации Шеннона: что такое бит и почему нельзя сжать дальше

Момент, когда математика встретила смысл

1948 год. Клод Шеннон, математик Bell Labs, публикует статью «Математическая теория связи». 79 страниц. Это одна из самых важных статей XX века.

До Шеннона никто не знал, как измерить количество информации. «Информация» была интуитивным понятием. Шеннон дал ему точное определение — через вероятность и неопределённость.

Что такое бит

Простейший вопрос с двумя равновероятными ответами «да/нет» содержит 1 бит информации.

Если я подбрасываю монету (орёл или решка с вероятностью 1/2 каждая) и говорю тебе результат — я передаю тебе 1 бит.

Если в мешке 8 шаров (1 красный, 7 синих) и я говорю «красный» или «синий» — это не 1 бит. Вероятность разная → информации меньше или больше в зависимости от ответа.

Энтропия информации

Шеннон ввёл функцию H — энтропию (по аналогии с термодинамической):

H = −Σ pᵢ · log₂(pᵢ)

Где pᵢ — вероятности разных исходов. Измеряется в битах.

Примеры:

Ситуация	Вероятности	Энтропия
Монета (честная)	p=0,5; p=0,5	H = 1 бит
Монета (всегда орёл)	p=1; p=0	H = 0 бит
Кубик (6 граней)	p=1/6 каждая	H = log₂(6) ≈ 2,58 бит
Буква русского языка	неравномерные	H ≈ 4,35 бит

Смысл: энтропия = количество бит, необходимое для передачи одного символа из источника. Меньше неопределённости → меньше бит нужно.

Опыт 1: Энтропия русского текста

Русский алфавит — 33 буквы + пробел = 34 символа. Если бы все буквы были равновероятны: H = log₂(34) ≈ 5,1 бит/символ.

Но буквы не равновероятны. «О» встречается в 11% случаев, «Ф» — в 0,3%.

Протокол:

Возьми любой русский текст (500–1000 символов).
Подсчитай частоту каждой буквы (можно в Excel/Google Sheets).
Вычисли H = −Σ pᵢ · log₂(pᵢ).
Сравни с теоретическим максимумом 5,1 бит.

Ожидаемый результат: H ≈ 4,3–4,5 бит/символ — примерно 85% от максимума. Значит, русский текст можно сжать примерно в 5,1/4,4 ≈ 1,16 раза без потерь только за счёт неравномерности букв.

Опыт 2: Угадай букву — игра в энтропию

Игра Шеннона (1951): можно ли угадать следующую букву текста?

Один игрок берёт текст и не показывает другому.
Другой называет буквы по очереди, пытаясь угадать следующую.
Первый говорит «да» или «нет». Фиксируй количество попыток на каждую букву.
Среднее число попыток ≈ 2^H — мера энтропии.

Шеннон провёл этот эксперимент с текстами и получил H ≈ 1,3 бит/символ для английского — намного ниже алфавитной энтропии! Контекст предыдущих букв сильно предсказывает следующую.

Это объясняет, почему хороший алгоритм сжатия (zip, 7z) жмёт тексты в 3–5 раз.

Опыт 3: Код Хаффмана своими руками

Дэвид Хаффман придумал оптимальный алгоритм кодирования в 1952 году — студентом, в курсовой работе. Построить код Хаффмана можно вручную.

Протокол для слова ABRACADABRA:

Частоты: A=5, B=2, R=2, C=1, D=1

Сортируй по частоте: C(1), D(1), B(2), R(2), A(5)
Соедини два наименьших: C+D → узел (2)
Пересортируй: B(2), R(2), CD(2), A(5)
Продолжай объединять, пока не останется один корень
Пройди по дереву: каждый левый ребёнок = 0, правый = 1

Результат: часто встречающаяся A получает короткий код (1–2 бита), редкие C и D — длинный (3–4 бита). Среднее меньше, чем фиксированный код (log₂(5) ≈ 2,3 бита/символ).

Именно этот алгоритм используется в JPEG, ZIP, MP3, gzip.

Предел Шеннона для каналов связи

Второй великий результат — теорема Шеннона-Хартли для каналов с шумом:

C = B · log₂(1 + S/N)

C — максимальная пропускная способность (бит/с)
B — полоса пропускания (Гц)
S/N — отношение мощности сигнала к мощности шума

Практический смысл: сколько бы ты ни совершенствовал кодирование, больше C бит/с через канал не передашь. Это физический предел.

5G и предел Шеннона:

Стандарт	Год	Достижение предела
GSM	1991	~1%
3G	2001	~10%
LTE (4G)	2009	~70%
5G NR	2019	~95%

5G почти вплотную подошёл к пределу Шеннона. Дальнейший рост скорости — только через большую полосу (миллиметровые волны) или лучшее соотношение S/N.

Энтропия и тепловая смерть Вселенной

Шеннон выбрал слово «энтропия» не случайно. Джон фон Нейман, услышав определение, сказал ему: «Назови это энтропией. Во-первых, формула та же. Во-вторых, никто не знает, что такое энтропия, поэтому в дискуссии ты всегда будешь в выигрыше».

Это шутка — но связь реальна. Максвелл, Больцман, Гиббс определили термодинамическую энтропию через вероятность микросостояний. Шеннон определил информационную энтропию через вероятность символов. Математика та же. Физический смысл — разный, но связанный.

Вопросы для исследования

Если подбросить 10 монет, сколько бит информации несёт результат? (Ответ: ровно 10 бит)
Почему сжатый файл (.zip, .jpg) нельзя сжать повторно эффективно?
Найди, что такое «информационная энтропия текста» в контексте ИИ-языковых моделей: как GPT использует понятие энтропии при генерации текста (параметр temperature)?

Теория информации Шеннона: что такое бит и почему нельзя сжать дальше

Момент, когда математика встретила смысл

Что такое бит

Энтропия информации

Опыт 1: Энтропия русского текста

Опыт 2: Угадай букву — игра в энтропию

Опыт 3: Код Хаффмана своими руками

Предел Шеннона для каналов связи

Энтропия и тепловая смерть Вселенной

Вопросы для исследования

Связанные эксперименты

Что почитать

Книги

Статьи

Онлайн