Что это и что показывает
Описательная статистика сжимает набор чисел до нескольких показателей, которые отвечают на два вопроса: «где центр данных?» и «насколько данные разбросаны?». Центр описывают среднее, медиана и мода; разброс — дисперсия и стандартное отклонение (СКО). Вместе они дают портрет выборки, не показывая каждое значение по отдельности.
Формула и откуда она
Среднее (арифметическое) — это «сумма, поделённая поровну»:
x̄ = (Σx) / n
где Σx — сумма всех значений, n — их количество. Медиана — значение в середине упорядоченного ряда (при чётном n — среднее двух центральных). Мода — наиболее часто встречающееся значение.
Разброс измеряют через квадраты отклонений от среднего. Выборочная дисперсия:
s² = Σ(x − x̄)² / (n − 1)
а генеральная (когда данные — это вся совокупность):
σ² = Σ(x − x̄)² / n
Деление на n − 1 (поправка Бесселя) исправляет систематическое занижение разброса: выборочное среднее «подогнано» под сами данные, поэтому отклонения от него чуть меньше истинных, и одна степень свободы «теряется». СКО — корень из дисперсии: σ = √σ², s = √s². Оно возвращает разброс в исходные единицы измерения.
Как посчитать вручную (по шагам)
- Сложите все значения и поделите на их число — получите среднее
x̄. - Упорядочьте значения по возрастанию; найдите центральное — это медиана.
- Найдите самое частое значение — это мода.
- Для каждого значения вычислите отклонение
x − x̄и возведите в квадрат. - Сложите квадраты отклонений: получите
Σ(x − x̄)². - Поделите на
n − 1(выборка) или наn(генеральная) — это дисперсия. - Извлеките корень — это стандартное отклонение.
Разбор примера
Набор: 2, 4, 4, 4, 5, 5, 7, 9 (n = 8).
Среднее: сумма = 2+4+4+4+5+5+7+9 = 40, значит x̄ = 40 / 8 = 5.
Медиана: ряд уже упорядочен, два центральных — 4 и 5, медиана = (4 + 5) / 2 = 4.5.
Мода: чаще всего встречается 4 (три раза) → мода = 4.
Квадраты отклонений от 5: (2−5)²=9; (4−5)²=1 трижды → 3; (5−5)²=0 дважды → 0; (7−5)²=4; (9−5)²=16. Сумма = 9 + 3 + 0 + 4 + 16 = 32.
Генеральная дисперсия: σ² = 32 / 8 = 4, σ = √4 = 2.
Выборочная дисперсия: s² = 32 / 7 ≈ 4.571, s = √4.571 ≈ 2.138.
Где применяется / интерпретация
Среднее удобно для симметричных данных, но его «тянут» выбросы (одна огромная зарплата сдвигает среднее по фирме). Медиана устойчива к выбросам — поэтому доходы и цены чаще описывают именно ею. СКО показывает типичное отклонение от центра: при σ = 2 и среднем 5 большинство значений лежит примерно в диапазоне 3–7. Сравнивая два набора с одинаковым средним, смотрят на СКО: меньше — данные стабильнее.
Частые ошибки
- Путают дисперсию и СКО: дисперсия — в квадратах единиц, СКО — в исходных. Сравнивать с данными надо СКО.
- Делят на
nтам, где это выборка из большей совокупности — нужна поправка Бесселя (n − 1). - Считают, что «мода всегда одна»: набор может быть бимодальным или не иметь моды вовсе.
- Забывают упорядочить ряд перед поиском медианы.
- Описывают средним сильно асимметричные данные с выбросами — медиана честнее.