Ознакомительная версия. Доступно 15 страниц из 78
Среднее абсолютное отклонение (mean absolute deviation), или просто среднее отклонение, является средним арифметическим абсолютных значений разности значения каждой точки и среднего арифметического значений всех точек. Другими словами (что и следует из названия), это среднее расстояние, на которое значение точки данных удалено от среднего. В математических терминах:
где М = среднее абсолютное отклонение;
N = общее число точек данных;
X. = значение, соответствующее точке i;
А = среднее арифметическое значений точек данных;
ABS() = функция абсолютного значения.
Уравнение (3.06) дает нам совокупное среднее абсолютное отклонение. Вам следует знать, что можно рассчитать среднее абсолютное отклонение по выборке. Для расчета среднего абсолютного отклонения выборки замените 1 / N в уравнении (3.06) на 1 / (N - 1). Используйте эту версию, когда расчеты ведутся не по всей совокупности данных, а по некоторой выборке.
Самыми распространенными величинами для измерения разброса являются дисперсия и стандартное отклонение. Как и в случае со средним абсолютным отклонением, их можно рассчитать для всей совокупности и для выборки. Далее показана версия для всей совокупности данных, которую можно легко переделать в выборочную версию, заменив l/NHal/(N-l). Дисперсия (variance) чем-то напоминает среднее абсолютное отклонение, но при расчете дисперсии каждая разность значения точки данных и среднего значения возводится в квадрат. В результате, нам не надо брать абсолютное значение каждой разности, так как мы автоматически получаем положительный результат, независимо от того, была эта разность отрицательной или положительной. Кроме того, так как в квадрат возводится каждая из этих величин, крайние выпадающие значения оказывают большее влияние на дисперсию, а не на среднее абсолютное отклонение. В математических терминах:
где V = дисперсия;
N = общее число точек данных;
X. = значение, соответствующее точке i;
А = среднее арифметическое значений точек данных.
Стандартное отклонение (standard deviation) тесно связано с дисперсией (и, следовательно, со средним абсолютным отклонением). Стандартное отклонение является квадратным корнем дисперсии.
Третий момент распределения называется асимметрией (skewness), и он описывает асимметричность распределения относительно среднего значения (рисунок 3-2). В то время как первые два момента распределения имеют размерные величины (то есть те же единицы измерения, что и измеряемые параметры), асимметрия определяется таким способом, что получается безразмерной. Это просто число, которое описывает форму распределения.
Положительное значение асимметрии означает, что хвосты больше с положительной стороны распределения, и наоборот. Совершенно симметричное распределение имеет нулевую асимметрию.
Рисунок 3-2 Асимметрия
Рисунок 3-3 Асимметричное распределение
В симметричном распределении среднее, медиана и мода имеют одинаковое значение. Однако когда распределение имеет ненулевое значение асимметрии, оно может принять вид, показанный на рисунке 3-3. Для асимметричного распределения (любого распределения с ненулевой асимметрией) верно равенство:
(3.08) Среднее - Мода = 3 * (Среднее - Медиана)
Есть много способов для расчета асимметрии, и они часто дают различные ответы. Ниже мы рассмотрим несколько вариантов:
(3.09) S == (Среднее - Мода) / Стандартное отклонение
(3.10) S = (3 * (Среднее - Медиана)) / Стандартное отклонение
Уравнения (3.09) и (3.10) дают нам первый и второй коэффициенты асимметрии Пирсона. Асимметрия также часто определяется следующим образом:
где S = асимметрия;
N = общее число точек данных;
Х = значение, соответствующее точке i;
А = среднее арифметическое значений точек данных;
D = стандартное отклонение значений точек данных.
И наконец, четвертый момент распределения, эксцесс (kurtosis) (см. рисунок 3-4), измеряет, насколько у распределения плоская или острая форма (по сравнению с нормальным распределением). Как и асимметрия, это безразмерная величина. Кривая, менее остроконечная, чем нормальная, имеет эксцесс отрицательный, а кривая, более остроконечная, чем нормальная, имеет эксцесс положительный. Когда пик кривой такой же, как и у кривой нормального распределения, эксцесс равен нулю, и мы будем говорить, что это распределение с нормальным эксцессом.
Как и предыдущие моменты, эксцесс имеет несколько способов расчета. Наиболее распространенными являются:
где К = эксцесс;
Q == семи-интерквартильная широта;
Р = широта перцентиля 10-90.
(3.13) К = (1 / N (∑ (((X - Аi) / D)^ 4))) - 3,
где К = эксцесс;
N = общее число точек данных;
Х = значение, соответствующее точке i;
А = среднее арифметическое значений точек данных;
D = стандартное отклонение значений точек данных.
Рисунок 3-4 Эксцесс
Наконец, необходимо отметить, что «теория», связанная с моментами распределения, намного серьезнее, чем то, что представлено здесь. Для более глубокого понимания вам следует просмотреть книги по статистике, упомянутые в списке рекомендованной литературы. Для наших задач изложенного выше вполне достаточно.
До настоящего момента рассматривалось распределение данных в общем виде. Теперь мы изучим нормальное распределение.
Нормальное распределение
Часто нормальное распределение называют распределением Гаусса, или Муавра, в честь тех, кто, как считается, открыл его — Карл Фридрих Гаусс (1777-1855) и, веком ранее, что не так достоверно, Авраам де Муавр (1667-1754). Нормальное распределение считается наиболее ценным распределением, благодаря тому, что точно моделирует многие явления. Давайте рассмотрим приспособление, более известное как доска Галтона (рисунок 3-5). Это вертикально установленная доска в форме равнобедренного треугольника. В доске расположены колышки, один в верхнем ряду, два во втором, и так далее. Каждый последующий ряд имеет на один колышек больше. Колышки в сечении треугольные, так что, когда падает шарик, у него есть вероятность 50/50 пойти вправо или влево. В основании доски находится серия желобов для подсчета попаданий каждого броска.
Рисунок 3-5 Доска Галтона
Шарики, падающие через доску Галтона и достигающие желобов, начинают формировать нормальное распределение. Чем «глубже» доска (то есть чем больше рядов она имеет) и чем больше шариков бросается, тем ближе конечный результат будет напоминать нормальное распределение.
Нормальное распределение интересно еще и потому, что оно является предельной формой многих других типов распределений. Например, если Х распределено биномиально, а N стремится к бесконечности, то Х стремится к нормальному распределению. Более того, нормальное распределение также является предельной формой многих других ценных распределений вероятности, таких как Пуассона, Стьюдента (или t-распределения). Другими словами, когда количество данных (N), используемое в этих распределениях, увеличивается, они все более напоминают нормальное распределение.
Центральная предельная теорема
Одно из наиболее важных применений нормального распределения относится к распределению средних значений. Средние значения выборок заданного размера, взятые таким образом, что каждый элемент выборки отобран независимо от других, дадут распределение, которое близко к нормальному Это чрезвычайно важный факт, так как он означает, что вы можете получить параметры действительно случайного процесса из средних значений, рассчитанных на основе выборочных данных.
Рисунок 3-6 Экспоненциальное распределение и нормальное распределение
Таким образом, мы можем сформулировать, что если N случайных выборок извлекаются из совокупности всех данных, тогда суммы (или средние значения) выборок будут приблизительно нормально распределяться независимо от распределения совокупности, из которой взяты эти выборки. Близость к нормальному распределению увеличивается, когда N (число выборок) возрастает. В качестве примера рассмотрим распределение чисел от 1 до 100. Это равномерное распределение, где все элементы (в данном случае числа) встречаются только раз. Например, число 82 встречается один раз, так же как и 19, и так далее. Возьмем выборку из пяти элементов и среднее значение этих пяти элементов (мы можем также взять их сумму). Теперь поместим полученные пять элементов обратно, возьмем другую выборку и рассчитаем среднее. Если мы будем продолжать этот процесс дальше, то увидим, что полученные средние нормально распределяются, даже если совокупность, из которой они взяты, распределена равномерно.
Ознакомительная версия. Доступно 15 страниц из 78
