Лекция 9. Проверка выполнения нормального закона распределения

В предыдущей лекции было показано, что результаты химического анализа, как правило, подчиняются нормальному распределению. Исходя из этого выбираются критерии для проверки статистических гипотез. Однако, если распределение отличается от нормального, то критерии для нормального распределения (такие, как критерий Стьюдента) применять нельзя.

Поэтому вид распределения нужно предварительно проверять. Существуют статистические критерии подчинения нормальному закону распределения.

1) Грубые критерии. Эти критерии определяют, есть ли резко выпадающие данные (грубые ошибки, промахи, выбросы). Эти критерии не рассматривают всей совокупности данных, а только крайние значение. Примером может служить Q-критерий. Тестовая статистика Q-критерия вычисляется по формуле:

Q-критерий (формула)

где x? - "подозрительное" значение (вероятный промах) - это максимальное или минимальное значение выборки, xближайшее - ближайшее к подозрительному значение, xмин и xмакс - максимальное и минимальное значения выборки (эта формула верна для числа измерений n = 3..7. При n = 8..10 в знаменателе должна стоять разница между подозрительным значением и ближайшем к максимальному (или минимальному)). Значение Q сравнивают с табличным значением, и если табличное значение критерия меньше тестовой статистики, то подозрительный результат является промахом и исключается из дальнейшего рассмотрения. При этом обычно доверительную вероятность берут равной 0.90, а не 0.95. В данном случае это является некоторым "ужесточением" требований: лучше выбросить значение, не являющееся промахом, чем оставить промах в выборке. Как правило, на промах проверяют минимальное и максимальное значение выборки.

Q-критерий работает для выборок, содержащих 3 - 10 значений, при больших объемах выборки он становится нечувствителен к промахам.

2) Критерии, которые определяют, подчиняется ли вся совокупность нормальному распределению. Для применения этих критериев обычно требуется большой набор данных (чем больше, тем лучше, как правило, не меньше 30 единичных измерений).

Один из наиболее простых критериев этого типа - критерий Пирсена. Проверка гипотезы о нормальном распределении случайной величины осуществляется по следующей схеме:

Дана выборка из n значений: x1, x2 ... xn, причем n > 30

Значения упорядочиваются по возрастанию, и вся выборка разбивается на m интервалов, m > 5, (обычно берут ), причем в каждый интервал должно попадать не менее 5 значений:

выборка, разбитая на интервалы

Строится гистограмма, площадь прямоугольника над отрезком должна быть пропорциональна числу точек, попавшему в отрезок (Ni):

гистограмма нормального распределения

Нужно выяснить, случайно ли отличие от нормального распределения, другими словами, случайно ли различие между экспериментальной кривой и теоретической кривой. Теоретическая кривая строится по формуле:

нормальное распределение

причем в качестве матожидание и стандартное отклонение берутся соответственно значения среднего среднееи стандартного отклонения S, вычисленные для тестируемой выборки.

Нужно охарактеризовать различие между площадью экспериментальной гистограммы и площадью под теоретической кривой. Интеграл от функции Гаусса не выражается в элементарных функциях, но существуют таблицы интегралов для функции:

нормальное распределение в относительных переменных

Для того, чтобы теоретическую кривую привести к такому виду, нужно произвести замену переменных:

Аналогично преобразовываются координаты отрезков:

Строится таблица:

отрезок исходные границы преобразованные границы интеграл от функции гаусса
левая правая левая правая (вычисляется по таблице)
1 минус бесконечность a1 минус бесконечность b1 I1
2
.
.
.
a1 a2 b1 b2 I2
m am-1 плюс бесконечность bm-1 плюс бесконечность Im

Поскольку интеграл Ii равен доле точек (сумма этих интегралов должна быть равна 1), то его нужно умножить на число точек:

интеграл умножается на общее число точек

Вычисляется тестовая статистика:

Тестовая статистика сравнивается с табличным значением . Если тестовая статистика больше табличного значения, гипотеза о нормальном распределении отбрасывается, если меньше - данные подчиняются нормальному распределению.

лекции читает А.В.Гармаш, химический факультет МГУ

Проверка выполнения нормального закона распределения

Пожалуйста, раскажите по-подробнее, как вычисляется интеграл "от функции гаусса (вычисляется по таблице)" для каждого интервала. Или дайте ссылку, где это можно прочитать. На крайний случай дайте исходный код программы "он-лайн программа для проверки выполнения нормального закона распределения по критерию Пирсена" - по ней разберусь.

интеграл от функции гаусса

В данной лекции вполне подробно описана проверка выполнения нормального закона распределения. Но вот очень хотелось бы подробнее узнать, как вычисляется интеграл от функции гаусса для каждого отрезка (I1, I2... Im).
насколько я понимаю, для функции типа e^-(x^2) интеграл от минус бесконечности до плюс бесконечности выходит корень из pi. Соответственно, такой же интеграл для e^-((x^2)/2) - корень из 2pi. Но как быть с интегралом от -бесконечности до х1, х1...х2, ... , хi до +бесконечности?

RE: интеграл от функции гаусса

Интеграл от функции Гаусса не выражается в элементарных функциях. Поэтому конкретной "формулы" расчета нету. На практике для получения значения этого интеграла применяются численные методы. Например, метод прямоугольников: когда область под кривой разбивается на прямоугольники и считается их суммарная площадь, которая примерно будет равна площади под кривой.
Ну и небольшие хитрости. Например, если нужно посчитать от минус бесконечности до х1, то считают по методу прямоугольников от 0 до х1. А потом прибавляют известное значение от -бесконечности до нуля (которое равно 0.5 для функции Гаусса)

интеграл от функции

Уважаемый admin,
прошу пояснить следующее:
допустим берем выборку из 38 значений

6,22457
6,28057
6,2993
6,30727
6,31204
6,31815
6,33087
6,33258
6,3475
6,35136
6,40098
6,41211
6,41377
6,42999
6,43755
6,4416
6,45012
6,4556
6,46095
6,46118
6,46568
6,46884
6,47388
6,47658
6,49817
6,50229
6,50233
6,51106
6,51839
6,51854
6,5335
6,54554
6,54758
6,5574
6,56285
6,56648
6,56783
6,56859

и сразу разбиваем на 7 диапазонов по возрастанию:
6,22457.....6,31815.....6,40098.....6,4416
6,28057.....6,33087.....6,41211.....6,45012
6,2993......6,33258.....6,41377.....6,4556
6,30727.....6,3475......6,42999.....6,46095
6,31204.....6,35136.....6,43755.....6,46118

6,46568.....6,50229.....6,5335
6,46884.....6,50233.....6,54554
6,47388.....6,51106.....6,54758
6,47658.....6,51839.....6,5574
6,49817.....6,51854.....6,56285
........................................6,56648
........................................6,56783
........................................6,56859
очевидно, что границы интервалов следующие:
-∞..................6,31204
6,31204......6,35136
6,35136......6,43755
6,43755......6,46118
6,46118......6,49817
6,49817......6,51854
6,51854......+∞
почему он-лайн программа для проверки выполнения нормального закона распределения по критерию Пирсена выдает в таблице несколько иные интервалы?
https://s007.radikal.ru/i302/1105/49/9c7489148655.jpg
Далее, сделав преобразование (bi=(ai-6.44...)/0.0938...), получаем следующие преобразованные границы:
-∞........................................-1,40093832428674
-1,40093832428674.......-0,981963808994463
-0,981963808994463......-0,0635657043901574
-0,0635657043901574.....0,188223914031928
0,188223914031928.......0,582371099196256
0,582371099196256.......0,799423766452196
0,799423766452196.......+∞
Считая интеграл по методу прямоугольников, например, для отрезка -1,40093832428674...-0,981963808994463: высота прямоугольника расчитывается по средней точке отрезка bi=average(-1,40...;-0,98...)=0,650785059
соответственно f(x) по уравнению кривой Гаусса выходит:
у=1/(6.44351552631579*SQRT(2*PI()))*EXP(-(0,650785059^2)/2)=2,090410472
Отсюда высчитывам плошадь прямоугольника (интеграл) = delta (b1;b2) * y = (-0,981963808994463 - (-1,40093832428674)) * 2,090410472 = 0.875828714
"Для каждого интервала было рассчитано теоретическое количество точек (которые должны попасть в данный интервал) с помощью интеграла функции Гаусса:" Здесь у меня возникает вопрос, что есть теоретическое количество точек? Если это и есть интеграл, то почему такая разница, где я допустил ошибку? если это не интеграл, то что с ним делать дальше и как расчитывать теоретическое число точек?
используя те же методы расчета для диапазонов, которые появились в этой таблице https://s007.radikal.ru/i302/1105/49/9c7489148655.jpg , интеграл для первого диапазона (6.315095...6.37617) получился равным 1,605836772.
Понимаю, что мой вопрос требует дополнительных расчетов и затрат времени, но хотелось бы до конца разобраться, может пригодится не только мне.

ответ

Здравствуйте, Nemo!
1. По поводу первого вопроса (почему интервалы отличаются): как я понял, Вы проводите границу интервала строго по точке. В этом случае возникает некоторая неопределенность: к какому интервалу относить граничную точку? К левому, к правому или к обоим? А программа проводит границу посередине между соседними точками. К примеру, граница 6.315095 - это середина между точками 6.31204 и 6.31815.
2. Не совсем понял, зачем считать площадь прямоугольника на отрезке... Все, что нужно на этом этапе - сравнить количество экспериментальных точек в интервале (аналог площади) с теоретической площадью под кривой Гаусса на этом же интервале. Для интеграла Гаусса есть таблицы, удобнее считать по ним. Но если уж так хочется посчитать методом прямоугольников - давайте попробуем. Для отрезка -1,40093832428674...-0,981963808994463 берем середину (она примерно равна -1,1915), вычисляем значение p(y) (обратите внимание! мы уже произвели замену переменных, нам нужно вычислять p(y) а не p(x) - см. формулы в лекции!), получаем p(y)=0.0783. Площадь прямоугольника (длинна*ширина) = 0,0328. Умножаем на общее количество точек (38), получаем 1,2467. А реально в этом интервале у нас 5 точек. Вот эти цифры и подставляются в финальную формулу для тестовой статистики. Кстати, получилась большая разница. То ли я где-то обсчитался, то ли метод прямоугольников никуда не годится :)

интеграл от функции гаусса

"Для интеграла Гаусса есть таблицы, удобнее считать по ним."

а можно какую-нибудь ссылочку, или подскажите, пожалуста, учебник, где искать эти таблицы. В сети не то, чтобы нету, а просто я не знаю что конкретно искать. Буду очень признателен.

теоретическое число точек

с таблицами разобрался! А вот что такое "теоретическое число точек" и каким образом оно получается, так и не могу понять... Подскажите, пожалуста!

теоретическое число точек

Ну, что такое "практическое число точек" - думаю, понятно. Это просто количество экспериментальных точек, которое попало на данный отрезок. "Теоретическое число точек" - это сколько точек должно было бы уместиться на данном отрезке, если бы распределение идеально совпадало бы с нормальным. Оно считается просто - берутся границы отрезка (их мы знаем - сами же разбивали нашу область на отрезки и определяли границы). Затем проводим кривую Гаусса (ее мы тоже можем провести - поскольку знаем среднее и дисперсию нашей выборки, которые будут являться параметрами кривой). И вычисляем площадь под кривой в границах отрезка. Вот это и есть "теоретическое число точек" - площадь. Она, разумеется, получается дробная, и округлять до целого ее не надо. В финале, при вычислении тестовой статистики, мы как раз определяем разницу между теоретическим числом точек и практическим числом точек, суммируем по каждому отрезку и получаем величину, которая показывает, насколько наше практическое распределение далеко от идеального нормального распределения.
PS. В процессе решения задачи мы еще производим замены переменных для удобства, я их опустил в ходе этого объяснения. Впрочем, сути они не меняют.

Непонятно для n=8..10

"в знаменателе должна стоять разница между подозрительным значением и ближайшем к максимальному (или минимальному))"

1) Не очень понятно, если ближайшим к максимальному/минимальному является подозрительное значение, то как быть?

2) Какое все-таки значение надо брать, ближайшее к минимальному? или к максимальному?

В формуле для Q

В формуле для Q критерия необходимо уточнение.
Xmax Xmin - берутся из всей выборки или из выборки после исключения сомнительного результата?

ответ

Уважаемый timofey,
Xmax Xmin берутся из всей выборки. Таким образом, одно из этих значений совпадает с сомнительным результатом.

Дата: 04 февраля 2013



 

Добавить комментарий

Имя

E-mail

Комментарий

Контрольный вопрос:
Сколько будет: 6*2-1