Обобщение данных

 

Рассматривая результаты исследований, мы должны понять, что они «означают». Цифры как таковые ничего нам не говорят — необходимо придать им такую форму, чтобы они обрели смысл. Используемые с этой целью методы зависят от типа рассматриваемых данных. Например, это могут быть категориальные данные. Это означает, что каждый элемент можно отнести только к какому-нибудь одному классу. Например, если мы хотим классифицировать людей по странам, в которых они родились, то каждый человек может быть отнесен только к одной категории и ни к какой другой — в этом случае человек не может принадлежать к нескольким категориям. Другой тип — это непрерывные данные, то есть результаты измерений по одной и той же шкале. Можно привести примеры из повседневной жизни — это рост и вес человека, которые можно измерять в метрах и граммах соответственно. Каким бы ни было конкретное значение веса, он измеряется по одной шкале.

При анализе непрерывных данных важную роль играет форма графика, в виде которого можно представить эти данные. Во многих случаях этот график подчиняется так называемому закону нормального распределения. Типичная форма кривой нормального распределения показана на рисунке. Как видно из рисунка, график симметричен — иначе говоря, левая половина графика является зеркальным отражением правой. Кривая на графике имеет максимальную высоту в центре, а по мере удаления от центра плавно снижается. В «реальном мире» многие величины распределяются по нормальному закону — например, график результатов измерения веса и роста обычно имеет колоколообразную форму. Такая же кривая получается при графическом представлении результатов других, менее тривиальных измерений. Предположим, например, что мы сто раз бросаем монету и отмечаем, сколько раз выпадет «орел». Допустим, что мы провели много испытаний и каждый раз записывали, сколько выпало «орлов». Если бы мы построили график по результатам нескольких тысяч испытаний, откладывая по оси У количество случаев, когда выпало 1, 2, 3,..., 100 «орлов», то получили бы кривую, весьма похожую на нормальное распределение. Поскольку многие величины распределяются по нормальному закону, статистические методы часто строятся на предположении о том, что анализируемые данные имеют нормальное распределение. Если данные на самом деле не подчиняются нормальному закону, то возникают проблемы, однако мы рассмотрим их несколько позже.

Почти каждый человек использовал простейшие статистические понятия, например, такие как «среднее». Среднее — это наиболее типичное значение любой рассматриваемой величины. В повседневном языке мы употребляем такие выражения, как «средний рост», «среднее количество осадков», «средний возраст» и т. п. В статистике чаще используется термин «среднее значение». Понятия «среднее» и «среднее значение» взаимозаменяемы. В силу привычки статистики говорят «среднее значение», а в повседневной жизни употребляется слово «среднее». Для удобства мы в этой главе будем использовать термин «среднее значение».

Среднее значение вычисляется путем сложения всех результатов измерений и деления полученной суммы на количество измерений. Например, среднее значение чисел 3, 2, 7, 4, 8, 4, 4, 6, 6 и 1 равно 4,5. Если сложить все числа, то получится 45. Поскольку чисел всего 10, то следует разделить 45 на 10, и получается 4,5. Это значение является показателем наиболее «типичного» результата данной серии измерений. Обратите внимание на то, что среднее значение не обязательно должно совпадать с каким-либо одним числом из данной серии. Например, в нашем примере в ряду чисел нет числа 4,5.

Дата: 06 ноября 2012



 

Добавить комментарий

Имя

E-mail

Комментарий

Контрольный вопрос:
Сколько будет: 9*7-9