"Статистика: учебное пособие" - читать интересную книгу автора

1.3. Методы исследования вариации и формы распределения признаков в однородной совокупности

Статистическое описание совокупности было бы неполным, если ограничиться лишь показателями центральной тенденции, т. е. средними величинами, модой и медианой, которые являются равнодействующими ряда изменяющихся значений признака. В одних случаях значение признака концентрируется возле некоторого центра очень тесно, в других случаях наблюдается значительное рассеивание, хотя средняя величина может быть одинаковой. В связи с этим средняя величина как показатель центральной тенденции не дает исчерпывающей характеристики изучаемой совокупности. Возникает необходимость изучения характера рассеивания признака. Хотя отклонения от средней и регулируются общими для всех единиц совокупности причинами, формирующими среднюю, но в то же время они обусловлены и индивидуальными причинами. Например, отклонения производительности труда отдельных рабочих, работающих в одной бригаде, а стало быть, находящихся в одинаковых условиях труда, вызваны не общими условиями и причинами, а индивидуальными обстоятельствами рабочих и их квалификацией, состоянием здоровья, настроением, сообразительностью и т. д. Поэтому изучение отклонений от средней их размеров и закономерности распределения представляет большой интерес для исследователя. Это важно прежде всего для оценки однородности совокупности, которую характеризует данная средняя величина, так как для качественно однородной совокупности характерна вариация в определенных границах. Стало быть, чем меньше вариация, тем качественно однороднее совокупность, тем типичнее и объективнее средняя величина, характеризующая ее.

Измерение вариации имеет большое значение и для изучения устойчивости изучаемых экономических явлений и процессов. Так, для сельского хозяйства очень важно не только получить среднюю урожайность сельскохозяйственных культур, но и обеспечить ее устойчивость во времени и пространстве, а для этого надо научиться рассчитывать показатели устойчивости, научиться измерять вариацию изучаемых явлений σ ≈ 1,25а.

Для оценки вариации признака статистика знает и использует несколько показателей. Простейшим из них является размах вариации, рассчитываемый по формуле: Xmax – Xmin, т. е. как разность между максимальным и минимальным значением признака. Однако этот показатель далеко не совершенен, так как при его построении участвуют лишь крайние значения признака, которые могут быть случайными.

Более точно можно определить вариацию признака при помощи показателя, учитывающего отклонения всех значений признака от средней. Это так называемые абсолютные показатели: среднее линейное отклонение а и среднее квадратическое отклонение σ. Среднее линейное отклонение – это средняя арифметическая из абсолютных значений отклонений отдельных значений признака от средней величины. Но сумма отклонений от средней

 всегда равна нулю (одно из свойств средней величины), поэтому для расчета среднего линейного отклонения суммируют абсолютные отклонения без учета его знака:

Среднее квадратическое отклонение также может быть простое и взвешенное:

Среднее квадратическое отклонение является наиболее распространенным показателем вариации, оно несколько больше среднего линейного отклонения. Установлено, что в симметричных или умеренно асимметричных распределениях соотношение между ними можно записать в виде:

σ ≈ 1,25а.

Следует иметь также в виду, что среднее линейное отклонение будет минимальным, если оно рассчитано от медианы, т. е.:

Среднее квадратическое отклонение минимально при вычислении его от средней арифметической, это же относится и к дисперсии, которая представляет собой квадрат среднего квадратического отклонения.

Дисперсия 

 широко применяется в дисперсионном анализе, но не как мера вариации, так как ее размерность не соответствует размерности признака.

Содержание среднего квадратического отклонения то же, что и среднего линейного отклонения: т. е. чем меньше а и? тем однороднее совокупность, тем типичнее (объективнее) средняя величина, тем устойчивее явление и процесс.

Рассмотрим вычисление среднего линейного и среднего квадрати-ческого отклонения на примере данных, приведенных в табл. 3.

Таблица 3.

Анализ времени обработки деталей рабочими двух бригад

Средняя величина времени обработки детали составляет в обеих бригадах 124 мин. Для первой бригады Х1 =992/8 = 124ми н. и для второй – Х2 = 1240/10 = 124 мин.

Медианные значения также одинаковы в обеих бригадах. Так, для первой бригады Хме = (116+132)/2 = 124 мин. Для второй бригады – Хме = (122+126)/2 + 124 мин

Модальные значения в данном случае не могут быть определены, так как каждое из значений признаков не повторяется.

Исходя из полученных результатов, можно сделать вывод, что обе совокупности характеризуются одинаковыми показателями центра распределения, но они могут отличаться по характеру рассеяния отдельных значений признака вокруг этих центров.

Для характеристики рассеяния рассчитаем среднее линейное отклонение. Для первой бригады:

Сопоставление среднего линейного и среднего квадратического отклонений говорит о том, что вариации времени обработки деталей в первой бригаде значительно выше, чем во второй бригаде.

Следует также отметить, что среднее квадратическое отклонение в обоих случаях несколько больше, чем среднее линейное отклонение:

σ1 = 1,22а1;

σ2 = 1,20а2.

Это говорит о том, что мы имеем дело с умеренно асимметричным распределением.

Рассмотренные показатели вариации (размах вариации, среднее линейное отклонение, среднее квадратическое отклонение) дают возможность сравнить степень однородности нескольких совокупностей, но в отношении лишь одного признака, поскольку это именованные величины, имеющие единицы измерения те же, что и сам признак.

Однако часто исследователю приходится сравнивать вариации различных признаков, а стало быть, эти показатели вариации не могут быть использованы.

Для характеристики вариации различных признаков рассчитывают относительные показатели вариации, приведенные к одному основанию, т. е. выраженные в процентах (доли размаха вариации, среднего линейного отклонения и среднего квадратического отклонения) от средней величины изучаемого признака.

Это так называемые коэффициент осцилляции, относительное отклонение и коэффициент вариации.

Коэффициент осцилляции рассчитывается по формуле:

В нашем примере эти показатели составляют:

Все рассчитанные относительные показатели вариации свидетельствуют также о более сильной вариации времени обработки деталей рабочими первой бригады по сравнению со второй, где среднее время обработки является более объективной, более типичной характеристикой работы данной бригады в целом, т. е. вторая бригада как совокупность более однородна.

Относительные показатели вариации, как уже было отмечено, позволяют сравнивать степень вариации признаков, имеющих одинаковые единицы измерения, но разные уровни средних. Например, урожайность зерновых культур и картофеля хотя и имеют одинаковые единицы измерения, но по абсолютным показателям вариации этих признаков сравнивать было бы неправильно, так как сами уровни урожайности зерновых и картофеля резко отличаются. Так, например, в регионе среднеквадратическое отклонение составило: по урожайности ржи – 5 центнеров с гектара (ц/га) и по урожайности картофеля – 20 ц/га, а сама урожайность ржи составила 25 ц/га, а картофеля – 200 ц/га. Коэффициент же вариации соответственно равен:

Это означает, что по урожайности картофеля совокупность хозяйств данной области более однородна, чем по урожайности ржи, т. е. урожайность картофеля более устойчива, чем урожайность ржи.

Сравнение абсолютных показателей вариации одного и того же признака разных совокупностей иногда приводит к иному выводу, чем при сопоставлении относительных показателей вариации.

Так, если в одной совокупности абсолютный показатель вариации больше, чем в другой, и средний уровень изучаемого признака в ней также значительно больше, чем в другой, то относительный показатель вариации может быть ниже.

Так, например, если среднее квадратическое отклонение урожайности ржи в одном районе составило 5 ц, в другом – 3 ц, а сама средняя урожайность, соответственно, составила 25 и 10 ц/га, то относительные показатели вариации приводят к иному выводу.

Следовательно, рост урожайности, связанный с некоторым повышением абсолютного показателя вариации, может и не снизить ее устойчивости.

Относительные показатели вариации необходимы также и для сравнения вариации различных признаков, имеющих разные единицы измерения, поскольку абсолютные показатели вариации в этом случае не могут быть использованы как мера вариации.

Например, при сравнении вариации урожайности и себестоимости той или иной культуры нельзя использовать абсолютные показатели вариации, так как они будут иметь разные единицы измерения: ц/га и руб. за 1 т. В этом случае целесообразно среднее квадратическое отклонение использовать для расчета так называемого нормированного отклонения:

характеризующее отклонение индивидуальных значений признака от средней (Xi X) и приходящееся на единицу среднего квадратического отклонения. Нормированное отклонение позволяет сопоставлять между собой отклонения, выраженные в различных единицах измерения. Практически нормированные отклонения изменяются в пределах от 0 до 3.

Однако в совокупности могут встречаться отдельные единицы, у которых t gt; 3. Это будет свидетельствовать о неоднородности совокупности, и такие единицы совокупности целесообразно исключить как аномальные, нетипичные для данной совокупности.

Если совокупность мала (3 ≤ n ≤ 8), то однородность совокупности, т. е. проверку годности первичных данных, можно осуществить следующим образом. Вычисляют показатель, характеризующий отношение разности между сомнительным и соседним значениями ранжированного в порядке возрастания ряда к разности между крайними значениями, т. е.:

если вызывает сомнение первое в ряду значение признака, и:

если вызывает сомнение последнее в ряду значение признака.

Вычисленную величину Q сопоставляют с табличным ее значением для данного числа наблюдений и уровня вероятности. Если Qф gt; Qтабл, то сомнительное значение следует исключить из обработки. Если же Qф lt; Qтабл, то сомнительное значение не отбрасывается. Рассмотрим эту методику на примере.

Допустим, получены следующие результаты содержания золы в образцах корма в процентах: 2,25; 2,19; 2,11; 2,38; 2,32 и 3,21.

Располагаем данные анализа в порядке возрастания их значений: 2,11; 2,19; 2,25; 2,32; 2,38; 3,21.

Вычисляем:

Далее находим Qтабл для n = 6 и вероятности p = 0,99 (табл. 4).

Таблица 4. Значения Q в зависимости от степени надежности (p)

и общего числа значений признака (n)

Величина Qтабл= 0,70. Следовательно, значение 3,21 должно быть исключено как нетипичное для данной совокупности.

При числе значений признака больше трех (и больше восьми) можно использовать другую методику определения пригодности первичных данных. По всем значениям признака в совокупности сначала рассчитывают среднюю величину (Х) и среднее квадратическое отклонение (σ), затем на основании разницы (без учета знака) между максимально отклоняющимся значением (Xmax) и средней величиной находят величину критерия Rmax по формуле:

Значение Rmax сопоставляют с табличным его значением при данном числе значений признака для вероятности p = 0,99 (табл. 5).

Если Rmax gt; Rтабл, то сомнительное значение (X) следует исключить, если же Rmax lt; Rтабл, то значение (Xmax) следует принимать в расчет.

При n gt; 20 показатель Rmax ≈ 3 и условие пригодности имеет вид:

Таблица 5. Значения Rmax для степени надежности p = 0,99 в зависимости

от числа единиц совокупности n

Обратимся к предыдущему примеру и вычислим:

При расчете средней величины и среднего квадратического отклонения используют все значения признака. Затем рассчитываем:

Для n = 6, Rтабл _ 2,13; так как 2,22 gt; 2,13, то сомнительное значение 3,21 необходимо отбросить из статистической обработки. Если сомнение вызывает не одно, а несколько значений, то сначала производят указанные выше расчеты только для одного из них (наиболее отклоняющегося). После его исключения повторяют расчет для следующего сомнительного значения, вычисляя заново X и σ.

При проверке годности данных с использованием любой методики может быть исключено не более одной трети единиц совокупности.

Если исключению подлежит более одной трети всех единиц совокупности, то данная совокупность считается неоднородной.

При изучении экономических явлений статистика встречается с разнообразной вариацией признаков, характеризующих отдельные единицы совокупностей. Величины признаков варьируют под воздействием различных причин и условий. Чем разнообразнее условия, влияющие на размер признака, тем больше его вариация.

Рассмотренные показатели центральной тенденции и показатели вариации представляют собой частные случаи некоторой единой системы статистических характеристик распределения. Такая единая система характеристик может быть представлена моментами статистического распределения. Если при вычислении моментов за произвольную постоянную принимается средняя арифметическая, то такие моменты называются центральными.

Общая формула центральных моментов k-го порядка имеет вид:

Иначе говоря, центральные моменты k-го порядка представляют собой среднюю арифметическую из k – x степеней отклонений значений признака от средней арифметической.

1. Центральный момент нулевого порядка равен единице при k = 0:

2. Центральный момент первого порядка равен нулю при k = 1:

3. Центральный момент второго порядка представляет собой дисперсию данного распределения при k = 2:

4. Центральный момент третьего порядка имеет вид:

Если распределение симметричное, то нетрудно видеть, что центральный момент третьего порядка равен нулю, так как минусовые отклонения (Xi – X)3 в левой ветви распределения будут уравновешиваться положительными отклонениями в правой части. Такое взаимное погашение отклонений в симметричных рядах распределения сохраняет силу для всех нечетных центральных моментов.

Конец ознакомительного фрагмента. Полный текст доступен на www.litres.ru