THE BELL

Есть те, кто прочитали эту новость раньше вас.
Подпишитесь, чтобы получать статьи свежими.
Email
Имя
Фамилия
Как вы хотите читать The Bell
Без спама

При обработке больших массивов информации, что особенно актуально при проведении современных научных разработок, перед исследователем стоит серьезная задача правильной группировки исходных данных. Если данные имеют дискретный характер, то проблем, как мы видели, не возникает – необходимо просто подсчитать частотукаждого признака. Если же исследуемый признак имеет непрерывный характер (что имеет большее распространение на практике), то выбор оптимального числа интервалов группировки признака является отнюдь не тривиальной задачей.

Для группировки непрерывных случайных величин весь вариационный размах признакаразбивают на некоторое количество интервалов к.

Сгруппированным интервальным (непрерывным ) вариационным рядом называют ранжированные по значению признака интервалы (), гдеуказанные вместе с соответствующими частотами () числа наблюдений, попавших в г"-й интервал, или относительными частотами ():

Интервалы значений признака

Частота mi

Гистограмма и кумулята {огива), уже подробно рассмотренные нами, являются прекрасным средством визуализации данных, позволяющим получить первичное представление о структуре данных. Такие графики (рис. 1.15) строятся для непрерывных данных так же, как и для дискретных, только с учетом того, что непрерывные данные сплошь заполняют область своих возможных значений, принимая любые значения.

Рис. 1.15.

Поэтому столбцы на гистограмме и кумуляте должны соприкасаться, не иметь участков, куда не попадают значения признака в пределах всех возможных (т.е. гистограмма и кумулята не должны иметь "дырок" по оси абсцисс, в которые не попадают значения изучаемой переменной, как на рис. 1.16). Высота столбика соответствует частоте– числу наблюдений, попавших в данный интервал, или относительной частоте– доле наблюдений. Интервалы не должны пересекаться и имеют, как правило, одинаковую ширину.

Рис. 1.16.

Гистограмма и полигон являются аппроксимациями кривой плотности вероятности (дифференциальной функции) f(x) теоретического распределения, рассматриваемой в курсе теории вероятностей . Поэтому их построение имеет такое важное значение при первичной статистической обработке количественных непрерывных данных – по их виду можно судить о гипотетическом законе распределения.

Кумулята – кривая накопленных частот (частостей) интервального вариационного ряда. С кумулятой сопоставляется график интегральной функции распределения F(x) , также рассматриваемой в курсе теории вероятностей.

В основном понятия гистограммы и кумуляты связывают именно с непрерывными данными и их интервальными вариационными рядами, так как их графики являются эмпирическими оценками функции плотности вероятности и функции распределения соответственно.

Построение интервального вариационного ряда начинают с определения числа интервалов k. И эта задача, пожалуй, является самой сложной, важной и неоднозначной в изучаемом вопросе.

Число интервалов не должно быть слишком малым, так как при этом гистограмма получается слишком сглаженной (oversmoothed), теряет все особенности изменчивости исходных данных – на рис. 1.17 можно увидеть, как те же данные, по которым построены графики рис. 1.15, использованы для построения гистограммы с меньшим числом интервалов (левый график).

В то же время число интервалов не должно быть слишком велико – иначе мы не сможем оценить плотность распределения изучаемых данных по числовой оси: гистограмма получится недосглажепная (undersmoothed), с незаполненными интервалами, неравномерная (см. рис. 1.17, правый график).

Рис. 1.17.

Как же определить наиболее предпочтительное число интервалов?

Еще в 1926 г. Герберт Стерджес (Herbert Sturges) предложил формулу для вычисления количества интервалов, на которые необходимо разбить исходное множество значений изучаемого признака . Эта формула поистине стала сверхпопулярной – большинство статистических учебников предлагают именно ее, по умолчанию ее используют и множество статистических пакетов. Насколько это оправдано и во всех ли случаях – является весьма серьезным вопросом.

Итак, на чем основана формула Стерджеса?

Рассмотрим биномиальное распределение , верхняя граница которого включает последнее число ранжированного ряда.

Строим интервальный ряд (табл. 2.3).

Интервальный ряд распределения фирм но среднесписочной численности менеджеров в одном из регионов РФ в I квартале отчетного года

Вывод. Наиболее многочисленной группой фирм является группа со среднесписочной численностью менеджеров 25- 30 человек, которая включает 8 фирм (27%); в самую малочисленную группу со среднесписочной численностью менеджеров 40-45 человек входит всего одна фирма (3%).

Используя исходные данные табл. 2.1, а также интервальный ряд распределения фирм по численности менеджеров (табл. 2.3), требуется построить аналитическую группировку зависимости между численностью менеджеров и объемом продаж фирм и на основании ее сделать вывод о наличии (или отсутствии) связи между указанными признаками.

Решение:

Аналитическая группировка строится по факторному признаку. В нашей задаче факторным признаком (х) является численность менеджеров, а результативным признаком (у) - объем продаж (табл. 2.4).

Построим теперь аналитическую группировку (табл. 2.5).

Вывод. На основании данных построенной аналитической группировки можно сказать, что с увеличением численности менеджеров по продажам средний в группе объем продаж фирмы также увеличивается, что свидетельствует о наличии прямой связи между указанными признаками.

Таблица 2.4

Вспомогательная таблица для построения аналитической группировки

Численность менеджеров, чел.,

Номер фирмы

Объем продаж, млн руб., у

» = 59 f = 9,97

Я-™ 4 - Ю.22

74 ’25 1ПЙ1

У4 = 7 = 10,61

у = ’ =10,31 30

Таблица 2.5

Зависимость объемов продаж от численности менеджеров фирм в одном из регионов РФ в I квартале отчетного года

КОНТРОЛЬНЫЕ ВОПРОСЫ
  • 1. В чем суть статистического наблюдения?
  • 2. Назовите этапы статистического наблюдения.
  • 3. Каковы организационные формы статистического наблюдения?
  • 4. Назовите виды статистического наблюдения.
  • 5. Что такое статистическая сводка?
  • 6. Назовите виды статистических сводок.
  • 7. Что такое статистическая группировка?
  • 8. Назовите виды статистических группировок.
  • 9. Что такое ряд распределения?
  • 10. Назовите конструктивные элементы ряда распределения.
  • 11. Каков порядок построения ряда распределения?

Наиболее простым способом обобщения статистического материала является построение рядов. Результатом сводки статистического исследования могут быть ряды распределения. Рядом распределения в статистике называется упорядоченное распределение единиц совокупности на группы по какому-либо одному признаку: по качественному или количественному. Если ряд построен по качественному признаку, то он называется атрибутивным, а если по количественному признаку, то вариационный.

Вариационный ряд характеризуется двумя элементами: вариантой (Х) и частотой (f). Варианта – это отдельное значение признака отдельной единицы или группы совокупности. Число, показывающее, сколько раз встречается то или иное значение признака, называется частотой. Если частота выражена относительным числом, то она называется частостью. Вариационный ряд может быть интервальным, когда определены границы «от» и «до», а может быть дискретным, когда изучаемый признак характеризуется определенным числом.

Построение вариационных рядов рассмотрим на примерах.

Пример . и меются данные о тарифных разрядах 60 рабочих одного их цехов завода.

Распределить рабочих по тарифному разряду, построить вариационный ряд.

Для этого выпишем все значения признака в порядке возрастания и посчитаем число рабочих в каждой группе.

Таблица 1.4

Распределение рабочих по разряду

Разряд рабочих (X)

Число рабочих

человек (f)

в % к итогу (частность)

Мы получили вариационный дискретный ряд, в котором изучаемый признак (разряд рабочего) представлен определенным числом. Для наглядности вариационные ряды изображают графически. На основании данного ряда распределения построили поверхность распределения.

Рис. 1.1. Полигон распределения рабочих по тарифному разряду

Построение интервального ряда с равными интервалами рассмотрим на следующем примере.

Пример . Известны данные о стоимости основного капитала 50 фирм в млн руб. Требуется показать распределение фирм по стоимости основного капитала.

Чтобы показать распределение фирм по стоимости основного капитала, сначала решим вопрос о количестве групп, которые хотим выделить. Предположим, решили выделить 5 групп предприятий. Затем определим величину интервала в группе. Для этого воспользуемся формулой

Согласно нашему примеру .

Путем прибавления величины интервала к минимальному значению признака, получим группы фирм по стоимости основного капитала.

Единица, обладающая двойным значением, относится к той группе, где она выступает в роли верхней границы (т.е. значение признака 17 пойдет в первую группу, 24 – во вторую и т.д.).

Подсчитаем число заводов в каждой группе.

Таблица 1.5

Распределение фирм по стоимости основного капитала (млн руб.)

Стоимость основного капитала
в млн руб. (Х)

Число фирм
(частота) (f)

Накопленные частоты
(кумулятивные)

Согласно данному распределению получили вариационный интервальный ряд, из которого следует, что 36 фирм имеют основной капитал стоимостью от 10 до 24 млн руб. и т.д.

Интервальные ряды распределения можно представить графически в виде гистограммы.

Результаты обработки данных оформляются в статистические таблицы . Статистические таблицы содержат свое подлежащее и сказуемое.

Подлежащее – это та совокупность или часть совокупности, которая подвергается характеристике.

Сказуемое – это показатели, характеризующие подлежащее.

Таблицы различают: простые и групповые, комбинационные, с простой и сложной разработкой сказуемого.

Простая таблица в подлежащем содержит перечень отдельных единиц.

Если же в подлежащем имеется группировка единиц, то такая таблица называется групповой. Например, группа предприятий по числу рабочих, группы населения по полу.

В подлежащем комбинационной таблицы содержится группировка по двум или нескольким признакам. Например, население по полу разделяется на группы по образованию, возрасту и т.д.

Комбинационные таблицы содержат информацию, позволяющую выявить и охарактеризовать взаимосвязь ряда показателей и закономерность их изменения как в пространстве, так и во времени. Чтобы таблица была наглядной при разработке ее подлежащего, ограничиваются двумя-тремя признаками, образуя по каждому из них ограниченное число групп.

Сказуемое в таблицах может быть разработано по-разному. При простой разработке сказуемого все его показатели располагаются независимо друг от друга.

При сложной разработке сказуемого показатели сочетаются друг с другом.

При построении любой таблицы нужно исходить из целей исследования и содержания обработанного материала.

Кроме таблиц в статистике используются графики и диаграммы. Диаграмма – статистические данные изображаются с помощью геометрических фигур. Диаграммы подразделяются на линейные и столбиковые, но могут быть фигурные диаграммы (рисунки и символы), круговые диаграммы (окружность принимается за величину всей совокупности, а площади отдельных секторов отображают удельный вес или долю ее составных частей), радиальные диаграммы (строятся на базе полярных ординат). Картограмма представляет собой сочетание контурной карты или плана местности с диаграммой.



THE BELL

Есть те, кто прочитали эту новость раньше вас.
Подпишитесь, чтобы получать статьи свежими.
Email
Имя
Фамилия
Как вы хотите читать The Bell
Без спама