Главная Виды Эмпирическое распределение признака y. Эмпирическая функция распределения

Эмпирическое распределение признака y. Эмпирическая функция распределения

Выборочная средняя.

Пусть для изучения генеральной совокупности относительно количественного признака Х извлечена выборка объема n.

Выборочной средней называют среднее арифметическое значение признака выборочной совокупности.

Выборочная дисперсия.

Для того, чтобы наблюдать рассеяние количественного признака значений выборки вокруг своего среднего значения, вводят сводную характеристику- выборочную дисперсию.

Выборочной дисперсией называют среднее арифметическое квадратов отклонения наблюдаемых значений признака от их среднего значения.

Если все значения признака выборки различны, то

Исправленная дисперсия.

Выборочная дисперсия является смещенной оценкой генеральной дисперсии, т.е. математическое ожидание выборочной дисперсии не равно оцениваемой генеральной дисперсии, а равно

Для исправления выборочной дисперсии достаточно умножить ее на дробь

Выборочный коэффициент корреляции находится по формуле

где - выборочные средние квадратические отклонения величин и .

Выборочный коэффициент корреляции показывает тесноту линейной связи между и : чем ближе к единице, тем сильнее линейная связь между и .

23. Полигоном частот называют ломаную линию, отрезки которой соединяют точки . Для построения полигона частот на оси абсцисс откладывают варианты , а на оси ординат – соответствующие им частоты и соединяют точки отрезками прямых.

Полигон относительных частот строится аналогично, за исключением того, что на оси ординат откладываются относительные частоты .

Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которой служат частичные интервалы длиною h, а высоты равны отношению . Для построения гистограммы частот на оси абсцисс откладывают частичные интервалы, а над ними проводят отрезки, параллельные оси абсцисс на расстоянии (высоте) . Площадь i–го прямоугольника равна – сумме частот вариант i–о интервала, поэтому площадь гистограммы частот равна сумме всех частот, т.е. объему выборки.

Эмпирическая функция распределения

где n x - число выборочных значений, меньших x ; n - объем выборки.

22Определим основные понятия математической статистики

. Основные понятия математической статистики. Генеральная совокупность и выборка. Вариационный ряд, статистический ряд. Группированная выборка. Группированный статистический ряд. Полигон частот. Выборочная функция распределения и гистограмма.

Генеральная совокупность – все множество имеющихся объектов.

Выборка – набор объектов, случайно отобранных из генеральной совокупности.

Последовательность вариант, записанных в порядке возрастания, называют вариационным рядом, а перечень вариант и соответствующих им частот или относительных частот – стати-стическим рядом :чайно отобранных из генеральной совокупности.

Полигоном частот называют ломаную линию, отрезки которой соединяют точки .

Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которой служат частичные интервалы длиною h, а высоты равны отношению .

Выборочной (эмпирической) функцией распределения называют функцию F* (x ), определяющую для каждого значения х относительную частоту события X < x.

Если исследуется некоторый непрерывный признак, то вариационный ряд может состоять из очень большого количества чисел. В этом случае удобнее использовать группированную выборку . Для ее получения интервал, в котором заключены все наблюдаемые значения признака, разбивают на несколько равных частичных интервалов длиной h , а затем находят для каждого частичного интервала n i – сумму частот вариант, попавших в i -й интервал.

20. Под законом больших чисел не следует понимать какой-то один общий закон, связанный с большими числами. Закон больших чисел - это обобщенное название нескольких теорем, из которых следует, что при неограниченном увеличении числа испытаний средние величины стремятся к некоторым постоянным.

К ним относятся теоремы Чебышева и Бернулли. Теорема Чебышева является наиболее общим законом больших чисел.

В основе доказательства теорем, объединенных термином "закон больших чисел", лежит неравенство Чебышева, по которому устанавливается вероятность отклонения от ее математического ожидания:

19Распределение Пирсона (хи - квадрат) – распределение случайной величины

где случайные величины X 1 , X 2 ,…, X n независимы и имеют одно и тоже распределение N (0,1). При этом число слагаемых, т.е. n , называется «числом степеней свободы» распределения хи – квадрат.

Распределение хи-квадрат используют при оценивании дисперсии (с помощью доверительного интервала), при проверке гипотез согласия, однородности, независимости,

Распределение t Стьюдента – это распределение случайной величины

где случайные величины U и X независимы, U имеет распределение стандартное нормальное распределение N (0,1), а X – распределение хи – квадрат с n степенями свободы. При этом n называется «числом степеней свободы» распределения Стьюдента.

Его применяют при оценивании математического ожидания, прогнозного значения и других характеристик с помощью доверительных интервалов, по проверке гипотез о значениях математических ожиданий, коэффициентов регрессионной зависимости,

Распределение Фишера – это распределение случайной величины

Распределение Фишера используют при проверке гипотез об адекватности модели в регрессионном анализе, о равенстве дисперсий и в других задачах прикладной статистики

18Линейная регрессия является статистическим инструментом, используемым для прогнозирования будущих цен исходя из прошлых данных, и обычно применяется, чтобы определить, когда цены являются перегретыми. Используется метод наименьшего квадрата для построения «наиболее подходящей» прямой линии через ряд точек ценовых значений. Ценовыми точками, используемыми в качестве входных данных, может быть любое из следующих значений: открытие, закрытие, максимум, минимум,

17. двумерной случайной величиной называют упорядоченный набор из двух случайных величин или .

Пример.Подбрасываются два игральных кубика. – число очков, выпавших на первом и втором кубиках соответственно

Универсальный способ задания закона распределения двумерной случайной величины – это функция распределения.

15.м.о Дискретные случайные величины

Свойства:

1) M (C ) = C , C - постоянная;

2) M (CX ) = CM (X );

3) M (X 1 + X 2 ) = M (X 1 ) + M (X 2 ), где X 1 , X 2 - независимые случайные величины;

4) M (X 1 X 2 ) = M (X 1 )M (X 2 ).

Математическое ожидание суммы случайных величин равно сумме их математических ожиданий, т.е.

Математическое ожидание разности случайных величин равно разности их математических ожиданий, т.е.

Математическое ожидание произведения случайных величин равно произведению их математических ожиданий, т.е.

Если все значения случайной величины увеличить (уменьшить) на одно и тоже число С, то ее математическое ожидание увеличится (уменьшиться) на это же число

14. Показательный (экспоненциальный ) закон распределения X имеет показательный (экспоненциальный) закон распределения с параметром λ >0, если ее плотность вероятности имеет вид:

Математическое ожидание: .

Дисперсия: .

Показательный закон распределения играет большую роль в теории массового обслуживания и теории надежности.

13. Нормальный закон распределения характеризуется частотой отказов a (t) или плотностью вероятности отказов f (t) вида:

, (5.36)

где σ– среднеквадратическое отклонение СВ x ;

mx – математическое ожидание СВ x . Этот параметр часто называют центром рассеивания или наиболее вероятным значением СВ Х .

x – случайная величина, за которую можно принять время, значение тока, значение электрического напряжения и других аргументов.

Нормальный закон – это двухпараметрический закон, для записи которого нужно знать mx и σ.

Нормальное распределение (распределение Гаусса) используется при оценке надежности изделий, на которые воздействует ряд случайных факторов, каждый из которых незначительно влияет на результирующий эффект

12. Равномерный закон распределения . Непрерывная случайная величина X имеет равномерный закон распределения на отрезке [a , b ], если ее плотность вероятности постоянна на этом отрезке и равна нулю вне его, т.е.

Обозначение: .

Математическое ожидание: .

Дисперсия: .

Случайная величина Х , распределенная по равномерному закону на отрезке называется случайным числом от 0 до 1. Она служит исходным материалом для получения случайных величин с любым законом распределения. Равномерный закон распределения используется при анализе ошибок округления при проведении числовых расчетов, в ряде задача массового обслуживания, при статистическом моделировании наблюдений, подчиненных заданному распределению.

11. Определение. Плотностью распределения вероятностей непрерывной случайной величины Х называется функция f(x) – первая производная от функции распределения F(x).

Плотность распределения также называют дифференциальной функцией . Для описания дискретной случайной величины плотность распределения неприемлема.

Смысл плотности распределения состоит в том, что она показывает как часто появляется случайная величина Х в некоторой окрестности точки х при повторении опытов.

После введения функций распределения и плотности распределения можно дать следующее определение непрерывной случайной величины.

10. Плотность вероятности, плотность распределения вероятностей случайной величины x, - функция p(x) такая, что

и при любых a < b вероятность события a < x < b равна
.

Если p(x) непрерывна, то при достаточно малых ∆x вероятность неравенства x < X < x+∆x приближенно равна p(x) ∆x (с точностью до малых более высокого порядка). Функция распределения F(x) случайной величины x, связана с плотностью распределения соотношениями

и, если F(x) дифференцируема, то

©2015-2019 сайт
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2017-12-29

Лекция 13. Понятие о статистических оценках случайных величин

Пусть известно статистическое распределение частот количественного признака X. Обозначим через число наблюдений, при которых наблюдалось значение признака, меньшее x и через n – общее число наблюдений. Очевидно, относительная частота события X < x равна и является функцией x. Так как эта функция находится эмпирическим (опытным) путем, то ее называют эмпирической.

Эмпирической функцией распределения (функцией распределения выборки) называют функцию , определяющую для каждого значения x относительную частоту события X < x. Таким образом, по определению ,где - число вариант, меньших x, n – объем выборки.

В отличие от эмпирической функции распределения выборки, функцию распределения генеральной совокупности называют теоретической функцией распределения. Различие между этими функциями состоит в том, что теоретическая функцияопределяет вероятность события X < x, тогда как эмпирическая – относительную частоту этого же события.

При росте n относительная частота события X < x, т.е. стремится по вероятности к вероятности этого события. Иными словами

Свойства эмпирической функции распределения :

1) Значения эмпирической функции принадлежат отрезку

2) - неубывающая функция

3) Если - наименьшая варианта, то = 0 при , если - наибольшая варианта, то =1 при .

Эмпирическая функция распределения выборки служит для оценки теоретической функции распределения генеральной совокупности.

Пример . Построим эмпирическую функцию по распределению выборки:

Варианты
Частоты

Найдем объем выборки: 12+18+30=60. Наименьшая варианта равна 2, поэтому =0 при x £ 2. Значение x<6, т.е. , наблюдалось 12 раз, следовательно, =12/60=0,2 при 2< x £6. Аналогично, значения X < 10, т.е. и наблюдались 12+18=30 раз, поэтому =30/60 =0,5 при 6< x £10. Так как x=10 – наибольшая варианта, то =1 при x> 10. таким образом, искомая эмпирическая функция имеет вид:

Важнейшие свойства статистических оценок

Пусть требуется изучить некоторый количественный признак генеральной совокупности. Допустим, что из теоретических соображений удалось установить, какое именно распределение имеет признак и необходимо оценить параметры, которыми оно определяется. Например, если изучаемый признак распределен в генеральной совокупности нормально, то нужно оценить математическое ожидание и среднее квадратическое отклонение; если признак имеет распределение Пуассона – то необходимо оценить параметр l.

Обычно имеются лишь данные выборки, например значения количественного признака , полученные в результате n независимых наблюдений. Рассматривая как независимые случайные величины можно сказать, что найти статистическую оценку неизвестного параметра теоретического распределения – значит найти функцию от наблюдаемых случайных величин, которая дает приближенное значение оцениваемого параметра. Например, для оценки математического ожидания нормального распределения роль функции выполняет среднее арифметическое

Для того чтобы статистические оценки давали корректные приближения оцениваемых параметров, они должны удовлетворять некоторым требованиям, среди которых важнейшими являются требования несмещенности и состоятельности оценки.

Пусть - статистическая оценка неизвестного параметра теоретического распределения. Пусть по выборке объема n найдена оценка . Повторим опыт, т.е. извлечем из генеральной совокупности другую выборку того же объема и по ее данным получим другую оценку . Повторяя опыт многократно, получим различные числа . Оценку можно рассматривать как случайную величину, а числа - как ее возможные значения.

Если оценка дает приближенное значение с избытком , т.е. каждое число больше истинного значения то, как следствие, математическое ожидание (среднее значение) случайной величины больше, чем :. Аналогично, если дает оценку с недостатком , то .

Таким образом, использование статистической оценки, математическое ожидание которой не равно оцениваемому параметру, привело бы к систематическим (одного знака) ошибкам. Если, напротив, , то это гарантирует от систематических ошибок.

Несмещенной называют статистическую оценку , математическое ожидание которой равно оцениваемому параметру при любом объеме выборки .

Смещенной называют оценку, не удовлетворяющую этому условию.

Несмещенность оценки еще не гарантирует получения хорошего приближения для оцениваемого параметра, так как возможные значения могут быть сильно рассеяны вокруг своего среднего значения, т.е. дисперсия может быть значительной. В этом случае найденная по данным одной выборки оценка, например , может оказаться значительно удаленной от среднего значения ,а значит, и от самого оцениваемого параметра.

Эффективной называют статистическую оценку, которая, при заданном объеме выборки n, имеет наименьшую возможную дисперсию .

При рассмотрении выборок большого объема к статистическим оценкам предъявляется требование состоятельности .

Состоятельной называется статистическая оценка, которая при n®¥ стремится по вероятности к оцениваемому параметру. Например, если дисперсия несмещенной оценки при n®¥ стремится к нулю, то такая оценка оказывается и состоятельной.

Признака y

Эмпирическое распределение

Эмпирическая и теоретическая функции распределения

При выборочном исследовании распределение значений непрерывного признака y в генеральной совокупности неизвестно.

Образуем некоторую выборку значений признака у и построим по ней дискретный ряд распределения (табл. 1.10.1). Это распределение называется эмпирическим , так как оно получено эмпирически (измерением признака y у единиц выборки).

Таблица 1.10.1

Варианты -	Частоты -




	n

Для любого числа х из числового промежутка обозначим через число значений признака y в выборке, меньших числа х . Отношение является относительной частотой события:

Каждому числу х соответствует только одна относительная частота. Поэтому определена функция:

то, зная функцию (1.10.1), можно найти эмпирическое распределение относительных частот значений признака у . Поэтому функция (1.10.1) называется эмпирической функцией распределения .

Пример 1.10.1. Построим эмпирическую функцию распределения признака y , зная его распределение в выборке (табл. 1.10.2).

Таблица 1.10.2

Объем выборки равен 60.

Значение признака y , меньшее числа 2, не наблюдалось. Поэтому и, следовательно, при.

Значение признака y , меньшее числа 6, т.е. наблюдалось 12 раз. Поэтому и, следовательно, при.

Значения признака y , меньшие числа 10, т.е. и наблюдались 12+18 =30 раз. Поэтому и, следовательно, при.

Так как - наибольшая варианта, то при и, следовательно, при.

Таким образом, эмпирической функцией данного распределения является функция

График функции (1.10.3) изображен на рис. 1.10.5.

Рис. 1.10.5. График функции (1.10.3)

Из формул (1.10.2) следует, что функция (1.10.3) определяет эмпирическое распределение с вариантами, и соответствующими относительными частотами 0,2 (0,2-0), 0,3 (0,5-0,2), 0,5 (1-0,5).

Функция (1.10.1) обладает следующими свойствами:

1) функция определена на всей числовой оси;

2) функция - неубывающая;

3) если - наименьшая варианта, то при;

4) если - наибольшая варианта, то при.

При неограниченном увеличении объема выборки n относительная частота стремится к вероятности события: значение признака y меньше числа х , а функция (1.10.1) приближается к функции, значениями которой являются вероятности события: значение признака y меньше числа х.

Функция называется теоретической функцией распределения, она определяет теоретическое распределение значений признака y в генеральной совокупности.

В математической статистике доказывается, что теоретическая функция непрерывного распределения дифференцируема. Производная называется функцией плотности вероятностей , а ее график - теоретической кривой распределения.

При неограниченном увеличении объема выборки полигон относительных частот стремится к теоретической кривой распределения. Поэтому полигон относительных частот называется также эмпирической кривой распределения.

Теоретическое распределение можно рассматривать как математическую модель эмпирического распределения, в которой исключены влияния случайных факторов. С другой стороны, эмпирическую функцию распределения признака у в выборке можно использовать для приближенного представления теоретической функции признака у в генеральной совокупности.

30. Теоретические и эмпирические распределения как модели рядов распределения

Эмпирическое распределение отличается от теоретического тем, что

на значения признака в нем влияют случайные факторы. С увеличением

объема статистической совокупности влияние случайных факторов

ослабевает, и эмпирическое распределение все менее отличается от

теоретического.

Для оценки близости распределений используются особые

показатели – критерии согласия. Они основаны на использовании

различных мер расстояний между эмпирическим и теоретическим

распределением.

Если нужно получить теоретические частоты f" при выравнивании вариационного ряда по кривой нормального распределения, то можно воспользоваться формулой

где - сумма всех эмпирических частот вариационного ряда; h - величина интервала в группах; - cреднее квадратическое отклонение; - нормированное отклонение вариантов от средней арифметической; все остальные величины легко вычисляются по специальным таблицам.

При помощи этой формулы мы получаем теоретическое (вероятностное) распределение, заменяя им эмпирическое (фактическое) распределение, по характеру они не должны отличаться друг от друга.

При выравнивании эмпирических данных теоретические частоты можно определить по формуле

Сравнивая полученные величины теоретических частот f" c эмпирическими (фактическими) частотами f, убеждаемся, что их расхождения могут быть весьма невелики.

Объективная характеристика соответствия теоретических и эмпирических частот может быть получена при помощи специальных статистических показателей, которые называют критериями согласия.

Для оценки близости эмпирических и теоретических частот применяются критерий согласия Пирсона, критерий согласия Романовского, критерий согласия Колмогорова.

Наиболее распространенным является критерий согласия К. Пирсона , который можно представить как сумму отношений квадратов расхождений между f" и f к теоретическим частотам:

(7.10)

Вычисленное значение критерия необходимо сравнить с табличным (критическим) значением . Табличное значение определяется по специальной таблице, оно зависит от принятой вероятности Р и числа степеней свободы k (при этом k = m - 3, где m - число групп в ряду распределения для нормального распределения). При расчете критерия согласия Пирсона должно соблюдаться следующее условие: достаточно большим должно быть число наблюдений (n 50), при этом если в некоторых интервалах теоретические частоты 5.

Если , то расхождения между эмпирическими и теоретическими частотами распределения могут быть случайными и предположение о близости эмпирического распределения к нормальному не может быть отвергнуто.

В том случае, если отсутствуют таблицы для оценки случайности расхождения теоретических и эмпирических частот, можно использовать критерий согласия В.И. Романовского КРом, который, используя величину , предложил оценивать близость эмпирического распределения кривой нормального распределения при помощи отношения

теоретического распределения, вычисляется по формуле

где D - максимальное значение разности между накопленными эмпирическими и теоретическими частотами; - сумма эмпирических частот.

31 Выборочное наблюдение Годин С 127,ошибка выборки 130

32 Ряды динамики С 210

33 Сглаживание рядов динамики С 220

Уравнение тренда

Экстраполяция на основе функции тренда, полученной в результате аналитического выравнивания, относится к наиболее распространенным и практически применяемым методам прогнозирования.

Нахождение по имеющимся данным за определенный период времени некоторых недостающих значений признака внутри этого периода называется интерполяцией . Нахождение значений признака за пределами анализируемого периода называется экстраполяцией .

Применение экстраполяции для прогнозирования должно основываться на предположении, что найденная закономерность развития внутри динамического ряда сохраняется и вне этого ряда. Это означает, что основные факторы, сформировавшие выявленную закономерность изменений уровней ряда во времени, сохранится в будущем.

При составлении прогнозов уровней социально-экономических явлений обычно оперируют не точечной, а интервальной оценкой, рассчитывая так называемые доверительные интервалы прогноза . Границы интервалов определяются по формуле

, (1.61)

где – точечный прогноз, рассчитанный по модели тренда;

– коэффициент доверия по распределению Стьюдента при уровне значимости
и числе степеней свободы = n -1 ;

– ошибка аппроксимации.

Уровень значимости связан с вероятностью следующей формулой

. (1.62)

Ошибка аппроксимации (среднее квадратическое отклонение тренда) определяется по следующей формуле

где и – соответственно фактические и теоретические (расчетные) значения уровней ряда динамики;

n – число уровней ряда;

k – число параметров (членов) в уравнении тренда.

34 Элементы статистического прогнозирования

Разновидность математических методов прогнозирования, позволяющих построить динамические ряды на перспективу. Статистические методы прогнозирования охватывают разработку, изучение и применение современных математико-статистических методов прогнозирования на основе объективных данных (в том числе непараметрических методов наименьших квадратов с оцениванием точности прогноза, адаптивных методов, методов авторегрессии и других); развитие теории и практики вероятностно-статистического моделирования экспертных методов прогнозирования, в том числе методов анализа субъективных экспертных оценок на основе статистики нечисловых данных; разработку, изучение и применение методов прогнозирования в условиях риска и комбинированных методов прогнозирования с использованием совместно экономико-математических и эконометрических (как математико-статистических, так и экспертных) моделей. Научная база статистических методов прогнозирования - прикладная статистика и теория принятия решений. Простейшие методы восстановления используемых для прогнозирования зависимостей исходят из заданного временного ряда, то есть функции, определенной в конечном числе точек на оси времени. При этом временной ряд часто рассматривается в рамках той или иной вероятностной модели, вводятся другие факторы (независимые переменные) помимо времени, напр., объем денежной массы. Временной ряд может быть многомерным. Основные решаемые задачи - интерполяция и экстраполяция. Метод наименьших квадратов в простейшем случае (линейная функция от одного фактора) был разработан К. Гауссом в 1794-1795 гг. Могут оказаться полезными предварительные преобразования переменных, например, логарифмирование. Наиболее часто используется метод наименьших квадратов при нескольких факторах. Метод наименьших модулей, сплайны и другие методы экстраполяции применяются реже, хотя их статистические свойства зачастую лучше. Накоплен опыт прогнозирования индекса инфляции и стоимости потребительской корзины. Оказалось полезным преобразование (логарифмирование) переменной - текущего индекса инфляции. Оценивание точности прогноза (в частности, с помощью доверительных интервалов) - необходимая часть процедуры прогнозирования. Обычно используют вероятностно-статистические модели восстановления зависимости, напр., строят наилучший прогноз по методу максимального правдоподобия. Разработаны параметрические (обычно на основе модели нормальных ошибок) и непараметрические оценки точности прогноза и доверительные границы для него (на основе Центральной Предельной Теоремы теории вероятностей). Так, предложены непараметрические методы доверительного оценивания точки наложения (встречи) двух временных рядов для оценки динамики технического уровня собственной продукции и продукции конкурентов, представленной на мировом рынке. Применяются также эвристические приемы, не основанные на вероятностно статистической теории: метод скользящих средних, метод экспоненциального сглаживания. Многомерная регрессия, в том числе с использованием непараметрических оценок плотности распределения, - основной на настоящий момент статистический аппарат прогнозирования. Подчеркнем, что нереалистическое предположение о нормальности погрешностей измерений и отклонений от линии (поверхности) регрессии использовать не обязательно. Однако для отказа от предположения нормальности необходимо опереться на иной математический аппарат, основанный на многомерной Центральной Предельной Теореме теории вероятностей, технологии линеаризации и наследования сходимости. Он позволяет проводить точечное и интервальное оценивание параметров, проверять значимость их отличия от ноля в непараметрической постановке, строить доверительные границы для прогноза. Весьма важна проблема проверки адекватности модели, а также проблема отбора факторов.

35 Функциональные и статистические связи С 146

Статистич. связь- изменение вариации одного признака в зависимости от второго и => может отражаться не только в изменении его средней величины (кореляц завис-ость) но и любой другой характеристики вариации

36 Формы, виды, теснота связей, линейный коэф. Корреляции . С 156 изм тесноты связи- С 169

Связи: прямолинейная, криволинейная, слабая, умеренная, заметная, высокая, тесная, весьма тесная, полная обратная, полная прямая, частично прямая, частично обратная

прямолинейная

(8.1)

криволинейная в виде:

(8.2)

гиперболы

Наиболее простым вариантом корреляционной зависимости является парная корреляция, т.е. зависимость между двумя признаками (результативным и факторным или между двумя факторными). Математически эту зависимость можно выразить как зависимость результативного показателя у от факторного показателя х. Связи могут быть прямые и обратные. В первом случае с увеличением признака х увеличивается и признак у, при обратной связи с увеличением признака х уменьшается признак у.

Важнейшей задачей является определение формы связи с последующим расчетом параметров уравнения, или, иначе, нахождение уравнения связи (уравнения регрессии).

Могут иметь место различные формы связи:

прямолинейная

криволинейная в виде:

параболы второго порядка (или высших порядков)

гиперболы

показательной функции

Параметры для всех этих уравнений связи, как правило, определяют из системы нормальных уравнений, которые должны отвечать требованию метода наименьших квадратов (МНК):

Если связь выражена параболой второго порядка (), то систему нормальных уравнений для отыскания параметров a0 , a1 , a2 (такую связь называют множественной, поскольку она предполагает зависимость более чем двух факторов) можно представть в виде

Другая важнейшая задача - измерение тесноты зависимости - для всех форм связи может быть решена при помощи вычисления эмпирического корреляционного отношения :

(8.7)

где - дисперсия в ряду выравненных значений результативного показателя ; - дисперсия в ряду фактических значений у.

Для определения степени тесноты парной линейной зависимости служит линейный коэффициент корреляции, для расчета которого можно использовать, например, две следующие формулы:

(8.8)

Линейный коэффициент корреляции может принимать значения в пределах от -1 до + 1 или по модулю от 0 до 1. Чем ближе он по абсолютной величине к 1, тем теснее связь. Знак указывает направление связи: «+» - прямая зависимость, «-» имеет место при обратной зависимости.

37 уравнение парной линейной корреляции.

Он показывает, насколько тесно две переменные связаны между

Формула для вычисления парного коэффициента корреляции:

38 понятие множественной корреляции.

Множественная корреляция - корреляция между одной зависимой переменной и комбинацией двух или более независимых переменных, которая дает оценку смешанного влияния на зависимую переменную.

такую связь называют множественной, поскольку она предполагает зависимость более чем двух факторов) можно представть в виде

При прямолинейной форме связи коэффициент множественной корреляции (совокупный коэффициент корреляции по некоторому числу факторов) может быть вычислен по формуле

где Ry xz – коэффициент множественной корреляции у по x,z;

ryx, ryz, rxz – полные парные коэффициенты корреляции факторов-признаков у, x, z.

В общем случае чем выше значение коэффициента множественной корреляции, тем лучше подобрано уравнение. Обычно при интерпретации расчетов используется величина R-квадрат (R2, коэффициент детерминации).

При предположении криволинейной зависимости следует выбрать (как и при парной корреляции) определенный тип кривой линии и представить ее в виде алгебраического выражения. Последующие расчеты связаны с выявлением показателей по формулам прямолинейной зависимости в множественной корреляции (регрессии). Часто в этих расчетах прибегают к помощи логарифмов.

39. Понятие индексов агрегатные и индивидуальные

Индекс - это результат сравнения двух одноименных показателей, при исчислении которого следует различать числитель индексного отношения (сравниваемый или отчетный уровень) и знаменатель индексного отношения (базисный уровень, с которым производится сравнение). Выбор базы зависит от цели исследования. Если изучается динамика, то за базисную величину может быть взят размер показателя в периоде, предшествующем отчетному. Если необходимо осуществить территориальное сравнение, то за базу можно принять данные другой территории. За базу сравнения могут приниматься плановые показатели, если необходимо использовать индексы как показатели выполнения плана

Агрегатные Индексами называют сравнительные относительные величины, которые характеризуют изменение сложных социально-экономических показателей (показатели, состоящие из несуммируемых элементов) во времени, в пространстве, по сравнению с планом.

Агрегатный индекс является основной формой сводного индекса. "Агрегатным" он называется потому, что его числитель и знаменатель представляют собой набор "агрегат" (от латинского aggregatus складываемый, суммируемый) непосредственно несоизмеримых и не поддающихся суммированию элементов сумму произведений двух величин, одна из которых меняется (индексируется), а другая остается неизменной в числителе и знаменателе (вес индекса). Вес индекса служит для соизмерения индексируемых величин.

Индивидуальные

Индивидуальные индексы обозначаются i и снабжаются подстрочным знаком индексируемого показателя: iq - индивидуальный индекс объема произведенной продукции отдельного вида или количества (объема) проданного товара данного вида, ip индивидуальный индекс цен и т.д.

Индивидуальные индексы относятся к одному элементу (явлению) и не требуют суммирования данных. Они представ-ляют собой относительные величины динамики, выполнения обя-зательств, сравнения. Выбор базы сравнения определяется целью исследования.

Расчет индивидуальных индексов прост, их определяют вычислением отношения двух индексируемых величин:

ip = Р1/Р0 - индивидуальный индекс цен, где Р1 Р0 - цены единицы продукции в текущем (отчетном) и базисном периодах.

iq = q1/q0 ~ индивидуальный индекс физического объема продукции.

41 Средние индексы

Средние индексы – это сочетание индекса в агрегатной форме и индивидуальных индексов. Применяются в том случае, когда отсутствуют какие-либо данные в отчетном или базисном периодах.
Если отсутствуют данные о количестве проданных товаров, но зарегистрированы показатели выручки и индексы цен на отдельные товары, то на базе индекса Пааше можно рассчитать средний гармонический индекс цен. Выводим его через индекс Паше

Эмпирическое распределение отличается от теоретического тем, что на значения признака в нем влияют случайные факторы. С увеличением объема статистической совокупности влияние случайных факторов ослабевает, и эмпирическое распределение все менее отличается от теоретического.

Для оценки близости распределений используются особые показатели - критерии согласия.

Они основаны на использовании различных мер расстояний между эмпирическим и теоретическим распределением.

Наиболее часто на практике используются следующие критерия согласия:

_ «хи-квадрат»- критерий (критерий Пирсона); формат:

_ «лямбда»- критерий» (критерий Колмогорова).

5.9.1. «Хи-квадрат» - критерий является случайной величиной, имеющей распределение, близкое к распределению «хи-квадрат». Его величина определяется по формуле:

2 = у (ni - nT)2

Чем меньше эмпирические и теоретические частоты в отдельных группах отличаются друг от друга, тем меньше эмпирическое распределение отличается от теоретического, то есть тем в большей степени эмпирическое и теоретическое распределения согласуются между собой.

Для оценки существенности расчетной величины «хи- квадрат.» - критерия оно сравнивается с табличным (критическим) значением х2, определяемым по статистическим таблицам значений х2-

критерия. х2 определяют в зависимости от уровня значимости а и параметра k=m- т1 -1, где а - вероятность ошибки, ml - число оцененных параметров теоретического распределения по наблюдаемым значениям признака.

Уровень значимости т выбирается таким образом, что Р(хР > х2)=а.

Обычно а принимается равным 0,05 или 0,01, что соответствует вероятности 95% или 99%.

Если хр ^ Xt , то считают, что распределения близки друг другу,

различия между ними несущественны.

Критерий Пирсона можно использовать можно при соблюдении ф°рмат: спис°к следующих условий:

в совокупности не менее 50 единиц наблюдения (N > 50),

теоретические частоты п, >5,- если это условие не соблюдается, то следует объединить интервалы.

Рассчитаем в таблице 4.6.

Значения отклонений (nt -nh) и фактическое значение х2- критерия. По расчету хр = 1,66. Это значение

сравнивается с табличным, определенном при числе степеней свободы k=4 и уровне значимости = 0,05. Оно равно хр =9,49.

Таким образом хрраспределения признаются близкими друг другу с вероятностью 95%, расхождения между ними - несущественными, вызываемыми случайной вариацией признака в совокупности.

На основе? - критерия может быть рассчитан ещё один критерий согласия - критерий Романовского:

л/2 (т - 3) "

Эмпирическое и теоретическое распределения признаются близкими друг другу, если С 5.9.2. Критерий согласия Колмогорова основан на другой мере близости распределений. Для оценки близости эмпирического распределения к нормальному используется максимальная разница между накопленными эмпирическими и накопленными теоретическими частотами. Расчетное значение «лямбда»- критерия» определяется по формуле:

где Д = max{N - N }

Nt - накопленная эмпирическая частота, N,. - накопленная теоретическая частота.

По рассчитанному значению Хр по специальной таблице вероятностей «лямбда»- критерия» определяется вероятность того, что рассматриваемое эмпирическое распределение подчиняется закону нормального распределения. Для рассматриваемого примера Д=2 - в соответствии с расчетом, приведенным в таблице 4.6.

Тогда Яр = -= = = 0,283.

По таблице вероятностей Р(Я) определяем, что Я =0,283 соответствует вероятность Р(Я), близкая к 1.

Полученное значение вероятности свидетельствует о том, что расхождение между эмпирическим и теоретическим распределениями несущественны, вызваны случайной вариацией признака в статистической совокупности. В основе эмпирического распределения рабочих по стажу лежит закон нормального распределения.

Еще по теме 5.9. Оценка близости эмпирического и теоретического распределений:

Эмпирический и теоретический уровни политического знания
Раздел II УПРАВЛЕНИЕ ПРОДАЖАМИ В КАНАЛАХ РАСПРЕДЕЛЕНИЯ: ТЕОРЕТИЧЕСКИЕ АСПЕКТЫ ГЛАВА 8 Каналы распределения: сущность, функции, виды участников