domvpavlino.ru

Как высчитать среднее значение. Как вычислять среднее значение ряда чисел

Роль математики в развитии естественных наук сегодня трудно переоценить. Ее методы все глубже проникают в трудно формализуемые области знаний, обогащая последние интерпретациями и, как результат, стимулируют в них появление новых идей. Сейчас уже сложно согласиться с мнением, что использование математики, например, в биологических науках, ограничивается лишь методической ее частью и связана исключительно с обработкой данных.

Рассмотрим наиболее часто используемую в прикладных исследованиях статистическую величину - среднее значение - и дадим ей геометрическую интерпретацию.

Среднее значение и дисперсия

Понятия среднего и дисперсии возникли из нужд практики численно характеризовать набор измерений, объединенных по тому или иному принципу в группу. Для "средней величины" при этом отводится роль числа, характеризующего набор имеющихся значений в целом. Выбор такого значения - определение средней величины - очевидно, может быть реализовано множеством способов, в зависимости от требуемых свойств вводимой величины. В частности, если имеется множество измерений некоторого физического параметра (например, длины какого-либо объекта), выполненных прибором, имеющем определенную погрешность инструментальных измерений, среднее значение может быть определено как число, лежащее на минимальном суммарном "расстоянии" от всех остальных чисел. Тогда, искомое среднее значение (обозначим его \(m\)) - число досталяющее минимум функции \(Q_1(a)=|x_1-a|+|x_2-a|+\ldots+|x_n-a|\), где \(x_1,\ldots,x_n\) - набор значений, для которого вычисляется среднее. Тем не менее, определенное таким образом среднее обладает рядом особенностей. Во-первых, в случае выборки, состоящей из двух значений (или даже любого четного их числа), функция \(Q_1(a)\) имеет не один минимум (см. рис. слева, на котором дано определение среднего арифметического (\(a^{\ast}\)) и медианы (\(m\)) (по оси ординат масштабы для каждого из графиков разные)) и, следовательно, возникает вопрос какое из них должно быть выбрано в качестве определения среднего. Другим нежелательным следствием прямого использования расстояния между числами является недиффиренцируемость расстояния (функции модуля числа), вносящее определенные математические трудности, в частности, затрудняющее поиск минимума функции \(Q_1(a)\). Поскольку квадрат расстояния обладает теми же прикладными качествами, что и исходное расстояние (точнее, возрастает, убывает и обращается в нуль одновременно с расстоянием), среднее значение можно определить как число, сумма квадратов расстояний от которого до остальных чисел минимальна. Квадрат расстояния между числами - функция гладкая (не имеет углов; строгое определение гладкости функции можно найти в (Фихтенгольц, 2001)), и задача об определении среднего значения в этом случае может быть решена средствами классического математического анализа. Ее решение - хорошо известное среднее арифметическое. Таким образом, среднее арифметическое совокупности величин \(\{x_1,\ldots, x_n\}\) доставляет минимальное (убедиться в этом можно воспользовавшись сначала необходимыми, а потом достаточными условиями локального экстремума функции (Фихтенгольц, 2001): \(\dfrac{dQ_2}{da}=0\)(приводит к уравнению для среднего арифметического) и \(\dfrac{d^2Q_2}{da^2}>0\) (подтверждает, что среднее арифметическое - минимум \(Q_2(a)\)) значение функции \(Q_2(a)=\sum\limits_i(x_i-a)^2\).

Графики функций \(Q_1(a)\) и \(Q_2(a)\) приведенные на рисунке для определенного набора значений \(\{x_1,x_2,x_3,x_4\}\). Из представленной иллюстрации видно, что минимальное значение функции \(Q_1(a)\)достигается для любой точки из интервала \(\), и, таким образом, имеет
место отмеченная выше неопределенность в выборе среднего. В этом случае в качестве среднего (по соглашению) может быть выбрана середина интервала, на котором достигается минимум функции \(Q_1(a)\). Это значение называется медианой выборки (на рисунке). В случае нечетного числа элементов выборки (при условии, что все элементы различны) такой ситуации не возникает, и медиана определяется однозначно. Среднее арифметическое (\(a^{\ast}\)) вне зависимости от четности или повторяемости элементов выборки определяется однозначно, что следует из вида функции \(Q_2(a)\) и условий локального минимума (Фихтенгольц, 2003).

Общее определение средней величины было дано французским математиком О. Коши (1789–1857), который называл средним значением величин \(\{x_1,\ldots, x_n\}\) любую их функцию \(f(x_1,\ldots,x_n)\), результат действия которой лежит между максимальным и минимальным значениями ее аргументов. Более определенная, аксиоматическая характеристика среднего была дана А.Н.Колмогоровым (1908–1987), который на базе введенных четырех аксиом указал конкретный вид выражения для функции \(f(x_1,\ldots,x_n)\). Среднее по А.Н. Колмогорову имеет вид:$$
f(x_1,\ldots,x_n)=\varphi^{-1}\left(\sum\limits_{i=1}^n\varphi(x_i)\right),
$$
где \(\varphi(x)\) - строго неубывающая или невозрастающая непрерывная функция, \(\varphi^{-1}(x)\) - обратная функция к \(\varphi(x)\), т.е. для любого \(x\) справедливо \(\varphi^{-1}(\varphi(x))=x\).

Таким образом, среднее арифметическое и медиана удовлетворяют аксиоматике Коши, однако медиана не является средней величиной по Колмогорову. Причина тому нарушение аксиомы непрерывности среднего от выборочных значений.

На практике распространены задачи, когда требуется численно охарактеризовать разброс выборочных значений, что, например, важно для оценки инструментальных погрешностей прибора по набору однородных измерений какого-либо физического параметра, при объективной оценке ширины ареала обитания вида в факторном пространстве по эмпирическому материалу и др. Как и в случае определения среднего значения эта задача может быть решена множеством способов. Первостепенный шаг в ее решении - определение опорного значения (не обязательно принадлежащего выборке), относительно которого будет вычисляться мера разброса.

Внимательный читатель может заметить, что можно ввести меру разброса не привязываясь к какому-либо опорному значению, например, положив в качестве разброса расстояние между максимальным и минимальным элементами выборки: \(s=x_{\max}-x_{\min}\). Однако и в этом, и в любом другом случае, опорное значение может быть введено искусственно: \(s=(x_{\max}-r)+(r-x_{\min})\), где выражения в скобках - суть расстояния от \(x_{\min}\) и \(x_{\max}\) до произвольной опорной точки \(r\). Поэтому в дальнейших построениях будем полагать существование такой опорной точки.

Возвращаясь к определению средней величины заметим, что значения функций \(Q_1(a)\) и \(Q_2(a)\) могут рассматриваться как разбросы выборочных значений относительно точки \(a\), измеряемые суммой расстояний и квадратов расстояний соответственно. Учитывая, что \(Q_1(m)\) и \(Q_2(a^{\ast})\) определяются однозначно, то они могут быть приняты в качестве мер разброса. Опорными значениями в этом случае будут \(m\) и \(a^{\ast}\). Значение \(Q_1(m)\) в расчетах практически не используется, что связано прежде всего с нежелательными свойствами модуля, отмеченными выше. Величина \(\sigma^2=\dfrac{Q_2(a^{\ast})}{n}=\dfrac{1}{n}\sum\limits_{i=1}^n(x_i-a^{\ast})^2\) хорошо известная выборочная дисперсия. Таким образом, \(\sigma^2\) - нормированная на \(n\) величина суммы квадратов уклонений выборочных значений относительно своего среднего; существуют и другие подходы к определению \(\sigma^2\): это значение можно рассматривать, как среднее арифметическое для производной от $\{x_1,\ldots.\,x_n\}$ выборки \(\{(x_1-a^{\ast})^2,\ldots.\,(x_n-a^{\ast})^2\}\), все элементы которой заведомо неотрицательны и характеризуют разброс относительно среднего арифметического \(a^{\ast}\), можно также мыслить \(\sigma^2\) и \(a^{\ast}\) как результат минимизации \(\hat Q_2(a)=\dfrac{1}{n}Q_2(a)\), в этом случае минимум \(\hat Q_2(a)\) достигается также при \(a=a^{\ast}\), а \(\sigma^2=\hat Q_2(a^{\ast})\).

Введенные числовые характеристики самодостаточны, они не требуют накаких дополнительных ограничений на элементы выборки. Даже вне вероятностного аппарата на их основе могут быть решены некоторые задачи, например, задача о выявлении эффективности действия какого-либо удобрения на урожайность культуры. В этом случае, если у экспериментатора имеются две выборки, представляющие урожайность культуры, выращенной в условиях воздействия удобрения и в естественных условиях, то при различии средних значений у двух выборок могут быть сделаны первоначальные выводы относительно эффективности или неэффективности удобрения. Однако к полученным таким образом выводам следует относиться с известной осторожностью (вообще говоря, как и ко всем выводам, сделанным при помощи математической статистики), особенно в тех случаях, когда различия в средних значениях невелики и подвержены сильным флюктуациям при дальнейшем добавлении к выборкам новых элементов. Более определенная схема исследований возможна на базе представлений теории вероятностей, когда каждое измерение урожайности предполагается случайной величиной. В этом случае первую (полученную при использовании удобрения) выборку представляют одинаково распределенные случайные величины, имеющие одно распределение, а вторую (полученную в естественных условиях) - некоторое другое распределение. При достаточно общих условиях в теории вероятностей доказывается утверждение (центральная предельная теорема) о том, что распределение суммы независимых одинаково распределенных случайных величин имеет вполне определенное расределение, не зависимо от того, какое распределением имели случайные величины, образующие сумму. Поскольку среднее арифметическое - сумма случайных величин, оно в свою очередь также является случайной величиной и, более того, имеет вполне определеный закон распределения. Это позволяет строить выводы о различии средних двух выборок (в прикладной интерпретации - выводы об эффективности применения удобрения), давая им вероятностную характеристику. Более подробная информация по данному вопросу может быть найдена в (Гмурман, 2004). Изложенный вероятностный подход к решению задачи является общепринятым, однако и при его использовании есть свои тонкости (Алимов, 1980), связанные с адекватностью вероятностных моделей в конкретных задачых. Так в работе (Чайковский, 2004; с. 25), указывается что "почти всякий текст, даже очень длинный, обладает тем свойством, что около половины слов встречается в нем всего однажды, так что частоту его ввести всерьез нельзя; да и у часто употребляемых слов частоты могут варьировать, даже в пределах одного автора и тематики, так сильно, что о вероятности (если понимать ее как устойчивую частоту) говорить нет смысла"; там же (с. 62) указывается тот факт, что знаменитый эксперимент К. Пирсона, показавший поразительную сходимость частоты выпадения "герба" при 24000-ом подбрасывании монеты (частота оказалась равной 0.5005), вероятнее всего, - вовремя прерванный эксперимент (Тутубалин, 1992; с. 119): "... сначала Пирсон бросил монету 6000 раз, но результат ему не понравился. Тогда он бросил ее еще 6000 раз и опять не понравилось. Пришлось бросить монету еще 12000 раз, и результат (всех бросаний) оказался замечательным". Подробности, посвященные адекватности моделей теории вероятностей и обсуждению принципиальных вопросов примененимости методов математической статистики можно найти в работах (Алимов, 1980; Чайковский, 2004; Тутубалин, 1992).

Литература

  1. Колмогоров А.Н. Избранные труды. Математика и механика. 1985. С. 136-138
  2. Фихтенгольц Г.М. Курс математического анализа. 2003. Т. 1. 680 с.
  3. Гмурман В.Е. Теория вероятностей и математическая статистика. 2004. 404 с.
  4. Алимов Ю.И. Альтернатива методу математической статистики. 1980. 64 с.
  5. Чайковский Ю.В. О природе случаности. 2004. 280 с.
  6. Тутубалин В.Н. Теория вероятностей и случайных процессов. 1992. 400 с.
Please enable JavaScript to view the

Предположим, что нужно найти среднее число дней для выполнения задач, различными сотрудниками. Или вы хотите вычисление интервала времени 10 лет Средняя температура в определенный день. Вычисление среднего значения ряда чисел несколькими способами.

Среднее функция меры центральной тенденции, в которой находится центр ряда чисел в статистическое распределение. Три большинство общих критериями центральной тенденции выступают.

    Среднее Среднее арифметическое и вычисляется путем добавления ряда чисел и затем деления количества этих чисел. Например среднее значение 2, 3, 3, 5, 7 и 10 имеет 30, разделенных на 6, 5;

    Медиана Средний номер ряда чисел. Половина чисел имеют значения, которые больше, чем Медиана, а половина чисел имеют значения, которые меньше, чем Медиана. Например медиана 2, 3, 3, 5, 7 и 10 - 4.

    Режим Наиболее часто встречающееся число в группе чисел. Например режим 2, 3, 3, 5, 7 и 10 - 3.

Эти три меры центральной тенденции симметричную распределение ряда чисел, являются одни и те же. В асимметричное распределение ряда чисел они могут быть разными.

Вычисление среднего значения ячеек, расположенных непрерывно в одной строке или одном столбце

Выполните следующие действия.

Вычисление среднего значения ячеек, расположенных вразброс

Для выполнения этой задачи используется функция СРЗНАЧ . Скопируйте в приведенной ниже таблице на пустой лист.

Вычисление среднего взвешенного значения

СУММПРОИЗВ и сумм . Пример vThis вычисляет среднюю цену единицы измерения, оплаченная через три покупки, где находится каждый покупки для различное количество единиц измерения по различным ценам за единицу.

Скопируйте в приведенной ниже таблице на пустой лист.

Вычисление среднего значения чисел, без учета нулевых значений

Для выполнения этой задачи используются функции СРЗНАЧ и если . Скопируйте приведенную ниже таблицу и имейте в виду, что в этом примере чтобы проще было понять, скопируйте его на пустой лист.

В математике среднее арифметическое значение чисел (или просто среднее) — это сумма всех чисел в данном наборе, разделенная на их количество. Это наиболее обобщенное и распространенное понятие средней величины. Как вы уже поняли, чтобы найти нужно суммировать все данные вам числа, а полученный результат разделить на количество слагаемых.

Что такое среднее арифметическое?

Давайте рассмотрим пример.

Пример 1 . Даны числа: 6, 7, 11. Нужно найти их среднее значение.

Решение.

Для начала найдем сумму всех данных чисел.

Теперь разделим получившуюся сумму на количество слагаемых. Так как у нас слагаемых три, соответственно, мы будем делить на три.

Следовательно, среднее значение чисел 6, 7 и 11 — это 8. Почему именно 8? Да потому, что сумма 6, 7 и 11 будет такая же, как трех восьмерок. Это отлично видно на иллюстрации.

Среднее значение чем-то напоминает «выравнивание» ряда чисел. Как видите, кучки карандашей стали одного уровня.

Рассмотрим еще один пример, чтобы закрепить полученные знания.

Пример 2. Даны числа: 3, 7, 5, 13, 20, 23, 39, 23, 40, 23, 14, 12, 56, 23, 29. Нужно найти их среднее арифметическое значение.

Решение.

Находим сумму.

3 + 7 + 5 + 13 + 20 + 23 + 39 + 23 + 40 + 23 + 14 + 12 + 56 + 23 + 29 = 330

Делим на количество слагаемых (в этом случае — 15).

Следовательно, среднее значение данного ряда чисел равно 22.

Теперь рассмотрим отрицательные числа. Вспомним, как их суммировать. Например, у вас есть два числа 1 и -4. Найдем их сумму.

1 + (-4) = 1 - 4 = -3

Зная это, рассмотрим еще один пример.

Пример 3. Найти среднее значение ряда чисел: 3, -7, 5, 13, -2.

Решение.

Находим сумму чисел.

3 + (-7) + 5 + 13 + (-2) = 12

Так как слагаемых 5, разделим получившуюся сумму на 5.

Следовательно, среднее арифметическое значение чисел 3, -7, 5, 13, -2 равно 2,4.

В наше время технологического прогресса гораздо удобнее использовать для нахождения среднего значения компьютерные программы. Microsoft Office Excel — одна из них. Искать среднее значение в Excel быстро и просто. Тем более, эта программа входит в пакет программ от Microsoft Office. Рассмотрим краткую инструкцию, значение с помощью этой программы.

Для того чтобы посчитать среднее значение ряда чисел, необходимо использовать функцию AVERAGE. Синтаксис для этой функции:
= Average (argument1, argument2, ... argument255)
где argument1, argument2, ... argument255 — это либо числа, либо ссылки на ячейки (под ячейками подразумеваются диапазоны и массивы).

Чтобы было более понятно, опробуем полученные знания.

  1. Введите числа 11, 12, 13, 14, 15, 16 в ячейки С1 - С6.
  2. Выделите ячейку С7, нажав на нее. В этой ячейке у нас будет отображаться среднее значение.
  3. Щелкните на вкладке «Формулы».
  4. Выберите More Functions > Statistical для того, чтобы открыть
  5. Выберите AVERAGE. После этого должно открыться диалоговое окно.
  6. Выделите и перетащите туда ячейки С1-С6, чтобы задать диапазон в диалоговом окне.
  7. Подтвердите свои действия клавишей «ОК».
  8. Если вы все сделали правильно, в ячейке С7 у вас должен появиться ответ - 13,7. При нажатии на ячейку C7 функция (= Average (C1: C6)) будет отображаться в строке формул.

Очень удобно использовать эту функцию для ведения учета, накладных или когда вам просто нужно найти среднее значение из очень длинного ряда чисел. Поэтому ее часто используют в офисах и крупных компаниях. Это позволяет сохранять порядок в записях и дает возможность быстро посчитать что-либо (например, средний доход за месяц). Также с помощью Excel можно найти среднее значение функции.

Материал из Википедии - свободной энциклопедии

Сре́днее значе́ние - числовая характеристика множества чисел или функций (в математике); - некоторое число, заключённое между наименьшим и наибольшим из их значений.

Основные сведения

Исходным пунктом становления теории средних величин явилось исследование пропорций школой Пифагора . При этом не проводилось строгого различия между понятиями средней величины и пропорции . Значительный толчок развитию теории пропорций с арифметической точки зрения был дан греческими математиками - Никомахом Герасским (конец I - начало II в. н. э.) и Паппом Александрийским (III в. н. э.). Первым этапом развития понятия средней является этап, когда средняя стала считаться центральным членом непрерывной пропорции. Но понятие средней как центрального значения прогрессии не дает возможности вывести понятие средней по отношению к последовательности n членов, независимо от того, в каком порядке они следуют друг за другом. Для этой цели необходимо прибегнуть к формальному обобщению средних. Следующий этап - переход от непрерывных пропорций к прогрессиям - арифметической , геометрической и гармонической (англ. ) .

Каждый из видов средней может выступать либо в форме простой, либо в форме взвешенной средней. Правильность выбора формы средней вытекает из материальной природы объекта исследования . Формулы простых средних применяются в случае, если индивидуальные значения усредняемого признака не повторяются. Когда в практических исследованиях отдельные значения изучаемого признака встречаются несколько раз у единиц исследуемой совокупности, тогда частота повторений индивидуальных значений признака присутствует в расчетных формулах степенных средних. В этом случае они называются формулами взвешенных средних.

Иерархия средних значений в математике

  • среднее значение функции - понятие, определяемое многими способами.
    • Более конкретно, но на основе произвольных функций, определяются средние Колмогорова для набора чисел.
      • среднее степенное - частный случай средних Колмогорова при \phi(x)=x^\alpha. Средние различных степеней связывает между собой неравенство о средних . Наиболее распространённые частные случаи:
        1. среднее арифметическое (\alpha=1);
        2. среднее квадратическое (\alpha=2);
        3. среднее гармоническое (\alpha=-1);
        4. по непрерывности при \alpha\to 0 доопределяется среднее геометрическое , которое также является Колмогоровским средним при \phi(x)=\log x
  • Среднее взвешенное - обобщение средней величины на случай произвольной линейной комбинации :
  • среднее хронологическое - обобщает значения признака для одной и той же единицы или совокупности в целом, изменяющихся во времени.
  • среднее логарифмическое, определяемое по формуле \bar a = \frac{a_1 - a_2}{\ln(a_1/a_2)}, используется в теплотехнике
  • среднее логарифмическое, определяемое в электроизоляции соответствии с ГОСТ 27905.4-88 определяется как log\bar a = \frac{\log a_1+log a_2+...+...log a_n}{a_1+a_2+...+a_n} (логарифм по любому основанию)

В теории вероятностей и статистике

  • непараметрические средние - мода , медиана .
  • среднее значение случайной величины - то же, что математическое ожидание случайной величины. По сути - среднее значение её функции распределения.

См. также

Напишите отзыв о статье "Среднее значение"

Примечания

Отрывок, характеризующий Среднее значение

Он интересовался пустяками, шутил о любви к путешествиям Боссе и небрежно болтал так, как это делает знаменитый, уверенный и знающий свое дело оператор, в то время как он засучивает рукава и надевает фартук, а больного привязывают к койке: «Дело все в моих руках и в голове, ясно и определенно. Когда надо будет приступить к делу, я сделаю его, как никто другой, а теперь могу шутить, и чем больше я шучу и спокоен, тем больше вы должны быть уверены, спокойны и удивлены моему гению».
Окончив свой второй стакан пунша, Наполеон пошел отдохнуть пред серьезным делом, которое, как ему казалось, предстояло ему назавтра.
Он так интересовался этим предстоящим ему делом, что не мог спать и, несмотря на усилившийся от вечерней сырости насморк, в три часа ночи, громко сморкаясь, вышел в большое отделение палатки. Он спросил о том, не ушли ли русские? Ему отвечали, что неприятельские огни всё на тех же местах. Он одобрительно кивнул головой.
Дежурный адъютант вошел в палатку.
– Eh bien, Rapp, croyez vous, que nous ferons do bonnes affaires aujourd"hui? [Ну, Рапп, как вы думаете: хороши ли будут нынче наши дела?] – обратился он к нему.
– Sans aucun doute, Sire, [Без всякого сомнения, государь,] – отвечал Рапп.
Наполеон посмотрел на него.
– Vous rappelez vous, Sire, ce que vous m"avez fait l"honneur de dire a Smolensk, – сказал Рапп, – le vin est tire, il faut le boire. [Вы помните ли, сударь, те слова, которые вы изволили сказать мне в Смоленске, вино откупорено, надо его пить.]
Наполеон нахмурился и долго молча сидел, опустив голову на руку.
– Cette pauvre armee, – сказал он вдруг, – elle a bien diminue depuis Smolensk. La fortune est une franche courtisane, Rapp; je le disais toujours, et je commence a l"eprouver. Mais la garde, Rapp, la garde est intacte? [Бедная армия! она очень уменьшилась от Смоленска. Фортуна настоящая распутница, Рапп. Я всегда это говорил и начинаю испытывать. Но гвардия, Рапп, гвардия цела?] – вопросительно сказал он.
– Oui, Sire, [Да, государь.] – отвечал Рапп.
Наполеон взял пастильку, положил ее в рот и посмотрел на часы. Спать ему не хотелось, до утра было еще далеко; а чтобы убить время, распоряжений никаких нельзя уже было делать, потому что все были сделаны и приводились теперь в исполнение.
– A t on distribue les biscuits et le riz aux regiments de la garde? [Роздали ли сухари и рис гвардейцам?] – строго спросил Наполеон.
– Oui, Sire. [Да, государь.]
– Mais le riz? [Но рис?]
Рапп отвечал, что он передал приказанья государя о рисе, но Наполеон недовольно покачал головой, как будто он не верил, чтобы приказание его было исполнено. Слуга вошел с пуншем. Наполеон велел подать другой стакан Раппу и молча отпивал глотки из своего.
– У меня нет ни вкуса, ни обоняния, – сказал он, принюхиваясь к стакану. – Этот насморк надоел мне. Они толкуют про медицину. Какая медицина, когда они не могут вылечить насморка? Корвизар дал мне эти пастильки, но они ничего не помогают. Что они могут лечить? Лечить нельзя. Notre corps est une machine a vivre. Il est organise pour cela, c"est sa nature; laissez y la vie a son aise, qu"elle s"y defende elle meme: elle fera plus que si vous la paralysiez en l"encombrant de remedes. Notre corps est comme une montre parfaite qui doit aller un certain temps; l"horloger n"a pas la faculte de l"ouvrir, il ne peut la manier qu"a tatons et les yeux bandes. Notre corps est une machine a vivre, voila tout. [Наше тело есть машина для жизни. Оно для этого устроено. Оставьте в нем жизнь в покое, пускай она сама защищается, она больше сделает одна, чем когда вы ей будете мешать лекарствами. Наше тело подобно часам, которые должны идти известное время; часовщик не может открыть их и только ощупью и с завязанными глазами может управлять ими. Наше тело есть машина для жизни. Вот и все.] – И как будто вступив на путь определений, definitions, которые любил Наполеон, он неожиданно сделал новое определение. – Вы знаете ли, Рапп, что такое военное искусство? – спросил он. – Искусство быть сильнее неприятеля в известный момент. Voila tout. [Вот и все.]
Рапп ничего не ответил.
– Demainnous allons avoir affaire a Koutouzoff! [Завтра мы будем иметь дело с Кутузовым!] – сказал Наполеон. – Посмотрим! Помните, в Браунау он командовал армией и ни разу в три недели не сел на лошадь, чтобы осмотреть укрепления. Посмотрим!
Он поглядел на часы. Было еще только четыре часа. Спать не хотелось, пунш был допит, и делать все таки было нечего. Он встал, прошелся взад и вперед, надел теплый сюртук и шляпу и вышел из палатки. Ночь была темная и сырая; чуть слышная сырость падала сверху. Костры не ярко горели вблизи, во французской гвардии, и далеко сквозь дым блестели по русской линии. Везде было тихо, и ясно слышались шорох и топот начавшегося уже движения французских войск для занятия позиции.
Наполеон прошелся перед палаткой, посмотрел на огни, прислушался к топоту и, проходя мимо высокого гвардейца в мохнатой шапке, стоявшего часовым у его палатки и, как черный столб, вытянувшегося при появлении императора, остановился против него.
– С которого года в службе? – спросил он с той привычной аффектацией грубой и ласковой воинственности, с которой он всегда обращался с солдатами. Солдат отвечал ему.

В большинстве случаев данные концентрируются вокруг некоей центральной точки. Таким образом, чтобы описать любой набор данных, достаточно указать средне значение. Рассмотрим последовательно три числовые характеристики, которые используются для оценки среднего значения распределения: среднее арифметическое, медиана и мода.

Среднее арифметическое

Среднее арифметическое (часто называемое просто средним) - наиболее распространенная оценка среднего значения распределения. Она является результатом деления суммы всех наблюдаемых числовых величин на их количество. Для выборки, состоящей из чисел Х 1 , Х 2 , …, Х n , выборочное среднее (обозначаемое символом ) равно = (Х 1 + Х 2 + … + Х n ) / n , или

где - выборочное среднее, n - объем выборки, X i – i-й элемент выборки.

Скачать заметку в формате или , примеры в формате

Рассмотрим вычисление среднего арифметического значения пятилетней среднегодовой доходности 15 взаимных фондов с очень высоким уровнем риска (рис. 1).

Рис. 1. Среднегодовая доходность 15 взаимных фондов с очень высоким уровнем риска

Выборочное среднее вычисляется следующим образом:

Это хороший доход, особенно по сравнению с 3–4% дохода, который получили вкладчики банков или кредитных союзов за тот же период времени. Если упорядочить значения доходности, то легко заметить, что восемь фондов имеют доходность выше, а семь - ниже среднего значения. Среднее арифметическое играет роль точки равновесия, так что фонды с низкими доходами уравновешивают фонды с высокими доходами. В вычислении среднего задействованы все элементы выборки. Ни одна из других оценок среднего значения распределения не обладает этим свойством.

Когда следует вычислять среднее арифметическое. Поскольку среднее арифметическое зависит от всех элементов выборки, наличие экстремальных значений значительно влияет на результат. В таких ситуациях среднее арифметическое может исказить смысл числовых данных. Следовательно, описывая набор данных, содержащий экстремальные значения, необходимо указывать медиану либо среднее арифметическое и медиану. Например, если удалить из выборки доходность фонда RS Emerging Growth, выборочное среднее доходности 14 фондов уменьшится почти на 1% и составит 5,19%.

Медиана

Медиана представляет собой срединное значение упорядоченного массива чисел. Если массив не содержит повторяющихся чисел, то половина его элементов окажется меньше, а половина - больше медианы. Если выборка содержит экстремальные значения, для оценки среднего значения лучше использовать не среднее арифметическое, а медиану. Чтобы вычислить медиану выборки, ее сначала необходимо упорядочить.

Эта формула неоднозначна. Ее результат зависит от четности или нечетности числа n :

  • Если выборка содержит нечетное количество элементов, медиана равна (n+1)/2 -му элементу.
  • Если выборка содержит четное количество элементов, медиана лежит между двумя средними элементами выборки и равна среднему арифметическому, вычисленному по этим двум элементам.

Чтобы вычислить медиану выборки, содержащей данные о доходности 15 взаимных фондов с очень высокий уровнем риска, сначала необходимо упорядочить исходные данные (рис. 2). Тогда медиана будет напротив номера среднего элемента выборки; в нашем примере №8. В Excel есть специальная функция =МЕДИАНА(), которая работает и с неупорядоченными массивами тоже.

Рис. 2. Медиана 15 фондов

Таким образом, медиана равна 6,5. Это означает, что доходность одной половины фондов с очень высоким уровнем риска не превышает 6,5, а доходность второй половины - превышает ее. Обратите внимание на то, что медиана, равная 6,5, ненамного больше среднего значения, равного 6,08.

Если удалить из выборки доходность фонда RS Emerging Growth, то медиана оставшихся 14 фондов уменьшится до 6,2%, то есть не так значительно, как среднее арифметическое (рис. 3).

Рис. 3. Медиана 14 фондов

Мода

Термин был впервые введен Пирсоном в 1894 г. Мода - это число, которое чаще других встречается в выборке (наиболее модное). Мода хорошо описывает, например, типичную реакцию водителей на сигнал светофора о прекращении движения. Классический пример использования моды - выбор размера выпускаемой партии обуви или цвета обоев. Если распределение имеет несколько мод, то говорят, что оно мультимодально или многомодально (имеет два или более «пика»). Мультимодальность распределения дает важную информацию о природе исследуемой переменной. Например, в социологических опросах, если переменная представляет собой предпочтение или отношение к чему-то, то мультимодальность может означать, что существуют несколько определенно различных мнений. Мультимодальность также служит индикатором того, что выборка не является однородной и наблюдения, возможно, порождены двумя или более «наложенными» распределениями. В отличие от среднего арифметического, выбросы на моду не влияют. Для непрерывно распределенных случайных величин, например, для показателей среднегодовой доходности взаимных фондов, мода иногда вообще не существует (или не имеет смысла). Поскольку эти показатели могут принимать самые разные значения, повторяющиеся величины встречаются крайне редко.

Квартили

Квартили - это показатели, которые чаще всего используются для оценки распределения данных при описании свойств больших числовых выборок. В то время как медиана разделяет упорядоченный массив пополам (50% элементов массива меньше медианы и 50% - больше), квартили разбивают упорядоченный набор данных на четыре части. Величины Q 1 , медиана и Q 3 являются 25-м, 50-м и 75-м перцентилем соответственно. Первый квартиль Q 1 - это число, разделяющее выборку на две части: 25% элементов меньше, а 75% - больше первого квартиля.

Третий квартиль Q 3 - это число, разделяющее выборку также на две части: 75% элементов меньше, а 25% - больше третьего квартиля.

Для расчета квартилей в версиях Excel до 2007 г. использовалась функция =КВАРТИЛЬ(массив;часть). Начиная с версии Excel2010 применяются две функции:

  • =КВАРТИЛЬ.ВКЛ(массив;часть)
  • =КВАРТИЛЬ.ИСКЛ(массив;часть)

Эти две функции дают немного различные значения (рис. 4). Например, при вычислении квартилей выборки, содержащей данные о среднегодовой доходности 15 взаимных фондов с очень высоким уровнем риска Q 1 = 1,8 или –0,7 для КВАРТИЛЬ.ВКЛ и КВАРТИЛЬ.ИСКЛ, соответственно. Кстати функция КВАРТИЛЬ, использовавшаяся ранее соответствует современной функции КВАРТИЛЬ.ВКЛ. Для расчета квартилей в Excel с помощью вышеприведенных формул массив данных можно не упорядочивать.

Рис. 4. Вычисление квартилей в Excel

Подчеркнем еще раз. Excel умеет рассчитывать квартили для одномерного дискретного ряда , содержащего значения случайной величины. Расчет квартилей для распределения на основе частот приведен ниже в разделе .

Среднее геометрическое

В отличие от среднего арифметического среднее геометрическое позволяет оценить степень изменения переменной с течением времени. Среднее геометрическое - это корень n -й степени из произведения n величин (в Excel используется функция =СРГЕОМ):

G = (X 1 * X 2 * … * X n) 1/n

Похожий параметр – среднее геометрическое значение нормы прибыли – определяется формулой:

G = [(1 + R 1) * (1 + R 2) * … * (1 + R n)] 1/n – 1,

где R i – норма прибыли за i -й период времени.

Например, предположим, что объем вложенных средств в исходный момент времени равен 100 000 долл. К концу первого года он падает до уровня 50 000 долл., а к концу второго года восстанавливается до исходной отметки 100 000 долл. Норма прибыли этой инвестиции за двухлетний период равна 0, поскольку первоначальный и финальный объем средств равны между собой. Однако среднее арифметическое годовых норм прибыли равно = (–0,5 + 1) / 2 = 0,25 или 25%, поскольку норма прибыли в первый год R 1 = (50 000 – 100 000) / 100 000 = –0,5, а во второй R 2 = (100 000 – 50 000) / 50 000 = 1. В то же время, среднее геометрическое значение нормы прибыли за два года равно: G = [(1–0,5) * (1+1)] 1/2 – 1 = ½ – 1 = 1 – 1 = 0. Таким образом, среднее геометрическое точнее отражает изменение (точнее, отсутствие изменений) объема инвестиций за двухлетний период, чем среднее арифметическое.

Интересные факты. Во-первых, среднее геометрическое всегда будет меньше среднего арифметического тех же чисел. За исключением случая, когда все взятые числа равны друг другу. Во-вторых, рассмотрев свойства прямоугольного треугольника, можно понять, почему среднее называется геометрическим. Высота прямоугольного треугольника, опущенная на гипотенузу, есть среднее пропорциональное между проекциями катетов на гипотенузу, а каждый катет есть среднее пропорциональное между гипотенузой и его проекцией на гипотенузу (рис. 5). Это даёт геометрический способ построения среднего геометрического двух (длин) отрезков: нужно построить окружность на сумме этих двух отрезков как на диаметре, тогда высота, восставленная из точки их соединения до пересечения с окружностью, даст искомую величину:

Рис. 5. Геометрическая природа среднего геометрического (рисунок из Википедии)

Второе важное свойство числовых данных - их вариация , характеризующая степень дисперсии данных. Две разные выборки могут отличаться как средними значениями, так и вариациями. Однако, как показано на рис. 6 и 7, две выборки могут иметь одинаковые вариации, но разные средние значения, либо одинаковые средние значения и совершенно разные вариации. Данные, которым соответствует полигон В на рис. 7, изменяются намного меньше, чем данные, по которым построен полигон А.

Рис. 6. Два симметричных распределения колоколообразной формы с одинаковым разбросом и разными средними значениями

Рис. 7. Два симметричных распределения колоколообразной формы с одинаковыми средними значениями и разным разбросом

Существует пять оценок вариации данных:

  • размах,
  • межквартильный размах,
  • дисперсия,
  • стандартное отклонение,
  • коэффициент вариации.

Размах

Размахом называется разность между наибольшим и наименьшим элементами выборки:

Размах = Х Max – Х Min

Размах выборки, содержащей данные о среднегодовой доходности 15 взаимных фондов с очень высоким уровнем риска, можно вычислить, используя упорядоченный массив (см. рис. 4): Размах = 18,5 – (–6,1) = 24,6. Это значит, что разница между наибольшей и наименьшей среднегодовой доходностью фондов с очень высоким уровнем риска равна 24,6% .

Размах позволяет измерить общий разброс данных. Хотя размах выборки является весьма простой оценкой общего разброса данных, его слабость заключается в том, что он никак не учитывает, как именно распределены данные между минимальным и максимальным элементами. Этот эффект хорошо прослеживается на рис. 8, который иллюстрирует выборки, имеющие одинаковый размах. Шкала В демонстрирует, что если выборка содержит хотя бы одно экстремальное значение, размах выборки оказывается весьма неточной оценкой разброса данных.

Рис. 8. Сравнение трех выборок, имеющих одинаковый размах; треугольник символизирует опору весов, и его расположение соответствует среднему значению выборки

Межквартильный размах

Межквартильный, или средний, размах - это разность между третьим и первым квартилями выборки:

Межквартильный размах = Q 3 – Q 1

Эта величина позволяет оценить разброс 50% элементов и не учитывать влияние экстремальных элементов. Межквартильный размах выборки, содержащей данные о среднегодовой доходности 15 взаимных фондов с очень высоким уровнем риска, можно вычислить, используя данные на рис. 4 (например, для функции КВАРТИЛЬ.ИСКЛ): Межквартильный размах = 9,8 – (–0,7) = 10,5. Интервал, ограниченный числами 9,8 и –0,7, часто называют средней половиной.

Следует отметить, что величины Q 1 и Q 3 , а значит, и межквартильный размах, не зависят от наличия выбросов, поскольку при их вычислении не учитывается ни одна величина, которая была бы меньше Q 1 или больше Q 3 . Суммарные количественные характеристики, такие как медиана, первый и третий квартили, а также межквартильный размах, на которые не влияют выбросы, называются устойчивыми показателями.

Хотя размах и межквартильный размах позволяют оценить общий и средний разброс выборки соответственно, ни одна из этих оценок не учитывает, как именно распределены данные. Дисперсия и стандартное отклонение лишены этого недостатка. Эти показатели позволяют оценить степень колебания данных вокруг среднего значения. Выборочная дисперсия является приближением среднего арифметического, вычисленного на основе квадратов разностей между каждым элементом выборки и выборочным средним. Для выборки Х 1 , Х 2 , … Х n выборочная дисперсия (обозначаемая символом S 2 задается следующей формулой:

В общем случае выборочная дисперсия - это сумма квадратов разностей между элементами выборки и выборочным средним, деленная на величину, равную объему выборки минус один:

где - арифметическое среднее, n - объем выборки, X i - i -й элемент выборки X . В Excel до версии 2007 для расчета выборочной дисперсии использовалась функция =ДИСП(), с версии 2010 используется функция =ДИСП.В().

Наиболее практичной и широко распространенной оценкой разброса данных является стандартное выборочное отклонение . Этот показатель обозначается символом S и равен квадратному корню из выборочной дисперсии:

В Excel до версии 2007 для расчета стандартного выборочного отклонения использовалась функция =СТАНДОТКЛОН(), с версии 2010 используется функция =СТАНДОТКЛОН.В(). Для расчета этих функций массив данных может быть неупорядоченным.

Ни выборочная дисперсия, ни стандартное выборочное отклонение не могут быть отрицательными. Единственная ситуация, в которой показатели S 2 и S могут быть нулевыми, - если все элементы выборки равны между собой. В этом совершенно невероятном случае размах и межквартильный размах также равны нулю.

Числовые данные по своей природе изменчивы. Любая переменная может принимать множество разных значений. Например, разные взаимные фонды имеют разные показатели доходности и убытков. Вследствие изменчивости числовых данных очень важно изучать не только оценки среднего значения, которые по своей природе являются суммарными, но и оценки дисперсии, характеризующие разброс данных.

Дисперсия и стандартное отклонение позволяют оценить разброс данных вокруг среднего значения, иначе говоря, определить, сколько элементов выборки меньше среднего, а сколько - больше. Дисперсия обладает некоторыми ценными математическими свойствами. Однако ее величина представляет собой квадрат единицы измерения - квадратный процент, квадратный доллар, квадратный дюйм и т.п. Следовательно, естественной оценкой дисперсии является стандартное отклонение, которое выражается в обычных единицах измерений - процентах дохода, долларах или дюймах.

Стандартное отклонение позволяет оценить величину колебаний элементов выборки вокруг среднего значения. Практически во всех ситуациях основное количество наблюдаемых величин лежит в интервале плюс-минус одно стандартное отклонение от среднего значения. Следовательно, зная среднее арифметическое элементов выборки и стандартное выборочное отклонение, можно определить интервал, которому принадлежит основная масса данных.

Стандартное отклонение доходности 15 взаимных фондов с очень высоким уровнем риска равно 6,6 (рис. 9). Это значит, что доходность основной массы фондов отличается от среднего значения не более чем на 6,6% (т.е. колеблется в интервале от – S = 6,2 – 6,6 = –0,4 до + S = 12,8). Фактически в этом интервале лежит пятилетняя среднегодовая доходность 53,3% (8 из 15) фондов.

Рис. 9. Стандартное выборочное отклонение

Обратите внимание на то, что в процессе суммирования квадратов разностей элементы выборки, лежащие дальше от среднего значения, приобретают больший вес, чем элементы, лежащие ближе. Это свойство является основной причиной того, что для оценки среднего значения распределения чаще всего используется среднее арифметическое значение.

Коэффициент вариации

В отличие от предыдущих оценок разброса, коэффициент вариации является относительной оценкой. Он всегда измеряется в процентах, а не в единицах измерения исходных данных. Коэффициент вариации, обозначаемый символами CV, измеряет рассеивание данных относительно среднего значения. Коэффициент вариации равен стандартному отклонению, деленному на среднее арифметическое и умноженному на 100%:

где S - стандартное выборочное отклонение, - выборочное среднее.

Коэффициент вариации позволяет сравнить две выборки, элементы которых выражаются в разных единицах измерения. Например, управляющий службы доставки корреспонденции намеревается обновить парк грузовиков. При погрузке пакетов следует учитывать два вида ограничений: вес (в фунтах) и объем (в кубических футах) каждого пакета. Предположим, что в выборке, содержащей 200 пакетов, средний вес равен 26,0 фунтов, стандартное отклонение веса 3,9 фунтов, средний объем пакета 8,8 кубических футов, а стандартное отклонение объема 2,2 кубических фута. Как сравнить разброс веса и объема пакетов?

Поскольку единицы измерения веса и объема отличаются друг от друга, управляющий должен сравнить относительный разброс этих величин. Коэффициент вариации веса равен CV W = 3,9 / 26,0 * 100% = 15%, а коэффициент вариации объема CV V = 2,2 / 8,8 * 100% = 25% . Таким образом, относительный разброс объема пакетов намного больше относительного разброса их веса.

Форма распределения

Третье важное свойство выборки - форма ее распределения. Это распределение может быть симметричным или асимметричным. Чтобы описать форму распределения, необходимо вычислить его среднее значение и медиану. Если эти два показателя совпадают, переменная считается симметрично распределенной. Если среднее значение переменной больше медианы, ее распределение имеет положительную асимметрию (рис. 10). Если медиана больше среднего значения, распределение переменной имеет отрицательную асимметрию. Положительная асимметрия возникает, когда среднее значение увеличивается до необычайно высоких значений. Отрицательная асимметрия возникает, когда среднее значение уменьшается до необычайно малых значений. Переменная является симметрично распределенной, если она не принимает никаких экстремальных значений ни в одном из направлений, так что большие и малые значения переменной уравновешивают друг друга.

Рис. 10. Три вида распределений

Данные, изображенные на шкале А, имеют отрицательную асимметрию. На этом рисунке виден длинный хвост и перекос влево, вызванные наличием необычно малых значений. Эти крайне малые величины смещают среднее значение влево, и оно становится меньше медианы. Данные, изображенные на шкале Б, распределены симметрично. Левая и правая половины распределения являются своими зеркальными отражениями. Большие и малые величины уравновешивают друг друга, а среднее значение и медиана равны между собой. Данные, изображенные на шкале В, имеют положительную асимметрию. На этом рисунке виден длинный хвост и перекос вправо, вызванные наличием необычайно высоких значений. Эти слишком большие величины смещают среднее значение вправо, и оно становится больше медианы.

В Excel описательные статистики можно получить с помощью надстройки Пакет анализа . Пройдите по меню Данные Анализ данных , в открывшемся окне выберите строку Описательная статистика и кликните Ok . В окне Описательная статистика обязательно укажите Входной интервал (рис. 11). Если вы хотите увидеть описательные статистики на том же листе, что и исходные данные, выберите переключатель Выходной интервал и укажите ячейку, куда следует поместить левый верхний угол выводимых статистик (в нашем примере $C$1). Если вы хотите вывести данные на новый лист или в новую книгу, достаточно просто выбрать соответствующий переключатель. Поставьте галочку напротив Итоговая статистика . По желанию также можно выбрать Уровень сложности, k-й наименьший и k-й наибольший .

Если на вкладе Данные в области Анализ у вас не отображается пиктограмма Анализ данных , нужно предварительно установить надстройку Пакет анализа (см., например, ).

Рис. 11. Описательные статистики пятилетней среднегодовой доходности фондов с очень высоким уровнями риска, вычисленные с помощью надстройки Анализ данных программы Excel

Excel вычисляет целый ряд статистик, рассмотренных выше: среднее, медиану, моду, стандартное отклонение, дисперсию, размах (интервал ), минимум, максимум и объем выборки (счет ). Кроме того, Excel вычисляет некоторые новые для нас статистики: стандартную ошибку, эксцесс и асимметричность. Стандартная ошибка равна стандартному отклонению, деленному на квадратный корень объема выборки. Асимметричность характеризует отклонение от симметричности распределения и является функцией, зависящей от куба разностей между элементами выборки и средним значением. Эксцесс представляет собой меру относительной концентрации данных вокруг среднего значения по сравнению с хвостами распределения и зависит от разностей между элементами выборки и средним значением, возведенных в четвертую степень.

Вычисление описательных статистик для генеральной совокупности

Среднее значение, разброс и форма распределения, рассмотренные выше, представляют собой характеристики, определяемые по выборке. Однако, если набор данных содержит числовые измерения всей генеральной совокупности, можно вычислить ее параметры. К числу таких параметров относятся математическое ожидание, дисперсия и стандартное отклонение генеральной совокупности.

Математическое ожидание равно сумме всех значений генеральной совокупности, деленной на объем генеральной совокупности:

где µ - математическое ожидание, X i - i -е наблюдение переменной X , N - объем генеральной совокупности. В Excel для вычисления математического ожидания используется та же функция, что и для среднего арифметического: =СРЗНАЧ().

Дисперсия генеральной совокупности равна сумме квадратов разностей между элементами генеральной совокупности и мат. ожиданием, деленной на объем генеральной совокупности:

где σ 2 – дисперсия генеральной совокупности. В Excel до версии 2007 для вычисления дисперсии генеральной совокупности используется функция =ДИСПР(), начиная с версии 2010 =ДИСП.Г().

Стандартное отклонение генеральной совокупности равно квадратному корню, извлеченному из дисперсии генеральной совокупности:

В Excel до версии 2007 для вычисления стандартного отклонения генеральной совокупности используется функция =СТАНДОТКЛОНП(), начиная с версии 2010 =СТАНДОТКЛОН.Г(). Обратите внимание на то, что формулы для дисперсии и стандартного отклонения генеральной совокупности отличаются от формул для вычисления выборочной дисперсии и стандартного отклонения. При вычислении выборочных статистик S 2 и S знаменатель дроби равен n – 1 , а при вычислении параметров σ 2 и σ - объему генеральной совокупности N .

Эмпирическое правило

В большинстве ситуаций крупная доля наблюдений концентрируется вокруг медианы, образуя кластер. В наборах данных, имеющих положительную асимметрию, этот кластер расположен левее (т.е. ниже) математического ожидания, а в наборах, имеющих отрицательную асимметрию, этот кластер расположен правее (т.е. выше) математического ожидания. У симметричных данных математическое ожидание и медиана совпадают, а наблюдения концентрируются вокруг математического ожидания, формируя колоколообразное распределение. Если распределение не имеет ярко выраженной асимметрии, а данные концентрируются вокруг некоего центра тяжести, для оценки изменчивости можно применять эмпирическое правило, которое гласит: если данные имеют колоколообразное распределение, то приблизительно 68% наблюдений отстоят от математического ожидания не более чем на одно стандартное отклонение, приблизительно 95% наблюдений отстоят от математического ожидания не более чем на два стандартных отклонения и 99,7% наблюдений отстоят от математического ожидания не более чем на три стандартных отклонения.

Таким образом, стандартное отклонение, представляющее собой оценку среднего колебания вокруг математического ожидания, помогает понять, как распределены наблюдения, и идентифицировать выбросы. Из эмпирического правила следует, что для колоколообразных распределений лишь одно значение из двадцати отличается от математического ожидания больше, чем на два стандартных отклонения. Следовательно, значения, лежащие за пределами интервала µ ± 2σ , можно считать выбросами. Кроме того, только три из 1000 наблюдений отличаются от математического ожидания больше чем на три стандартных отклонения. Таким образом, значения, лежащие за пределами интервала µ ± 3σ практически всегда являются выбросами. Для распределений, имеющих сильную асимметрию или не имеющих колоколообразной формы, можно применять эмпирическое правило Бьенамэ-Чебышева.

Более ста лет назад математики Бьенамэ и Чебышев независимо друг от друга открыли полезное свойство стандартного отклонения. Они обнаружили, что для любого набора данных, независимо от формы распределения, процент наблюдений, лежащих на расстоянии не превышающем k стандартных отклонений от математического ожидания, не меньше (1 – 1/ k 2)*100% .

Например, если k = 2, правило Бьенамэ-Чебышева гласит, что как минимум (1 – (1/2) 2) х 100% = 75% наблюдений должно лежать в интервале µ ± 2σ . Это правило справедливо для любого k , превышающего единицу. Правило Бьенамэ-Чебышева носит весьма общий характер и справедливо для распределений любого вида. Оно указывает минимальное количество наблюдений, расстояние от которых до математического ожидания не превышает заданной величины. Однако, если распределение имеет колоколообразную форму, эмпирическое правило более точно оценивает концентрацию данных вокруг математического ожидания.

Вычисление описательных статистик для распределения на основе частот

Если исходные данные недоступны, единственным источником информации становится распределение частот. В таких ситуациях можно вычислить приближенные значения количественных показателей распределения, таких как среднее арифметическое, стандартное отклонение, квартили.

Если выборочные данные представлены в виде распределения частот, приближенное значение среднего арифметического можно вычислить, предполагая, что все значения внутри каждого класса сосредоточены в средней точке класса:

где - выборочное среднее, n - количество наблюдений, или объем выборки, с - количество классов в распределении частот, m j - средняя точка j -гo класса, f j - частота, соответствующая j -му классу.

Для вычисления стандартного отклонения по распределению частот также предполагается, что все значения внутри каждого класса сосредоточены в средней точке класса.

Чтобы понять, как определяются квартили ряда на основе частот, рассмотрим расчет нижнего квартиля на основе данных за 2013 г. о распределении населения России по величине среднедушевых денежных доходов (рис. 12).

Рис. 12. Доля населения России со среднедушевыми денежными доходами в среднем за месяц, рублей

Для расчета первого квартиля интервального вариационного ряда можно воспользоваться формулой:

где Q1 – величина первого квартиля, хQ1 – нижняя граница интервала, содержащего первый квартиль (интервал определяется по накопленной частоте, первой превышающей 25%); i – величина интервала; Σf – сумма частот всей выборки; наверное, всегда равна 100%; SQ1–1 – накопленная частота интервала, предшествующего интервалу, содержащему нижний квартиль; fQ1 – частота интервала, содержащего нижний квартиль. Формула для третьего квартиля отличается тем, что во всех местах вместо Q1 нужно использовать Q3, а вместо ¼ подставить ¾.

В нашем примере (рис. 12) нижний квартиль находится в интервале 7000,1 – 10 000, накопленная частота которого равна 26,4%. Нижняя граница этого интервала – 7000 руб., величина интервала – 3000 руб., накопленная частота интервала, предшествующего интервалу, содержащему нижний квартиль – 13,4%, частота интервала, содержащего нижний квартиль – 13,0%. Таким образом: Q1 = 7000 + 3000 * (¼ * 100 – 13,4) / 13 = 9677 руб.

Ловушки, связанные с описательными статистиками

В этой заметке мы рассмотрели, как описать набор данных с помощью различных статистик, оценивающих его среднее значение, разброс и вид распределения. Следующим этапом является анализ и интерпретация данных. До сих пор мы изучали объективные свойства данных, а теперь переходим к их субъективной трактовке. Исследователя подстерегают две ошибки: неверно выбранный предмет анализа и неправильная интерпретация результатов.

Анализ доходности 15 взаимных фондов с очень высоким уровнем риска является вполне беспристрастным. Он привел к совершенно объективным выводам: все взаимные фонды имеют разную доходность, разброс доходности фондов колеблется от –6,1 до 18,5, а средняя доходность равна 6,08. Объективность анализа данных обеспечивается правильным выбором суммарных количественных показателей распределения. Было рассмотрено несколько способов оценки среднего значения и разброса данных, указаны их преимущества и недостатки. Как же выбрать правильную статистику, обеспечивающую объективный и беспристрастный анализ? Если распределение данных имеет небольшую асимметрию, следует ли выбирать медиану, а не среднее арифметическое? Какой показатель более точно характеризует разброс данных: стандартное отклонение или размах? Следует ли указывать на положительную асимметрию распределения?

С другой стороны, интерпретация данных является субъективным процессом. Разные люди приходят к разным выводам, истолковывая одни и те же результаты. У каждого своя точка зрения. Кто-то считает суммарные показатели среднегодовой доходности 15 фондов с очень высоким уровнем риска хорошими и вполне доволен полученным доходом. Другим может показаться, что эти фонды имеют слишком низкую доходность. Таким образом, субъективность следует компенсировать честностью, нейтральностью и ясностью выводов.

Этические проблемы

Анализ данных неразрывно связан с этическими вопросами. Следует критически относиться к информации, распространяемой газетами, радио, телевидением и Интерентом. Со временем вы научитесь скептически относиться не только к результатам, но и к целям, предмету и объективности исследований. Лучше всего об этом сказал известный британский политик Бенджамин Дизраэли: «Существуют три вида лжи: ложь, наглая ложь и статистика».

Как было отмечено в заметке этические проблемы возникают при выборе результатов, которые следует привести в отчете. Следует публиковать как положительные, так и отрицательные результаты. Кроме того, делая доклад или письменный отчет, результаты необходимо излагать честно, нейтрально и объективно. Следует различать неудачную и нечестную презентации. Для этого необходимо определить, каковы были намерения докладчика. Иногда важную информацию докладчик пропускает по невежеству, а иногда - умышленно (например, если он применяет среднее арифметическое для оценки среднего значения явно асимметричных данных, чтобы получить желаемый результат). Нечестно также замалчивать результаты, которые не соответствуют точке зрения исследователя.

Используются материалы книги Левин и др. Статистика для менеджеров. – М.: Вильямс, 2004. – с. 178–209

Функция КВАРТИЛЬ оставлена для совмещения с более ранними версиями Excel

Загрузка...