Расчет критерия Стьюдента в Excel

Excel
Содержание
  1. Определение термина
  2. Что такое статистическая значимость?
  3. Зачем проверять статистическую значимость?
  4. Что такое T-распределение студента?
  5. Распределение Стьюдента
  6. Условия применения t-критерия Стьюдента
  7. Пример проверки гипотезы о математическом ожидании с помощью t- критерия Стьюдента в MS Excel
  8. Расчет доверительного интервала для математического ожидания с помощью t-распределения Стьюдента в Excel
  9. Расчет показателя в Excel
  10. Способ 1: Мастер функций
  11. Способ 2: работа со вкладкой «Формулы»
  12. Способ 3: ручной ввод
  13. Пример использования т-критерия Стьюдента
  14. Для чего используется t-критерий Стьюдента?
  15. В каких случаях можно использовать t-критерий Стьюдента?
  16. Как интерпретировать значение t-критерия Стьюдента?
  17. Критические точки распределения Стьюдента
  18. Как пользоваться функцией распределения Стьюдента СТЮДРАСПОБР В EXCEL
  19. Как сделать T-тест в Excel
  20. Проверка и загрузка надстройки Toolpak для анализа
  21. Выполнение F-теста и T-теста в Excel

Определение термина

Но для начала давайте все-таки выясним, что такое критерий Стьюдента вообще. Этот индикатор используется для проверки сходства между средними значениями двух выборок. То есть он определяет достоверность различий между двумя группами данных. При этом для определения этого критерия используется целый комплекс методов. Индикатор может рассчитываться с одно- или двусторонним распределением.

Что такое статистическая значимость?

Представьте, что вы хотите узнать, какая из двух ног дает наилучший результат. Вы бросаете первый кубик и получаете 2; вы бросаете второй кубик и получаете 6. Означает ли это, что второй кубик обычно дает больше очков? Если вы ответили «Конечно, нет», у вас уже есть некоторое представление о статистической значимости. Вы понимаете, что разница возникла из-за случайного изменения счета при каждом броске кости. Поскольку выборка была очень маленькой (всего один бросок), ничего существенного она не показала.

Теперь представьте, что вы бросаете каждый кубик 6 раз:

  • Первые кости бросают 3, 6, 6, 4, 3, 3; Среднее = 4,17
  • Второй бросает кубик 5, 6, 2, 5, 2, 4; Среднее = 4,00

Означает ли это, что первая кость дает больше очков, чем вторая? Возможно нет. Небольшая выборка с относительно небольшой разницей между средними делает вероятным, что разница все же обусловлена ​​случайной вариацией. По мере того, как мы увеличиваем количество бросков костей, становится трудно дать разумный ответ на вопрос — является ли разница между оценками результатом случайной вариации или на самом деле более вероятно, что один из них дает более высокий балл, чем другой?

Значимость — это вероятность того, что наблюдаемая разница между выборками обусловлена ​​случайными колебаниями. Это значение часто называют альфа-уровнем или просто «α». Уровень достоверности, или просто «s», — это вероятность того, что разница между выборками не связана со случайной вариацией; иными словами, существует разница между большими группами населения. Следовательно: c = 1 — α

Мы можем установить «α» на любой уровень, если хотим быть уверенными в том, что доказали свою ценность. Очень часто используется α = 5 % (достоверность 95 %), но если мы хотим быть абсолютно уверены, что любые различия не вызваны случайными колебаниями, мы можем использовать более высокий уровень достоверности, используя α = 1 % или даже α = 0,1 %.

Различные статистические тесты используются для расчета значимости в различных ситуациях. T-тесты используются, чтобы определить, различаются ли средние значения двух популяций, а F-тесты используются, чтобы определить, различаются ли средние значения .

Зачем проверять статистическую значимость?

Когда мы сравниваем разные вещи, мы должны использовать проверку значимости, чтобы выяснить, лучше ли одна вещь, чем другая. Это относится ко многим полям, например:

  • В бизнесе людям приходится сравнивать различные продукты и методы маркетинга.
  • В спорте людям приходится сравнивать различное оборудование, технику и соперников.
  • В процессе разработки людям приходится сравнивать различные конструкции и настройки параметров.

Если вы хотите проверить, работает ли что-то лучше, чем что-то другое, в какой-либо области, вам необходимо проверить статистическую значимость.

Что такое T-распределение студента?

Распределение Стьюдента равно нормальному (или гауссовскому) распределению. Оба распределения имеют форму колокола, большинство из которых близки к среднему, но некоторые редкие события довольно далеки от среднего в любом направлении, которые называются хвостами распределения.

Точная форма распределения Стьюдента зависит от размера выборки. Для выборок более 30 это очень похоже на нормальное распределение. По мере уменьшения размера выборки хвосты становятся больше, отражая возросшую неопределенность, связанную с выводами из небольшой выборки.

Читайте также: Как задать область печати в Excel

Распределение Стьюдента

Общий подход к проверке гипотез описан здесь, так что сразу к делу. Сначала предположим, что выборка составлена ​​из нормального набора случайных величин X с общим средним значением µ и дисперсией σ2. Очевидно, что среднее арифметическое этой выборки само по себе является случайной величиной. Если мы возьмем много таких выборок и вычислим по ним средние значения, они также будут иметь нормальное распределение с математическим ожиданием µ и дисперсией

Общая дисперсия среднего

Тогда случайная величина

Нормализованное отклонение выборочного среднего

имеет стандартное нормальное распределение со всеми вытекающими последствиями. Например, с вероятностью 95% значение не выйдет за пределы ±1,96.

Однако это приближение будет правильным, если известна общая дисперсия. На самом деле это обычно неизвестно. Вместо этого они берут оценку — несмещенную выборочную дисперсию:

Оценка дисперсии среднего

где

Пример объективной дисперсии

Возникает вопрос: будет ли общее среднее с вероятностью 95% находиться в пределах ±1,96sx̅. Другими словами, распределения случайных величин

Нормализованное отклонение выборочного среднего

и

Нормализованное отклонение среднего значения выборки от оценки стандартной ошибки

эквивалент.

Впервые этот вопрос поднял (и решил) химик, работавший на пивоваренном заводе Гиннесс в Дублине (Ирландия). Химика звали Уильям Сили Госсет, и он взял образцы пива для химического анализа. В какой-то момент Уильям, по-видимому, начал смутно сомневаться в распределении средних значений. Это оказалось немного более разбросанным, чем должно быть нормальное распределение.

После составления математического обоснования и вычисления значений открытой им функции распределения дублинский химик Уильям Госсет написал заметку, которая была опубликована в мартовском номере журнала Biometrics за 1908 год (главный редактор — Карл Пирсон). Гиннес строго запрещал разглашать секреты пивоварения, и Госсет подписался под псевдонимом Студент.

Несмотря на то, что К. Пирсон уже изобрел распределение хи-квадрат, все же господствовало общее представление о нормальности. Никому и в голову не придет, что распределение выборочных оценок может быть ненормальным. Поэтому статья У. Госсета осталась практически незамеченной и забытой. И только Рональд Фишер оценил открытие Госсета. Фишер использовал новое распределение в своей работе и назвал его t-распределением Стьюдента. В результате критерием проверки гипотез стал критерий Стьюдента. Так произошла «революция» в статистике, вступившая в эру анализа выборочных данных. Это был небольшой экскурс в историю.

Посмотрим, что смог увидеть У. Госсет. Мы генерируем 20 тысяч нормальных выборок из 6 наблюдений со средним значением (X̅) 50 и стандартным отклонением (σ) 10. Затем мы нормализуем средние значения выборки, используя общую дисперсию:

Нормализация среднего с использованием общей дисперсии

Полученные 20 тысяч средних группируем в интервалы длиной 0,1 и вычисляем частоты. Нанесем на график фактическое (Norm) и теоретическое (ENorm) частотное распределение выборочных средних.

Распределение среднего арифметического

Точки (наблюдаемые частоты) практически совпадают с линией (теоретические частоты). Это понятно, потому что данные взяты из одной и той же общей совокупности, а различия — это просто ошибки выборки.

Проведем еще один эксперимент. Мы нормализуем средние значения, используя выборочную дисперсию.

Нормализация среднего с использованием выборочной дисперсии

Снова посчитаем частоты и нанесем их на диаграмму точками, оставив линию стандартного нормального распределения для сравнения. Обозначим эмпирическую частоту средних, например, через букву t.

Отличие распределения среднего от нормального закона

Вы можете видеть, что распределения на этот раз не очень похожи. Близко, да, но не то же самое. Хвосты стали более «тяжелыми».

У Госсет-Стьюдента не было последней версии MS Excel, но именно этот эффект он и заметил. Почему это так? Объясняется это тем, что случайная величина

Нормализованное отклонение среднего значения выборки от оценки стандартной ошибки

зависит не только от ошибки выборки (числителя), но и от стандартной ошибки среднего (знаменателя), которая также является случайной величиной.

Давайте немного узнаем, какое распределение должна иметь такая случайная величина. Сначала нужно вспомнить (или выучить) кое-что из математической статистики. Есть такая теорема Фишера, которая утверждает, что в выборке из нормального распределения:

1 среднее значение X̅ и выборочная дисперсия s2 являются независимыми величинами;

2. Отношение между выборочной и общей дисперсией, умноженное на число степеней свободы, имеет распределение χ2 (хи-квадрат) с тем же числом степеней свободы, т.е.

Теорема Фишера

где k — количество степеней свободы (в англ. Degrees of Freedom (df.))

Вернемся к распределению среднего. Разделить числитель и знаменатель выражения

Нормализованное отклонение среднего значения выборки от оценки стандартной ошибки

на σX̅. Немного

Вывод t-критерия

Числитель — стандартная нормальная случайная величина (обозначим ξ (xi)). Знаменатель может быть выражен из теоремы Фишера.

Вывод t-критерия 2

Тогда исходное выражение примет вид

t-критерий Стьюдента

Это t-критерий Стьюдента в общих чертах (коэффициент Стьюдента). Уже можно вывести функцию распределения напрямую, потому что распределения обеих случайных величин в этом выражении известны. Оставим эту радость математикам.

Функция распределения Стьюдента имеет довольно сложную для понимания формулу, поэтому анализировать ее нет смысла. Вероятности и квантили t-критерия задаются в специальных таблицах распределения Стьюдента и оцениваются в функциях различных программ, таких как Excel.

Тогда, вооружившись новыми знаниями, вы сможете разобраться в официальном определении дистрибутива Стьюдента.
Случайная величина, подчиняющаяся распределению Стьюдента с k степенями свободы, представляет собой отношение независимых случайных величин

t-критерий Стьюдента

где ξ распределено по стандартному нормальному закону, а χ2k следует распределению χ2 ck со степенями свободы.

Итак, формула критерия Стьюдента для среднего арифметического

Нормализованное отклонение среднего значения выборки от оценки стандартной ошибки

частный случай студенческих отношений

t-критерий Стьюдента

Из формулы и определения следует, что распределение критерия Стьюдента зависит только от числа степеней свободы.

При k > 30 t-критерий практически не отличается от стандартного нормального распределения.

В отличие от хи-квадрата, t-критерий может быть односторонним или двусторонним. Обычно используется двусторонний, при условии, что отклонение может происходить в обе стороны от среднего значения. Однако если состояние задачи допускает отклонение только в одну сторону, целесообразно использовать односторонний критерий. Это несколько увеличивает мощность критерия.

Условия применения t-критерия Стьюдента

Хотя открытие Стьюдента когда-то произвело революцию в области статистики, t-критерий по-прежнему весьма ограничен в своей применимости, поскольку сам исходит из предположения о нормальном распределении исходных данных. Если данные не являются нормальными (что обычно и бывает), t-критерий больше не будет иметь распределения Стьюдента. Однако из-за действия центральной предельной теоремы среднее даже для ненормальных данных быстро приобретает колоколообразную форму распределения.

Например, рассмотрите данные, которые имеют ярко выраженный перекос вправо, такие как распределение хи-квадрат с 5 степенями свободы.

Распределение хи-квадрат

Теперь сделаем 20 тысяч выборок и посмотрим, как меняется распределение средств в зависимости от размера.

Разница весьма заметна на небольших выборках до 15–20 наблюдений. Но потом быстро исчезает. Таким образом, аномальность в раздаче, конечно, нехорошая, но не критическая.

Больше всего t-критерий «боится» выбросов, т.е аномальных отклонений. Возьмем 20 тысяч нормальных выборок из 15 наблюдений и добавим к любой из них случайный выброс.

Влияние аномальных выбросов на распределение среднего

Картина недовольна. Реальные частоты средних сильно отличаются от теоретических. Использование t-распределения в такой ситуации становится очень рискованной затеей.

Так, на не очень малых выборках (из 15 наблюдений) t-критерий относительно устойчив к ненормальному распределению исходных данных. Но выбросы в данных сильно искажают распределение t-критерия, что, в свою очередь, может привести к ошибкам статистического вывода, поэтому аномальные наблюдения следует исключить. Часто все значения, выходящие за пределы ±2 стандартных отклонений от среднего, удаляются из выборки.

Пример проверки гипотезы о математическом ожидании с помощью t- критерия Стьюдента в MS Excel

В Excel есть несколько функций, связанных с t-распределением. Давайте рассмотрим их.

STUDENT.DIST — «классическое» левостороннее t-распределение Стьюдента. Входными данными являются значение t-критерия, количество степеней свободы и опция (0 или 1), определяющая, что вычислять: плотность или значение функции. На выходе получаем соответственно плотность или вероятность того, что случайная величина будет меньше заданного в аргументе t-критерия, т.е левое p-значение.

СТУДЕНТ.РАСП.2X — двухстороннее распределение. В качестве аргументов задается абсолютное значение (по модулю) t-критерия и число степеней свободы. На выходе получаем вероятность достижения такого или даже большего значения t-критерия (по модулю), т.е фактического уровня значимости (p-значения).

STUDENT.DIST.RH — правостороннее t-распределение. Итак, 1-СТУДЕНТ.РАСПРЕДЕЛЕНИЕ(2;5;1) = СТУДЕНТ.РАСПРЕДЕЛЕНИЕ.PX(2;5) = 0,05097. Если t-тест положительный, результирующая вероятность является p-значением.

СТУДЕНТ.ОБР — используется для вычисления левой обратной величины t-распределения. Аргументом является вероятность и число степеней свободы. На выходе получаем значение t-критерия, соответствующее этой вероятности. Вероятность считается слева. Поэтому для левого хвоста требуется уровень значимости α, а для правого 1.

STUDENT.ORD.2X является обратной величиной двустороннего распределения Стьюдента, то есть значением t-критерия (по модулю). На вход также подается уровень значимости α. Только на этот раз обратный отсчет ведется с обеих сторон одновременно, поэтому вероятность распределяется на две решки. Тогда СТУДЕНТ.ОБР (1-0,025; 5) = СТУДЕНТ. ССЫЛКА 2Х (0,05; 5) = 2,57058

STUDENT.TEST — функция проверки гипотезы о равенстве математических ожиданий в двух выборках. Заменяет кучу вычислений, ведь достаточно указать всего два диапазона данных и еще пару параметров. На выходе будет p-значение.

STUDENTCONFIDENCE — расчет доверительного интервала среднего с учетом t-распределения.

Рассмотрим такой обучающий пример. Компания фасует цемент в мешки по 50 кг. Из-за хаотичности в единичном мешке допускается некоторое отклонение от ожидаемой массы, но общая средняя должна оставаться 50 кг. Отдел контроля качества случайным образом взвесил 9 мешков и получил следующие результаты: средний вес (X̅) составил 50,3 кг, стандартное отклонение (отклонения) составило 0,5 кг.

Согласуется ли результат с нулевой гипотезой о том, что общий средний вес равен 50 кг? Иными словами, можно ли получить такой результат по чистой случайности, если оборудование работает исправно и дает заправку в среднем 50 кг? Если гипотеза не отвергается, то полученная разность укладывается в выборку случайных колебаний, если же гипотеза отвергается, то, скорее всего, произошла ошибка в настройках аппарата, наполняющего мешки. Его необходимо проверить и отрегулировать.

Краткое состояние в общепринятых обозначениях выглядит так.

H0: μ = 50 кг

Га: μ ≠ 50 кг

Есть основания предполагать, что распределение покрытия мешков следует нормальному распределению (или не сильно отличается от него). Итак, для проверки гипотезы математического ожидания можно использовать критерий Стьюдента. Случайные отклонения могут возникать в любом направлении, поэтому необходим двусторонний t-критерий.

Во-первых, мы используем допотопные средства: вручную вычисляем t-критерий и сравниваем его с критическим табличным значением. Расчетный t-тест:

Фактический t-критерий при 9 наблюдениях

Теперь выясним, выходит ли полученное число за пределы критического уровня при уровне значимости α = 0,05. Воспользуемся таблицей критериев Стьюдента (ее можно найти в любом учебнике по статистике).

Таблица распределения Стьюдента

Столбцы показывают вероятность правой части распределения, строки показывают количество степеней свободы. Нас интересует двусторонний t-критерий с уровнем значимости 0,05, который соответствует t-значению половины уровня значимости справа: 1 — 0,05/2 = 0,975. Число степеней свободы равно объему выборки минус 1, т.е. 9 — 1 = 8. На пересечении находим табличное значение t-критерия — 2,306. Если бы мы использовали стандартное нормальное распределение, критическая точка была бы 1,96, но здесь она больше, потому что t-распределение на малых выборках имеет более уплощенную форму.

Сравниваем фактическое (1,8) и табличное значение (2,306). Расчетный критерий оказался меньше табличного. Таким образом, имеющиеся данные не противоречат (но и не подтверждают) гипотезе H0 о том, что общая средняя составляет 50 кг. Это все, что мы можем выяснить с помощью таблиц. Конечно, можно попытаться найти p-значение, но оно будет приблизительным. И, как правило, p-значение используется для проверки гипотез. Итак, давайте перейдем к Excel.

Готовой функции для расчета t-критерия в Excel нет. Но это не страшно, ведь формула критерия Стьюдента достаточно проста и легко строится прямо в ячейке Excel.

Расчет критерия Стьюдента в Excel

У меня такой же 1.8. Сначала найдем критическое значение. Берем альфу 0,05, критерий двусторонний. Нам понадобится функция обратного значения t-распределения для двусторонней гипотезы STUDENT.OBR.2X.

Сравнение расчетных значений и табличных значений для t-критерия Стьюдента

Полученное значение пересекает критическую область. Наблюдаемый t-критерий в него не попадает, поэтому гипотеза не отвергается.

Однако это тот же способ проверки гипотезы с табличным значением. Было бы более информативно рассчитать p-значение, т.е вероятность получить наблюдаемое или даже большее отклонение от среднего значения в 50 кг, если эта гипотеза верна. Вам нужна функция распределения Стьюдента для двусторонней гипотезы STUDENT.DIST.2X.

Расчет P-значения для t-критерия

Р-значение равно 0,1096, что больше допустимого уровня значимости 0,05 – мы не отвергаем гипотезу. Но теперь мы можем судить о степени доказательств. P-значение оказалось достаточно близким к уровню, когда гипотеза отвергается, и это наводит на разные мысли. Например, что выборка была слишком мала, чтобы обнаружить значительное отклонение.

Допустим, через какое-то время отдел контроля снова решил проверить, как соблюдается норма наполнения мешков. На этот раз для большей достоверности было отобрано не 9, а 25 мешков. Интуитивно понятно, что разброс среднего уменьшится, а значит, возрастут шансы найти неисправность в системе.

Допустим, были получены те же значения выборочного среднего и стандартного отклонения, что и в первый раз (50,3 и 0,5 соответственно). Давайте посчитаем t-критерий.

Расчет t-критерия для выборки из 25 наблюдений
Критическое значение для 24 степеней свободы и α = 0,05 составляет 2,064. На изображении ниже показано, что t-критерий попадает в область отклонения гипотезы.

Отклонение гипотез

Можно сделать вывод, что при доверительной вероятности более 95 % общее среднее значение отклоняется от 50 кг. Чтобы быть более убедительным, давайте посмотрим на p-значение (последняя строка таблицы). Вероятность получения среднего с таким или даже большим отклонением от 50, если гипотеза верна, составляет 0,0062, или 0,62%, что практически невозможно при однократном измерении. В общем, мы отвергаем эту гипотезу как маловероятную.

Расчет доверительного интервала для математического ожидания с помощью t-распределения Стьюдента в Excel

Еще одним статистическим методом, тесно связанным с проверкой гипотез, является расчет доверительных интервалов. Если значение, соответствующее нулевой гипотезе, попадает в полученный интервал, это соответствует тому, что нулевая гипотеза не отвергается. В противном случае гипотеза отвергается с соответствующим уровнем достоверности. В некоторых случаях аналитики вообще не проверяют гипотезы в классической форме, а только рассчитывают доверительные интервалы. Такой подход позволяет извлечь еще больше полезной информации.

Рассчитаем доверительные интервалы для среднего при 9 и 25 наблюдениях. Для этого воспользуемся функцией Excel ДОВЕРИЕ.СТУДЕНТ. Здесь все как ни странно очень просто. В аргументах функции нужно указать только уровень значимости α, стандартное отклонение выборки и размер выборки. На выходе получаем полуширину доверительного интервала, то есть значение, которое необходимо отложить по обе стороны от среднего. Проведя расчеты и нарисовав наглядную схему, получаем следующее.

Проверка гипотез через доверительные интервалы

Как видно, при выборке из 9 наблюдений значение 50 попадает в доверительный интервал (гипотеза не отвергается), а при 25 наблюдениях не попадает (гипотеза отвергается). В то же время в эксперименте с 25 мешками можно утверждать, что с вероятностью 97,5 % общая средняя превышает 50,1 кг (нижняя граница доверительного интервала 50,094 кг). И это довольно ценная информация.

Таким образом, мы решили одну и ту же задачу тремя способами:

1. Древний подход, сравнивающий расчетное значение и табличное значение t-критерия
2. Более современные, вычисляя p-значение, добавляют некоторую степень уверенности, чтобы отвергнуть гипотезу.
3. Еще более информативно за счет расчета доверительного интервала и получения минимального значения общего среднего.

Важно помнить, что t-критерий относится к параметрическим методам, т.к основан на нормальном распределении (у него два параметра: среднее и дисперсия). Поэтому для успешного применения важна хотя бы приблизительная нормальность исходных данных и отсутствие выбросов.

Напоследок предлагаю видео о том, как рассчитать критерий Стьюдента и проверить гипотезу о среднем в Excel.

Расчет показателя в Excel

Теперь перейдем к вопросу, как посчитать этот показатель в Excel. Это можно сделать через функцию СТУДЕНТ.ТЕСТ. В версиях Excel 2007 и более ранних он назывался TTEST. Однако в более поздних версиях его оставили для совместимости, но все же рекомендуется использовать более современный — STUDENT.TEST. Эту функцию можно использовать тремя способами, которые будут подробно рассмотрены ниже.

Способ 1: Мастер функций

Проще всего рассчитать этот показатель через мастер функций.

  1. Мы строим таблицу с двумя строками переменных.Две строки аргументов в Microsoft Excel
  2. Нажмите на пустую ячейку. Нажмите кнопку «Вставить функцию», чтобы вызвать мастер функций.Переключитесь на мастер функций в Microsoft Excel
  3. После открытия мастера функций. Ищем в списке значение TTEST или STUDENT.TEST. Выберите его и нажмите на кнопку «ОК».Функция СТУДЕНТ.ТЕСТ в Microsoft Excel
  4. Откроется окно аргументов. В поля «Массив1» и «Массив2» введите координаты соответствующих двух строк переменных. Это можно сделать, просто отметив нужные ячейки курсором.В поле «Решка» введите значение «1», если расчет должен производиться при одностороннем методе распределения, и «2», если при двустороннем распределении.

    Введите следующие значения в поле Тип:

    • 1 – выборка состоит из зависимых переменных;
    • 2 — выборка состоит из независимых значений;
    • 3 — выборка состоит из независимых значений с разными отклонениями.

    Когда все данные будут заполнены, нажмите кнопку «ОК».

Аргументы функции СТУДЕНТ.ТЕСТ в Microsoft Excel

Выполняется расчет, и результат отображается на экране в заранее выбранной ячейке.

Результат функции СТУДЕНТ.ТЕСТ в Microsoft Excel

Способ 2: работа со вкладкой «Формулы»

Функцию СТУДЕНТ.ТЕСТ также можно вызвать, перейдя на вкладку «Формулы» с помощью специальной кнопки на ленте.

  1. Выберите ячейку, чтобы отобразить результат на листе. Перейдите на вкладку «Формулы».Перейдите на вкладку «Формулы» в Microsoft Excel
  2. Нажимаем на кнопку «Другие функции», расположенную на ленте в блоке инструментов «Библиотека с функциями». В выпадающем списке перейдите в раздел «Статистика». Из представленных вариантов выберите «STUDENT.TEST».Переключение на функцию СТУДЕНТ.ТЕСТ в Microsoft Excel
  3. Откроется окно аргументов, которое мы подробно изучили, когда описывали предыдущий метод. Все дальнейшие действия точно такие же, как и в нем.

Форма аргумента функции СТУДЕНТ.ТЕСТ в Microsoft Excel

Способ 3: ручной ввод

Формулу STUDENT.TEST также можно ввести вручную в любую ячейку рабочего листа или в строку функции. Синтаксис выглядит следующим образом:

= СТУДЕНТ.ТЕСТ(Массив1;Массив2;Хвосты;Тип)

Что означает каждый из аргументов, оценивалось путем анализа первого метода. Эти значения следует подставить в эту функцию.

Ручной ввод функции СТУДЕНТ.ТЕСТ в Microsoft Excel

После ввода данных нажмите кнопку Enter, чтобы отобразить результат на экране.

Результат ввода функции СТУДЕНТ.ТЕСТ вручную в Microsoft Excel

Как видите, критерий Стьюдента рассчитывается в Excel очень легко и быстро. Главное, чтобы пользователь, выполняющий расчеты, понимал, что он собой представляет и какие входы за что отвечают. Программа сама производит непосредственный расчет.

Пример использования т-критерия Стьюдента

И пример будет очень простым: интересно, стали ли люди выше за последние 100 лет? Для этого нужно собрать некоторые данные. Я нашел интересную информацию в довольно известной статье Guardian (Tallstory’smenandwomenhavegrowtalleroverlastcentre, StudyShows (TheGuardian, июль 2016 г.), в которой сравнивается средний возраст человека в разных странах в 1914 году и в аналогичных странах в 2014 году.

Он содержит данные почти по всем штатам. Однако для облегчения расчета я взял только 5 стран: это Россия, Германия, Китай, США и ЮАР 1914 и 2014 годов соответственно.

Общее количество наблюдений 5 в 1914 г в группе 1914 г и всего 5 в 2014 г. Давайте еще раз подумаем, для простоты, что эти данные сопоставимы и с ними можно работать.

Затем вам предстоит выбрать критерии — критерии, на которые мы будем давать ответ. Это средний рост в 1914 x̅1914 и в 2014 x̅2014. Я не думаю. Итак, моя гипотеза состоит в том, что они не равны (x̅1914≠x̅2014). Следовательно, альтернативная моему предположению гипотеза, так называемая нулевая гипотеза (нулевая гипотеза консервативна, противоположна вашей, часто указывает на отсутствие статистически значимых связей/зависимостей) говорила бы о том, что они на самом деле равны друг другу (x̅1914) = x̅2014), то есть все эти выводы случайны и я на самом деле не прав.

Для чего используется t-критерий Стьюдента?

критерий Стьюдента используется для определения статистической значимости средних различий. Его можно использовать как в случаях сравнения независимых выборок (например, групп больных сахарным диабетом и групп здоровых людей), так и при сравнении родственных популяций (например, средней частоты сердечных сокращений одних и тех же больных до и после приема антиаритмический препарат). В последнем случае вычисляется парный критерий Стьюдента

В каких случаях можно использовать t-критерий Стьюдента?

Чтобы использовать критерий Стьюдента, необходимо, чтобы исходные данные имели нормальное распределение. Также важно сходство дисперсий (распределений) сравниваемых групп (гомоскедастичность). Для неравной дисперсии используется t-критерий Уэлча).

При отсутствии нормального распределения сравниваемых выборок вместо t-критерия Стьюдента используются аналогичные методы непараметрической статистики, среди которых наиболее известен U-критерий Манна-Уитни.

Как интерпретировать значение t-критерия Стьюдента?

Полученное значение критерия Стьюдента должно быть правильно интерпретировано. Для этого нам нужно знать количество испытуемых в каждой группе (n1 и n2). Найдем число степеней свободы f по следующей формуле:

f = (n1 + n2) — 2

Далее определяем критическое значение критерия Стьюдента для требуемого уровня значимости (например, p=0,05) и для заданного числа степеней свободы по таблице (см ниже).

Сравниваем критические и расчетные значения по критерию:

  • Если рассчитанное значение t-критерия Стьюдента равно или больше критического значения, найденного в таблице, делаем вывод, что различия между сравниваемыми значениями статистически значимы.
  • Если значение рассчитанного критерия Стьюдента меньше табличного, различия между сравниваемыми значениями не являются статистически значимыми.

Критические точки распределения Стьюдента

Количество степеней свободы
к
Уровень значимости α (двусторонняя критическая область)
0,10 0,05 0,02 0,01 0,002 0,001
1 6.31 12,7 31,82 63,7 318,3 637,0
2 2,92 4.30 6,97 9,92 22.33 31,6
3 2,35 3.18 4,54 5,84 10.22 12,9
4 2.13 2,78 3,75 4,60 7.17 8,61
5 2.01 2,57 3,37 4.03 5,89 6,86
6 1,94 2,45 3.14 3,71 5.21 5,96
7 1,89 2,36 3:00 утра 3,50 4,79 5.40
8 1,86 2,31 2,90 3,36 4,50 5.04
9 1,83 2,26 2,82 3,25 4.30 4,78
10 1,81 2,23 2,76 3.17 4.14 4,59
11 1,80 2.20 2,72 3.11 4.03 4,44
12 1,78 2.18 2,68 3,05 3,93 4,32
1. 3 1,77 2.16 2,65 3.01 3,85 4.22
14 1,76 2.14 2,62 2,98 3,79 4.14
15 1,75 2.13 2,60 2,95 3,73 4.07
16 1,75 2.12 2,58 2,92 3,69 4.01
17 1,74 2.11 2,57 2,90 3,65 3,95
18 1,73 2.10 2,55 2,88 3,61 3,92
19 1,73 2.09 2,54 2,86 3,58 3,88
20 1,73 2.09 2,53 2,85 3,55 3,85
21 1,72 2.08 2,52 2,83 3,53 3,82
22 1,72 2.07 2,51 2,82 3,51 3,79
23 1,71 2.07 2,50 2,81 3,59 3,77
24 1,71 2.06 2,49 2,80 3,47 3,74
25 1,71 2.06 2,49 2,79 3,45 3,72
26 1,71 2.06 2,48 2,78 3,44 3,71
27 1,71 2,05 2,47 2,77 3,42 3,69
28 1,70 2,05 2,46 2,76 3,40 3,66
29 1,70 2,05 2,46 2,76 3,40 3,66
30 1,70 2.04 2,46 2,75 3,39 3,65
40 1,68 2.02 2,42 2,70 3.31 3,55
60 1,67 2:00 утра 2,39 2,66 3,23 3,46
120 1,66 1,98 2,36 2,62 3.17 3,37
1,64 1,96 2,33 2,58 3.09 3,29
0,05 0,025 0,01 0,005 0,001 0,0005
Уровень значимости α (односторонняя критическая область)

Как пользоваться функцией распределения Стьюдента СТЮДРАСПОБР В EXCEL

Функция имеет следующий синтаксис:

=STUDISP(вероятность; степени свободы)

Описание аргументов:

  • вероятность — обязательно для заполнения, принимает числовое значение вероятности для двустороннего распределения Стьюдента из диапазона от 0 (не включительно) до 1.
  • degrees_of_freedom – обязательно для заполнения, принимает числовое значение степеней свободы, определяющих исследуемое распределение.

Примечания:

  1. Если один из аргументов функции указан как значение нечислового типа данных, результатом выполнения рассматриваемой функции является код ошибки #ЗНАЧ!. Логические значения, имена и текстовые строки, преобразованные в числа, не вызывают никаких ошибок. Например, функция =СТУДДИВ(«0,4», ИСТИНА) вернет значение 1,32638.
  2. Если аргумент вероятности представляет собой число, которое не находится в диапазоне от 0 (не включительно) до 1, функция СТУДИСТ вернет код ошибки #ЧИСЛО!. Аналогичная ошибка возникает, если аргумент степеней свободы является числом меньше 1.
  3. Чтобы вычислить одностороннее t-значение, задайте дважды вероятность в качестве аргумента вероятности.

Как сделать T-тест в Excel

Прежде чем вы сможете использовать T-тест, чтобы определить, есть ли статистически значимая разница между средними значениями двух выборок, вы должны сначала выполнить F-тест. Это связано с тем, что T-тест выполняет разные вычисления в зависимости от того, существует ли значительная разница между дисперсиями.

Для выполнения этого анализа вам потребуется надстройка Analysis Toolkit.

Проверка и загрузка надстройки Toolpak для анализа

Выполните следующие действия, чтобы проверить и активировать инструментарий анализа.

  1. Выберите вкладку ФАЙЛ > выберите Параметры .
  2. В диалоговом окне «Параметры» выберите «Дополнения» на вкладках с левой стороны.
  3. Выберите раскрывающееся меню «Управление» в нижней части окна, а затем выберите «Надстройки Excel». Выберите Перейти .

    Параметры Excel для включения надстройки Analysis Toolkit

  4. Убедитесь, что флажок рядом с Analysis Toolkit установлен, затем нажмите OK .
  5. Инструментарий анализа теперь активен, и вы готовы использовать F-тесты и T-тесты.

Выполнение F-теста и T-теста в Excel

  1. Введите два набора данных в электронную таблицу. В данном случае мы рассматриваем продажу двух товаров в течение недели. Средний дневной объем продаж для каждого продукта также рассчитывается вместе со стандартным отклонением .

    Введите два образца данных перед запуском t-теста в Excel

  2. Выберите вкладку «Данные > Анализ данных».

    Анализ данных находится на вкладке данных в Excel

  3. Выберите F-Test To-Sample for Variance из списка, затем нажмите OK .

    Выберите F-тест из анализа данных Excel

    F-тест очень чувствителен к аномалиям. Так что может быть безопаснее использовать тест Уэлча, но в Excel это сложнее.

  4. Выберите переменный диапазон 1 и переменный диапазон 2; установить альфа (0,05 дает 95% уверенности); выберите ячейку для верхнего левого угла вывода, имея в виду, что это заполнит 3 столбца и 10 строк. Выберите ОК .

    Параметры F-теста в Excel

    Для диапазона переменных 1 выберите выборку с наибольшим стандартным отклонением (или дисперсией).

  5. Просмотрите результаты F-теста, чтобы определить, есть ли существенная разница между дисперсиями. Результаты дают три важных значения:
    • F : отношение дисперсий.
    • P (F <= f) one-tail: Вероятность того, что переменная 1 на самом деле не имеет большей дисперсии, чем переменная 2. Если она больше, чем альфа, которая обычно равна 0,05, то между дисперсиями нет существенной разницы.
    • F Критически односторонний: значение F, необходимое для P(F <= f) = α. Если это значение больше, чем F, это также означает, что нет существенной разницы между отклонениями

    Результаты теста Excel F

    P (F <= f) также можно рассчитать, используя функцию FРАСП, используя F и степени свободы для каждого образца в качестве входных данных. Степени свободы — это просто число наблюдений в выборке минус одно.

  6. Теперь, когда вы знаете, есть ли разница между дисперсиями, вы можете выбрать правильный T-критерий. Перейдите на вкладку «Данные» > «Анализ данных», затем выберите критерий Стьюдента: две выборки, предполагающие равные дисперсии, или критерий Стьюдента: две выборки, предполагающие неравные дисперсии» .

    Выберите Т-тест в Excel

  7. Какой бы вариант вы ни выбрали на предыдущем шаге, вам будет предложено ввести данные анализа в том же диалоговом окне. Для начала выберите области, содержащие шаблоны переменных области 1 и области 2 .

    Параметры теста Excel T

  8. Предполагая, что вы хотите проверить отсутствие разницы между средними значениями, установите гипотетическую среднюю разницу равной нулю.
  9. Установите уровень значимости на Alpha (0,05 дает достоверность 95%) и выберите ячейку в верхнем левом углу выходных данных, учитывая, что это заполнит 3 столбца и 14 строк. Выберите ОК .
  10. Просмотрите результаты, чтобы определить, есть ли существенная разница между средними значениями.

    Результаты Т-теста Excel

Как и в F-тесте, если значение p, в данном случае P (T <= t), больше, чем альфа, существенной разницы нет. Однако в этом случае даются два значения p: одно для одностороннего теста, а другое для двустороннего теста. В этом случае используйте двустороннее значение, так как любая переменная с более высоким средним значением будет значимой разницей.

Оцените статью
Блог о Microsoft Word