ПРИКЛАДНАЯ СТАТИСТИКА - НАУКА О ДАННЫХ

Прекратить использование p ‹0,05

Улучшите свои модели прогнозирования и анализ данных, выбрав соответствующий уровень значимости в статистических тестах.

Использование фиксированного порогового значения p, равного 0,05, для определения значимости является широко распространенной ошибкой как исследователей в различных областях, так и отраслевых специалистов, применяющих статистические методы.

Причина, вероятно, очевидна, а решение простое.

Чаще всего ошибкой является использование p <0,05.

Когда статистиков, специалистов по обработке данных и экономистов обучают статистике, 95-процентный доверительный интервал, соответствующий пороговому значению p, равному 0,05, является вариантом по умолчанию при проверке гипотезы проведения.

Это также настройка по умолчанию во многих процессах автоматического выбора в различных пакетах статистического программирования, от SAS до R и Python (действительно, есть исключения).

Но, как более подробно объясняется в нижеследующей части, чаще всего ошибкой является использование p


Проблема неправильного использования p-значений при проверке гипотез усугубляется неправильным акцентом на них.

Распространенным заблуждением является то, что отклонение нулевой гипотезы в статистическом тесте нулевой гипотезы (NHST) из-за статистически значимого p-значения равно ошибочности нулевой гипотезы.

Таким образом, использование правильного значения p не обязательно для устранения широко распространенного неправильного использования NHST. Но, тем не менее, это важный шаг, и его легко реализовать.

Как выбрать подходящее значение p

При определении p-значения отсечки в NHST полезно понимать, о чем p-значение что-то говорит.

Значение p - это вероятность того, что - при наших предположениях - мы увидим результат, по крайней мере, такой же экстремальный, как статистика, полученная на основе данных.

В основе статистики лежит работа с небольшими выборками. Как мы можем использовать образцы для вывода на всю совокупность.

С небольшими выборками мы готовы согласиться с некоторым риском ошибочных выводов, поскольку в противном случае мы не смогли бы сделать какие-либо выводы из данных.

Но по мере роста размера нашей выборки нам следует корректировать доверительные интервалы.

Соответствующее значение p варьируется

В больших выборках отклонение каждой нулевой гипотезы с p-значением менее 0,05, чтобы быть значимым, приводит к чрезмерному отклонению.

В наше время наборы данных часто состоят из тысяч точек данных. В таком случае p

Чрезмерное отклонение означает, что мы слишком часто отвергаем истинную нулевую гипотезу. Отказ от истинной нулевой гипотезы также известен как ошибка типа 1. И наоборот, ошибки типа 2 не являются отклонением ложных нулевых гипотез.

Если p-значение не скорректировано с количеством наблюдений в наборе данных, увеличение количества наблюдений только уменьшит ошибки типа 2. В оптимальном случае мы хотели бы уменьшить оба.

Помимо количества наблюдений, то, что определило подходящее значение p для данного теста, - это выбор статистической модели, то, как обрабатываются выбросы и отсутствующие данные, количество предикторов и степени свободы.

Таким образом, соответствующее значение p изменяется в зависимости от контекста.

Несколько примеров

Рассмотрим модель линейной регрессии с j регрессорами и n наблюдениями. Естественным первым шагом было бы провести F-тест с нулевой гипотезой, утверждающей, что набор независимых линейных ограничений на коэффициенты регрессии удовлетворяется.

Соответствующая статистика будет F-распределена с s и (n-j) степенями свободы при истинной нулевой гипотезе.

Когда набор данных очень велик, j составляют незначительную долю от n-j. Мы можем отклонить нуль, если F ›(n / s) (ns / n - 1).

В больших выборках это приближается к F ›ln (n), где ln - натуральный логарифм.

Если n = 100,000 и s равно 5, соответствующее критическое значение F-статистики равно 11,5, что соответствует p-значению 0,000000000039 (или 3,9E-11).

Как показано в таблице ниже, правильное значение p в F-тесте, как описано, намного ниже 0,05, когда количество наблюдений растет.

Ясно, что использование p

Вот еще один пример с часто используемым t-критерием.

Предположим, вместо этого (следуя примеру Дэйва Джайлса), вы хотите проверить, является ли регрессор в вашей модели значимым. Это делается путем проведения t-теста.

При тестировании одного ограничения t-статистика следует F-распределению со степенями свободы 1 и v. Мы можем отклонить нулевую гипотезу против двусторонней альтернативной гипотезы, если | t | ›√ [n (n ^ (1 / n) - 1)] ≈ √ln (n).

Таким образом, проверка значимости одного регрессора при n = 100 000 предполагает критическое значение 3,394.

Соответствующее значение p равно 0,000345.

Выводы

Важно помнить, что NHST не безошибочны. Слепое использование p-значений приведет к ошибочному анализу данных и неправильному выбору модели.

Но отличное первое начало при использовании NHST - это убедиться, что используются правильные критические значения. Соответствующее значение p может сильно различаться. И если вам посчастливилось работать с большими наборами данных, использование правильных p-значений имеет решающее значение.

Пусть значение p изменяется в зависимости от количества наблюдений (точно так же, как оно зависит от распределения тестовой статистики, ограничений и степеней свободы).

Уменьшение порогового значения p-значения при увеличении набора данных поможет вам избежать чрезмерного отклонения, что приведет к слишком большому количеству значимых переменных в ваших моделях.