ПРИКЛАДНАЯ СТАТИСТИКА - НАУКА О ДАННЫХ
Прекратить использование p ‹0,05
Улучшите свои модели прогнозирования и анализ данных, выбрав соответствующий уровень значимости в статистических тестах.
Использование фиксированного порогового значения p, равного 0,05, для определения значимости является широко распространенной ошибкой как исследователей в различных областях, так и отраслевых специалистов, применяющих статистические методы.
Причина, вероятно, очевидна, а решение простое.
Чаще всего ошибкой является использование p <0,05.
Когда статистиков, специалистов по обработке данных и экономистов обучают статистике, 95-процентный доверительный интервал, соответствующий пороговому значению p, равному 0,05, является вариантом по умолчанию при проверке гипотезы проведения.
Это также настройка по умолчанию во многих процессах автоматического выбора в различных пакетах статистического программирования, от SAS до R и Python (действительно, есть исключения).
Но, как более подробно объясняется в нижеследующей части, чаще всего ошибкой является использование p
Проблема неправильного использования p-значений при проверке гипотез усугубляется неправильным акцентом на них.
Распространенным заблуждением является то, что отклонение нулевой гипотезы в статистическом тесте нулевой гипотезы (NHST) из-за статистически значимого p-значения равно ошибочности нулевой гипотезы.
Таким образом, использование правильного значения p не обязательно для устранения широко распространенного неправильного использования NHST. Но, тем не менее, это важный шаг, и его легко реализовать.
Как выбрать подходящее значение p
При определении p-значения отсечки в NHST полезно понимать, о чем p-значение что-то говорит.
Значение p - это вероятность того, что - при наших предположениях - мы увидим результат, по крайней мере, такой же экстремальный, как статистика, полученная на основе данных.
В основе статистики лежит работа с небольшими выборками. Как мы можем использовать образцы для вывода на всю совокупность.
С небольшими выборками мы готовы согласиться с некоторым риском ошибочных выводов, поскольку в противном случае мы не смогли бы сделать какие-либо выводы из данных.
Но по мере роста размера нашей выборки нам следует корректировать доверительные интервалы.
Соответствующее значение p варьируется
В больших выборках отклонение каждой нулевой гипотезы с p-значением менее 0,05, чтобы быть значимым, приводит к чрезмерному отклонению.
В наше время наборы данных часто состоят из тысяч точек данных. В таком случае p
Чрезмерное отклонение означает, что мы слишком часто отвергаем истинную нулевую гипотезу. Отказ от истинной нулевой гипотезы также известен как ошибка типа 1. И наоборот, ошибки типа 2 не являются отклонением ложных нулевых гипотез.
Если p-значение не скорректировано с количеством наблюдений в наборе данных, увеличение количества наблюдений только уменьшит ошибки типа 2. В оптимальном случае мы хотели бы уменьшить оба.
Помимо количества наблюдений, то, что определило подходящее значение p для данного теста, - это выбор статистической модели, то, как обрабатываются выбросы и отсутствующие данные, количество предикторов и степени свободы.
Таким образом, соответствующее значение p изменяется в зависимости от контекста.
Несколько примеров
Рассмотрим модель линейной регрессии с j регрессорами и n наблюдениями. Естественным первым шагом было бы провести F-тест с нулевой гипотезой, утверждающей, что набор независимых линейных ограничений на коэффициенты регрессии удовлетворяется.
Соответствующая статистика будет F-распределена с s и (n-j) степенями свободы при истинной нулевой гипотезе.
Когда набор данных очень велик, j составляют незначительную долю от n-j. Мы можем отклонить нуль, если F ›(n / s) (ns / n - 1).
В больших выборках это приближается к F ›ln (n), где ln - натуральный логарифм.
Если n = 100,000 и s равно 5, соответствующее критическое значение F-статистики равно 11,5, что соответствует p-значению 0,000000000039 (или 3,9E-11).
Как показано в таблице ниже, правильное значение p в F-тесте, как описано, намного ниже 0,05, когда количество наблюдений растет.
Ясно, что использование p
Вот еще один пример с часто используемым t-критерием.
Предположим, вместо этого (следуя примеру Дэйва Джайлса), вы хотите проверить, является ли регрессор в вашей модели значимым. Это делается путем проведения t-теста.
При тестировании одного ограничения t-статистика t² следует F-распределению со степенями свободы 1 и v. Мы можем отклонить нулевую гипотезу против двусторонней альтернативной гипотезы, если | t | ›√ [n (n ^ (1 / n) - 1)] ≈ √ln (n).
Таким образом, проверка значимости одного регрессора при n = 100 000 предполагает критическое значение 3,394.
Соответствующее значение p равно 0,000345.
Выводы
Важно помнить, что NHST не безошибочны. Слепое использование p-значений приведет к ошибочному анализу данных и неправильному выбору модели.
Но отличное первое начало при использовании NHST - это убедиться, что используются правильные критические значения. Соответствующее значение p может сильно различаться. И если вам посчастливилось работать с большими наборами данных, использование правильных p-значений имеет решающее значение.
Пусть значение p изменяется в зависимости от количества наблюдений (точно так же, как оно зависит от распределения тестовой статистики, ограничений и степеней свободы).
Уменьшение порогового значения p-значения при увеличении набора данных поможет вам избежать чрезмерного отклонения, что приведет к слишком большому количеству значимых переменных в ваших моделях.