НАУКА ДАННЫХ
Постсезонные прогнозы НФЛ-2020 на основе модели машинного обучения - Wild Card
Buccaneers & Saints - тяжелые фавориты, в то время как Seahawks & Ravens имеют только тонкое преимущество
Последние несколько лет я предсказывал участников Суперкубка на старте плей-офф, используя модели машинного обучения (ML) (L, LI, LII, LIII, LIV). В этом году я буду делать все немного по-другому и начну с одной недели. Кроме того, на этот раз я сэкономлю некоторые подробности, поэтому ознакомьтесь с предыдущими статьями (или свяжитесь со мной), если вас интересует больше нюансов ML и NFL. Как и в прошлом году, в этом году модель машинного обучения (версия 5.0) была обучена и протестирована на сезонной информации, но с использованием большего количества источников данных, чем в прошлогодней модели. V 5.0 был обучен на данных со 2 по 12 недели и протестирован на 13-17 неделе (входные данные: еженедельно обновляемая статистика команды, результаты: еженедельные победители). В течение 13-17 недель он правильно предсказал 69,6% (55/79) победителей игр (превосходя V 4.0 за аналогичный период прошлого сезона и результаты 30 лучших прогнозистов за весь сезон; более подробная информация в разделе Разработка модели ») & Оценка ниже).
Ниже приведены прогнозы на эти выходные в сравнении со статьями, опубликованными ESPN (Букмекерская контора Ceasars от Уильяма Хилла; CSWH) и Эло FiveThirtyEight с поправкой на QB на момент написания:

Все матчи фаворитов, хотя в версии 5.0 есть тенденция предсказывать более тайтовые игры, и, следовательно, почти во всех случаях вероятность неудач равна или выше, чем у CSWH и FiveThirtyEight. (Единственным исключением является FiveThirtyEight, дающий Вашингтону немного больше шансов, чем V 5.0).
Хотя вполне возможно, что V 5.0 наберет 6 из 6 в эти выходные, исходя из прошлых результатов, более вероятно, что 1 или 2 аутсайдера в конечном итоге выиграют (с Rams & Titans как главными кандидатами, чтобы справиться с огорчениями).
Разработка и оценка модели
Я снова использовал машинное обучение с учителем для прогнозирования результатов после сезона и включил преимущество домашнего поля. (Интересно отметить, что модель узнала, что преимущество домашнего поля имеет меньшее влияние, чем в предыдущие годы, что кажется правдоподобным, учитывая ограниченную посещаемость фанатов или ее отсутствие из-за COVID-19). Между V 5.0 и V 4.0 есть несколько интересных различий:
- Оба были обучены на еженедельных данных в течение сезона, но V 5.0 был обучен на 2–12 неделях, а V 4.0 был обучен на 5–10 неделях. Наличие более широкого окна данных, включая более свежие данные, в обучающей выборке, кажется, поможет, но возможно, что оценка в сокращенном наборе тестов менее надежна.
- V 5.0 использует большее количество метрик, в том числе: метрики эффективности команды (опубликованные numberFire и используемые V 4.0), данные, лежащие в основе рейтингов и прогнозов NFL NFL FiveThirtyEight, и более субъективные рейтинги силы от различных агрегированных новостных агентств. от eatdrinkandsleepfootball.
Я использовал алгоритм случайного леса, который может избежать переобучения и уменьшить необходимость ручного выбора функций при правильной настройке гиперпараметров. Я не буду вдаваться в подробности о важности функций (которые могут дать некоторое представление о внутренней работе механизма прогнозирования). Хотя, если есть интерес (а модель кажется полезной для прогнозирования результатов после сезона, т. Е. Хорошо работает), я могу написать еще один пост по этой теме.
Больше неопределенности, чем обычно
Когда я начал делать прогнозы плей-офф на основе машинного обучения 6 лет назад, я начал более глубоко понимать изменчивую и изменчивую природу НФЛ, поскольку я мог видеть, как это проявляется в статистике и результатах, которые я отслеживал. Типичные источники вариаций включают большие колебания точки при одной игре (например, выбор красной зоны-6), колебания положения на большом поле / вниз и расстояния из-за субъективных решений судьи (например, помехи при передаче при длинной передаче), плохая погода, травмы, смешное отскоки и т. д. В этом году неопределенность еще выше из-за COVID-19 и необходимых мер предосторожности для обеспечения безопасности всех. Из-за того, что игры переносятся, игроки и тренеры не работают, команды не могут тренироваться, как обычно, меньше шума фанатов на стадионах и т. Д., Игры становится еще сложнее предсказать, используя только футбольную статистику. Кроме того, расширенные плей-офф в этом году добавляют новую морщину, которая, по моему анализу, в конечном итоге немного снижает шансы лучших посевных на выигрыш Lombardi Trophy (и больше игр для фанатов НФЛ!).
За плей-офф всегда интересно смотреть, и эти прогнозы всегда интересно развивать и делиться, и я надеюсь, что некоторые из них у меня верны. Что еще более важно, я надеюсь, что у всех, кто занимается еженедельным развлечением нас, фанатов, почти полгода, нет серьезных травм или опасений по поводу COVID-19. С нетерпением жду насыщенных событиями уик-энда Wild Card и, возможно, пары неприятностей.