• Отток нового пользователя: статья гамасутры
  • Отток для опытного пользователя: статья гамасутры
  • Анализ выживаемости прогнозирования оттока: Silicon Studio
  • Предварительный пример прогнозирования оттока с учетом повторного вовлечения: клик
  • # P1 # # P2 # # P3 #
    1. Как вы планируете использовать свой результат для увеличения рентабельности инвестиций? Это чрезвычайно важно, но слишком часто им пренебрегают. Если у определенного пользователя высокая вероятность оттока, как вы собираетесь действовать? Позволяет ли инфраструктура и / или организационная структура действовать? Нет смысла поставлять что-то сложное, с чем нельзя будет действовать.
    2. Какова цель прогноза? Понять или спрогнозировать пользователей, которые могут уйти? Это часто приводит к двум различным наборам алгоритмов, которые вы будете использовать.
    3. Есть ли в вашей отрасли контрольные показатели или передовые методы, о которых вам следует знать? Это, безусловно, окажет влияние о том, что вы попытаетесь объяснить и / или предсказать отток.
    4. Как вы оцениваете успешность своего прогноза? Если вы рассматриваете отток как проблему бинарной классификации, пользователь которые не текут, могут быть довольно редкими. У вас может возникнуть соблазн использовать частичную площадь под кривой ROC (PAUC), а не AUC или настраиваемую взвешенную метрику (оценка = чувствительность * 0,3 + специфичность * 0,7).
    5. Как вы поживаете. знаете, когда перестать улучшать прогноз и выпустить первую версию? После того, как вы установили критерий оценки, вы должны установить порог. пороговое значение сообщит вам, когда вы также отправите товар.
    6. Согласились ли вы с заинтересованными сторонами в отношении оценки успеха вашей модели?
    7. хотите предсказать всего своего пользователя или только сегмент? Например, если вы хотите предсказать нового пользователя или опытного пользователя, вы можете не использовать те же функции.
    8. Что такое цель? Это интересно, но вы можете рассматривать прогноз оттока как классическую бинарную задачу (1: отток пользователей, 0: не отток), но вы также можете рассматривать Y как количество сыгранных сессий.
    9. Какие у вас особенности? Собираетесь ли вы использовать функции, зависящие от времени? Основываясь на ваших отраслевых знаниях, какие функции наиболее важны для прогнозирования оттока? Легко ли они рассчитываются на основе вашей текущей базы данных? Рассматривали ли вы известные возможности RFM?
    10. Как получить данные? Нужно ли вам выполнять пакетные вызовы SQL для сбора нужной формы данных, или вам нужно начать с потоковой передачи данных, или вы намереваетесь перейти от пакетной передачи к потоковой по мере выпуска более совершенной версии?
    11. Как вы собираетесь очищать свои данные? Что делать с недостающими, отклоняющимися от нормы и экстремальными значениями, которые могут испортить вашу модель.
    12. Что следует тестировать во время написания кода? Google опубликовал отличную статью, в которой представлен набор действенных тестов, которые помогут вам начать работу.
    13. Как вы продвигаете свою работу в производство? Нужно ли вам помещать результат прогноза в базу данных или вам нужно сделать вашу модель доступной в виде REST API. Как вы сотрудничаете с инженером-программистом.
    14. Как вы собираетесь контролировать качество своих прогнозов в процессе производства? Вы собираетесь создать информационную панель? Вы создадите в своей базе данных таблицу, содержащую ваш журнал? Что вы будете контролировать? Как вы собираетесь действовать на основе определенных KPI качества вашего прогноза?
    15. Каков процесс обслуживания вашей модели? Планируете ли вы вносить изменения в свою модель раз в месяц, раз в квартал? Что вы планируете изменить и какова история изменений.
    16. Каковы ваши результаты? Как вы планируете со временем улучшать свою модель?
    17. Какой инструмент вы собираетесь использовать? В обязательных случаях вы будете использовать R, Python или Spark . Spark рекомендуется, когда у вас действительно большие данные (10 миллионов строк для прогнозирования). Обратите внимание, что библиотека Spark ML ограничена в отличие от верхней библиотеки Python (tensorflow, sklearn…)
    18. Какие пакеты вы собираетесь использовать для прогнозирования? Существует так много пакетов (sklearn, H2O, TPOT, TensorFlow, Theano… и т. д.)
    19. Как вы справляетесь с повторным привлечением пользователя? Что если вы решили предсказать, что пользователь уйдет в ближайшие 30 дней? Что, если они вернутся через 30 дней? Как вы учитываете эту предвзятость в своем анализе.
    20. Какой алгоритм вы собираетесь использовать? Это может быть случайный лес, SVM, линейная регрессия, нейронная сеть или другое. Вы также можете использовать автоматическое машинное обучение, чтобы найти свою первую модель. Что бы вы ни выбрали, вам необходимо знать исходные данные для каждого алгоритма.
    # P4 #

    Ссылки на отличные статьи

Отток как регресс Задача: «статья о дельте ДНК»

Пожалуйста, нажмите 💚 прямо под вами. Это помогает большему количеству людей найти его.