Вне выборки — это метод проверки производительности модели повышения без использования набора проверок. Это преимущество, если:

  • Ваш набор данных слишком мал, чтобы разделить его на обучение, проверку и тестирование.
  • Дает вторую проверку разрешающей модели.

Важно отметить, что это никак не влияет на обучение!

Для ускорения мы позволяем каждому оценщику в нашем ансамбле тренироваться на некоторых наблюдениях. Предположим, что у нас есть обучающий набор данных, для каждого из наших оценщиков мы выполним подвыборку некоторых наблюдений с заменой, которая будет использоваться для обучения каждого оценщика[https://en.wikipedia.org/wiki/Bootstrapping_(statistics )]

Для оценщика 1 у нас может быть обучающий набор, который выглядит следующим образом:

Это естественным образом приводит к тому, что некоторые наблюдения не используются для обучения оценщика 1. Таким образом, эти наблюдения невидимы для оценщика и, таким образом, могут использоваться для проверки. Это концепция вневыборочной точности/ошибки. Random Forest может использовать эту концепцию, так как это ансамбль методов [https://en.wikipedia.org/wiki/Random_forest]. Используя Python и scikit-learn, он уже реализован и готов к использованию![http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.htm]l