Данные - самый важный компонент для построения модели машинного обучения. Недавно исследователи из Google обучили модель CNN классификации изображений на 300 миллионах изображений и продемонстрировали, что даже в масштабе сотен миллионов примеров добавление дополнительных данных помогает улучшить производительность модели. Видимо, чем больше данных, тем лучше. Но где вы можете получить большие наборы данных, если вы занимаетесь исследованием классификации текста?

Я нашел хорошие ссылки на несколько больших наборов данных классификации текста в статье Понимание текста с нуля Сян Чжана и Янна ЛеКуна. В статье описывается модель CNN на уровне символов для классификации текста. Авторы предоставляют тесты различных архитектур CNN и несколько простых моделей на нескольких наборах данных. Более поздняя версия этой статьи: Сверточные сети на уровне символов для классификации текста содержит больше экспериментальных результатов, но упускает некоторые детали использования набора данных: какие поля использовать, как обрезать длинные тексты и т. Д. Информацию о наборах данных читайте в старой статье. Если вы хотите узнать больше о моделях CNN уровня персонажей, прочтите последнюю статью.

Кто-то загрузил наборы данных на Google Диск, так что вы можете скачать их здесь.

Если у вас есть другие наборы данных классификации больших текстов, поделитесь ими в комментариях к этому сообщению.

Изначально статья была опубликована на сайте http://pavel.surmenok.com/2017/07/21/large-text-classification-datasets/