Я рад объявить о выпуске 7-й основной версии Augraphy, которая содержит множество новых функций и исправлений ошибок. Это важная веха для проекта, знаменующая новый уровень зрелости: мы в команде Augraphy Project считаем, что теперь библиотека примерно готова для общего использования при создании наборов данных для обучения моделей. Чтобы доказать это, мы создали собственный набор данных и запустили соревнование на Kaggle, где вы можете обучить модель шумоподавлению — подробнее об этом в конце поста. А пока давайте посмотрим на некоторые изменения по сравнению с версией 6 Augraphy:

Общий

  • Исправления ошибок и улучшения внутренней согласованности.
  • Улучшены параметры по умолчанию в некоторых дополнениях (более реалистичные результаты с меньшими усилиями с вашей стороны!)
  • Меньше магических чисел. (Огромная победа для библиотеки обработки изображений)
  • Лучшая внутрибиблиотечная синергия. BookBinding и BleedThrough теперь используют OverlayBuilder для выполнения своей магии и так далее.
  • Аугментации и конвейеры обычно больше учитывают цветовые каналы, чем раньше.

AugmentationPipeline

  • Лучшая обработка цветовых каналов.
  • Теперь вы можете включить ведение журнала, какие дополнения были применены в данном запуске конвейера. Отлично подходит для отладки наборов данных!
  • Конвейеры теперь правильно подчиняются заданным пользователем вероятностям расширения. На этот раз по-настоящему.
  • Конвейеры теперь кэшируют последние файлы изображений для использования в других дополнениях.

БумажнаяФабрика

  • Удален тайлинг текстуры.
  • Упрощен и улучшен алгоритм генерации бумаги.

Яркость

  • Лучшее поведение при изменении яркости. Больше того, ради чего вы пришли, меньше «почему это не работает?»

Книгопереплет

  • BookBinding создает на странице более реалистичный эффект изгиба.

Геометрический

  • Добавлена ​​возможность переводить расположение документа, имитируя его совмещение со станиной сканера.

КарандашScribbles

  • Больше разнообразия штрихов и рисунков.

BadPhotoCopy

  • Эффект шума на краю объекта теперь необязателен.
  • Обновления, позволяющие воспользоваться изменениями в NoiseGenerator.

Грязный барабан

  • Концентрация и интенсивность шума теперь являются переменными.
  • Гораздо более реалистичный первичный эффект, и теперь его можно использовать для имитации окрашивания воды (путем установки низкой интенсивности шума и концентрации линий).

Низкие линии чернил

  • Уровень шума в эффекте теперь переменный.

Кровоточить через

  • BleedThrough теперь запоминает недавние изображения и использует их для создания реалистичной лицевой страницы.
  • Изображения с Figshare теперь можно динамически загружать и использовать в качестве лицевой страницы.
  • Интенсивность эффекта теперь снижена в тех случаях, когда в противном случае было бы чрезмерное кровотечение.
  • DPI лицевой страницы теперь регулируется.

Граница страницы

  • Края страницы больше не гарантируются прямыми, что делает эффект более реалистичным.
  • Эффект теперь выглядит более реалистично независимо от того, на каком краю он визуализируется.

Разметка

  • Линии теперь различаются по толщине и текстуре и выглядят более естественно.
  • Эффект перечеркивания больше не перерисовывает линии и выглядит более естественно.
  • Подсветка теперь корректно регулирует яркость по отношению к нижележащему тексту.
  • Эффекты разметки теперь правильно отображаются в любом месте страницы, а не только внизу.

Высокая печать

  • Шумовые пятна теперь значительно различаются по радиусу и плотности.

факсимильный

  • Метод порогового значения теперь может быть указан или выбран случайным образом, что увеличивает изменчивость выходных данных.
  • Теперь можно также использовать оттенки серого, а не просто бинаризировать.

Складной

  • Края сгиба теперь обрабатываются шумом для повышения реализма.

BindingsAndFasteners

  • Если вы не хотите загружать изображения креплений и застежек с Figshare, мы создадим для вас несколько простых изображений.
  • Алгоритм смешивания теперь можно выбрать или рандомизировать, увеличивая разнообразие производимых эффектов.
  • Более разумное поведение кэширования.

Генератор шума

  • В зависимости от желаемого типа шума теперь вы можете выбрать сторону страницы для его создания или добавить шум на всю страницу.
  • Создает лучшие градиенты.
  • Улучшения шумовой выборки, аранжировки.

OverlayBuilder

  • Оверлеи нулевого размера больше не генерируются.
  • Теперь можно создавать оверлеи произвольного размера.
  • Оверлеи теперь имеют правильный размер каждый раз.
  • Лучшая обработка цветовых каналов.

FigshareЗагрузчик

  • Теперь корректно обрабатывает идентификаторы файлов.
  • Теперь поддерживается загрузка случайного файла из статьи Figshare.

Шумоподавление ShabbyPages

Седьмая основная версия Augraphy знаменует собой новый этап для библиотеки: эффекты, которые она производит, уже были довольно хорошими, но теперь мы считаем, что каждый может использовать ее для создания симулированных грязных документов для всевозможных задач машинного обучения. Частично для того, чтобы подтвердить это, а также для того, чтобы расширить границы нашего сообщества, отдавая должное работам, которые были сделаны ранее, мы использовали Augraphy для создания набора данных, который мы называем ShabbyPages, в духе NoisyOffice. Этот корпус содержит сотни страниц из цифровых документов, к которым с помощью Augraphy искусственно добавлено несколько типов шума. Предварительный выпуск набора доступен в рамках конкурса Kaggle, где участники могут обучить модель шумоподавления для восстановления документов до более чистого состояния. Подробнее о конкурсе можно узнать на официальном сайте.