5 последних исследовательских работ и проектов по компьютерному зрению

От Academia - выпуск за октябрь 2020 г.

Привет народ! Мне очень хотелось написать еще одну из этих статей, но поскольку я только начал увлекательную новую работу, я немного отстаю от своей цели - одной статьи в неделю. Спасибо за понимание, и я сожалею о задержке :( Не уверен, что кого-то волнует, НО моя новая роль - заниматься разработкой в исследовательской группе, которая выполняет метаанализ данных мозга, чтобы помочь взрослым учащимся с проблемами обучения (в частности, ADD и СДВГ) - просто хотел поделиться, потому что я действительно в восторге от этого (͡❛ ‿‿ ͡❛).

В любом случае, из-за моей работы (а также из-за личного интереса) я потратил некоторое время на изучение последних проектов компьютерного зрения в академических кругах и подумал, что составлю список и поделюсь ими здесь. Собранные мной исследовательские сайты также будут указаны в конце этой статьи для справки. Без лишних слов, приступим!

Что такое компьютерное зрение?

Компьютерное зрение - это особая область искусственного интеллекта, которая позволяет компьютерам и машинам визуализировать, а затем понимать визуальный мир.

Новые исследовательские статьи CV публикуются почти каждый день (109 научных статей были отправлены в arXiv 20 октября 2020 г. и 21 октября 2020 г. AKA сегодня подано 52 статьи), и я думаю, что это самое захватывающее Об этой области заключается в том, что это важный мост между нашим реальным миром и нашим виртуальным / техническим миром. В связи с такой большой активностью в мире резюме, я думаю, было бы неплохо быть в курсе последних проектов в этой области. Как я выбрал этот список, зависит от того, насколько я (лично) считаю его интересным и насколько недавно он был опубликован.

Бумага 1. Заполните неполные / недостающие части изображения

Фактическое название статьи: Image-Fine-Grained Inpainting (4 октября 2020 г.)

Авторы: Чжэн Хуэй, Цзе Ли, Синьбо Гао, старший член IEEE, и Сюмэй Ван

Этот проект кажется действительно крутым - их мелкозернистые техники рисования изображений могут заполнить недостающие области изображения и обеспечить такие реалистичные результаты. В своей статье авторы предложили плотную многомасштабную сеть слияния с потерями самоуправляемой регрессии и ограничением геометрического совмещения для мелкозернистой окраски изображений.

Как показано на изображении выше, их структура состоит из генератора (который дает правдоподобные нарисованные результаты) и двухветвленного дискриминатора (который проводит обучение противников).

В своей статье они протестировали свой фреймворк не только на человеческих лицах, но и на изображениях сцен (например, неполных изображениях улиц).

Источник: https://arxiv.org/pdf/2002.02609v2.pdf

Бумага 2. Управляйте позой на изображении

Фактическое название статьи: "Реабилитация людей путем искажения трехмерных элементов" (8 июня 2020 г.)

Авторы: Маркус Кноче, Иштван Саранди и Бастиан Лейбе

С входным изображением человека в определенной позе архитектура проекта направлена на то, чтобы вернуть человека из входного изображения в целевую позу. Этот проект привлек мое внимание, потому что, если он будет работать хорошо, любители селфи, вероятно, будут очень заинтересованы, поскольку теперь они могут легко изменить свое изображение, чтобы достичь желаемой позы перед публикацией.

Из их статьи:

новый метод репозиции ... который деформирует трехмерные объемные CNN-элементы без необходимости явной модели сетки. Используя только 2D-изображение в качестве входных данных, наша модель неявно изучает скрытое объемное представление входящего человека. Затем это представление деформируется с использованием трехмерных преобразований на основе ввода и целевой позы, чтобы выровнять его с целевой позой. Мы обрабатываем деформированные элементы вместе с тепловыми картами трехмерной целевой позы с помощью декодера, чтобы синтезировать восстановленное изображение. […] Поток переднего плана изучает трехмерные объекты из двухмерного изображения и применяет деформацию трехмерных объектов. Результат комбинируется с целевой позой и проецируется на изображение RGBA. Альфа-смешивание с окрашенным фоном дает окончательный результат.

Источник: https://arxiv.org/pdf/2006.04898v1.pdf

Документ 3. Диагностика состояния лесов по аэрофотоснимкам

Фактическое название статьи: Автоматизированная диагностика состояния лесов на основе глубокого обучения по аэрофотоснимкам (16 октября 2020 г.)

Авторы: Чиа-Йен Чанг, Хлоя Барнс, Пламен Ангелов и Ричард Цзян.

Я действительно думаю, что нашему миру нужно больше подобных проектов. Глобальное потепление и изменение климата были серьезной проблемой в течение очень долгого времени, что определенно требует дополнительных исследовательских проектов, которые помогут облегчить эту широко распространенную проблему. Этот проект направлен на использование глубокого обучения для изучения мертвых и живых деревьев с целью анализа состояния лесов.

Они планируют увеличить полученные изображения, а затем автоматизировать обнаружение мертвых деревьев, используя повторно обученный подход Mask RCNN (сверточная нейронная сеть на основе области маски) с передаточным обучением. Обнаружение и анализ мертвых деревьев будет тогда индикатором здоровья леса, который затем предлагает изменения окружающей среды, а также предсказывает лесные пожары.

Источник: https://arxiv.org/pdf/2010.08437.pdf

Бумага 4. Сделайте слова на отсканированных документах более четкими, чтобы мы могли с ними что-то делать.

Фактическое название статьи: Двухэтапные генерирующие состязательные сети для бинаризации изображения документа с цветным шумом и удалением фона (20 октября 2020 г.)

Авторы: Сонхо Сух, Джихун Ким, Пол Лукович, член IEEE, Йонг О Ли, член IEEE

Этот документ направлен на то, чтобы получить отсканированное изображение цветного документа, улучшить (например, удалить пятна и линии), а затем преобразовать документ в двоичную форму, чтобы задачи анализа документа (например, автоматическое распознавание текста) могли выполняться с ним более точно и эффективно.

Что касается диаграммы выше, их предлагаемая модель состоит из двух частей. Первый - это этап улучшения изображения документа, а второй - преобразование изображения документа в двоичную форму. На первом этапе они используют четыре независимые от цвета обученные состязательные сети для извлечения информации о цвете переднего плана из входного изображения. На втором этапе две независимые противоборствующие сети с глобальными и локальными функциями обучаются бинаризации изображений в документах переменного размера.

Источник: https://arxiv.org/pdf/2010.10103.pdf

Документ 5. Не дать технологии распознавания лиц идентифицировать нас (кража личных данных), добавив шума к нашим изображениям.

Фактическое название статьи: Предотвращение кражи личных данных из изображений с помощью состязательного машинного обучения (20 октября 2020 г.)

Авторы: Томас Киллони, Вэй Ван, Чарльз Уолтер и Чарльз Флеминг.

В связи с тем, что ежедневно в Интернет загружается огромное количество изображений, безопасность данных и конфиденциальность в Интернете стали серьезной проблемой. Согласно их статье, даже если пользователь не помечает изображение своим именем, алгоритмы неконтролируемого обучения все равно могут распознать человека на изображении. Наличие различных моделей, построенных на выяснении того, кто такие люди, что их движет, и наличие коллекции информации об этом человеке, хранящейся в базе данных, честно говоря, очень беспокоит (хотя это вроде как уже происходит).

В своей статье они предлагают наложить «маску» на исходное изображение, чтобы наши личности не подвергались воздействию различных инструментов распознавания лиц. Они:

предложить стратегию создания неинвазивных шумовых масок для применения к изображениям лиц для недавно введенного пользователя, приводя к примерам противоборства и предотвращая образование идентифицируемых кластеров в пространстве встраивания.

В своей статье они также доказали, что различные методы классификации и кластеризации не могут надежно кластеризовать создаваемые ими злонамеренные примеры.

Источник: https://arxiv.org/pdf/2010.10242.pdf

На этом пока все! Большое спасибо за чтение этой статьи и дайте мне знать, если у вас есть предложения для будущих статей :)

Удачного резюме! (ノ ^ _ ^) ノ

Отказ от ответственности: не спонсируется и не связан ни с одним из этих авторов или организаций. Любые мысли или интерпретации являются исключительно моими собственными и поэтому могут содержать неточности, личные предубеждения и мнения. Если вы обнаружили какие-либо ошибки, свяжитесь со мной, и я постараюсь исправить их как можно скорее.