Ночь взлома с Google Vision API

«У нас было две сумки книг, семьдесят пять фотографий с нашей офисной IP-камеры, два ноутбука с высокопроизводительной оперативной памятью, облако Azure, полное сервисов, и Visual Studio IDE с различными инструментами, интеграциями, предупреждениями и ошибками компиляции… и а также литр апельсинового сока, литр воды, ящик Будвайзера, большая вегетарианская пицца и желание придумать проект и продемонстрировать его.
Не то, чтобы все это было нужно для поездки, но как только вы застреваете в серьезной коллекции нейронных сетей, возникает тенденция продвигать ее так далеко, как только можете».

Представьте меня, моего коллегу @ale_de635 и проект, который нужно презентовать на следующее утро.
Мы узнали об этой интересной вещи примерно в 16:00. Проект должен быть сдан в 9 утра следующего дня. Хорошо, 17 часов, я не спал прошлой ночью, ситуация моего коллеги очень похожа. Хорошо, мы внутри!

Собственно, я сидел в нашем офисе в 16:00 и первое, что я решил сделать, это немного поспать. Не сегодня, конечно, у нас куча работы. Так что я пошел прямо к себе домой, проспал где-то до 10 вечера и вернулся в офис в 11 вечера, чтобы встретиться с Алексом, чтобы начать делать великие дела.

Бывают моменты, когда на сцену выходит какое-то волшебство, да.

Изобретение колеса, пожаротушение ветряных мельниц, сервис для создания сайта с ключевыми словами типа «лемуры».
Это может быть интересно, подумал я. Представьте, что у вас есть текстовое поле, в котором вы вводите «создать SPA об арбузах», и все автоматически генерируется, загружается, выглядит красиво, заполняется информацией из Википедии или чего-то еще. Однако эта идея не имеет ценности для конечного пользователя. Или даже имеет, но очень маленькую ценность — кому нужны автогенерируемые СПА про арбузы?

Поэтому нашей следующей и последней идеей было внедрить анализ эмоций на основе фотографий с IP-камер в нашем офисе.

Камера сохраняет одну фотографию в час, отправляет ее в хранилище, и в конце дня вы получаете обновленную статистику об эмоциях вашего сотрудника — радости, гневе, печали и так далее. Вы можете узнать, как часто они чувствуют себя счастливыми или утонувшими, просто взглянув на статистику на конец дня.

Посмотрите и почувствуйте:

Стек технологий:
Azure CosmosDB (DocumentDB),
Google Vision API,
C# ASP.NET.

Что я могу сказать на данный момент о Google Vision API:
я думал, что будет довольно сложно переключиться со стека MS на стек Google, но на самом деле я начал работать примерно через 2 часа, все остальное было просто о реализации логики и пользовательского интерфейса.
Это действительно мощная функция, вы можете получить много информации _бесплатно_. Каждая камера передает картинку, картинка сама по себе является информацией, но теперь мы можем разобрать эту картинку на очень низком уровне — объекты, лица, эмоции, координаты, метки, теги.

Я уверен, что буду использовать этот инструмент еще несколько раз, но мне интересно — что мощнее — Microsoft Computer Vision или Google Vision API? Могу ли я построить и обучить свою собственную нейронную сеть в Google Vision API? Как это изменит визуальное распознавание?