Ли Гуангда, технический директор и соучредитель Visenze

Нетекстовый поиск набирает обороты.

В течение последних нескольких десятилетий текстовый поиск был основным способом взаимодействия человека и компьютера для поиска информации. Однако в последние годы стали более популярными новые форматы поиска с использованием изображений и голоса в качестве входных данных.

Генеральный директор Google Сундар Пичаи в своем программном выступлении на I/O ранее в этом году заявил, что 20% объема поиска на мобильных телефонах Android приходится на голосовой поиск по всему миру. Это 1 из каждых 5 поисковых запросов.

Есть две возможные причины, по которым голосовой поиск, наконец, заработал: недавний прогресс в области глубокого обучения повысил точность распознавания речи до более чем 90%, и миллениалы привыкают к этому новому способу взаимодействия человека с компьютером.

Спрос на визуальный поиск

С другой стороны, визуальный поиск, который использует изображения в качестве запросов для выполнения поиска, является еще более новым способом поиска информации. Он предлагает совершенно другой угол для пользователей, позволяя им искать вещи, которые они не могут описать словами.

На глобальном уровне миллиарды фотографий загружаются в Интернет с различных мобильных и настольных устройств, что приводит к огромному спросу на индексирование этого визуального контента и понимание его как основы для создания лучшего опыта поиска и обнаружения.

ViSenze начал работать над технологией визуального поиска еще в 2012 году в исследовательской лаборатории Национального университета Сингапура. В течение последних 3–4 лет мы наблюдаем рост использования визуального поиска — аналогично скорости внедрения голосового поиска. Фактически, с тех пор количество вызовов API от наших клиентов увеличилось на 300%.

Taobao, китайский онлайн-рынок, основанный Alibaba Group, также заметил аналогичные тенденции в отношении быстрого внедрения визуального поиска пользователями: 55,1% визуального поиска на мобильных устройствах выполняется поколением Z, а GMV от визуального поиска за один день снижается. до десятков миллионов китайских юаней.

Рост визуального поиска можно объяснить повышением точности поиска, использованием обучения на основе глубокого обучения, а также разработкой более недорогих, но мощных вычислительных ресурсов.

Подход ViSenze к созданию технологии визуального поиска

Наша технология визуального поиска основана на многолетних исследованиях NUS, ведущего мирового лидера в области исследований в области мультимедиа и социальных сетей. Несмотря на то, что мы очень сосредоточены на исследованиях и разработках, наши усилия в значительной степени зависят от запросов клиентов. Мы хотим приносить больше пользы нашим клиентам, одновременно совершенствуя возможности нашего основного продукта.

Итак, после многих лет исследований и разработок и работы с клиентами над улучшением нашего основного продукта наши ключевые конкурентные преимущества заключаются в следующих областях:

Глубокое понимание вертикальной области

В процессе сопоставления целевого объекта мы извлекаем ряд визуальных признаков, обученных определенным вертикальным областям, таким как предметы, связанные с модой, в вертикали моды. Мы изучаем, итерируем и создаем множество продвинутых моделей для глубокого обучения, чтобы получить лучшие функции для каждой конкретной области.

Затем мы разрабатываем алгоритмы (глубокого) обучения, чтобы объединить эти функции для эффективного поиска. Затем система надежно и непрерывно настраивается на основе нашей запатентованной технологии, глубоких знаний алгоритмов и собственных ноу-хау (коммерческая тайна).

Возможность непрерывного самообучения

Наша общая система на самом деле представляет собой продвинутую систему искусственного интеллекта с возможностью непрерывного самообучения. Это достигается за счет постоянной настройки и улучшения наших алгоритмов машинного обучения для обнаружения объектов, извлечения функций, интеграции функций и многого другого.

Мы также используем нашу внутреннюю технологию для сбора большего количества обучающих изображений, чтобы значительно повысить точность поиска. Благодаря тщательному использованию (обработка миллионов изображений каждый день) наша система со временем улучшает свою производительность.

Надежная серверная часть, созданная для ускоренной обработки в распределенной архитектуре.

Наша серверная система для крупномасштабного высокоскоростного сопоставления достигается за счет нескольких инноваций.

Сначала мы представили сжатие признаков, позволяющее сжимать общий набор признаков для представления визуальных объектов без ущерба для точности. Это было сделано путем улучшения алгоритма, тщательного тестирования и настройки. Сжатый набор функций не только экономит вычислительные ресурсы, но и экономит память.

Во-вторых, в игру вступила наша технология хеширования. Мы разработали продвинутые алгоритмы для отображения похожих объектов в одно и то же хеш-пространство, что позволяет нам очень быстро извлекать большой набор похожих объектов для более детальной обработки.

В-третьих, мы реализовали распределенную технологию в облаке, распределив вычисления по нескольким системам.

И, наконец, мы разработали усовершенствованную систему, облегчающую приобретение масштабируемых облачных ресурсов для удовлетворения требований к динамическим вычислениям с минимальными затратами.

Вся наша серверная система специально создана для надежности, эффективности и масштабируемости. Многие клиенты подвергали нас испытанию во время оценок, когда они подвергали нас стрессовым испытаниям с экстремальными требованиями к поиску, и мы справились в каждой ситуации.

Полная гибкость в настройке результатов визуального поиска

Используя наш API визуального поиска, пользователи могут определять параметры поиска и схему данных в соответствии со своими требованиями. Например, результаты поиска можно фильтровать по цене, бренду или любым другим фильтрам, которые они хотели бы применить.

Во многих случаях пользователей могут интересовать другие объекты вместо основного, определяемого системой автоматически. Чтобы обеспечить большую гибкость, мы предоставили простой пользовательский интерфейс, позволяющий пользователю выбирать интересующий его объект среди остальных.

На этом рынке очень сложно найти другого игрока, который достиг бы тех же стандартов, которых достигли мы. Кроме того, уровень настройки, который мы предоставляем разработчикам через API, очень тщательный и удобный для пользователя.

Процедуры систематической оценки и автоматизированного тестирования

Кроме того, мы разработали внутреннюю процедуру контроля качества, которая позволяет нам постоянно повышать скорость и точность поиска. Все дело в систематической оценке, быстрой обратной связи и мониторинге производительности.

Дорожная карта ViSenze для дальнейшего повышения планки

Как технологический стартап, мы укрепляем свое лидерство в предоставлении лучших решений для визуального поиска на рынке, мы также разрабатываем новые технологии и рассматриваем долгосрочный план роста.

Технология распознавания изображений, масштабные возможности обработки видео, а также возможности анализа больших данных — все это часть плана:

  1. Технологии распознавания. Они позволяют нам идентифицировать широкий спектр общих объектов и конкретных объектов, таких как различные стили одежды или обуви. Технология доступна как для изображений, так и для видео. У нас уже есть несколько платных клиентов, использующих нас, хотя мы еще не внедрили эту технологию в продукт.
  2. Благодаря технологиям распознавания видео мы можем выполнять распознавание объектов в видео и, следовательно, рекламу в режиме реального времени. У нас есть партнеры в США и Китае соответственно, которые заинтересованы в применении нашей технологии.
  3. Аналитика больших данных. Имея огромное количество пользовательских данных и истории доступа, мы изучаем онлайн-поведение пользователей электронной коммерции, их профили, предпочтения и покупательские привычки.

Мы считаем, что мощь технологии — особенно в глубоком обучении и крупномасштабном обучении — выведет приложения визуального поиска на новый уровень.

Несколько советов разработчикам, которые хотят заняться ИИ

Есть много компаний, которые считают алгоритм своей основной компетенцией. Однако эти компании теряют свое преимущество, если не могут угнаться за тенденциями в области глубокого обучения.

Быстрый выпуск нового алгоритма глубокого обучения и более зрелых пакетов программного обеспечения с открытым исходным кодом позволил конкурентам сократить циклы исследований и разработок. Таким образом, самым ценным активом компании являются не сам алгоритм, а возможности сбора данных, особенно высококачественные обучающие данные.

Алгоритм больше не является секретом. Это изменило требования к набору навыков НИОКР для многих отраслей. Поскольку область глубокого обучения все еще является относительно новой, существует множество областей, в которых инженерам из разных областей необходимо быстро повысить уровень — программирование графических процессоров, проектирование инфраструктуры параллельных вычислений, а также глубокое понимание машинного обучения.

Инженер, который сможет освоить вышеперечисленное, будет самым востребованным на рынке. В то же время снижается спрос на инженеров-алгоритмистов, которые занимаются только конкретными областями.

Чтобы узнать больше о тенденциях в сфере визуальных технологий, посетите выступление Гуанды во время онлайн-конференции AI With The Best, которая пройдет 24–25 сентября 2016 г. вертикаль моды и уроки, извлеченные на этом пути.

Об авторе. В качестве главного исследователя запатентованной технологии визуального распознавания в ViSenze Гуангда опубликовал более 19 международных публикаций по анализу видео и изображений. Он также получил докторскую степень в области медиа-вычислений в NUS и был научным сотрудником в том же университете до того, как стал соучредителем ViSenze. Гуанда — региональный финалист конкурса 35 Innovators Under 35 Awards от MIT Technology Review.