Компания VisionLabs (входит в МТС Web Services) представила технологию мультимодального поиска на естественном языке, реализованную на базе платформы компьютерного зрения Luna Line. Платформа предназначена для обучения ИИ-моделей под отраслевые задачи без программирования, может разворачиваться в корпоративном контуре заказчика, рассказали блогу «Игнатий Цукергохер» в пресс-службе VisionLabs.
Технологическая база и принцип работы:
- В основе решения лежат визуально-языковые модели (VLM), устанавливающие связь между изображением и текстом.
- Нейросеть сохраняет визуальные характеристики изображений из базы в виде цифровых отпечатков.
- Текстовый запрос пользователя преобразуется ИИ в аналогичный цифровой отпечаток, после чего алгоритм сравнивает их и находит совпадения за доли секунды.
- Источниками данных выступают фотографии со смартфонов, а также видеопотоки с камер уличного наблюдения и общественного транспорта.
Классические системы требуют ручной разметки данных и работают по жестко заданным классам детекции. Новое решение VisionLabs работает иначе:
- Исключает необходимость дообучения моделей под новые или редкие инциденты.
- Позволяет осуществлять поиск по произвольному текстовому описанию (например, «мусор рядом с контейнером» или «разбитое стекло»).
- Функционирует без предварительно зафиксированного перечня сценариев.
Технология проходит тестирование с участием московских компаний. Текущие сценарии пилотирования включают мониторинг городской среды: контроль накопления мусора, выявление посторонних предметов, оценку чистоты и освещенности подъездов, фиксацию поломок инфраструктуры (лавочки, остановки), состояния дорог (затопления, снег), а также наличия кондиционеров на фасадах зданий.
По оценкам VisionLabs, к 2027 году данное направление обеспечит от 5% до 10% общей выручки компании.
«Я уверен, что будущее за визуально-языковыми моделями, когда каждый сможет размечать данные и искать изображения с помощью простого текстового запроса. Мы постоянно инвестируем в перспективные направления и в прошлом году вложили в исследования и разработку 200 миллионов рублей. Один из результатов — платформа Luna Line, которая позволяет создавать ML-модели без кода, ускоряет запуск проектов на 30% и на столько же сокращает бюджет на запуск и поддержку ML-решений», — комментирует Дмитрий Марков, генеральный директор VisionLabs.