Способы обучения языковых моделей пониманию новых типов данных: изображения, видео, аудио
Data Science/ML/AI
Management

Тезисы

Сейчас один из трендов — это мультимодальность. То есть когда фундаментальная (языковая) модель умеет поддерживать связный диалог не только с использованием текста, но и при помощи картинок, видео и аудио. Вышло уже достаточно много моделей и сервисов типа GPT-4V, LLaVA, Qwen-VL и другие. Моя команда разрабатывает мультимодальную модель OmniFusion, которая сейчас показывает очень высокие показатели по ряду метрик, обгоняя другие решения, даже преобладающие по числу параметров.

В докладе хочется сконцентрироваться на технологиях и методах добавления новых модальностей, способах обучения таких механизмов и рассказать наш опыт в решении downstream задач, которые возникают на стыке нескольких модальностей.


Аудитория

Team-lead, data-scientist, ml-engineer.


Уровень сложности

Advanced.

AIRI

Андрей Кузнецов

К.т.н., директор лаборатории FusionBrain в AIRI

Многолетний опыт руководства исследованиями в области компьютерного зрения, мультимодальных и мультиагентных архитектур (OmniFusion, RUDOLPH и GHOST, семейство генеративных моделей Kandinsky, и др.). Автор 70+ публикаций в Scopus/WoS, включая журналы Q1 и конференции Core A/A*. Спикер крупных международных научных и научно-популярных конференций в области AI.

К.т.н., директор лаборатории FusionBrain в AIRI

Многолетний опыт руководства исследованиями в области компьютерного зрения, мультимодальных и мультиагентных архитектур (OmniFusion, RUDOLPH и GHOST, семейство генеративных моделей Kandinsky, и др.). Автор 70+ публикаций в Scopus/WoS, включая журналы Q1 и конференции Core A/A*. Спикер крупных международных научных и научно-популярных конференций в области AI.

Еще на тему Data Science/ML/AI