Менеджер данных: кому нужен и с чем поможет.
Data Science/ML/AI

Тезисы

В задачах машинного обучения данные не менее важны, чем модели. Чтобы собрать чистые данные, нужно постараться. Например, нужно перевести бизнес-постановку в пайплайн для крауда, поддерживать качество разметки и постоянно делать аналитику на предмет слабых мест датасета. Часто могут возникать сложности по типу как получить разметку на 100 классов или как добрать в датасет примеров с классом, который один на миллион. По статистике, в нашей команде, на сбор данных требуется 80% от суммарного времени на задачу.

Изначально задачами с данными у нас занимались ML-инженеры. Для них тяжело одновременно держать контексты данных и алгоритмов. У инженеров хорошо получается заниматься моделями, а вот следить за согласованностью разметки, планировать бюджет на неё и быть эмпатичными к крауду — не очень. Поэтому мы выделили отдельную роль и назвали её «менеджер датасетов».

В этом докладе:

  • Обсудим, какие задачи решаются менеджером датасетов
  • Взаимодействие: что ему нужно от команды, а что команде от него
  • Как можно помочь менеджеру датасетов: полезные инструменты и сервисы
  • Когда вам может быть полезна эта роль, а когда нет
  • На что обращать внимание при поиске человека на эту позицию
  • И, конечно же, покажем трудности разметки: гигантские пайплайны, сложности формализации, недостаток данных.

Аудитория

Project-manager, data-scientist, ml-engineer, manager.


Уровень сложности

Any level.

2ГИС

Вера Романцова

Продолжительное время руководила командой аналитиков и выполняла функции менеджера по продукту. Последние три года отвечает за сбор и качество датасетов в команде компьютерного зрения 2GIS.

Продолжительное время руководила командой аналитиков и выполняла функции менеджера по продукту. Последние три года отвечает за сбор и качество датасетов в команде компьютерного зрения 2GIS.

Еще на тему Data Science/ML/AI