Обзор основных требований к работе Data Scientist в 2020 году от Joos Korstanje
5 мин чтения
Обновите свои навыки для работы на рынке данных в 2020 году!
Наука о данных – это очень конкурентное поле, где люди быстро накапливают все больше навыков и опыта. Это привело к бурному росту должностей инженеров по машинному обучению. Поэтому мой совет на 2020 год заключается в том, что Data Scientists должен также стать и разработчиком.
Чтобы оставаться конкурентоспособным, подготовьте себя к новым способам работы с новыми инструментами.
1. Agile
Agile – это метод организации работы, который уже давно и широко используется командами разработчиков. Позиции Data Science все больше занимают люди с навыками разработчиков программного обеспечения. Это приводит к увеличению роли инженера машинного обучения.
Все больше и больше разработчиков данных и инженеров машинного обучения работают как классические разработчики. Они постоянно совершенствуют элементы машинного обучения в существующей кодовой базе.
Для такой роли специалист по данным должен знать гибкий (Agile) способ работы на основе метода Scrum. Он определяет несколько ролей для разных специалистов, и это распределение ролей гарантирует гладкое и непрерывное улучшение создаваемого продукта.
2. Github
Git и Github – это программное обеспечение для разработчиков, которое помогает управлять различными версиями создаваемого программного обеспечения. Оно отслеживает все изменения, вносимые в базу кода. Кроме того, оно упрощает совместную работу нескольких разработчиков над одним и тем же проектом.
Поскольку роль Data Scientist становится все более трудоемкой, навык работы с этими инструментами становится ключевым. Git становится серьезным требованием, и требуется время, чтобы хорошо им овладеть. Легко начать работать с Git, когда ты один или когда все твои коллеги новички. Но когда ты присоединяешься к команде с экспертами Git и все еще новичок, ты можешь столкнуться с большими проблемами.
3. Индустриализация
В Data Science также меняется то, как мы думаем о наших проектах. Data Scientist – все еще человек, который отвечает на вопросы бизнеса с помощью машинного обучения. Но проекты Data Science все чаще разрабатываются для производственных систем, как микро-сервис в более крупном программном обеспечении.
В то же время расширенные типы моделей требуют все больше ресурсов ЦП и ОЗУ, особенно при работе с нейронными сетями и Deep Learning.
С точки зрения должностных инструкций, для Data Scientist становится все более важным не только думать о точности вашей модели, но также учитывать время выполнения кода или другие аспекты индустриализации проекта.
4. Облако и большие данные
В то время как индустриализация машинного обучения становится все более серьезным требованием для специалистов по обработке данных, она также становится серьезным вызовом для инженеров по обработке данных и ИТ в целом.
Пока Data Scientist работает над сокращением времени исполнения кода модели, ИТ-специалисты вносят свой вклад, переключаясь на более быстрые вычислительные услуги, которые обычно получают одним или обоими следующими способами:
- Облако. Перемещение вычислительных ресурсов внешним поставщикам, таким как AWS, Microsoft Azure или Google Cloud, позволяет легко настроить очень быструю среду машинного обучения, к которой можно получить доступ на расстоянии. Это требует от Data Scientists базового представления о функционировании облака. Например, работы с серверами на расстоянии, а не с локальным компьютером, или работы с Linux, а не с Windows / Mac.
- Большие данные. Вторым аспектом более быстрой ИТ-инфраструктуры является использование Hadoop и Spark, которые являются инструментами, позволяющими распараллеливать задачи на многих компьютерах одновременно (рабочих узлах). Это требует использования другого подхода к реализации Data Science моделей, поскольку ваш код должен допускать параллельное выполнение.
5. НЛП, нейронные сети и глубокое обучение
До недавнего времени для Data Scientist было принято считать, что NLP и распознавание образов – это всего лишь специализация Data Science, которой не все должны владеть.
Но случаи использования классификации изображений и НЛП становятся все более частыми даже в «обычном» бизнесе. В настоящее время стало неприемлемым не иметь хотя бы базовых знаний о таких моделях.
Даже если вы непосредственно не применяете такие модели в вашей работе, практическое изучение такого проекта поможет вам понять основы Computer Vision и NLP.
Желаю вам удачи в совершенствовании своих навыков! Оставайтесь в курсе новых тенденций!