Топ 5 обязательных навыков Data Science в 2020 году

«R, Python, SQL и машинное обучение» долгое время было стандартным описанием требований для работы Data Scientist. Но с развитием отрасли этих навыков уже недостаточно, чтобы оставаться конкурентоспособным на рынке труда.

Обзор основных требований к работе Data Scientist в 2020 году от Joos Korstanje

5 мин чтения

Обновите свои навыки для работы на рынке данных в 2020 году!

Наука о данных – это очень конкурентное поле, где люди быстро накапливают все больше навыков и опыта. Это привело к бурному росту должностей инженеров по машинному обучению. Поэтому мой совет на 2020 год заключается в том, что Data Scientists должен также стать и разработчиком.

Чтобы оставаться конкурентоспособным, подготовьте себя к новым способам работы с новыми инструментами.

1. Agile

Agile – это метод организации работы, который уже давно и широко используется командами разработчиков. Позиции Data Science все больше занимают люди с навыками разработчиков программного обеспечения. Это приводит к увеличению роли инженера машинного обучения.

Post-it и Agile, кажется, идут рука об руку

Все больше и больше разработчиков данных и инженеров машинного обучения работают как классические разработчики. Они постоянно совершенствуют элементы машинного обучения в существующей кодовой базе.

Для такой роли специалист по данным должен знать гибкий (Agile) способ работы на основе метода Scrum. Он определяет несколько ролей для разных специалистов, и это распределение ролей гарантирует гладкое и непрерывное улучшение создаваемого продукта.

2. Github

Git и Github – это программное обеспечение для разработчиков, которое помогает управлять различными версиями создаваемого программного обеспечения. Оно отслеживает все изменения, вносимые в базу кода. Кроме того, оно упрощает совместную работу нескольких разработчиков над одним и тем же проектом.

GitHub – это путь

Поскольку роль Data Scientist становится все более трудоемкой, навык работы с этими инструментами становится ключевым. Git становится серьезным требованием, и требуется время, чтобы хорошо им овладеть. Легко начать работать с Git, когда ты один или когда все твои коллеги новички. Но когда ты присоединяешься к команде с экспертами Git и все еще новичок, ты можешь столкнуться с большими проблемами.

Git – это настоящий навык, который нужно знать для GitHub

3. Индустриализация

В Data Science также меняется то, как мы думаем о наших проектах. Data Scientist – все еще человек, который отвечает на вопросы бизнеса с помощью машинного обучения. Но проекты Data Science все чаще разрабатываются для производственных систем, как микро-сервис в более крупном программном обеспечении.

AWS является крупнейшим поставщиком облачных услуг

В то же время расширенные типы моделей требуют все больше ресурсов ЦП и ОЗУ, особенно при работе с нейронными сетями и Deep Learning.

С точки зрения должностных инструкций, для Data Scientist становится все более важным не только думать о точности вашей модели, но также учитывать время выполнения кода или другие аспекты индустриализации проекта.

Google также имеет облачный сервис, как и Microsoft (Azure)

4. Облако и большие данные

В то время как индустриализация машинного обучения становится все более серьезным требованием для специалистов по обработке данных, она также становится серьезным вызовом для инженеров по обработке данных и ИТ в целом.

Знаменитый комикс (https://www.cyberciti.biz/humour/dad-what-are-clouds-made-of-in-it/)

Пока Data Scientist работает над сокращением времени исполнения кода модели, ИТ-специалисты вносят свой вклад, переключаясь на более быстрые вычислительные услуги, которые обычно получают одним или обоими следующими способами:

  • Облако. Перемещение вычислительных ресурсов внешним поставщикам, таким как AWS, Microsoft Azure или Google Cloud, позволяет легко настроить очень быструю среду машинного обучения, к которой можно получить доступ на расстоянии. Это требует от Data Scientists базового представления о функционировании облака. Например, работы с серверами на расстоянии, а не с локальным компьютером, или работы с Linux, а не с Windows / Mac.
PySpark это Python для параллельных (Big Data) систем

  • Большие данные. Вторым аспектом более быстрой ИТ-инфраструктуры является использование Hadoop и Spark, которые являются инструментами, позволяющими распараллеливать задачи на многих компьютерах одновременно (рабочих узлах). Это требует использования другого подхода к реализации Data Science моделей, поскольку ваш код должен допускать параллельное выполнение.

5. НЛП, нейронные сети и глубокое обучение

До недавнего времени для Data Scientist было принято считать, что NLP и распознавание образов – это всего лишь специализация Data Science, которой не все должны владеть.

Вам нужно освоить Глубокое обучение (Deep Learning): машинное обучение, основанное на идее человеческого мозга.

Но случаи использования классификации изображений и НЛП становятся все более частыми даже в «обычном» бизнесе. В настоящее время стало неприемлемым не иметь хотя бы базовых знаний о таких моделях.

Даже если вы непосредственно не применяете такие модели в вашей работе, практическое изучение такого проекта поможет вам понять основы Computer Vision и NLP.

Желаю вам удачи в совершенствовании своих навыков! Оставайтесь в курсе новых тенденций!

Поделиться...
Поделиться в facebook
Поделиться в twitter
Поделиться в vk