Разработчикам

Наиболее востребованные навыки для аналитиков данных (Data Scientists)

Что ищут работодатели?

Перевод очень полезной для начинающих аналитиков данных статьи Джеффа Хейла. И хотя, этот обзор сделан для Соединенных Штатов в октябре 2018 года, Российский рынок стремительно следует тем же тенденциям.

Ожидается, что аналитики, работающие с данными, должны знать очень много – машинное обучение, информатика, статистика, математика, визуализация данных, коммуникация и глубокое обучение. В этих областях существуют десятки доступных языков, структур и технологий. Как начинающим аналитикам данных, которые хотят быть востребованными работодателями, эффективно потратить свой бюджет на обучение?

Я проверил сайты со списком вакансий, чтобы выяснить, какие навыки наиболее востребованы для специалистов по данным. Я смотрел как на общие навыки в области науки о данных, так и на отдельные языки и инструменты. Я искал списки вакансий в LinkedIn, Indeed, SimplyHired, Monster и AngelList 10 октября 2018 года. Вот диаграмма, показывающая, как много специалистов по данным в списке на каждом веб-сайте.

Я проанализировал многие списки вакансий и опросы, чтобы найти наиболее распространенные навыки. При этом такие термины, как управление, не учитывались, потому что они могут использоваться в самых разных контекстах.

Все поиски были выполнены для Соединенных Штатов с «аналитиком данных» (Data Scientist) «[ключевое слово]» . Использование в поиске точного соответствия уменьшило количество результатов. Тем не менее, этот метод гарантировал, что результаты релевантны именно для позиции аналитика данных.

AngelList предоставляет список компаний, а не количество позиций. Я исключил AngelList из обоих анализов, потому что его алгоритм поиска работает как логический поиск типа OR без возможности изменить его на AND . AngelList работает хорошо, если вы ищете «аналитика данных» «TensorFlow», которого можно найти только на позиции аналитика данных, но если ваши ключевые слова «аналитик данных» «response.js», он возвращает слишком много списков компаний, включая списки вакансий ученых.

Glassdoor также был исключен из моего анализа. На сайте сообщалось, что в США более 26 263 рабочих места для «специалистов по обработке данных» , но запрос выдавал не более 900 рабочих мест. Кроме того, кажется маловероятным, что это более чем в три раза больше, чем показывает любая другая крупная платформа.

Условия с более чем 400 списками на LinkedIn для общих навыков и более чем 200 списками для определенных технологий были включены в окончательный анализ. Конечно, здесь есть некоторое пересечение в публикациях. Результаты занесены в этот лист Google .

Я загрузил файлы .csv и импортировал их в JupyterLab. Затем я вычислил процентные показатели и усреднил их по всем веб-сайтам со списками вакансий.

Я также сравнил результаты с исследованием Glassdoor его списков вакансий для исследователей данных за первую половину 2017 года. В сочетании с информацией из исследования KDNuggets очевидно, что некоторые навыки становятся более важными, а другие теряют важность. Мы посмотрим на это чуть позже.

Вы можете ознакомиться с моим Kaggle Kernel для интерактивных диаграмм и дополнительным анализом здесь . Я использовал Plotly для визуализации. Чтобы использовать Plotly с JupyterLab, нужно немного повозиться с этим письмом – инструкции находятся в конце моего Kaggle Kernel и в документации Plotly .

Общие навыки

Вот диаграмма наиболее часто встречающихся навыков исследователей данных, которые ищут работодатели.

Результаты показывают, что анализ и машинное обучение лежат в основе работы аналитика данных. Выбор информации из данных является основной функцией. Машинное обучение – это создание систем прогнозирования производительности, и это очень востребовано.

Наука о данных требует знания статистики и навыков информатики – не удивительно. Статистика, информатика и математика также являются специальностями в колледже, что, вероятно, увеличивает их востребованность.

Интересно, что навык общения упоминается почти в половине списков вакансий. Специалисты по данным должны уметь обмениваться информацией и работать в команде.

ИИ и глубокое обучение появляются не так часто, как некоторые другие термины. Тем не менее, они являются подмножеством машинного обучения. Глубокое обучение используется для все большего числа задач машинного обучения, для которых ранее использовались другие алгоритмы. Например, лучшие алгоритмы машинного обучения для большинства задач обработки естественного языка в настоящее время представляют собой алгоритмы глубокого обучения. Я ожидаю, что в будущем навыки глубокого обучения будут востребованы более часто, и что машинное обучение станет синонимом глубокого обучения.

Какими конкретными программными инструментами должны владеть аналитики данных согласно ожиданиям работодателей?

Технологические навыки

Ниже приведены 20 лучших языков, библиотек и технических инструментов, которые нужны работодателям для работы с данными.

Давайте кратко рассмотрим наиболее распространенные технические навыки.

Python – самый востребованный язык. Популярность этого языка с открытым исходным кодом широко распространена. Это относительный новичок, но у него уже очень много ресурсов поддержки. Подавляющее большинство новых инструментов для обработки данных совместимы с ним. В настоящее время Python, безусловно, является основным языком для аналитика данных.

R не сильно отстает от Python. Когда-то это был основной язык для анализа данных. Он остается достаточно востребованным и до сих пор. Корни этого языка с открытым исходным кодом лежат в статистике, и он все еще очень популярен среди статистиков.

Владение языками Python или R является обязательным условием практически для любой должности исследователя данных.

SQL также пользуется большим спросом. SQL расшифровывается как язык структурированных запросов и является основным способом взаимодействия с реляционными базами данных. SQL иногда упускается из виду в мире науки о данных, но это навык, который стоит освоить, если вы планируете выйти на рынок труда.

Далее идут Hadoop и Spark, оба с открытым исходным кодом от Apache для больших данных.

Apache Hadoop – это программная платформа с открытым исходным кодом для распределенного хранения и распределенной обработки очень больших наборов данных на компьютерных кластерах, построенных на стандартном оборудовании. – Источник.

Apache Spark – это быстрый механизм обработки данных в памяти с элегантными и выразительными API-интерфейсами разработки, позволяющими разработчикам эффективно выполнять потоковые задания, задания машинного обучения или запросы SQL, требующие быстрого итеративного доступа к наборам данных. – Источник.

Об этих инструментах написано значительно меньше и в публикациях, и в учебных пособиях. Очевидно, что гораздо меньше кандидатов на работу имеют эти навыки, чем Python, R и SQL. Если у вас все же есть опыт работы с Hadoop или Spark или вы можете приобрести его, это должно помочь вам при трудоустройстве.

Затем идут Java и SAS . Я был удивлен, увидев, что эти языки расположились так высоко. За ними стоят крупные компании, и, по крайней мере, некоторые бесплатные приложения. Как Java, так и SAS обычно уделяется мало внимания в сообществе специалистов в области данных.

Tableau является следующим по востребованности. Эта аналитическая платформа и инструмент визуализации является мощным и простым в использовании и приобретает все большую популярность. Он имеет бесплатную публичную версию, но будет стоить вам денег, если вы хотите, чтобы ваши данные оставались конфиденциальными.

Если вы не знакомы с Tableau, определенно стоит пройти небольшой курс, например, Tableau 10 AZ на Udemy.

В приведенной ниже таблице представлен расширенный список наиболее востребованных языков, сред и других программных инструментов для обработки данных.

Историческое сравнение

GlassDoor провела анализ 10 наиболее распространенных навыков в области программного обеспечения для аналитиков данных с января 2017 года по июль 2017 года. Вот сравнение того, как часто термины появлялись на их сайте по сравнению со средними показателями в LinkedIn, Indeed, SimplyHired и Monster в октябре 2018 года.

Результаты довольно похожи. И мой анализ, и GlassDoor показывают, что Python, R и SQL наиболее востребованы. Мы также нашли те же самые лучшие девять технических навыков, хотя и в несколько разных порядках.

Обратите также внимание на тренд. По сравнению с первым полугодием 2017 года R, Hadoop, Java, SAS и MatLab теперь менее востребованы, а Tableau – более востребована. Это также подтверждается дополнительными результатами из таких источников, как опрос разработчиков KDnuggets . Там R, Hadoop, Java и SAS показывают четкие многолетние тенденции к снижению использования, а Tableau показывает четкую тенденцию к росту.

Рекомендации

Основываясь на результатах этого анализа, вот несколько общих рекомендаций для нынешних и начинающих аналитиков, заинтересованных в том, чтобы стать востребованными.

Продемонстрируйте, что вы можете выполнять анализ данных и сосредоточиться на том, чтобы стать действительно опытным в машинном обучении.
Инвестируйте в свои навыки общения. Я рекомендую прочитать книгу “Made to Stick”, чтобы ваши идеи оказывали большее влияние. Также изучите приложение Hemmingway Editor, чтобы улучшить читаемость ваших писем.
Овладейте основами глубокого обучения. Опыт работы с технологией глубокого обучения – это все большая часть технологии машинного обучения. Для понимания структур глубокого обучения с точки зрения использования, интереса и популярности см. мою статью здесь .
Если вы выбираете между изучением Python и R, выберите Python. Если вы уже хорошо знаете Python, подумайте над изучением R. Вы определенно будете более конкурентоспособными, если будете знать и R.

Когда работодатель ищет аналитика, обладающего навыками Python, он также ожидает, что кандидаты будут знакомы с общими библиотеками наук о данных Python: numpy, pandas, scikit-learn и matplotlib. Если вы хотите изучить этот набор инструментов, я предлагаю следующие ресурсы:

DataCamp и DataQuest – это недорогие онлайн-продукты SaaS для обучения науке о данных, которые вы изучаете посредством написания кода. Они оба обучают множеству технологических инструментов.
В Data School есть множество ресурсов, в том числе множество видеороликов на YouTube, объясняющих концепции науки о данных.
Питон для анализа данных McKinney. Эта книга, написанная основным автором библиотеки Pandas, посвящена Pandas, а также обсуждает основные функции Python, Numpy и Scikit-Learn.
Введение в машинное обучение с Python от Мюллера и Гвидо. Мюллер – ведущий специалист по науке о данных. Это отличная книга для обучения машинному обучению с помощью scikit-learn.

Если вы хотите перейти к глубокому обучению, я предлагаю начать с Keras или FastAI , прежде чем перейти к TensorFlow или PyTorch . Глубокое обучение Chollet с Python – отличный ресурс для изучения Керас.

Помимо этих рекомендаций, я предлагаю вам ориентироваться на то, что интересует непосредственно вас, хотя при принятии решения о том, как распределить свое учебное время, очевидно, есть много соображений.

Если вы ищете работу для исследователя данных через онлайн-порталы, я предлагаю вам начать с LinkedIn – неизменно дает наибольшие результаты.

Если вы ищете работу или размещаете вакансии на сайтах вакансий, ключевые слова имеют значение. Запрос «наука о данных» возвращает почти в три раза больше результатов по сравнению с «аналитик данных» на каждом сайте. Но если вы ищете строго работу для исследователя данных, вам, вероятно, лучше поискать «исследователя данных».

Независимо от того, какуб платформу вы используете, я предлагаю вам создать онлайн-портфолио, которое продемонстрирует ваше мастерство в максимально возможным количестве областей. Я также предлагаю наполнить ваш профиль Linkedin демонстрацией своих навыков.

В рамках этого проекта я собрал и другие данные, которые я собираюсь опубликовать. Следите за моими публикациями, чтобы не пропустить.

Если вы хотите увидеть интерактивные графические диаграммы и использованный код, посмотрите мое ядро Kaggle .

Поделиться...