Разработчикам

Вопросы и ответы из Data Science интервью. Продолжение

Проверьте ваши теоретические и практические знания в data science перед интервью с работодателем

Мы продолжаем публикации для разработчиков.

Очередной набор вопросов и ответов из интервью на позицию data scientist. Для плодотворной подготовки к интервью советуем прочитать нашу предыдущую публикацию с общими вопросами, а также с задачами из интервью Google и Facebook.

10 минут чтения

B. Что такое Сигмоида? Вычислите производную Cигмоиды. Как в машинном обучении используются Cигмоида и ее производная?

Сигмоида — это гладкая монотонная возрастающая нелинейная функция, имеющая форму буквы «S», которая часто применяется для «сглаживания» значений некоторой величины.

Часто под Сигмоидой понимают логистическую функцию:

$\sigma(x) = {1\over 1 + e^{-x}}$

Её производную можно выразить через саму функцию:

$\sigma'(x) = \sigma(x)(1-\sigma(x))$

В машинном обучении Сигмоида применяется в нейронных сетях в качестве функций активации, которая позволяет как усиливать слабые, так и не насыщаться от сильных сигналов. Её производная соответственно используется в расчете градиента при обратном распространении функции ошибки (backpropagation).

В. С точки зрения анализа данных, что такое: лифт, KPI, устойчивость (robustness), обучение модели (fitting), дизайн эксперимента (DOE), правило 80/20?

Лифт: лифт – это мера эффективности (качества прогнозирования) используемой модели, измеренная относительно случайно выбранной модели. Другими словами, параметр lift говорит вам, насколько лучше ваша модель в прогнозировании, чем если бы у вас не было модели или вы использовали случайно выбранную модель.

Например, у исследуемой вами группы населения средний показатель ответов составляет 5%, но определенная модель (или правило) нашла сегмент с коэффициентом ответов 20%. Тогда этот сегмент будет иметь lift = 4.0 (20%/5%).

В задачах бинарной классификации или сегментации в качестве показателя lift используют ROC-кривую, показывающую отношение true positive rate и false positive rate.

$lift = {P(A \cap B) \over P(A) * P(B)}$

KPI: ключевой показатель эффективности, который является измеримой метрикой, используемой для определения того, насколько хорошо компания достигает своих бизнес-целей. Например, доля потерь или доступность товара в магазине.

Устойчивость: в анализе данных под устойчивостью понимается способность системы противостоять изменениям условий без адаптации ее первоначальной стабильной конфигурации.

Этот термин также применяется в статистике. Устойчивым называют статистический метод, который хорошо работает, даже если его предположения несколько нарушены истинной моделью, из которой были получены данные.

Обучение модели (model fitting): процесс тренировки или обучения модели прогнозирования, в результате которого подбираются параметры модели, чтобы выдаваемый ей прогноз максимально соответствовал наблюдаемым данным.

План/дизайн эксперимента (DOE): это комплекс мероприятий, направленных на эффективную постановку опытов. Основная цель планирования эксперимента — достижение максимальной точности измерений при минимальном количестве проведенных опытов и сохранении статистической достоверности результатов.

Планирование эксперимента применяется при поиске оптимальных условий, построении интерполяционных формул, выборе значимых факторов, оценке и уточнении констант теоретических моделей и др.

По сути, эксперимент направлен на прогнозирование результата на основе изменения одного или нескольких входных параметров (независимых переменных).

Правило 80/20: также известный как принцип Парето; утверждает, что 80% последствий происходят от 20% причин. Например, 80% продаж приходится на 20% покупателей.

В. В машинном обучении и статистике, что такое переобучение (overfitting) и недообучение (underfitting) модели? Какие есть способы борьбы с этими явлениями?

Переобучение (overfitting) – явление, когда построенная модель хорошо объясняет примеры из обучающей выборки, но относительно плохо работает на примерах, не участвовавших в обучении (на примерах из тестовой выборки).

Это обычно связано с тем, что при построении модели («в процессе обучения») в обучающей выборке обнаруживаются некоторые случайные закономерности, которые отсутствуют в общем наборе данных. Другая возможная причина – это избыточное усложнение модели, которое не соответствует исследуемой задаче.

Есть несколько методов, применяемых для борьбы с переобучением

– Ранняя остановка обучения;

– Регуляризация – добавление некоторых дополнительных ограничений к условию задачи или параметрам модели

– Удаление данных (dropout) – рандомное попеременное исключение набора коэффициентов модели из процесса обучения, с целью упрощения модели

Недообучение (underfitting) происходит, когда статистическая модель не может адекватно учесть основную структуру данных. Недостаточно подходящая модель – это модель, в которой отсутствуют некоторые параметры или коэффициенты, которые имеются в правильно заданной модели. Например, это происходит при использовании линейной модели на нелинейных данных. Такая модель будет мало эффективной.

Недообучение возникает, когда модель или алгоритм имеют низкую дисперсию, но большое смещение (в противоположность переобучению, когда наблюдается большая дисперсия и малое смещение). Это часто является результатом использования чрезмерно простой модели.

Обычный метод борьбы с недообучением – это постепенное усложнение модели.

В. Дайте определение процессу обеспечения качества (quality assurance). Что такое метод Шесть Сигм (Six Sigma)?

Обеспечение качества: это процесс или результат формирования требуемых свойств и характеристик продукции по мере её создания, а также — поддержание этих характеристик при последующем производстве и эксплуатации продукции.

Другими словами, это деятельность или комплекс мероприятий, направленных на поддержание желаемого уровня качества путем минимизации ошибок и дефектов.

Шесть сигм: это набор подходов и инструментов для улучшения бизнес-процессов. Концепция Шесть Сигм управления производством была разработана в корпорации Motorola и позже использовалась как ключевая стратегия в General Electric.

Суть концепции сводится к необходимости улучшения качества каждого из процессов, минимизации дефектов и статистических отклонений в операционной деятельности. Концепция использует методы управления качеством, в том числе, статистические методы, требует использования измеримых целей и результатов, а также предполагает создание специальных рабочих групп на предприятии, осуществляющих проекты по устранению проблем и совершенствованию процессов («чёрные пояса», «зелёные пояса»).

Название происходит от среднеквадратичного отклонения, обозначаемого греческой буквой σ. Зрелость производственного процесса в этой концепции определяется как σ-рейтинг отклонений, или процентом бездефектной продукции на выходе. Так, процесс управления качеством 6σ на выходе даёт 99,99966% выходов без дефектов, или не более 3,4 дефектных выходов на 1 млн операций.

B. Приведите примеры данных, которые не имеют ни гауссовского распределения, ни логнормального.

– Любой тип категориальных данных не будет иметь гауссово или логнормального распределения.

– Экспоненциальные распределения – например, время работы автомобильного аккумулятора или время землетрясения.

– Распределение Пуассона для счетчиков – например, число автобусов, проезжающих за час мимо остановки

В. Что такое анализ первопричин (root cause analysis RCA)? Как отличить причинно-следственную связь от корреляции? Приведите пример

Анализ первопричин (RCA) – это метод решения проблем, используемый для выявления первопричин неисправностей или проблем. Он широко используется в ИТ-операциях, телекоммуникациях, управлении производственными процессами, анализе аварий (например, в авиации, железнодорожном транспорте или атомных станциях), медицине (для медицинской диагностики), в сфере здравоохранения (например, в эпидемиологии) и т. д.
RCA можно разделить на четыре этапа:

– Четко определить и описать проблему

– Установить последовательность событий от нормальной ситуации до момента возникновения проблемы

– Отделить основную причину от других второстепенных факторов (например, используя корреляцию событий)

– Установить причинно-следственную связь между основной причиной и проблемой.

Корреляция – это статистическая взаимосвязь двух или более случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом изменения значений одной или нескольких из этих величин сопутствуют систематическому изменению значений другой или других величин.

Математической мерой корреляции двух случайных величин X и Y служит коэффициент корреляции, обозначаемый R_XY (или r_XY). Линейный коэффициент корреляции (или коэффициент корреляции Пирсона) определяется по формуле:

$R_{XY} = {\sum(X-\overline X)(Y- \overline Y) \over \sqrt{\sum(X - \overline X)^2(Y - \overline Y)^2}}$ , где:

$\overline X = {1 \over n} \sum_{t=1}^n X$ ,

$\overline Y = {1 \over n} \sum_{t=1}^n Y$

Свойства коэффициента корреляции:

$-1 \leqslant R_{XY} \leqslant 1$

Коэффициент корреляции равен $\pm 1$ тогда и только тогда, когда X и Y линейно зависимы.

Если X, Y независимые случайные величины, то $R_{XY} = 0$ . Обратное в общем случае неверно.

Причинно-следственная связь – это ситуация, когда одно событие вызывает другое событие. Причинность по существу смотрит на прямые связи, в то время как корреляция может смотреть как на прямые, так и на косвенные отношения переменных.

Пример. Анализ уровня преступности в Канаде показывает, что более высокий уровень преступности связан с более высокими продажами мороженого, так как эти величины имеют положительную корреляцию. Однако это не значит, что эти величины имеют причинно-следственную связь. В действительности, это происходит потому, что и то и другое происходит чаще, когда на улице теплее.

Причинно-следственную связь можно проверить с помощью проверки гипотез или A/B-тестирования.

В. Приведите пример, когда медиана является лучшим показателем, чем среднее

В случае, когда выборка является смещенной, или содержит существенные выбросы, которые положительно или отрицательно искажают данные. Пример, анализ рынка труда и размера зарплат. Обычно на рынке присутствуют компании с существенно более высокими или низкими зарплатами, что искажает среднее значение. В этом случае лучше пользоваться медианой, что дает лучший ориентир.

В. Вы бросаете два кубика. Какова вероятность выпадения сумм, равных 4? равных 8?

Так как два кубика независимы, то они могут давать 6*6 = 36 различных комбинаций.

Есть 4 комбинации выпадения 4 (1 + 3, 3 + 1, 2 + 2, 2 + 2):
P (4) = 4/36 = 1/9

Существуют 6 комбинаций для выпадения 8 (2 + 6, 6 + 2, 3 + 5, 5 + 3, 4 + 4, 4 + 4):
P (8) = 6/36 = 1/6

В. Что такое Закон Больших Чисел?

Закон больших чисел – принцип, описывающий результат выполнения одного и того же эксперимента много раз. Согласно закону, среднее значение конечной выборки из фиксированного распределения близко к математическому ожиданию этого распределения.

Закон больших чисел важен, поскольку он гарантирует устойчивость для средних значений некоторых случайных событий при достаточно длинной серии экспериментов.

Важно помнить, что закон применим только тогда, когда рассматривается большое количество испытаний.

Например, выпадение решки при подбрасывании монеты 100 000 раз должно быть ближе к 0.5, чем при подбрасывании монеты 100 раз.

To be continued…

Поделиться...