Задачи из интервью Google Data Science

Простые, интуитивно понятные объяснения некоторых вопросов Google по решению проблем

Давайте продолжим с вами серию публикаций нашего блога о задачах, обычно задаваемых на интервью при приеме на работу по специальности Data Science.

Напомним, что вы можете посмотреть типичные задачи по программированию в наших публикациях: 1, 2, 3.

Помимо задач по программированию, работодатель обязательно проверяет знание математики, и особенно решение задач в области статистики и теории вероятности. Ниже мы приводим разбор вопросов из интервью Google, которые можно найти в публикациях Теренс Шин

6 минут чтения

Фото Митчелла Ло на Unsplash

Такие вопросы относятся к разделу “problem solving”, обычно являются не сложными, и подразумевают быстрый ответ в течение 3-5 минут.

Вопросы и ответы

1. В одной коробке 12 красных и 12 черных карт. В другой коробке 24 красных и 24 черных карты. Вы хотите взять две карты случайным образом из одной из двух коробок, по одной карте за раз. С какой коробкой больше шансов получить карты одного цвета и почему?

С коробкой с 24 красными и 24 черными картами более высокая вероятность получения двух карт одного цвета.

Допустим, первая карта, которую вы берете из каждой коробки, это красный туз.

Это означает, что в коробке с 12 красными и 12 черными теперь 11 красных и 12 черных карт. Поэтому ваши шансы вытащить еще одну красную карту равны 11 / (11 + 12) или 11/23.

В колоде с 24 красными и 24 черными будет 23 красных и 24 черных карты. Поэтому ваши шансы вытащить еще один красный цвет равны 23 / (23 + 24) или 23/47.

Так как 23/47 > 11/23, то со второй коробкой с большим количеством карт, большая вероятность вытащить две карты подряд одного цвета.

2. Вы находитесь в казино и у вас две кости для игры. Каждый ваш бросок стоит 5 долларов, и вы выигрываете 10 долларов каждый раз, когда выпадает 5. Если вы играете до тех пор, пока не выиграете, а затем остановитесь, то какова ожидаемая выплата?

  • Есть 36 возможных комбинаций с двумя кубиками.
  • Из 36 комбинаций есть 4 комбинации, в результате которых получается пять (см. рисунок). Это означает, что есть шанс 4/36 или 1/9 бросить 5.
  • Вероятность выигрыша 1/9 означает, что вы проиграете восемь раз и выиграете один раз (теоретически).
  • Следовательно, ваша ожидаемая выплата = потеря равна $ 10,00 * 1 – $ 5,00 * 9 = – $ 35,00.

3. Как можно определить, не является ли данная монета предвзятой / смещенной?

Это не вопрос с подвохом, для ответа надо просто выполнить проверку гипотезы:

  1. Нулевая гипотеза состоит в том, что монета не смещена, и вероятность одного из двух результатов подбрасывания должна быть равна 50% (р = 0,5). Альтернативная гипотеза состоит в том, что монета смещена и р != 0,5.
  2. Подбросим монету 500 раз .
  3. Рассчитаем z-статистику (если выборка меньше 30, мы бы рассчитали t-статистику).
  4. Сравните с заданным уровнем допустимости верности нулевой гипотезы, обычно альфа = 5% (так как у нас два возможных значения в тесте, то 0,05 / 2 = 0,025).
  5. Если уровень значимости (p-value) >  альфа, то нулевая гипотеза не отбрасывается и монета считается не смещенной.
    Если p-value < альфа, то нулевая гипотеза отклоняется в пользу предположения о смещенной монете.

Узнайте больше о проверке гипотез здесь .

4. Как сделать подбрасывание смещенной монеты справедливой игрой?

Поскольку подбрасывание монеты – это бинарный результат, вы можете сделать нечестную монету справедливой, бросая ее дважды. Если вы будете бросать монету дважды, вы можете сделать ставку на два исхода: орел, за которым выпадает решка, или решка, за которой выпадает орел.

P (орел) * P (решка) = P (решка) * P (орел)

Это имеет смысл, поскольку каждый бросок монеты является независимым событием. Это означает, что если вы получите результат орел → орел или решка → решка, вам нужно будет перебросить монету.

5. Вы собираетесь поехать в Лондон, и хотите знать, нужно ли брать с собой зонт или нет. Вы знаете, что вероятность дождя в Лондоне в определенный день составляет 25%. Вы звоните трем своим случайным друзьям и спрашиваете каждого из них, идет ли дождь. Вероятность того, что ваш друг скажет правду, составляет 2/3, а вероятность того, что он разыграет вас, составляет 1/3. Если все трое из них скажут, что идет дождь, то какова вероятность того, что на самом деле в Лондоне идет дождь?

Вы можете сказать, что этот вопрос связан с байесовской теорией из-за последнего утверждения, которое по существу соответствует структуре: «Какова вероятность того, что A истинно, если B истинно?».

P(A) = вероятность дождя = 25%
P(B) = вероятность того, что все 3 друга говорят, что идет дождь
P(A | B) вероятность того, что идет дождь, если все друзья говорят, что идет дождь
P(B | A ) вероятность того, что все 3 друга говорят, что идет дождь, если идет дождь = (2/3)³ = 8/27

Шаг 1: Найдем P(B)
P(B) = P(B | A) * P(A) + P(B | не A) * P(не A)
P(B) = (2/3)³ * 0.25 + (1/3)³ * 0.75 = 0.25 * 8/27 + 0.75 * 1/27

Шаг 2: Теперь вычислим P(A | B)

P(A | B) = P(B | A) * P(A) / P(B),
P(A | B) = 0,25 * (8/27) / (0,25 * 8/27 + 0,75 * 1/27)
P(A | B) = 8 / (8 + 3) = 8/11

Поэтому, если все трое друзей говорят, что идет дождь, то есть шанс 8/11, что на самом деле идет дождь.

6. Вам выдали 40 карт четырех разных цветов: 10 зеленых, 10 красных, 10 синих и 10 желтых. Карты каждого цвета пронумерованы от одного до десяти. Две карты выбираются наугад. Найдите вероятность того, что выбранные карты не одинакового цвета и с разными номерами.

Поскольку эти события не являются независимыми, мы можем использовать правило:
P(A и B) = P(A) * P(B | A), которое также равно
P(не A и не B) = P(не A ) * P(не B | не A)

Например, допустим что первая карта желтая четверка. Тогда для второй карты справедливо следующее:

P(не 4 и не желтый) = P(не 4) * P(не желтый | не 4)
P(не 4 и не желтый) = (36/39) * (27/36)
P(не 4 и не желтый) = 0,692

Следовательно, вероятность того, что выбранные карты имеют разный номер и не одинаковый цвет, составляет 69,2%.

Спасибо за потраченное время, надеемся, это было полезно!

Поделиться...
Поделиться в facebook
Поделиться в twitter
Поделиться в vk