Профессия Data Scientist и 20 вопросов на собеседовании

Одно из 25 лучших рабочих мест в Америке, рост спроса, который к 2020 году достигнет 28%, и солидная заработная плата. Неудивительно, что все кинулись в эту отрасль, но и собеседование отнюдь не простое. Рассмотрим распространенные вопросы для потенциального ученого по данным.

1. Что такое векторы признаков?

Ответ:

Функциональный вектор представляет собой n-мерный вектор числовых признаков, которые образуют некоторый объект. В машинном обучении векторы признаков используются для представления числовых или символических характеристик, называемых объектами, в математическом, легко анализируемом виде.

2. Объясните шаги при создании дерева решений.

Ответ:

Возьмите весь набор данных в качестве входных параметров.
Найдите способ максимизировать разделение классов. Это может быть любой тест, который делит данные в двух наборах.
Примените разделение к входным данным.
Повторите шаги с 1 по 2 для разделенных данных.
Остановитесь, когда встретите соответствующие критерии.
Обрезка: очистите дерево, если вы зашли слишком далеко в разделении.

3. Что такое анализ основных причин, который включает в себя профессия Data Scientist?

Ответ:

Анализ основных причин был первоначально разработан для изучения промышленных аварий, но в настоящее время широко используется и в других областях. Это метод решения проблем. Фактор признается первопричиной, если его исключение предотвращает повторное появление нежелательного события.

4. Что такое логистическая регрессия?

Ответ:

Логистическая регрессия также упоминается как logit model. Это метод прогнозирования двоичного результата из линейной комбинации предикторных переменных.

5. Что такое система рекомендаций?

Ответ:

Системы рекомендаций являются подклассом систем фильтрации информации, что предназначены для прогнозирования предпочтений или оценок, которые пользователь предоставит продукту.

6. Объясните перекрестные проверки.

Ответ:

Профессия Data Scientist неразрывно связана с анализом и тестированием. Перекрестные проверки – это как раз метод проверки аналитической модели на независимых данных. Чаще используется в фоновых условиях, когда нужно оценить, насколько точно модель будет реализована на практике. Цель кросс-проверки заключается в определении набора данных для тестирования модели на этапе обучения, чтобы избежать таких проблем, как переназначение. Результат – оценка эффективности модели с максимально равномерным использованием данных.

7. Что такое коллаборативная фильтрация?

Ответ:

Процесс фильтрации, используемый большинством систем рекомендаций. Он позволяет находить шаблоны и информацию с помощью совместных перспектив, многочисленных источников данных и нескольких агентов.

8. Всегда ли методы градиентного спуска сходятся к подобной точке?

Ответ:

Нет. В некоторых случаях они достигают локальных минимумов или локальной оптимальной точки. Вы не достигнете глобальной оптимальной точки. Это предопределено данными и начальными условиями.

9. Профессия Data Scientist и тестирования A/B: какова цель таких тестов?

Ответ:

Это статистическое тестирование гипотез для рандомизированного эксперимента с двумя переменными A и B. Цель A/B тестов заключается в обнаружении любых изменений на веб-странице для улучшения результатов.

10. Перечислите недостатки линейной модели.

Ответ:

Некоторыми недостатками линейной модели являются:

Предположение о линейности ошибок.
Не может использоваться для результатов подсчета или двоичных результатов.
Есть проблемы с переобучением, которые не может решить линейная модель.

11. Что такое Закон больших чисел?

Ответ:

Это теорема, которая описывает результат выполнения одного и того же эксперимента много раз. Данная теорема составляет основу частотного мышления. В ней говорится, что среднее значение, дисперсия и стандартное отклонение выборки сходятся к тому, что они пытаются оценить.

12. Что такое мешающий фактор?

Ответ:

Это посторонние факторы статистической модели, которые прямо или обратно пропорционально коррелируют как с зависимой, так и с независимой переменной. Оценка не учитывает мешающий фактор, зато сама профессия Data Scientist предусматривает его изучение.

13. Объясните звездную схему.

Ответ:

Это традиционная схема базы данных с центральной таблицей. Ее функция – поддерживать многомерное представление данных, которые хранятся в ней. Центральная таблица, таблица фактов, содержит фактические или суммируемые данные и состоит из множества строк. Денормализованные таблицы измерений не такие большие и предназначены для описательной информации. Все они известны как таблицы поиска и в основном полезны в приложениях реального времени, поскольку сохраняют много памяти. Иногда звездообразные схемы включают несколько уровней суммирования для быстрого восстановления информации.

14. Расскажите о регулярном обновлении алгоритмов.

Ответ:

Data Scientist занимается обновлением алгоритмов, когда:

Хочет, чтобы модель развивалась через инфраструктуру, подобно потокам данных.
Меняется исходный источник данных.
Нестационарный случай.

15. Что такое собственное значение и собственный вектор?

Ответ:

Собственные векторы предназначены для понимания линейных преобразований. При анализе данных ученый обычно вычисляет Eigenvector для корреляционной или ковариационной матрицы. Собственные значения – это направления, по которым конкретное линейное преобразование действует путем сбрасывания, сжатия или растяжения.

16. Для чего нужна повторная выборка?

Ответ:

Повторная выборка выполняется в любом из этих случаев:

Оценка точности статистических данных выборок путем использования подмножеств доступных данных или рисования случайным образом с заменой из набора точек данных.
Подстановка меток в точках данных при выполнении тестов значимости.
Проверка моделей с использованием случайных подмножеств (самонастройка, перекрестная проверка).

17. Объясните выборочное смещение.

Ответ:

Выборочное смещение (selection bias) в Data Science является проблематичной ситуацией, при которой ошибка возникает из-за неслучайной выборки.

18. Каковы типы смещений, возникающих в процессе выборки?

Ответ:

Selection bias
Under coverage bias
Survivorship bias

19. Объясните суть survivorship bias.

Ответ:

Это логическая ошибка фокусирующих аспектов, которые поддерживают «выживаемость» какого-либо процесса и игнорируют процессы менее значимые. Может привести к неправильным выводам.

20. Как вы работаете с Random forest?

Ответ:

Основополагающий принцип данной методики заключается в том, что несколько слабых учеников объединяются, чтобы создать одного сильного. Этапы:

Создается несколько деревьев решений на загрузочных образцах данных.
Каждый раз, когда происходит расщепление, случайная выборка mm-предикторов образовывается из всех pp-предикторов.
Правило большого пальца: на каждом расколе m=p√m=p.
Прогнозы: по правилу большинства.

Быть ученым-исследователем нелегко, но выгодно, ведь на сегодняшний день существует немало вакансий. Подготовьтесь к суровым вопросам, и должность обязательно станет вашей!

Профессия Data Scientist и 20 вопросов на собеседовании

1. Что такое векторы признаков?

2. Объясните шаги при создании дерева решений.

3. Что такое анализ основных причин, который включает в себя профессия Data Scientist?

4. Что такое логистическая регрессия?

5. Что такое система рекомендаций?

6. Объясните перекрестные проверки.

7. Что такое коллаборативная фильтрация?

8. Всегда ли методы градиентного спуска сходятся к подобной точке?

9. Профессия Data Scientist и тестирования A/B: какова цель таких тестов?

10. Перечислите недостатки линейной модели.

11. Что такое Закон больших чисел?

12. Что такое мешающий фактор?

13. Объясните звездную схему.

14. Расскажите о регулярном обновлении алгоритмов.

15. Что такое собственное значение и собственный вектор?

16. Для чего нужна повторная выборка?

17. Объясните выборочное смещение.

18. Каковы типы смещений, возникающих в процессе выборки?

19. Объясните суть survivorship bias.

20. Как вы работаете с Random forest?

admin

Добавить комментарий Отменить ответ