Нажмите "Enter" для перехода к содержанию

Обучение Data Science какие знания по математике нужны специалисту по анализу данных

0

Базовой компетенцией специалиста по Data Science является его способность анализировать и интерпретировать данные, а математика – фундамент любой научной дисциплины. Почти все методы современной науки о данных, включая машинное обучение, имеют серьезную математическую основу. Глубокое понимание стоящего за алгоритмами научного аппарата обеспечит вам преимущества на рынке труда.

Во вступительных публикациях серии мы писали о том, как можно изучить Data Science онлайн с нуля, а также рассказали историю Тима Хоппера – математика, который построил карьеру аналитика данных. Сегодня речь пойдет о необходимых с пециалисту по Data Science математических знаниях и способах их получить.

Источник

Классический математический анализ

Дифференциальное и интегральное исчисление лежат в основе Data Science и машинного обучения. Они скрывается за простым на вид аналитическим решением обычной задачи наименьших квадратов в линейной регрессии или встроены в каждое обратное распространение, которое ваша нейронная сеть делает, чтобы узнать новый паттерн. Это ценные разделы, которые стоит добавить в свой набор навыков. Темы для изучения:

  • Функции одной переменной, пределы, лимиты, дифференцируемость;
  • Теоремы о средних значениях, неопределенные формы, теорема Лопиталя;
  • Максимумы и минимумы;
  • Правило продукта и цепочки;
  • Ряд Тейлора, концепции суммирования бесконечных рядов/интегрирования;
  • Фундаментальные и средние значения, теоремы интегрального исчисления, оценка определенных и неправильных интегралов;
  • Бета-и гамма-функции;
  • Функции множественных переменных, предел, непрерывность, частные производные;
  • Основы обыкновенных и дифференциальных уравнений в частных производных.

Где применяется?

Если вы когда-нибудь задумывались, как работает логистическая регрессия, то вам понадобятся знания о градиентном спуске (с англ. gradient descent) и понятия из исчисления: производные, пределы и цепное правило.

Линейная алгебра

Это важный раздел математики для понимания того, как алгоритмы машинного обучения работают с потоком данных для создания представления. Все алгоритмы, лежащие в основе рекомендательных систем и распознавания изображений, включают в себя матрицы и матричную алгебру. Главные темы для изучения в данном разделе:

  • Основные свойства матриц и векторов: скалярное умножение, линейное преобразование, транспонирование, сопряженность, ранг, детерминант;
  • Внутренние и внешние произведения, правило умножения матриц и различные алгоритмы, обратные матрицы;
  • Специальные матрицы: квадратная, единичная и треугольная матрицы, представление о разреженной и плотной матрице, единичные векторы, симметричная матрица, Эрмитова матрица, Антиэрмитова и унитарная матрицы;
  • Концепция матричного факторизации, LU-разложение, Метод Гаусса, решение линейной системы уравнений Ax=b;
  • Векторное пространство, базис, промежуток, ортогональность, ортонормированность, линейный наименьший квадрат;
  • Собственный вектор, диагонализация, сингулярное разложение.

Где применяется?

Все нейросетевые алгоритмы применяют методы линейной алгебры для представления и обработки сетевых структур и операций обучения, а также для уменьшения размерности набора данных с наименьшим количеством параметров.

Функции, переменные, уравнения и графики

Эта область математики включает все основы для Data Scientist, от уравнения прямой до биномиальной теоремы, а также:

  • Логарифм, экспоненциальные, полиномиальные функции, рациональные числа;
  • Основы геометрии и теоремы, тригонометрические тождества;
  • Вещественные и комплексные числа (с англ. real and complex numbers ) , основные свойства;
  • Ряды, суммы, неравенства;
  • Построение графиков, декартовых и полярных координат, конических сечений.

Где применяются?

Если вы хотите понять, как выполнить поиск из миллиона элементов после сортировки в базе данных быстрее, вы столкнетесь с понятием двоичный поиск (с англ. binary search) . Чтобы понять его динамику, вам необходимо знать как устроены логарифмы и рекуррентные уравнения. Или, например, если вы хотите проанализировать временной ряд, вы можете столкнуться с такими понятиями, как периодические функции и экспоненциальный распад.

Источник

Статистика

Для Data Scientists важно понимание основных понятий статистики и теории вероятностей. Многие специалисты в этой области считают классическое (не нейронное сетевое) машинное обучение ничем иным, как статистическим обучением. Данная тема очень обширна, поэтому обратите внимание на наиболее важные концепции:

  • Обобщение данных и описательная статистика, центральная тенденция, дисперсия, ковариация, корреляция;
  • Базовая вероятность: основная идея, математическое ожидание, вероятностное исчисление, теорема Байеса, условная вероятность;
  • Функции распределения вероятностей: равномерные, нормальные, биномиальные, хи-квадрат, t-распределение Стьюдента, центральная предельная теорема;
  • Выборка, измерение, погрешность, генерация случайных чисел;
  • Проверка гипотез, A/B testing, доверительные интервалы, p-values;
  • ANOVA, t-тест;
  • Линейная регрессия, регуляризация.

Где применяется?

В интервью и на практике. Если сможете показать, что освоили эти понятия, вы быстро произведете хорошее впечатление, так как вам предстоит использовать их почти каждый день на этапе обработки и анализа данных.

Дискретная математика

Эта область математики не так часто обсуждается, но вся современная наука о данных использует вычислительные системы, и дискретная математика лежит в их основе. Повышение квалификации по дискретной математике будет включать в себя концепции, критически важные для применения алгоритмов и структур данных в аналитическом проекте:

  • Наборы, подмножества, наборы мощности;
  • Счетные функции, комбинаторика, счетность;
  • Основные методы доказательства: индукция, доказательство противоречием;
  • Основы индуктивной, дедуктивной и пропозициональной логики;
  • Основные структуры данных: стеки, очереди, графики, массивы, хэш-таблицы, деревья;
  • Свойства графа: связные компоненты, степень, концепции максимального потока/минимального разреза, раскраска графа;
  • Рекуррентные соотношения и уравнения;
  • Функция роста.

Где применяется?

В анализе социальных сетей необходимо знать свойства графа, быстрый алгоритм поиска и обхода сети.

Исследование операций

Эти темы наиболее актуальны в специализированных областях, таких как теоретическая информатика, теория управления или исследование операций. Базовое понимание этих мощных методов также может быть полезным и в практике машинного обучения. Почти каждый алгоритм стремится минимизировать ошибку оценки с учетом различных ограничений, что является проблемой оптимизации. Темы для изучения:

  • Основы оптимизации и как сформулировать задачу;
  • Максимумы, минимумы, выпуклая функция, глобальное решение;
  • Линейное программирование, Симплекс-метод;
  • Целочисленное программирование;
  • Программирование в ограничениях, задача о рюкзаке (с англ. knapsack problem) ;
  • Рандомизированные методы оптимизации.

Где применяется?

Простые задачи линейной регрессии с использованием функции наименьших квадратов потерь имеют точное аналитическое решение, но не задачи логистической регрессии. Для их решения необходимо понимать, как работает выпуклость в оптимизации.

Источник

Курсы

Освоить теорию по учебникам не так просто, часто для наработки математического базиса начинающие специалисты по анализу данных прибегают к помощи опытных преподавателей. В наше время это можно сделать не выходя из дома.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *