Обучение Data Science 11 необходимых специалисту по анализу данных концепций из статистики

Обучение Data Science 11 необходимых специалисту по анализу данных концепций из статистики

Статистика – это использование математики (прежде всего теории вероятностей) для выполнения технического анализа данных. Понимание основных ее концепций поможет Data Scientist формировать конкретные выводы, а не просто строить догадки.

Во вступительных публикациях серии мы писали о том, какие знания по математике нужны специалисту по анализу данных . Углубляя тему, расскажем об 11 важнейших концепциях из статистики, без которых не может обойтись ни один Data Scientist.

Случайная величина

Случайная величина – это переменная, значения которой определяются случайным экспериментом. Случайные величины используются в качестве модели для процессов генерации данных, которые мы хотим исследовать.

Пример того, как случайная величина является функцией от всех возможных исходов к реальным значениям. <a href="https://en.wikipedia.org/wiki/Random_variable" target="_blank" rel="noopener noreferrer nofollow">Источник</a>Пример того, как случайная величина является функцией от всех возможных исходов к реальным значениям. Источник

Свойства данных тесно связаны с соответствующими свойствами случайных величин, вроде ожидаемого значения, дисперсии и корреляции. Зависимости между случайными величинами являются решающим фактором, позволяющим прогнозировать неизвестные значения на основе известных – на этом основано контролируемое машинное обучение.

P-value

P-value – это мера вероятности значения, которое принимает случайная величина. Предположим, что у нас есть случайная величина A и значение x. P-value значения x – вероятность того, что A принимает это или любое другое значение, которое имеет тот же или меньший шанс быть наблюдаемым. На практике если значение Р меньше альфа (скажем, 0,05), мы говорим, что вероятность того, что результат мог произойти случайно, составляет менее 5%.

<a href="https://vitalflux.com/wp-content/uploads/2018/07/p-value.png" target="_blank" rel="noopener noreferrer nofollow">Источник</a>Источник

P-value используется при оценке того, насколько несовместимы данные с построенной статистической моделью, но необходимо также учитывать контекстуальные факторы, вроде дизайна исследования, качества измерений, внешних доказательств изучаемого явления и обоснованности предположений, лежащих в основе анализа данных.

Нормальное распределение

Нормальное распределение также известно как распределение Гаусса, которое определяется его средним значением и стандартным отклонением. Среднее смещает распределение пространственно, где стандартное отклонение управляет спредом. Мы знаем среднее значение набора данных и разброс данных с гауссовым распределением.

Распределение Пуассона такое же, как и нормальное, но с добавлением асимметрии. Оно имеет относительно равномерный разброс во всех направлениях, как и нормальный во время малозначимой асимметрии. При высоком значении асимметрии разброс данных будет различным в разных направлениях.

Пример нормального распределения оценок. <a href="https://medium.com/@karthik.k183/normal-distribution-fd601166db0b" target="_blank" rel="noopener noreferrer nofollow">Источник</a>Пример нормального распределения оценок. Источник

Существует множество распределений, которые помогают интерпретировать категориальные данные с равномерным распределением. Распределения вероятностей помогает вычислить доверительные интервалы для параметров и критические области для проверки гипотез. Для одномерных данных полезно определить подходящую модель распределения данных. Статистические интервалы и проверка гипотез также зависят от предположений о распределении переменных.

Меры центральной тенденции

Центральная тенденция – это центральное (или типичное) значение распределения вероятностей. Наиболее распространенными показателями центральной тенденции являются среднее, медиана и мода.

<a href="https://www.researchgate.net/figure/Measures-of-central-tendency-Robinson_fig7_38108766" target="_blank" rel="noopener noreferrer nofollow">Источник</a>Источник

Среднее (mean) – это среднее значение последовательных значений.

Медиана (median) – это значение в середине, когда значения сортируются в порядке возрастания или убывания.

Мода (mode) – это значение, которое появляется чаще всего.

Снижение размерности

Термин уменьшение размерности интуитивно понятен. У нас есть набор данных, и мы хотели бы уменьшить количество измерений. В науке о данных это число переменных признаков.

<a href="https://dimensionless.in/wp-content/uploads/2019/07/pca2.png" target="_blank" rel="noopener noreferrer nofollow">Источник</a>Источник

Наиболее распространенным статистическим методом, используемым для уменьшения размерности, является метод главных компонент (с англ. Principal component analysis, PCA) , который создает векторные представления объектов, показывающие, насколько они важны для вывода (их корреляцию). Метод главных компонент или PCA можно использовать для выполнения уменьшения размерности данных с наименьшей потерей информации.

Дисперсия и стандартное отклонение

Дисперсия – это мера вариации между значениями. Она рассчитывается путем сложения квадратов разностей каждого значения и среднего значения, а затем деления суммы на количество выборок.

Пример выборок из двух популяций с одинаковым средним значением, но разными дисперсиями. Красное население имеет среднее и дисперсию равные 100 (SD=10), голубое население имеет среднее 100 и дисперсию равную 2500 (SD=50). <a href="https://en.wikipedia.org/wiki/Variance" target="_blank" rel="noopener noreferrer nofollow">Источник</a>Пример выборок из двух популяций с одинаковым средним значением, но разными дисперсиями. Красное население имеет среднее и дисперсию равные 100 (SD=10), голубое население имеет среднее 100 и дисперсию равную 2500 (SD=50). Источник

Стандартное отклонение (с англ. standard deviation, SD) – это мера того, насколько разбросаны значения. Если быть более точным, это квадратный корень из дисперсии.

Среднее, медиана, мода, дисперсия и стандартное отклонение – это основные статистические показатели, которые используются для описания переменных на начальном этапе работы с данными.

Ковариации и корреляции

Ковариация – это количественная мера, которая представляет, насколько вариации двух переменных соответствуют друг другу. Чтобы быть более конкретным, ковариация сравнивает две переменные с точки зрения отклонений от их среднего (или ожидаемого) значения. Ковариация переменной с самой собой – это дисперсия переменной.

Пример визуализации ковариации переменных. <a href="https://medium.com/towards-artificial-intelligence/covariance-matrix-visualization-using-seaborns-heatmap-plot-64332b6c90c5" target="_blank" rel="noopener noreferrer nofollow">Источник</a>Пример визуализации ковариации переменных. Источник

Корреляция – это нормализация ковариации на стандартное отклонение каждой переменной. Эта нормализация отменяет единицы измерения, и значение корреляции всегда находится между 0 и 1. Обратите внимание, что это абсолютное значение. В случае отрицательной корреляции между двумя переменными, корреляция находится между 0 и -1. Если мы сравниваем отношения между тремя или более переменными, лучше использовать корреляцию, потому что диапазоны значений или единицы измерения могут вызвать ложные предположения.

Пример корреляции в исследовании рака кожи и географической широтой штатов. <a href="https://lh5.googleusercontent.com/E7NWELGVgtf_shMHfiOMgZTzLkcoCwhHzEPRwTVfVgBpe20JdpKBXvQ_fGlbph8WLl8yT6A1TLPJyAMg6IouquUW1uAmbn0jYtBvnma1Ay1kiQsv4WhLfecVePFs-ScjaYelh0lC" target="_blank" rel="noopener noreferrer nofollow">Источник</a>Пример корреляции в исследовании рака кожи и географической широтой штатов. Источник

Центральная предельная теорема

Во многих областях, включая естественные и социальные науки, когда распределение случайной величины неизвестно, используется нормальное распределение. Центральная предельная теорема (с англ. Central limit theorem, CLT) обосновывает, почему в таких случаях можно использовать нормальное распределение. Согласно CLT, по мере того как мы берем больше выборок из распределения, средние значения выборок будут стремиться к нормальному распределению независимо от распределения населения.

<a href="https://en.wikipedia.org/wiki/Central_limit_theorem" target="_blank" rel="noopener noreferrer nofollow">Источник</a>Источник

Возьмем выборку из набора данных и вычислим среднее ее значение. После многократного повторения вы нанесете средние значения и их частоты на график и увидите, что была создана колоколообразная кривая, также известная как нормальное распределение. Среднее значение этого распределения будет очень похоже на исходные данные. Вы можете повысить точность среднего значения и уменьшить стандартное отклонение, взяв большие выборки данных и больше выборок в целом.

Линейная и логистическая регрессии

Линейная регрессия является одним из наиболее фундаментальных алгоритмов, используемых для моделирования отношений между зависимой переменной и одной или несколькими независимыми переменными. Данный алгоритм включает в себя поиск линии наилучшего соответствия, представляющей две или более переменных.

Линия наилучшего соответствия находится путем минимизации квадратов расстояний между точками и линией наилучшего соответствия – это известно как минимизация суммы квадратов остатков. Остаток равен прогнозируемому значению минус фактическое значение.

Логистическая регрессия аналогична линейной регрессии, но используется для моделирования вероятности дискретного числа исходов, обычно двух.

<a href="https://res.cloudinary.com/practicaldev/image/fetch/s--yt2nSddw--/c_imagga_scale,f_auto,fl_progressive,h_420,q_auto,w_1000/https://dev-to-uploads.s3.amazonaws.com/i/l7xj9gkzufp00gt2txzu.png" target="_blank" rel="noopener noreferrer nofollow">Источник</a>Источник

Условная вероятность

Условная вероятность – это вероятность того, что событие произойдет, и всегда принимает значение от 0 до 1 включительно. Вероятность события A обозначается как p(A) и вычисляется как число желаемого результата, деленное на число всех исходов. Например, когда вы бросаете кубик, вероятность получить число меньше четырех равна 2/3. Это значит, если нам известно, что это нечетное число, то в двух из трех случаев сумма кубиков будет меньше четырех.

<a href="https://www.youtube.com/watch?v=H02B3aMNKzE" target="_blank" rel="noopener noreferrer nofollow">Источник</a>Источник

Условная вероятность – это вероятность того, что событие A произойдет при условии, что другое событие, которое уже произошло, имеет отношение к событию A.

Теорема Байеса

Теорема Байеса – это условное вероятностное утверждение. По существу она рассматривает вероятность того, что одно событие (B) произойдет, учитывая, что другое событие (A) уже произошло.

<a href="https://4.bp.blogspot.com/-bQzmQRYNbYc/TcVH-qxi9rI/AAAAAAAAAHY/ibA70L9i7Mw/s1600/bayes1.png" target="_blank" rel="noopener noreferrer nofollow">Источник</a>Источник

Это один из самых популярных алгоритмов машинного обучения. Наивный байесовский классификатор, построен на этих двух концепциях. Кроме того если вы заинтересованы в области онлайн-машинного обучения, вы, скорее всего, будете использовать байесовские методы.

Подробнее об этих и других концепциях статистики вы сможете узнать из нашей подборки курсов, видеолекций и книг.