Data Scientist – это универсальный сотрудник, охватывающий аналитику и обработку информации. Ученый по данным разбирается в статистике и программировании. Полезно, не правда ли? Спектр возможностей каждого отдельно взятого Data Scientist представляет собой градацию и может перемещаться в сторону кодинга или чистой статистики.
- Аналитик данных из Сан-Франциско. Некоторые компании действительно сравнивают Data Scientist с аналитиками. Работа такого специалиста сводится к извлечению информации из БД, взаимодействию с Excel и к базовой визуализации.
- Огромный трафик и большое количество данных заставляют некоторые фирмы срочно искать нужного специалиста. Часто они бросают объявления с поиском инженеров, аналитиков, программистов или ученых, при этом подразумевая одну и ту же должность.
- Есть компании, для которых данные являются продуктом. В этом случае потребуются интенсивный анализ и машинное обучение.
- Для других же компаний данные – не продукт, но само управление или рабочий процесс построены на них. С целью структурировать данные компаний также разыскиваются Data Scientist.
Заголовки пестрят названиями в стиле «Самая сексуальная профессия 21-го века». Не знаем, правда ли это, но точно знаем, что ученый по данным должен разбираться в:
- Математике и статистике.
- Предметной области и софте.
- Программировании и БД.
- Обмене данными и визуализации.
Рассмотрим каждый пункт подробнее.
Разработка математических методов с применением статистических данных – основополагающая часть работы. Математическая статистика опирается на теорию вероятностей, благодаря чему можно делать точные выводы и оценивать их надежность.
1. Машинное обучение, как подраздел ИИ. Есть обучающаяся программа и примеры данных с закономерностями. Формируем модель закономерностей, внедряем ее и получаем возможность искать закономерности в новых данных с помощью программы.
2. Data Scientist должен знать статистическое моделирование, чтобы испытывать модель случайными сигналами с определенной плотностью вероятности. Цель – статистическое определение полученных результатов.
3. Экспериментальный дизайн. В ходе опытов меняют одну или несколько переменных, чтобы увидеть разницу. При этом есть группа для воздействия и контрольная группа, благодаря чему осуществляется проверка.
4. Байесовский вывод способствует подправке вероятности гипотезы.
5. Контролируемое обучение:
- деревья решений;
- случайные леса;
- логистическая регрессия.
6. Неконтролируемое обучение:
- кластеризация;
- уменьшение размерности.
7. Оптимизация: градиентный спуск и варианты.
Изучайте и практикуйтесь! Таков фундамент этой специальности. Data Scientist должен хорошо разбираться в предметной области, которую затрагивает наука, а также быть на «ты» с софтом.
Перечень необходимых скиллов диковинный, но не менее полезный:
От основ до знания Python, XaaS, реляционной алгебры и SQL. В общем, все то, без чего попытки качественно обработать данные бесполезны.
1. Основы информатики, как отправная точка для любого, кто связывает жизнь с программированием и автоматизацией процессов.
2. Язык Python: легкий, универсальный и очень шустрый. Скорость разработки и выполнения на высоте. Отдельный плюс – большое дружелюбное комьюнити.
3. Статистическая вычислительная обработка данных с использованием языка R.
4. SQL и NoSQL: разнородные системы-хранилища для информации.
5. Реляционная алгебра, как основа работы различных баз данных и неотъемлемая часть науки о данных.
6. Параллельные базы данных, в которых информация рассредоточена по узлам сети или системы, и параллельная обработка запросов.
7. Знание модели распределенных вычислений MapReduce.
8. Опенсорс Hadoop, хранилище данных для него Apache Hive и процедурный язык Pig.
9. Работа со сверткой и соответствующими классами.
10. Опыт работы с XaaS как AWS.
Но мышление в мире данных и программирование – далеко не все. Помимо вышеперечисленного, Data Scientist должен уметь преподнести информацию и сделать это максимально доступно. Взаимодействие с менеджерами и разработчиками продукта – основной момент, ведь только в устной и понятной для других форме можно поделиться данными.
Визуализация – еще один важный инструмент. Для этого существуют специальные библиотеки, такие как D3.js (JavaScript-библиотека), Flare и многофункциональный визуализатор Tableau. Диаграммы, карты и графики, собранные в одном интерактивном и быстром дашборде – ключ к взаимопониманию и доступному представлению аналитических данных.
Наука о данных пока еще не имеет четких границ, и на вопрос о том, что же должен уметь Data Scientist, много ответов. Такой специалист – настоящий «швейцарский нож» в области аналитики и статистики, всегда незаменимый и востребованный.