Нажмите "Enter" для перехода к содержанию

Путь Data Scientist; а в 2017

0

Data Scientist – это универсальный сотрудник, охватывающий аналитику и обработку информации. Ученый по данным разбирается в статистике и программировании. Полезно, не правда ли? Спектр возможностей каждого отдельно взятого Data Scientist представляет собой градацию и может перемещаться в сторону кодинга или чистой статистики.

  • Аналитик данных из Сан-Франциско. Некоторые компании действительно сравнивают Data Scientist с аналитиками. Работа такого специалиста сводится к извлечению информации из БД, взаимодействию с Excel и к базовой визуализации.
  • Огромный трафик и большое количество данных заставляют некоторые фирмы срочно искать нужного специалиста. Часто они бросают объявления с поиском инженеров, аналитиков, программистов или ученых, при этом подразумевая одну и ту же должность.
  • Есть компании, для которых данные являются продуктом. В этом случае потребуются интенсивный анализ и машинное обучение.
  • Для других же компаний данные – не продукт, но само управление или рабочий процесс построены на них. С целью структурировать данные компаний также разыскиваются Data Scientist.

Заголовки пестрят названиями в стиле «Самая сексуальная профессия 21-го века». Не знаем, правда ли это, но точно знаем, что ученый по данным должен разбираться в:

  1. Математике и статистике.
  2. Предметной области и софте.
  3. Программировании и БД.
  4. Обмене данными и визуализации.

Рассмотрим каждый пункт подробнее.

Разработка математических методов с применением статистических данных – основополагающая часть работы. Математическая статистика опирается на теорию вероятностей, благодаря чему можно делать точные выводы и оценивать их надежность.

1. Машинное обучение, как подраздел ИИ. Есть обучающаяся программа и примеры данных с закономерностями. Формируем модель закономерностей, внедряем ее и получаем возможность искать закономерности в новых данных с помощью программы.

2. Data Scientist должен знать статистическое моделирование, чтобы испытывать модель случайными сигналами с определенной плотностью вероятности. Цель – статистическое определение полученных результатов.

3. Экспериментальный дизайн. В ходе опытов меняют одну или несколько переменных, чтобы увидеть разницу. При этом есть группа для воздействия и контрольная группа, благодаря чему осуществляется проверка.

4. Байесовский вывод способствует подправке вероятности гипотезы.

5. Контролируемое обучение:

  • деревья решений;
  • случайные леса;
  • логистическая регрессия.

6. Неконтролируемое обучение:

  • кластеризация;
  • уменьшение размерности.

7. Оптимизация: градиентный спуск и варианты.

Изучайте и практикуйтесь! Таков фундамент этой специальности. Data Scientist должен хорошо разбираться в предметной области, которую затрагивает наука, а также быть на «ты» с софтом.

Перечень необходимых скиллов диковинный, но не менее полезный:

От основ до знания Python, XaaS, реляционной алгебры и SQL. В общем, все то, без чего попытки качественно обработать данные бесполезны.

1. Основы информатики, как отправная точка для любого, кто связывает жизнь с программированием и автоматизацией процессов.

2. Язык Python: легкий, универсальный и очень шустрый. Скорость разработки и выполнения на высоте. Отдельный плюс – большое дружелюбное комьюнити.

3. Статистическая вычислительная обработка данных с использованием языка R.

4. SQL и NoSQL: разнородные системы-хранилища для информации.

5. Реляционная алгебра, как основа работы различных баз данных и неотъемлемая часть науки о данных.

6. Параллельные базы данных, в которых информация рассредоточена по узлам сети или системы, и параллельная обработка запросов.

7. Знание модели распределенных вычислений MapReduce.

8. Опенсорс Hadoop, хранилище данных для него Apache Hive и процедурный язык Pig.

9. Работа со сверткой и соответствующими классами.

10. Опыт работы с XaaS как AWS.

Но мышление в мире данных и программирование – далеко не все. Помимо вышеперечисленного, Data Scientist должен уметь преподнести информацию и сделать это максимально доступно. Взаимодействие с менеджерами и разработчиками продукта – основной момент, ведь только в устной и понятной для других форме можно поделиться данными.

Визуализация – еще один важный инструмент. Для этого существуют специальные библиотеки, такие как D3.js (JavaScript-библиотека), Flare и многофункциональный визуализатор Tableau. Диаграммы, карты и графики, собранные в одном интерактивном и быстром дашборде – ключ к взаимопониманию и доступному представлению аналитических данных.

Наука о данных пока еще не имеет четких границ, и на вопрос о том, что же должен уметь Data Scientist, много ответов. Такой специалист – настоящий «швейцарский нож» в области аналитики и статистики, всегда незаменимый и востребованный.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *