Нажмите "Enter" для перехода к содержанию

7 мифов о профессии Data Scientist

0

Data Science – относительно новый раздел знаний, поэтому существует множество мифов о том, чем занимаются специалисты по науке о данных. Мы собрали несколько самых распространенных заблуждений о профессии Data Scientist и разрушили их раз и навсегда.

Распространенное заблуждение заключается в том, что Data Scientists являются также специалистами в статистике и математике. Это не совсем так. В Data Science действительно требуется понимание статистики, но компании могут использовать анализ данных и не имея статистика в штате. У большинства разработчиков есть базовое представление о статистике, благодаря прослушанным в вузе курсам. Хотя в машинном обучении и Deep learning требуются продвинутые знания, это не означает, что не обладая степенью в области математики или статистики нельзя стать экспертом по данным.

Если вы являетесь разработчиком, которому поручено создание возможностей для анализа данных, или вы хотите заняться этим самостоятельно, стоит обновить или расширить познания в статистике. Иначе невозможно понять основные принципы разработки моделей.

Вам не нужно проходить формальный курс. Вам не нужно стремиться получить степень магистра. Электронные книги и другие упомянутые в статье о навыках, необходимых в профессии Data Scientist ресурсы помогут понять основы. Вооружившись этим знанием, вы сможете создавать модели, которые будут полезны для бизнеса.

Если вы захотите изменить или оптимизировать модель, могут потребоваться более глубокие познания в математике и статистике. Они помогут понять, какие параметры влияют на результаты модели. В статье Как я перешел из математиков в аналитики данных мы писали о Тиме Хоппере, математике, который самостоятельно освоил профессию Data Scientist и работает в сфере кибербезопасности и инжиниринга машинного обучения. Тим является отличным примером специалиста Data Science, который построил свою карьеру практически с нуля и научился всему самостоятельно.

Для освоения профессии Data Scientist необязательно получать ученую степень или специальное образование. Во вступительных публикациях серии мы писали о том, как можно изучить Data Science онлайн с нуля, а также о навыках, необходимых в профессии Data Scientist . В предыдущих статьях подробно рассказано о навыках, которые потребуются для освоения профессии, а также даны ссылки на необходимые для обучения ресурсы: онлайн-курсы, подкасты, каналы Youtube и книги.

Давайте все же проясним, откуда возникло это заблуждение. Многие знания и навыки профессии Data Scientist можно освоить самостоятельно с нуля. Однако роль специалиста Data Science делится на две категории: прикладную и исследовательскую. Прикладная наука о данных – это прежде всего работа с существующими алгоритмами и понимание их особенностей. Задача таких специалистов – применение методов Data Science в конкретных проектах. В профессии требуются в основном специалисты-прикладники.

Если вас больше интересует роль исследователя, тогда может пригодиться степень кандидата наук: вам наверняка потребуются навыки создания новых алгоритмов с нуля, их тестирования и оптимизации, написания научных статей и т. д. Получение ученой степени в сфере, которая поможет будущей карьере, также отличная идея. Например, степень по лингвистике будет чрезвычайно полезна для карьеры в NLP.

Стоит понимать, что получение степени – большая затрата времени, а также ответственность, как моральная так и финансовая. Итак, в какой роли вы видите себя? Это очень важный вопрос, на который нужно ответить, прежде чем перейти в профессию Data Scientist.

Многие бизнесмены и предприниматели имеют ложное представление о Data Science. Одно из самых распространенных заблуждений заключается в том, что наука о данных якобы нужна только крупным организациям. Это происходит из-за неправильного представления о требованиях к инфраструктуре для обработки данных и получения максимальной ценности для бизнеса. На самом деле необходима только группа людей, которые знают, как извлечь полезную информацию из имеющихся данных. Учитывая основанный на данных подход, не стоит вкладывать значительные средства в создание аналитической инфраструктуры. Существует множество инструментов с открытым исходным кодом, которые помогут в обработке крупномасштабных данных с высокой точностью и эффективностью.

Другой распространенный миф о связанных с Data Science проектах для бизнеса – возможность решить любую проблему методами Data Science. Заказчики ждут от команды результатов, которых невозможно достичь, анализируя существующие данные. Подробнее о проблемах, с которыми сталкиваются проекты, мы писали в статье 5 возможных причин провала проектов в Data Science .

Многие придерживаются неверного мнения о том, что изучения статистического инструмента, наподобие SAS , или освоения программирования на Python с использованием библиотек для Data Science , достаточно, чтобы получить профессию. Изучение инструментов важно, но не является единственными необходимым условием для эффективной работы в Data Science. Для специалиста в этой области требуется умение выйти за рамки инструментов и быстро овладеть знаниями в бизнес-области и навыками правильного применения доступных средств для решения бизнес-проблем. Большим плюсом являются хорошие коммуникативные навыки: они необходимы, чтобы представить идеи и результаты самым простым из возможных способов.

Существует также заблуждение о том, что специалист по анализу данных должен писать сложный код и иметь степень в области компьютерных наук. Чтобы получить профессию Data Scientist, не нужно быть отличным программистом. Если перечислить рутинные задачи науки о данных, можно обнаружить, что никакого сложного кодирования не требуется. На самом деле большинство методов или алгоритмов Data Science легко доступны, они предполагают лишь небольшую настройку и оптимизацию под цели и задачи проекта. Для этого необходим логический склад ума — особенность психики, которая является ключевой в профессии Data Scientist.

Многие считают, будто Data Science – это только построение моделей, а типичный Data Scientist работает над их созданием и оптимизацией. На самом деле работа в Data Science – это гораздо больше, чем построение моделей, а общий процесс разработки проекта разбивается на несколько этапов. Он включает в себя сбор и очистку данных, исследовательский анализ, проверку данных и т. д. Построение модели – только один из уровней. Полный жизненный цикл проекта выглядит примерно так:

  1. Понимание и постановка задач;
  2. Построение гипотезы;
  3. Сбор данных;
  4. Проверка данных;
  5. Очистка данных;
  6. Исследовательский анализ;
  7. Проектирование модели;
  8. Тестирование/верификация модели;
  9. Возврат к этапу проверки или очистки в случае обнаружения ошибки;
  10. Запуск проекта в производство (развертывание модели).

Кроме того Data Science не ограничивается простым составлением прогнозов. Главная задача здесь – комбинация методов кластеризации и ассоциативных правил, а также обнаружение ошибок и способность вычислять сбои в данных.

Из-за все более широкого внедрения автоматизации в Data Science возник миф о том, что в ближайшем будущем профессионалов полностью заменит искусственный интеллект . Одна из причин распространения этого заблуждения, вероятно, связана с задачей поиска закономерностей. Как правило компьютеры решают ее лучше людей, но это не тот случай. Вполне возможно, что ИИ доверят некоторые рутинные задачи, вроде очистки и подготовки данных, но человек всегда будет играть важную роль в выполнении интеллектуальных операций. Data Science стремится к автоматизации многих задач, и в результате создаются все более сложные алгоритмы, которые смогут в будущем заменить Data Scientists. Однако это по-прежнему остается маловероятным, так как даже самые продвинутые информационные системы требуют человеческого руководства и инструкций.

Популярность Data Science продолжает расти, а навыки работы в этой сфере остаются одними из самых востребованных, которые вы можете вписать в свое резюме. Если вы только начинаете путь в профессии и хотите освоить самые необходимые Data Scientist навыки, мы рекомендуем записаться на курс Data Science Факультета Искусственного интеллекта онлайн-университета GeekBrains. Программа курса включает основательную математическую подготовку, изучение программирования и статистического анализа, а также работу с базами данных реальных проектов. Обучение ориентировано на применение полученных навыков в бизнесе и построено по принципам практической работы с ведущими специалистами в сфере анализа данных и личным помощником-куратором.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *