Бесплатный видеокурс «Язык R для пользователей Excel»

Статья подготовлена читателем Библиотеки программиста. Не стесняйтесь присылать материалы для публикации по кнопке + в верхней панели – тексты проходят редактуру, мы поможем сделать статью понятной для широкой аудитории.

В связи с карантином многие разработчики львиную долю времени проводят дома. Я решил потратить освободившееся время на проекты, начатые несколько месяцев назад, в том числе видеокурс «Язык R для пользователей Excel». Этим курсом я хотел снизить порог вхождения в R и немного восполнить существующий дефицит обучающих материалов по данной теме на русском языке.

Обучение построено вокруг архитектуры tidyverse и входящих в неё пакетов: readr , vroom , dplyr , tidyr и ggplot2 . Конечно, в R есть и другие хорошие пакеты, выполняющие те же функции, но синтаксис tidyverse интуитивно понятен – его легко читать даже неподготовленному пользователю. Курс проведёт вас от загрузки данных в среду R до визуализации готового результата.

Почему именно R, а не Python? R – функциональный язык, поэтому пользователям Excel обычно на него перейти легче. На данный момент запланировано 12 видеоуроков длительностью от 5 до 20 минут каждый. Уроки будут открываться постепенно. Каждый понедельник я буду открывать доступ к новому уроку у себя на YouTube-канале в отдельном плейлисте.

Курс ориентирован на тех, кто активно использует Microsoft Excel и там же реализует всю работу с данными. Навыков программирования для прохождения курса не требуется, курс ориентирован на начинающих. Начиная с четвёртого урока может материал может быть интересен и для активных пользователей R – подробно рассматриваются пакетов dplyr и tidyr .

Ниже я приведу программу курса с подробным описанием каждого урока.

Урок 1: Установка языка R и среды разработки RStudio: На вступительном уроке мы скачаем и установим необходимое программное обеспечение, обсудим возможности и интерфейс среды разработки RStudio.

Урок 2. Основные структуры данных в R. В этом уроке подробно разберём векторы, датафреймы и списки. Научимся их создавать и обращаться к их элементам.

Урок 3. Чтение данных из TSV, CSV, Excel файлов и Google Таблиц. В ходе урока я буду использовать пакеты vroom , readxl , googlesheets4 для загрузки данных в среду R из csv, tsv, Excel файлов и Google-таблиц.

Урок 4. Фильтрация строк, выбор и переименование столбцов, пайпланы в R. Этот урок посвящён пакету dplyr . Разберёмся, как фильтровать датафреймы, выбирать нужные столбцы и переименовывать их. Узнаем, что такое пайпланы и как они помогают делать код на R более читаемым.

Урок 5. Добавление вычисляемых столбцов в таблицу на языке R (20 апреля 2020). Этот и следующий уроки будут постепенно открываться каждый понедельник. В этом видео мы продолжим знакомство с библиотекой tidyverse и пакетом dplyr . Разберём семейство функций mutate() и научимся добавлять в таблицу новые вычисляемые столбцы.

Урок 6. Группировка и агрегация данных на языке R (27 апреля 2020). Урок посвящён одной из основных операций анализа данных – группировке и агрегации. В ходе урока будем использовать пакет dplyr и функции group_by() и summarise() . Рассмотрим семейство функций summarise() : summarise() , summarise_if() и summarise_at() .

Урок 7. Вертикальное и горизонтальное объединение таблиц на языке R (4 мая 2020). Урок поможет разобраться с операциями вертикального и горизонтального объединения таблиц. Вертикальное объединение является аналогом операции UNION в языке запросов SQL. Горизонтальное объединение пользователям Excel более известно благодаря функции ВПР, в SQL такие операции осуществляются оператором JOIN . Во время урока мы решим практическую задачу, применив пакеты dplyr , readxl , tidyr и stringr . Основные функции объединения таблиц, которые мы рассмотрим:

  • bind_rows() – вертикальное объединение,
  • left_join() – горизонтальное объединение,
  • semi_join() – включающее объединение,
  • anti_join() – исключающее объединение.

Урок 8. Оконные функции в R (11 мая 2020). Оконные функции по смыслу похожи на агрегирующие, они также принимают на вход массив значений и проводят над ними арифметические операции, но в исходящем результате не изменяют количество строк. В этом уроке мы продолжим изучать пакет dplyr и функции group_by(), mutate() , а также новые cumsum() , lag() , lead() и arrange() .

Урок 9. Вращение таблиц или аналог сводных таблиц в R (18 мая 2020). Большинство пользователей Excel используют сводные таблицы. Это удобный инструмент, с помощью которого вы можете в считаные секунды превратить массив сырых данных в читабельные отчёты. Мы разберёмся с тем, как вращать таблицы в R, и преобразовывать их из «широкого» формата в «длинный» и наоборот. Большая часть урока посвящена пакету tidyr и функциям pivot_longer() и pivot_wider() .

Урок 10: Загрузка JSON-файлов в R и преобразование списков в таблицы (25 мая 2020). JSON и XML за счёт своей компактности являются чрезвычайно популярными форматами хранения и обмена информацией. Но анализировать данные, представленные в таких форматах, сложно. Поэтому перед анализом их необходимо привести к табличному виду. Именно этому мы и научимся в данном видео. Урок посвящён пакету tidyr , входящему в ядро библиотеки tidyverse , и функциям unnest_longer() , unnest_wider() и hoist() .

Урок 11: Быстрое построение графиков с помощью функции qplot() (1 июня 2020). Пакет ggplot2 является одним из наиболее популярных средств визуализации данных не только в R. В этом уроке мы научимся построению простейших графиков с помощью функции qplot() и разберём все её аргументы.

Урок 12: Построение графиков слой за слоем с помощью пакета ggplot2 (8 июня 2020). В уроке продемонстрирована вся мощь пакета ggplot2 и заложенной в него грамматики построения графиков. Мы разберём основные геометрии которые присутствуют в пакете и научимся накладывать слои для построения графика.

Курс не является исчерпывающим руководством по анализу данных с помощью языка R, но поможет разобраться с необходимыми для этого приёмами. Я старался подойти к формированию программы курса максимально лаконично, выделив самую необходимую информацию, которая понадобится для того, чтобы сделать первые шаги в изучении такого мощного инструмента анализа данных, как язык R.

Пока программа курса рассчитана на 12 недель. Каждую неделю, по понедельникам я буду открывать доступ к новым урокам. Соответствующие ресурсы вы найдёте по следующим ссылкам:

Вы пропустили

AEGIS Algorithms Android Angular Apache Airflow Apache Druid Apache Flink Apache Spark API API Canvas AppSec Architecture Artificial Intelligence Astro Authentication Authorization AutoGPT AWS AWS Aurora AWS Boto3 AWS EC2 AWS Lambda Azure Babylon.js Backend bash Beautiful Soup Bento UI Big Data Binary Tree Browser API Bun Career Cassandra Charts ChatGPT Chrome Extension Clean Code CLI ClickHouse Coding Codux Combine Compose Computer Context Fusion Copilot Cosmo Route CProgramming cron Cryptography CSS CTF Cypress DALL-E Data Analysis Data science Database dbt dbt Cloud deno Design Design Patterns Detekt Development Distributed Systems Django Docker Docker Hub Drizzle DRY DuckDB Express FastAPI Flask Flutter For Beginners Front End Development Game Development GCN GCP Geospatial Git GitHub Actions GitHub Pages Gitlab GMS GoFr Golang Google Google Sheets Google Wire GPT-3 GPT3 Gradio Gradle Grafana Graphic Design GraphQL gRPC Guidance HMS Hotwire HTML Huawei HuggingFace IndexedDB InfoSec Interview iOS Jackknife Java JavaScript Jetpack Compose JSON Kafka Kotlin Kubernetes LangChain Laravel Linux LlaMA LLM localStorage Logging Machine Learning Magento Math Mermaid Micro Frontends Mobile Mobile App Development mondayDB MongoDB Mongoose MySQL Naming NestJS NET NetMock Networks NextJS NLP Node.js Nodejs NoSQL NPM OOP OpenAI OTP Pandas PDF PHP Playwright Plotly Polars PostgreSQL Prefect Productivity Programming Prometheus Puppeteer Pushover Python Pytorch Quarkus Rabbitmq RAG Ramda Raspberry Pi React React Native Reactor Redis REST API Revolut Riverpod RProgramming Ruby Ruby on Rails Rust Scalene SCDB ScyllaDB Selenium Servers Sklearn SLO SnowFlake Snowkase Software Architecture Software Development Solara Solid Spring Boot SQL SQLite Streamlit SudoLang Supabase Swift SwiftUI Tailwind CSS Taipy Terraform Testing Transformers TURN TypeScript Ubuntu UI Design Unix UX UX Design Vim Vite VSCode Vue Web Architecture Web Components Web Development Web Frameworks Web Scraping Web-разработка Webassembly Websocket Whisper Widgets WordPress YAML YouTube Zed Наука о данных Разное Тренды

Как исследовать и визуализировать данные МО для обнаружения объектов на изображениях