Kaggle dataset US Election 2020 Tweets представляют собой коллекцию твитов, собранных с помощью Twitter API и ключевых слов #donaldtrump и #joebiden в период с 15.10.2020 г. по 08.11.2020 г.
Предварительная обработка данных
Цель: создать финальный датасет для двух кандидатов, который содержит твиты, опубликованные в США и не содержит дубликаты.
Подготовка текста
Цель: подготовить текст к визуализации и анализу, удалить все символы, частотные слова, ссылки и упоминания других пользователей, привести слова к лемме и токенам.
Очистка текста
Лемматизация
Лемматизация – процесс приведения словоформы к лемме – её нормальной (словарной) форме.
Токенизация
Токенизация – способ разделения фрагмента текста на более мелкие единицы, называемые токенами, маркерами которых могут быть слова или символы.
Исследовательский анализ данных
Цель: определить ключевые слова и фразы, которые используются в твитах, а также распределение частотности твитов до и во время периода выборов.
Количество твитов по датам
Анализ частности слов
Word Clouds
Для создания облаков частотных слов для каждого из кандидатов, мы воспользуемся маской с их изображением.
Для Байдена:
Анализ частотности би-граммов
Цель: создать список наиболее часто встречающихся биграмм ( пара последовательных слов ) в твитах для более глубокого изучения текста.
Анализ популярности твитов
Цель: определить самый популярный твит с помощью выявления максимального количества ретвитов пользователей за период публикации всех твитов.
Тематическое моделирование
Цель: автоматически определить темы в наборе текстов и предсказать топик для новых твитов.
Создание модели
Визуализация модели с pyLDAvis
Визуализация модели с помощью ключевых частотных слов в каждой теме
Соединяем найденные темы с твитами
Прогнозная модель для новых твитов
Новый твит был определен как Тема 6 с ключевыми словами DAY и HOPE.
Новый твит был определен как Тема 8 с ключевыми словами LIE и GUY.
Заключение
Подготовить текст к анализу данных и визуализировать дискурс вокруг выборов оказалось несложно, а еще мы смогли построить простую модель для определения темы нового твита. За этой кажущейся простотой кроется довольно серьезная математика, притом помимо теоретических знаний настоящий Data Scientist должен освоить и практические умения. Сделать это сидя за книгами будет затруднительно – лучше сразу ввязаться в драку. Разработанная в США методика Bootcamp предполагает интенсивное очное обучение с полным погружением в процесс. В России этот формат практикует образовательный проект Elbrus: студенты практически живут в московском кампусе, посвящая науке о данных все будние дни с 9 до 18 часов.
Заниматься в онлайне без отрыва от производства не получится, но формат буткампа обеспечивает высочайшую вовлеченность всех участников в учебный процесс. В течение 12 недель под руководством практикующего Data Scientist студенты осваивают сбор и анализ данных, нейронные сети, машинное обучение и другие hard и soft skills: количество практических занятий при этом сравнимо со стажировкой в крупной ИТ-компании. Успешно завершив курс, вы получите не только ценные знания, но и возможность их применить, а также добавите несколько проектов в свое портфолио. Удачи!