BigBird от Google еще одна важная веха в NLP

BigBird от Google еще одна важная веха в NLP

В 2019-м году исследователи Google опубликовали BERT, который оказался одним из самых рациональных и эффективных алгоритмов со времен RankBrain. Судя по начальным результатам, BigBird обещает такой же успех!

В этой статье мы рассмотрим:

  • Краткий обзор моделей на основе Трансформеров,
  • Ограничения моделей на основе Трансформеров,
  • Что такое BigBird и
  • Потенциальные приложения BigBird.

Краткий обзор моделей на основе Трансформеров

В обработке естественного языка (NLP) за последние пару лет произошла настоящая революция, и Трансформеры играли в ней основную роль. Здесь есть о чем рассказать.

Трансформеры – модели для обработки естественного языка, запущенные в 2017-м году, известные, в основном, повышением эффективности обработки и понимания последовательных данных вроде перевода и анализа текста.

В отличие от Рекуррентных Нейронных Сетей (RNN), обрабатывающих входные данные с начала до конца, Трансформеры обрабатывают входные данные параллельно, и, следовательно, существенно сокращают сложность вычислений.

BERT – одна из важнейших вех и достижений в NLP – это модель на основе Трансформеров с открытым кодом. Статья, представившая BERT, как и BigBird, была опубликована исследователями Google 11 октября 2018 г.

Bidirectional Encoder Representations from Transformers (BERT) – одна из самых продвинутых моделей на основе Трансформеров. Она предобучена на огромном количестве данных (наборов предварительного обучения) – BERT-Large была обучена более чем на 2500 миллионах слов.

Кроме того, BERT, с его открытым кодом, позволил каждому создать свою собственную систему ответов на вопросы. Это также способствовало ее широкой популярности.

Однако BERT – не единственная модель, предобученная на огромном контексте. Однако, в отличие от других моделей, она «глубоко двунаправленная». Это также одна из причин ее успеха и огромного количества приложений, которые ее используют.

BERT – глубоко двунаправленная, OpenAI GPT – однонаправленная, ELMo – неглубоко двунаправленная (<a href="https://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html" target="_blank" rel="noopener noreferrer nofollow">источник</a>)BERT – глубоко двунаправленная, OpenAI GPT – однонаправленная, ELMo – неглубоко двунаправленная (источник)

Результаты этой предобученной модели, несомненно, впечатляют. Она успешно применялась во многих задачах обработки последовательностей – обобщения, перевода и т.п. Даже Google использует BERT для понимания поисковых запросов пользователей.

Но, как и все модели на основе Трансформеров, BERT имеет свои ограничения.

Ограничения предыдущих моделей на основе Трансформеров

Несмотря на то, что модели на основе Трансформеров, особенно BERT, намного совершеннее и эффективнее, чем RNN, у них есть несколько ограничений.

BERT работает на основе механизма полного само-внимания (full self-attention). Это приводит к квадратичному росту требуемых вычислительной мощности и памяти при увеличении количества токенов. Максимальный размер входных данных составляет около 512 токенов, то есть эту модель нельзя использовать для длинных входов и задач вроде обобщения больших документов.

Фактически, это означает, что длинную строку придется разбить на несколько сегментов, прежде чем передавать их в модель. Эта фрагментация, разумеется, вызывает потерю контекстных связей, что ограничивает области применения модели.

Итак, что же такое BigBird, и чем она отличается от BERT и всех прочих моделей NLP на основе Трансформеров?

Представляем BigBird – Трансформер для более длинных последовательностей

Как упомянуто выше, одним из основных ограничений BERT и прочих NLP-моделей на основе Трансформеров было использование механизма полного само-внимания.

Это изменилось, когда исследователи Google опубликовали статью под названием «BigBird: Трансформеры для более длинных последовательностей«.

BigBird использует механизм разреженного само-внимания, позволяющий ей избавиться от квадратичной зависимости BERT, сохранив при этом качества моделей с полным само-вниманием. Исследователи также предоставили примеры того, как модели на основе сетей BigBird превосходят производительность прежних NLP-моделей и моделей генетики.

Составные части механизма внимания в BigBird. Белый цвет означает отсутствие внимания. а) – случайное внимание с r=2, б) – внимание плавающего окна с w=3, в) – глобальное внимание с g =2, г) – объединенная модель BigBird.Составные части механизма внимания в BigBird. Белый цвет означает отсутствие внимания. а) – случайное внимание с r=2, б) – внимание плавающего окна с w=3, в) – глобальное внимание с g =2, г) – объединенная модель BigBird.

Прежде чем мы перейдем к возможным приложениям BigBird, давайте рассмотрим ее ключевые особенности.

Ключевые особенности BigBird

Вот несколько особенностей BigBird, которые делают ее лучше прежних моделей на основе Трансформеров:

  • Механизм разреженного внимания

Предположим, что вам дали картину и попросили придумать для нее подходящее название. Вы начнете с нахождения основного объекта этой картины – например, «человек, бросающий мяч».

Нахождение этого основного объекта легко для нас, людей, но упрощение этого процесса для компьютерных систем – большое достижение в NLP. Механизмы внимания были придуманы как раз для упрощения этого процесса.

BigBird использует механизм разреженного внимания, позволяющий ей обрабатывать последовательности до 8 раз длиннее тех, которые могли обрабатывать модели BERT на компьютере с той же архитектурой.

В вышеупомянутой статье исследователи продемонстрировали, что механизм разреженного внимания, использованный в BigBird, не уступает по мощности механизму полного внимания (используемому в BERT). Кроме этого, они показали, что «разреженные энкодеры-декодеры обладают полнотой по Тьюрингу«.

Проще говоря, BigBird использует механизм разреженного внимания, в котором механизм внимания применяется к отдельным токенам, в отличие от BERT, в которой внимание применяется сразу ко всему вводу!

  • Может обрабатывать последовательности до 8 раз длиннее

Одна из ключевых особенностей BigBird – это ее способность обрабатывать последовательности до 8 раз длиннее, чем было возможно прежде. Команда ее исследователей разработала BigBird так, чтобы она удовлетворяла всем требованиям, предъявляемым к полным трансформерам вроде BERT.

Используя BigBird и его механизм разреженного внимания, команда исследователей сократила сложность с O(N 2 ) (как было у BERT) до всего лишь O(N). Это значит, что максимальная длина входной последовательности увеличилась с 512 токенов до 4096 токенов (8 * 512).

Филип Фэм (Philip Pham), один из исследователей, создавших BigBird, сказал в Hacker News Discussion: «в большей части нашей статьи мы используем 4096, но могли бы использовать 16 тысяч и больше«.

  • Предобучена на больших наборах данных

Исследователи Google использовали четыре разных набора данных для предобучения BigBird: Natural Questions, Trivia-QA, HotspotQA-Distractor и Wiki-Hop.

Хотя совокупный размер данных для предобучения BigBird не идет ни в какое сравнение с данными, на которых обучали GPT-3 (175 миллиардов параметров), Таблица 3 из статьи исследователей демонстрирует, что она работает лучше, чем RoBERTa (Robustly Optimized BERT Pretraining Approach) и Longformer – модель, похожая на BERT для длинных документов.

Когда пользователь попросил Филипа Фэма сравнить GPT-3 c BigBird, он сказал: «GPT-3 использует только длину последовательности 2048. BigBird – это просто механизм внимания, и его можно использовать в сочетании с GPT-3«.

[Возможные] приложения BigBird

Статья, представившая BigBird, вышла совсем недавно – 28 июля 2020 г. Поэтому полный потенциал BigBird еще предстоит раскрыть.

Но вот несколько областей, в которых она может найти применение. Некоторые из этих применений были предложены создателями BigBird в исходной исследовательской статье.

  • Обработка геномов

Использование глубокого обучения для обработки генетических данных постоянно расширяется. Кодировщик принимает фрагменты последовательности ДНК в качестве входных данных для задач вроде анализа метилирования, предсказания функциональных эффектов некодирующих вариантов и многих других.

Создатели BigBird говорят: «мы представляем новую область применения моделей, основанных на внимании, в которой длинные контексты имеют большое значение: выделение представлений контекста генетических последовательностей вроде ДНК«.

Статья утверждает, что использование BigBird для предсказания области промотора позволило повысить точность итоговых предсказаний на целых 5%!

  • Обобщение длинных документов и ответы на вопросы

Поскольку BigBird может обрабатывать последовательности в 8 раз длиннее, ее можно использовать для обобщения длинных документов и выделения ответов на вопросы. Создатели BigBird протестировали качество ее работы для этих задач и получили «передовые результаты».

  • BigBird для поиска в Google

Google начала использовать BERT в октябре 2019-го, чтобы понимать поисковые запросы и изображать более подходящие для пользователя результаты. Конечная цель обновления поисковых алгоритмов Google – улучшенное понимание поисковых запросов.

Поскольку BigBird превосходит BERT в обработке естественного языка (NLP), имеет смысл внедрить эту новую и более эффективную модель, чтобы оптимизировать поисковые запросы Google.

  • Разработка сетевых и мобильных приложений

Обработка естественного языка за последнее десятилетие добилась существенного прогресса. Уже предоставив платформу на базе GPT-3, способную превратить ваши простые предложения в функционирующее сетевое приложение (включая код), разработчики AI могут полностью изменить эту отрасль разработки программного обеспечения.

Поскольку BigBird может обрабатывать более длинные последовательности, чем GPT-3, ее можно использовать в комплексе с GPT-3 для быстрого и эффективного создания сетевых и мобильных приложений для вашего бизнеса.

Заключение

Хотя с BigBird связано многое, что еще предстоит исследовать, она, несомненно, способна полностью и навсегда революционизировать обработку естественного языка (NLP). А что вы думаете о BigBird и ее вкладе в будущее NLP?

[1] Манзил Захир и его команда – «BigBird: Трансформеры для более длинных последовательностей» (2020).

[2] Джейкоб Девлин, Минг-Вей Чанг, Кентон Ли, Кристина Тутанова – «BERT: предварительное обучение глубоко двунаправленных Трансформеров для понимания естественного языка».