Данный материал представляет собой незначительно сокращенный перевод статьи Кэмерона МакЛауда Fourier Transforms With scipy.fft: Python Signal Processing.
Преобразование Фурье – повсеместно используется для анализа сигналов – от обработки звука до сжатия изображений, от инженерных расчетов до Data Science. Популярная Python-библиотека SciPy предоставляет готовую реализацию преобразования Фурье в модуле scipy.fft .
Сам модуль поначалу выглядит устрашающе. Виной тому множество однотипно названных функций и то, что документация оперирует технической терминологией без каких-либо пояснений. Но есть и хорошие новости: чтобы начать использовать модуль, достаточно усвоить лишь несколько основных концепций.
Не волнуйтесь, если не чувствуете себя уверенно в математических изысканиях – мы рассмотрим алгоритм на конкретном практическом примере. Чтобы представить преобразование Фурье визуально, обязательно посмотрите следующий ролик 3Blue1Brown (есть русские субтитры).
Из этого руководства вы узнаете:
- как и когда использовать преобразование Фурье;
- как для вашей задачи выбрать правильную функцию из scipy.fft ;
- как посмотреть и изменить частотный спектр сигнала;
- примеры доступных в scipy.fft преобразований.
Установка SciPy и Matplotlib
Прежде чем начать, необходимо установить SciPy, NumPy (библиотека для работы с массивами) и Matplotlib (библиотека для визуализации данных). Вы можете сделать это одним из двух способов:
- С помощью Anaconda: загрузите и установите Anaconda Individual Edition. В этот набор инструментов уже включены перечисленные библиотеки.
- С помощью pip вы можете установить (или обновить) библиотеки посредством следующей команды:
Вы можете убедиться, что установка прошла успешно, запустив следующий код:
Этот код импортирует NumPy, SciPy, Matplotlib и выведет версии модулей, если они установлены в системе.
Разница между scipy.fft и другими модулями
Очертим различия между модулем scipy.fft и другими модулями со схожими названиями. При просмотре документации SciPy вы обнаружите два родственных модуля:
- scipy.fft
- scipy.fftpack
Модуль scipy.fft новее и предпочтительнее, чем scipy.fftpack :
- scipy.fft имеет улучшенный интерфейс;
- scipy.fft позволяет использовать несколько воркеров, что в некоторых ситуациях может повысить скорость.
Реализация быстрого преобразования Фурье (англ. Fast Fourier transform, FFT) в SciPy содержит больше функций и более вероятно будет исправлена в случае обнаружения ошибки, чем реализация NumPy ( numpy.fft ), которая поддерживает реализацию FFT лишь для обеспечения обратной совместимости.
Анализ Фурье – область математического анализа, отвечающая на вопрос, как можно представить математическую функцию в виде комбинации простых тригонометрических функций. Преобразование Фурье – это инструмент, который позволяет в исследуемом сигнале увидеть вклад каждой из этих гармонических составляющих, характеризуемых определенной частотой. В этом смысле говорят, что преобразование Фурье позволяет разложить функцию по частотам.
Итак, мы будем говорить о трех компонентах:
- Сигнал – некоторая информация, которая меняется со временем. Например, аудиосигнал, видеосигнал, изменение разности электрических потенциалов – всё это примеры сигналов.
- Частота (англ. frequency) – это скорость, с которой что-то повторяется. Например, часы тикают с частотой один герц (1 Гц) или, иначе говоря, совершают одно колебание в секунду.
- Мощность (англ. power) – в данном случае просто мощность сигнала для каждой частоты.
Следующее изображение иллюстрирует примеры гармонических сигналов различной частоты и мощности.
Пики высокочастотной синусоидальной волны расположены ближе друг к другу, чем пики низкочастотной. Синусоидальная волна малой мощности имеет меньшую амплитуду, чем две другие синусоидальные волны.
Представьте, что вы использовали преобразование Фурье для записи того, как кто-то играет на фортепиано аккорд из трёх нот.
Схематическое представление аккорда и соответствующего ему частотного спектра
Результирующий частотный спектр покажет три пика – по одному для каждой ноты. Если человек играл одну ноту мягче, мощность для частоты этой ноты будет меньше, чем для двух других.
Преобразование Фурье полезно во многих приложениях. Например, Shazam и другие службы распознавания музыки используют преобразование Фурье для идентификации песен. Алгоритм сжатия JPEG представляет собой вариант преобразования Фурье, применяемый для удаления высокочастотных компонент изображений. В распознавании речи преобразование Фурье и связанные с ним преобразования служат для восстановления произнесенных слов.
Задача преобразования Фурье возникает всякий раз, когда нужно как-либо работать с сигналом, представляемым в пространстве частот.
Временная область против частотной области
Далее мы будем иметь дело с временно́й и частотной областями] – двумя подходами к представлению сигнала: как информации, которая изменяется во времени и информации, отображенной в виде набора частот и соответствующих им амплитуд.
Ниже представлено характерное изображение аудиосигнала – классического примера сигнала во временной области. Горизонтальная ось соответствует времени, вертикальная ось – амплитуде.
Аудиосигнал во временной области
Тот же звуковой сигнал можно представить разложенным по составляющим его частотам. Горизонтальная ось на рисунке ниже представляет частоту, вертикальная ось – мощность.
Тот же аудиосигнал в частотной области
Преобразование Фурье подразделяют на категории по нескольким признакам. В первую очередь – по типу функций, с которыми работает преобразование: непрерывные или дискретные. В этом руководстве мы рассматриваем дискретное преобразование Фурье (DFT).
Термины DFT и FFT нередко используются как взаимозаменяемые. Однако это не совсем одно и то же: быстрое преобразование Фурье (FFT) – лишь один из алгоритмов вычисления дискретного преобразования Фурье.
Еще одна линия раздела в терминологии, с которым вы столкнетесь при использовании scipy.fft ,– разные типы ввода. Например, функция fft() принимает комплексные числа, а rfft() работает только с действительными числами. В дальнейшем мы обсудим это подробнее.
Чтобы лучше понять преобразование Фурье и то, как его можно применить, решим задачу фильтрации звука. Намеренно создадим звуковой сигнал с высокочастотным шумом, а затем удалим шум с помощью преобразования Фурье.
Создание сигнала
Одиночное гармоническое (синусоидальное) колебание представляют одну частоту и в музыкальном отношении является чистым тоном. Воспользуемся свойством таких волн для генерации звука:
После импорта NumPy и Matplotlib мы определили две константы:
- SAMPLE_RATE (частота дискретизации) определяет, сколько точек используется для представления синусоидальной волны на интервале 1 с. Если бы сигнал имел частоту дискретизации 10 Гц и представлял пятисекундную синусоидальную волну, то он содержал бы 50 точек данных.
- DURATION – длина сгенерированной выборки.
Затем мы определяем функцию для генерации синусоидальной волны – позже мы воспользуемся ей несколько раз. Функция принимает частоту freq и возвращает значения x и y , которые далее будут использоваться для построения изображения сигнала.
Координаты x синусоидальной волны равномерно распределены между 0 и DURATION . Установка endpoint=False в функции np.linspace() важна для правильной работы преобразования Фурье – предполагается, что сигнал является периодическим.
Ось x представляет время в секундах – обратите внимание, что синусоидальная волна действительно совершает два колебания в секунду. Эта синусоида имеет слишком низкую частоту, чтобы ее можно было слышать, поэтому в следующем разделе мы сгенерируем несколько высокочастотных синусоид и рассмотрим, как их можно смешивать.
Смешивание аудиосигналов
Микширование аудиосигналов состоит всего из двух этапов:
- cложение сигналов;
- нормализация результата.
Символ подчеркивания ( _ ) мы используем, чтобы отбросить значения x , возвращаемые функцией generate_sine_wave() – нам не нужно складывать значения времени.
Следующий шаг – нормализация, масштабирование сигнала под целевой формат. В нашем случае это 16-битное целое число в диапазоне от -32768 до 32767 :
Вид смикшированного сигнала
Деление mixed_tone на максимальное значение масштабирует его в интервале от -1 до 1 . Умножение на 32767 масштабирует сигнал между -32767 и 32767 , что примерно соответствует диапазону np.int16 . Код отображает только первые 1000 точек, чтобы мы могли четче проследить структуру сигнала. Видимая нами синусоидальная волна – это сгенерированный тон 400 Гц, искаженный тоном 4000 Гц.
Чтобы прослушать звук, необходимо сохранить его в формате, который может прочитать аудиоплеер. Воспользуемся методом SciPy wavfile.write и сохраним результат в файле формата WAV. Выбранное нами 16-битное целочисленное представление является стандартным типом данных для wav-файлов.
Этот код запишет данные в файл mysinewave.wav в директории, где мы запускаем этот скрипт Python. Файл можно прослушать с помощью любого медиаплеера.
Быстрое преобразование Фурье (FFT) – алгоритм, который позволяет вычислить частотный спектр сигнала:
Результат FFT-преобразования
На построенном спектре видны два пика на положительных частотах и два их зеркальных отражения в отрицательной области. Пики положительных частот находятся на позициях 400 и 4000 Гц.
Преобразование Фурье взяло колеблющийся сигнал и разложило его по содержащимся в нем частотам. Поскольку мы сами внесли только две частоты, на выходе преобразования мы видим только их. Симметричное представление в положительной и отрицательной областях – побочный эффект ввода действительных значений в преобразование Фурье, о чём мы поговорим подробнее в дальнейшем.
Самый важный раздел в этом небольшом скрипте – вычисление преобразования Фурье:
Код вызывает две функции:
- fft() вычисляет само преобразование.
- fftfreq() находит частоты в центре каждого «бина» на выходе fft() . Без этого не было бы возможности построить ось x нашего спектра.
Под бином здесь понимается интервал значений, сгруппированных аналогично гистограмме. В рамках этого руководства достаточно рассматривать их как отдельные значения.
Интересной частью кода является обработка, выполняемая с yf перед построением – вызов np.abs() для yf вызван лишь тем, что значения yf – комплексные числа.
Комплексное число – это число, состоящее из двух частей: действительной и мнимой. Такие необычные числа полезны во многих приложениях, но если вы столкнулись с ними впервые, то сейчас достаточно знать лишь то, что они существуют.
Математики обычно записывают комплексные числа в форме a + bi , где a – действительная часть, b – мнимая часть, i – мнимая единица.
Поскольку комплексные числа состоят из двух компонент, построение графика их зависимости от частоты на двумерной оси требует, преобразовать два значения в одно. На помощь приходит np.abs() . Эта функция вычисляет √(a²+b²).
Частотный спектр, выдаваемый fft() , зеркально отражался относительно оси y. Эта симметрия вызвана вводом в преобразование действительных чисел. Эту симметрию можно использовать, чтобы ускорить преобразование Фурье, вычислив лишь половину с помощью функции rfft() .
Форма спектра сигнала до фильтрации
Самая замечательная вещь в преобразовании Фурье заключается в том, что оно обратимо. Любой сигнал, измененный в частотной области, можно преобразовать обратно во временную область. Воспользуемся этим, чтобы отфильтровать высокочастотный шум.
Возвращаемые rfft() значения соответствуют мощности каждого частотного бина. Если мы установим мощность бина равной нулю, соответствующая частота перестанет присутствовать в результирующем сигнале во временной области:
Обнулим yf для индексов около целевой частоты:
Форма спектра сигнала после фильтрации
Остался только один пик. Применим обратное преобразование Фурье, чтобы вернуться во временную область.
Применение обратного FFT аналогично применению FFT:
Форма сигнала после фильтрации
Поскольку мы использовали rfft() , для обратного преобразования нужно использовать irfft() . Однако, если бы мы использовали fft() , обратной функцией была бы ifft() .
Как видите, теперь есть одна синусоида, колеблющаяся с частотой 400 Гц – мы успешно удалили шум на 4000 Гц.
Нормализуем сигнал и запишем результат в файл. Сделать это можно так же, как в прошлый раз:
Проиграв файл, вы услышите, что раздражающий писк исчез.
Туториал по модулю scipy.fft был бы неполным без рассмотрения дискретного косинусного (DCT) и синусоидального (DST) преобразований. Эти два преобразования тесно связаны с преобразованием Фурье, но работают только с действительными числами. В библиотеке SciPy соответствующие преобразования реализованы в виде функций dct() и dst() . Варианты этих функций с названиями, начинающимися с i и n , представляют соответственно обратные и n-мерные версии функций.
Упрощенно говоря, DCT и DST – как бы две половины преобразования Фурье, вычисляемые по отдельности быстрее, чем полное преобразование Фурье. Прежде чем вы научитесь выбирать между ними, нужно освежить в памяти понятие четных и нечетных функций. Четные функции симметричны относительно оси y , а нечетные – относительно начала координат. Чтобы представить это наглядно, взгляните на следующие примеры.
Примеры четной и нечетной функций – соответственно квадратичная и кубическая функции
При расчете полного преобразования Фурье (DFT) предполагается, что функция, по которой происходит вычисление, повторяется бесконечно. Однако преобразования DCT и DST позволяют учесть симметрию сигнала. Косинусное преобразование (DCT) предполагает, что функция продлевается за счет четной симметрии, а для DST – за счет нечетной симметрии.
На следующем изображении показано, как каждое преобразование представляет, как функция будет продолжаться в бесконечности.
Представление конечного дискретного сигнала в случае полного, косинусного и синусоидального преобразований Фурье
На изображении выше полное преобразование повторяет функцию как есть. DCT отражает функцию по вертикали, а DST – по горизонтали. Обратите внимание, что симметрия DST приводит к существенным разрывам функции. Это вносит высокочастотные составляющие в результирующем частотном спектре. Если нет сведений о симметрии сигнала, лучше использовать DCT.
Есть множество примеров использования DCT в различных задачах, требующих высокой скорости преобразования Фурье, в том числе в алгоритмах JPEG, MP3 и WebM.
Преобразование Фурье – это мощная концепция, применяемая в самых разных областях – от чистой математики до аудиотехники и даже финансов. В этом уроке мы рассмотрели:
- как и когда используется преобразование Фурье
- как выбрать нужную функцию из scipy.fft
- в чем разница между временной и частотной областями
- как посмотреть и изменить частотный спектр сигнала
- как использовать rfft() , чтобы преобразование выполнялось еще быстрее
Мы рассмотрели только базовую идею, но ее понимание поможет разобраться в других вопросах, связанных с преобразованием Фурье и представлением функций в виде частотных спектров.