Формантный анализ ФЭГ | Продолжение жизни

Методом инструментальной транскоммуникации получена аудиозапись феномена электронного голоса, проведена оценка ее однозначного восприятия и формантный анализ

Формантный анализ аудиозаписи с ФЭГ

Феномен электронного голоса (ФЭГ) — явление, при котором на различных регистрирующих устройствах (магнитофонах, диктофонах, радио, компьютерах и др.) возникают осмысленные сообщения, отождествляемые с ушедшими личностями.

Реализуемый при этом двухсторонний информационный контакт с использованием технических средств называют инструментальной транскоммуникацией (ИТК), где «транс» — означает запредельное, котором мы не осознаем.

Формантный анализ — это определение из спектрограммы голосового сигнала формантных частот, присущих звукам речам.

Форманты — это наиболее усиленные частотные области в спектре голосового сигнала, иначе говоря, резонансные частоты речевого тракта.

Определенным звукам речи (фонемам) присущи свои области формантных частот, но при этом у каждого человека — свой индивидуальный набор формантных частот (формант), которые находятся в определенных соотношениях друг к другу и зависят от многих параметров, включая состояние здоровья человека, степень его усталости и прочие.

Хотелось бы рассказать о результатах проведенного исследования аудиозаписи с ФЭГ, которое включало в себя определение степени однозначного восприятия записи, полученной Хорус методом, и фоноскопический анализ этой записи. Целью последнего была попытка нахождения объективных признаков того, что в записи действительно присутствуют форманты, соответствующие звукам, из которых состоит слышимое мной слово.

С помощью микрофона, подключенного к ноутбуку, я записала окружающую тишину, при этом дополнительные источники звука не использовались. Затем в программе Cool Edit Pro на запись был наложен розовый шум и проведена обработка по методу Хорус.

При прослушивании записи я выделила фрагмент, в котором четко услышала слово «Оля».

Аудиозапись: «Оля»

Это значимое для меня имя, поэтому хотелось узнать: слышат ли этот фрагмент другие люди также, как слышу его я?

По моей просьбе выделенный фрагмент записи прослушали 166 человек, среди которых было много новичков в ИТК. При этом запись прослушивалась слепым методом, без подписи файла, т.е. люди не знали, какое слово слышу я сама. Анализ результатов прослушивания представлен на диаграмме (рис.1).

Как видно из диаграммы:

1) Полностью фрагмент услышали, как слово:

ОЛЯ — 14% (24 человека).

2) Услышали в начале фрагмента звук:

О… — 19% (32 человека).

3) Услышали в конце фрагмента слог:

…ЛЯ или …ЛЬЯ — 22% (37 человек)

4) Услышали в конце фрагмента звук:

Я — 60% (100 человек).

Как можно заметить, более половины всех прослушавших лучше всего распознали последний звук в фрагменте, соответствующий букве Я. К сожалению, запись изначально была сохранена не в формате wav, а в формате mp3, т.е. с потерей частот, что могло повлиять на восприятие.

Далее была поставлена цель: выяснить, какие форманты присутствуют в данном фрагменте и соответствуют ли они объективно тем звукам, что слышу я в этом слове.

Иными словами, требовалось определить формантные частоты, присутствующие в записи и сравнить их со справочными данными.

Следует отметь, что эти справочные данные являются примерными, т.к. у каждого человека одним и тем же ГЛАСНЫМ ЗВУКАМ могут соответствовать РАЗНЫЕ ФОРМАНТЫ (и даже у одного и того же человека, но находящегося в разных состояниях). Кроме того, форманты присущи только гласным звукам и отдельным (сонорным) согласным. Поэтому справочные данные есть только для гласных звуков и у разных авторов эти значения отличатся. В подтверждение своих слов приведу выдержку из [1]:

«Абсолютные значения формант у разных людей могут варьировать в довольно широких пределах, но общая формантная структура (F-картина) с низкой F1 – высокой F2 для [и], низкими F1 и F2 для [у] и высокой F1 – средней F2 для [а] сохраняется всегда. F-картина гласного [е] очень похожа на F-картину [и] (хотя его первая форманта несколько выше, а вторая – несколько ниже), а F-картина [о] очень похожа на F-картину [у] (хотя обе его форманты несколько выше, чем у [у]). Гласный [э] по своей формантной структуре занимает среднее положение между [и] и [а]».

Кроме того форманты чистых звуков и их форманты в составе слогов несколько отличаются, т.к. происходит их взаимное влияние, что приводит к изменению формантной картины. Например, вот что об этом сказано в [2]:

Чтение динамических спектрограмм, т.е. интерпретация звуков на основе представленных на ней формантных частот, представляет собой сложную практическую задачу. Фоноскописты, как правило, анализируют не короткие записи из одного слова, а записи речи значительно большей продолжительностью, и на основе повторяющихся признаков могут выделить те или иные звуки на записи. Для идентификации звуков речи наибольшее значение имеют первые 2 форманты. Формантами называют наиболее энергетически выраженные точки (максимумы) огибающей спектра.

Не без труда и не сразу, но все же мне удалось найти специалиста по фоноскопическому анализу, который согласился мне помочь. Ниже приведены результаты фоноскопического анализа, проведенного специалистом — значения формантных частот применительно к отдельным звукам.

1 – ый звук (в начале фрагмента), который я слышу, как звук «О» имеет форманты:

F0=363 Гц; F1=344 Гц; F2=720 Гц; F3=1992 Гц; F4=3228 Гц

Специалист по фоноскопии относительно 1-го звука сделал вывод о его подобии звуку «О»:

Ниже на рисунке 4 ниже представлены справочные данные для звука «О» согласно источнику [3]:

Таким образом, имеем сравнительную таблицу:

Как видно из таблицы, определенные из записи формантные частоты для 1-го звука соответствуют интервалу нормативных формантных частот, характерных для звука «О».

2 — ой звук (в середине записи), который я слышу, как звук «Л» согласно спектрограмме нашего фрагмента имеет форманты:

F1= 345 Гц; F2=2067 Гц; F3=3273 Гц; F4=3790 Гц

В литературе [5], в частности, по поводу звука «Л» сказано, что его положение на спектрограмме характеризуется антиформантой (светлое пятно, соответствующее частотной области ослабления мощности звука). Подобное светлое пятно, как можно увидеть выше, действительно наблюдается на спектрограмме в середине записи.

Кроме того, из [6] известно, что «спектрограмма согласного л’ обнаруживает большое количество составляющих его частот, при этом самыми сильными оказываются низкие частоты и частоты в области 2000 и 4000 Гц» (рис.6), что также наблюдается и на спектрограмме нашей записи (рис.5).

Вывод специалиста по фоноскопии относительно звука в середине фрагмента был такой:

Таким образом, основываясь на литературных данных и выводах специалиста по фоноскопическому анализу, можно сделать вывод о том, что в середине записи звучит звук «Л».

Что же касается той ситуации, что 13% людей, прослушавших эту запись вслепую, услышали в ее конце слог «НЯ», а не «ЛЯ», т.е. звук в середине восприняли, как «Н», то это обусловлено артикуляционным сходством этих звуков, и соответственно близостью формантных локусов (аналогов формант для согласных звуков). Это сходство подчеркивается в литературе по фоноскопическому анализу.

И наконец, о третьем (последнем) звуке в записи. Хочу сразу напомнить известные из курса средней школы сведения о том, что в русском языке нет звука «Я», а есть только буква «Я» — указывающая на то, что впереди стоит мягкий согласный. В данном случае это мягкий согласный звук «Л». Самой же букве «Я» соответствует звук «А».

Анализ спектрограммы показал, что третий звук в записи по своей формантной структуре близок к звуку «А».

Полученные из спектрограммы форманты имеют следующие значения:

Fo=371 Гц; F1=710 Гц; F2=970 Гц; F3 = 2700 Гц; F4=3700 Гц

F3*=2170 Гц — ложная форманта

Вывод специалиста, проводившего фоноскопический анализ, относительно 3-го звука на скриншоте ниже:

Справочные формантные частоты, соответствующие звуку «А» согласно [3]:

Таким образом, имеем сравнительную таблицу:

Как видно из таблицы, выделенные из нашей записи формантные частоты соответствуют нормативному интервалу частот, характерному для звука «А».

Хотелось бы отметить, что есть работы, в которых научными методами исследована возможность идентификации синтезированных одноформантных шумоподобных звуков (фрагментов белого шума). Например, это статья «Акустические признаки гласных звуков с негармонической структурой» [7], в которой был сделан вывод о том, что подобная идентификация возможна и были определены ключевые частоты, необходимые для идентификации звуков «у», «о», «а», «и». При этом установлено, что если полоса находилась в диапазоне от 200 до 500 Гц, звук идентифицировался как «у», 700-900 Гц — «о»,1000-1700 — «а», и если усиленная по амплитуде частота превышала 1900 Гц, звук идентифицировался как «и».

ВЫВОД

Основываясь на результатах проведенного фоноскопического анализа, а именно на том, что для всех 3-х звуков, соответствующих слову «Оля», наблюдается близость экспериментально определенных формантных частот и справочных данных, соответствующих этим звукам, можно сделать вывод о наличии объективных признаков того, что в записи звучит имя «ОЛЯ».

Список использованных источников:

http://www.philol.msu.ru/~ruslang/data/pdf/2.pdf.

2. Динамические спектры речевых сигналов. Деркач М. Ф., Гумецкий Р. Я., Гура Б. М., Чабан М. Е. Год изд.: 1983.

3. Князев С.В., Пожарицкая С.К. Современный русский литературный язык: фонетика, графика, орфография, орфоэпия. Учебное пособие для вузов. — 1-е изд. — М.: Академический Проект, 2005. — 320 с.

4. Моисеева Е.В. Реализация гласных после мягких согласных на стыках слов в современном русском языке. Диссертация на соискание ученой степени кандидата филологических наук. М.: Московский государственный университет им. М.В. Ломоносова, 2015. — 217 с.

5. http://zhenilo.narod.ru/main/beginers/F43.html.

6. Бондарко Л.В. Звуковой строй современного русского языка. — М.: Просвещение, 1977. — 175 c.

7. Акустические признаки гласных звуков с негармонической структурой.Сенсорные системы, 2013, том 27, № 1, с. 47-54.

Методом инструментальной транскоммуникации получена аудиозапись феномена электронного голоса, проведена оценка ее однозначного восприятия и формантный анализ

Формантный анализ аудиозаписи с ФЭГ

Формантный анализ — это определение из спектрограммы голосового сигнала формантных частот, присущих звукам речам.

Форманты — это наиболее усиленные частотные области в спектре голосового сигнала, иначе говоря, резонансные частоты речевого тракта.

Аудиозапись: «Оля»

Как видно из диаграммы:

1) Полностью фрагмент услышали, как слово:

2) Услышали в начале фрагмента звук:

3) Услышали в конце фрагмента слог:

4) Услышали в конце фрагмента звук:

Далее была поставлена цель: выяснить, какие форманты присутствуют в данном фрагменте и соответствуют ли они объективно тем звукам, что слышу я в этом слове.

1 – ый звук (в начале фрагмента), который я слышу, как звук «О» имеет форманты:

Специалист по фоноскопии относительно 1-го звука сделал вывод о его подобии звуку «О»:

Ниже на рисунке 4 ниже представлены справочные данные для звука «О» согласно источнику [3]:

Таким образом, имеем сравнительную таблицу:

2 — ой звук (в середине записи), который я слышу, как звук «Л» согласно спектрограмме нашего фрагмента имеет форманты:

Вывод специалиста по фоноскопии относительно звука в середине фрагмента был такой:

Анализ спектрограммы показал, что третий звук в записи по своей формантной структуре близок к звуку «А».

Вывод специалиста, проводившего фоноскопический анализ, относительно 3-го звука на скриншоте ниже:

Справочные формантные частоты, соответствующие звуку «А» согласно [3]:

Таким образом, имеем сравнительную таблицу:

ВЫВОД

Список использованных источников:

Поделиться страницей