Методом инструментальной транскоммуникации получена аудиозапись феномена электронного голоса, проведена оценка ее однозначного восприятия и формантный анализ

 Формантный анализ аудиозаписи с ФЭГ

Феномен электронного голоса (ФЭГ) — явление, при котором на различных регистрирующих устройствах (магнитофонах, диктофонах, радио, компьютерах и др.) возникают осмысленные сообщения, отождествляемые с ушедшими личностями.

 

Реализуемый при этом двухсторонний информационный контакт с использованием технических средств называют инструментальной транскоммуникацией (ИТК), где «транс» — означает запредельное, котором мы не осознаем.

 
Формантный анализ — это определение из спектрограммы голосового сигнала формантных частот, присущих звукам речам.
Форманты — это наиболее усиленные частотные области в спектре голосового сигнала, иначе говоря, резонансные частоты речевого тракта.

Определенным звукам речи (фонемам) присущи свои области формантных частот, но при этом у каждого человека — свой индивидуальный набор формантных частот (формант), которые находятся в определенных соотношениях друг к другу и зависят от многих параметров, включая состояние здоровья человека, степень его усталости и прочие. 

 

Хотелось бы рассказать о результатах проведенного исследования аудиозаписи с ФЭГ, которое включало в себя определение степени однозначного восприятия записи, полученной Хорус методом, и фоноскопический анализ этой записи. Целью последнего была попытка нахождения объективных признаков того, что в записи действительно присутствуют форманты, соответствующие звукам, из которых состоит слышимое мной слово.

 

С помощью микрофона, подключенного к ноутбуку, я записала окружающую тишину, при этом дополнительные источники звука не использовались. Затем в программе Cool Edit Pro на запись был наложен розовый шум и проведена обработка по методу Хорус.

 

При прослушивании записи я выделила фрагмент, в котором четко услышала слово «Оля».

Это значимое для меня имя, поэтому хотелось узнать: слышат ли этот фрагмент другие люди также, как слышу его я?

По моей просьбе выделенный фрагмент записи прослушали 166 человек, среди которых было много новичков в ИТК. При этом запись прослушивалась слепым методом, без подписи файла, т.е. люди не знали, какое слово слышу я сама. Анализ результатов прослушивания представлен на диаграмме (рис.1).

Восприятие ФЭГ на слух
Рис. 1. Диаграмма восприятия фрагмента записи.
Как видно из диаграммы:
1) Полностью фрагмент услышали, как слово:

ОЛЯ — 14% (24 человека).

2) Услышали в начале фрагмента звук:

О… — 19% (32 человека).

3) Услышали в конце фрагмента слог:

…ЛЯ или …ЛЬЯ — 22% (37 человек)

4) Услышали в конце фрагмента звук:

Я — 60% (100 человек).

Как можно заметить, более половины всех прослушавших лучше всего распознали последний звук в фрагменте, соответствующий букве Я. К сожалению, запись изначально была сохранена не в формате wav, а в формате mp3, т.е. с потерей частот, что могло повлиять на восприятие.

Далее была поставлена цель: выяснить, какие форманты присутствуют в данном фрагменте и соответствуют ли они объективно тем звукам, что слышу я в этом слове. 

Иными словами, требовалось определить формантные частоты, присутствующие в записи и сравнить их со справочными данными.

Следует отметь, что эти справочные данные являются примерными, т.к. у каждого человека одним и тем же ГЛАСНЫМ ЗВУКАМ могут соответствовать РАЗНЫЕ ФОРМАНТЫ (и даже у одного и того же человека, но находящегося в разных состояниях). Кроме того, форманты присущи только гласным звукам и отдельным (сонорным) согласным. Поэтому справочные данные есть только для гласных звуков и у разных авторов эти значения отличатся. В подтверждение своих слов приведу выдержку из [1]:

«Абсолютные значения формант у разных людей могут варьировать в довольно широких пределах, но общая формантная структура (F-картина) с низкой F1 – высокой F2 для [и], низкими F1 и F2 для [у] и высокой F1 – средней F2 для [а] сохраняется всегда. F-картина гласного [е] очень похожа на F-картину [и] (хотя его первая форманта несколько выше, а вторая – несколько ниже), а F-картина [о] очень похожа на F-картину [у] (хотя обе его форманты несколько выше, чем у [у]). Гласный [э] по своей формантной структуре занимает среднее положение между [и] и [а]».

Кроме того форманты чистых звуков и их форманты в составе слогов несколько отличаются, т.к. происходит их взаимное влияние, что приводит к изменению формантной картины. Например, вот что об этом сказано в [2]:

Формантный анализ записи ФЭГ

Чтение динамических спектрограмм, т.е. интерпретация звуков на основе представленных на ней формантных частот, представляет собой сложную практическую задачу. Фоноскописты, как правило, анализируют не короткие записи из одного слова, а записи речи значительно большей продолжительностью, и на основе повторяющихся признаков могут выделить те или иные звуки на записи. Для идентификации звуков речи наибольшее значение имеют первые 2 форманты. Формантами называют наиболее энергетически выраженные точки (максимумы) огибающей спектра.

Не без труда и не сразу, но все же мне удалось найти специалиста по фоноскопическому анализу, который согласился мне помочь. Ниже приведены результаты фоноскопического анализа, проведенного специалистом — значения формантных частот применительно к отдельным звукам.

1 – ый звук (в начале фрагмента), который я слышу, как звук «О» имеет форманты:

F0=363 Гц; F1=344 Гц; F2=720 Гц; F3=1992 Гц; F4=3228 Гц

Спектрограмма звука О
Рис.2.Спектрограмма для 1-го звука в фрагменте (в точке, через которую проходит вертикальная желтая линия).
Специалист по фоноскопии относительно 1-го звука сделал вывод о его подобии звуку «О»:
Формантный анализ записи ФЭГ
Рис.3. Скриншот сообщения о 1-ом звуке.
Ниже на рисунке 4 ниже  представлены справочные данные для звука «О» согласно источнику [3]:
Спектр звука О
Рис.4 Спектральный срез гласного звука «О» согласно [3].
Таким образом, имеем сравнительную таблицу:
Формантный анализ записи ФЭГ

Как видно из таблицы, к нашим формантам для 1-го звука ближе оказались значения формант из 2-го столбца.

 
2 — ой звук (в середине записи), который я слышу, как звук «Л» согласно спектрограмме нашего фрагмента имеет форманты:

F1= 345 Гц; F2=2067 Гц; F3=3273 Гц; F4=3790 Гц

Спектр звука Л из ФЭГ
Рис.5. Форманты 2-го звука в фрагменте (в точке, через которую проходит вертикальная желтая линия).

В литературе [5], в частности, по поводу звука «Л» сказано, что его положение на спектрограмме характеризуется антиформантой (светлое пятно, соответствующее частотной области ослабления мощности звука). Подобное светлое пятно, как можно увидеть выше, действительно наблюдается на спектрограмме в середине записи.

Кроме того, из [6] известно, что «спектрограмма согласного л’ обнаруживает большое количество составляющих его частот, при этом самыми сильными оказываются низкие частоты и частоты в области 2000 и 4000 Гц» (рис.6), что также наблюдается и на спектрограмме нашей записи (рис.5).

О звуке Л
Рис.6. Спектрограмма мягкого согласного Л (слева).
Вывод специалиста по фоноскопии относительно звука в середине фрагмента был такой:
Спектрограмма звука Л
Рис.7. Скриншот сообщения о 2-ом звуке.

Таким образом, основываясь на литературных данных и выводах специалиста по фоноскопическому анализу, можно сделать вывод о том, что в середине записи звучит звук «Л».

 

Что же касается той ситуации, что 13% людей, прослушавших эту запись вслепую, услышали в ее конце слог «НЯ», а не «ЛЯ», т.е. звук в середине восприняли, как «Н», то это обусловлено артикуляционным сходством этих звуков, и соответственно близостью формантных локусов (аналогов формант для согласных звуков). Это сходство подчеркивается в литературе по фоноскопическому анализу.

И наконец, о третьем (последнем) звуке в записи. Хочу сразу напомнить известные из курса средней школы сведения о том, что в русском языке нет звука «Я», а есть только буква «Я» — указывающая на то, что впереди стоит мягкий согласный. В данном случае это мягкий согласный звук «Л». Самой же букве «Я» соответствует звук «А».

 
Анализ спектрограммы показал, что третий звук в записи по своей формантной структуре близок к звуку «А»

Полученные из спектрограммы форманты имеют следующие значения:

Fo=371 Гц; F1=710 Гц; F2=970 Гц; F3 = 2700 Гц; F4=3700 Гц

                                                                                          F3*=2170 Гц — ложная форманта

Спектрограмма звука Я из ФЭГ
Рис.8. Спектрограмма для 3-го звука в фрагменте (в точке, через которую проходит вертикальная желтая линия).
Спектрограмма звука Я из ФЭГ
Рис.9. Определение основного тона для 3-го звука в фрагменте.
Вывод специалиста, проводившего фоноскопический анализ, относительно 3-го звука на скриншоте ниже:
Спектрограмма звука А
Рис.10. Скриншот сообщения о 3-ем звуке.
Справочные формантные частоты, соответствующие звуку «А» согласно [3]:
Спектрограмма звука А
Рис.11. Спектральный срез гласного звука «А» согласно [3].
Таким образом, имеем сравнительную таблицу:
Сравнение формант звука А

Как видим из таблицы, к нашим формантам ближе оказались значения формант из 3-го столбца.

Хотелось бы отметить, что есть работы, в которых научными методами исследована возможность идентификации синтезированных одноформантных шумоподобных звуков (фрагментов белого шума). Например, это статья «Акустические признаки гласных звуков с негармонической структурой» [7], в которой был сделан вывод о том, что подобная идентификация возможна и были определены ключевые частоты, необходимые для идентификации звуков «у», «о», «а», «и». При этом установлено, что если полоса находилась в диапазоне от 200 до 500 Гц, звук идентифицировался как «у», 700-900 Гц — «о»,1000-1700 — «а», и если усиленная по амплитуде частота превышала 1900 Гц, звук идентифицировался как «и».

 
ВЫВОД

Основываясь на результатах проведенного фоноскопического анализа, а именно на том, что для всех 3-х звуков, соответствующих слову «Оля», наблюдается близость экспериментально определенных формантных частот и справочных данных, соответствующих этим звукам, можно сделать вывод о наличии объективных признаков того, что в записи звучит имя «ОЛЯ».

 
Список использованных источников:
  1. http://www.philol.msu.ru/~ruslang/data/pdf/2.pdf.

2. Динамические спектры речевых сигналов. Деркач М. Ф., Гумецкий Р. Я., Гура Б. М., Чабан М. Е. Год изд.: 1983.

3. Князев С.В., Пожарицкая С.К. Современный русский литературный язык: фонетика, графика, орфография, орфоэпия. Учебное пособие для вузов. — 1-е изд. — М.: Академический Проект, 2005. — 320 с.

4. Моисеева Е.В. Реализация гласных после мягких согласных на стыках слов в современном русском языке. Диссертация на соискание ученой степени кандидата филологических наук. М.: Московский государственный университет им. М.В. Ломоносова, 2015. — 217 с.

5. http://zhenilo.narod.ru/main/beginers/F43.html.

6. Бондарко Л.В. Звуковой строй современного русского языка. — М.: Просвещение, 1977. — 175 c.

7. Акустические признаки гласных звуков с негармонической структурой.Сенсорные системы, 2013, том 27, № 1, с. 47-54.

Поделиться страницей