close

Вход

Забыли?

вход по аккаунту

;doc

код для вставкиСкачать
Речевые
технологии
1/2013
Главный редактор Александр Харламов
Главный редактор Харламов А.А., доктор технических наук
Состав редколлегии:
Потаповаредколлегии:
Р.К., доктор филологических наук, профессор,
Состав
заместитель главного редактора
Потапова
Р.К.,
доктор
филологических
наук, профессор
профессор,
Аграновский
А.В.,
доктор
технических наук,
заместитель
главного
редактора
Женило В.Р., доктор технических наук
Ронжин
А.Л.,Ю.Н.,
доктор
технических
наук, доцент
Жигулёвцев
кандидат
технических
наук
Женило В.Р., доктор технических наук, профессор
Кривнова О.Ф., доктор филологических наук
Жигулёвцев Ю.Н., кандидат технических наук, доцент
Кушнир А.М., кандидат психологических наук
Кривнова О.Ф., доктор филологических наук, профессор
Лобанов Б.М., доктор технических наук (Беларусь)
Кушнир А.М., кандидат психологических наук
Максимов Е.М., доктор технических наук
Лобанов
Б.М., доктор технических наук (Беларусь)
Малеев О.Г.,
кандидат
Максимов
Е.М.,
доктор технических
техническихнаук
наук
Нариньяни
А.С.,
кандидат
физик наук, профессорнаук
Голенков В.В., доктор технических
(Беларусь)
ПетровскийЮ.Н.,
А.А.,кандидат
доктор технических
Ромашкин
техническихнаук
наук(Беларусь)
Хитров М.В., А.А.,
кандидат
технических
наук
Петровский
доктор
технических
наук, профессор (Беларусь)
наук
Чучупал
В.Я.,
кандидат
физик
Хитров М.В., кандидат технических наук
наук
Шелепов
В.Ю.,
доктор
физик
Чучупал В.Я., кандидат физико-математических наук (Украина)
Кушнир Д.А.,
секретарь, кандидат
технических
Шелепов
В.Ю.,ответственный
доктор физико-математических
наук
(Украина) наук
Пилипенко В.В., старший научный сотрудник (Украина)
Сажок Н.Н., кандидат технических наук (Украина)
Кушнир Д.А., кандидат технических наук, ответственный секретарь
Содержание
Содержание
Жигулёвцев Ю.Н.
К вопросу формирования описаний
для распознавания речевых команд . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Крак Ю.В., Бармак А.В., Романишин С.А.
Реализация информационной технологии автоматизированного
перевода с флективных языков на жестовый . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Зобнин Д.С., Старцева Н.С.
Новая концепция XML-ориентированного языка разметки диалогов . . . . . . . . . . . . . 30
Соломенник А.И.
Технология синтеза речи в историко-методологическом аспекте . . . . . . . . . . . . . . . . 42
Содержание
Крейчи С.А., Кривнова О.Ф., Егоров А.М.
Фотооптический синтезатор АНС и его
роль в развитии методов синтеза речи . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
Потапова Р.К., Собакин А.Н., Маслов А.В.
О возможности идентификации говорящего
с использованием Skype-канала
(на базе акустических параметров) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
Харламов А.А., Ермоленко Т.В.
Понимание текста как интерпретации цепочек предикатных
структур важных предложений текста, полученных на этапе
прагматического анализа (объединение лингвистического
и статистического подходов) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
Кривнова О.Ф.
Рецензия на книгу Р.К. Потаповой и В.В. Потапова . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
Чучупал В.Я., Коренчиков А.А.
Сравнение эффективности моделей вариативности
произношения для систем распознавания речи . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
Информационное сообщение о IV Международной научно-технической
конференции «Открытые семантические технологии проектирования
интеллектуальных систем» . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
К вопросу формирования описаний
для распознавания речевых команд
Жигулёвцев Ю.Н., кандидат технических наук,
с.н.с., доцент
Рассмотрены методы построения описаний для распознавания речи в условиях шумов с применением алгоритмов авторегрессионного анализа и сингулярных разложений, приведены результаты экспериментального исследования качества распознавания при различных уровнях отношения сигнал-шум и использовании различных
алгоритмов шумопонижения.
• распознавание речи • авторегрессионный анализ • сингулярное разложение • шумопонижение.
The methods of descriptions creation for speech recognition in noise conditions with application of the autoregressive analysis and singular value decomposition algorithms are
considered, speech recognition quality experimental results are given at various levels of
the signal-to-noise ratio and various noise reduction algorithms use.
• speech recognition • autoregressive analysis • singular value decomposition • noise reduction.
Введение
При решении задач речевых технологий важную роль играет первичный анализ речевых сигналов. Целью такого анализа является получение описания речевого сигнала в форме
последовательности векторов параметров, характеризующих изменяющиеся во времени свойства акустического речевого сигнала в обобщённом (сигнальном) виде, содержащем максимум полезной информации о речевом сообщении и максимально инвариантных к акустической обстановке, для реальных приложений, характеризующихся порой
значительным уровнем шумов. Большинство используемых параметрических представлений тем или иным образом связано со спектральными либо корреляционными характеристиками речевых сигналов, и критериями выбора могут служить описательная
мощность и сложность реализации метода анализа. Кроме этого, важным преимуществом может являться «обратимость» метода анализа, позволяющая провести синтез
(«ресинтез») речевого сигнала по его параметрическому описанию, что особенно удобно при построении систем речевого диалогового управления. Названным критериям
в значительной степени удовлетворяет метод авторегрессионного анализа, в речевых
исследованиях получивший название «линейное предсказание речи».
Теоретические предпосылки метода вытекают из регрессионного анализа [35, 38, 41] и оптимальной фильтрации [23, 25, 40]. Детальная историческая справка по развитию методов спектрального оценивания, в том числе авторегрессионных, приведена в работе
Э.А. Робинсона [36]. Два источника метода обусловили два параллельных направления его развития. Одно из них базируется на блочной, а другое на последовательной
(рекуррентной) обработке отсчётов речевого сигнала. Результаты развития этих на-
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
3
Жигулёвцев Ю.Н.
К вопросу формирования описаний для распознавания речевых команд
правлений по состоянию на конец 70-х — начало 80-х годов обобщены
в монографиях Маркела и Грэя [26] и Ю.Н. Прохорова [34] соответственно.
В книге [27 Марпл] с общих позиций спектрального оценивания приведены
подробные сведения об обоих подходах, однако без анализа их применений для обработки речи.
В настоящее время линейная авторегрессионная модель речеобразования является наиболее распространённой формой представления математической
модели речевого тракта для анализа и синтеза речевых сигналов в задачах речевых технологий. Это обусловлено адекватностью этой модели
представлению акустической модели речевого тракта в виде отрезков труб,
обеспечивающей приемлемое для большого числа практических задач качество. Кроме того, за более чем 50-летний период развития подхода достаточно детально исследованы теоретические и прикладные аспекты метода,
найдены эффективные алгоритмические решения, вычислительные процедуры и аппаратурные реализации.
С одной стороны, авторегрессионный анализ даёт метод оценки параметров
сигнала, которые могут применяться для решения задач распознавания
и синтеза речевых сигналов, рассматриваемых как реализации процессов,
порождаемых в результате прохождения потока воздуха через речевой
тракт. Эти параметры позволяют не только сформировать описание речевого сигнала в виде последовательности векторов признаков, но и получить
оценку спектра сигнала. С другой стороны, коэффициенты этого уравнения
могут быть интерпретированы как параметры модели речевого тракта, порождающей речевой сигнал. В этом случае просматривается связь подхода
с методами идентификации динамических систем [39, 46], которые в свою
очередь дают возможность оценивать как структуры, так и параметры идентифицируемых моделей, а также состояния моделируемых систем. При этом
спектральные оценки интерпретируются как передаточные функции речевого тракта, давая возможность оценивания частоты и ширины полосы формант как полюсов этой функции.
Авторегрессионная модель строится в предположении, что текущий отсчёт сигнала может быть представлен линейной комбинацией взвешенных предыдущих отсчётов с некоторой погрешностью, величину которой необходимо
минимизировать. Для минимизации обычно используется метод наименьших квадратов, для реализации которого производится суммирование квадратов погрешностей на конечном временном интервале, и частные производные весовых коэффициентов приравниваются нулю, в результате чего
получают систему линейных алгебраических уравнений, решение которой
даёт оценки коэффициентов линейного предсказания. В зависимости от
определения интервала анализа различают автокорреляционный и ковариационный методы линейного предсказания, приводящие к несколько отличающимся по свойствам системам уравнений, для каждой из которых были
найдены эффективные вычислительные алгоритмы. В результате реализации процедур могут быть получены различные оценки параметров модели
авторегрессии — как собственно коэффициенты линейного предсказания,
так и коэффициенты отражения или частной корреляции, между которыми
существует взаимно однозначное соответствие. Анализ проводится, как
было отмечено, на конечных, обычно частично перекрывающихся интервалах времени длительностью от нескольких миллисекунд для ковариационного метода до 20–30 мс. для автокорреляционного.
4
Авторегрессионным методам свойственны принципиальные ограничения, в первую очередь чувствительность к помехам, а также недостаточная для высококачественного синтеза речи описательная способность чисто полюсной
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Жигулёвцев Ю.Н.
К вопросу формирования описаний для распознавания речевых команд
акустической модели речевого тракта, в действительности являющейся нелинейной нестационарной динамической системой с распределёнными параметрами [43]. Даже при
сосредоточенных параметрах учёт нулей передаточной функции мог бы дать существенное приращение точности модели. Поэтому в последние годы появилось достаточно
много работ, направленных на улучшение характеристик авторегрессионных и других
параметрических методов оценивания параметров и моделей речевых сигналов.
Анализ существующих и перспективных подходов к улучшению
свойств авторегрессионных моделей
Целью настоящей работы является изыскание возможностей преодоления недостатков и ограничений классических авторегрессионных методов. Следует отметить, что не существует единственного метода, обеспечивающего устранение всех недостатков классического авторегрессионного подхода. В современных исследованиях, как правило, применяется комплекс приёмов и решений, в совокупности обеспечивающий улучшение
оценок параметров и моделей.
Речевой сигнал как нестационарный случайный процесс может быть представлен как временной ряд с изменяющимися во времени вероятностными характеристиками. Несмотря на непрерывный характер реальных речевых сигналов, представляемых в системах
обработки речи в форме аналогового сигнала на выходе микрофона, в современных
условиях при подавляющем преобладании цифровых методов обработки информации
речевой сигнал рассматривается как дискретная последовательность квантованных по
уровню цифровых отсчётов. Для описания свойств таких процессов применяются типовые параметрические модели, устанавливающие статистические связи между членами
временного ряда. Таких моделей существует три: это модель авторегрессионного процесса (АР, Autoregressive — AR), процесса скользящего среднего (CC, MA — Moving
Average) и комбинированная модель процесса авторегрессии — скользящего среднего
(АРСС, ARMA). Последняя модель является наиболее общей и, соответственно, наиболее сложной в анализе и реализации.
Критерием для выбора одной из этих моделей может служить характер передаточных функций динамических систем, порождающих соответствующие процессы. АР-модель имеет передаточную функцию, содержащую только полюса, в то время как СС-модель представлена только нулями передаточной функции. АРСС-модель имеет дробно-рациональную передаточную функцию с нулями и полюсами и, таким образом, в большей степени
соответствует модели речевого тракта, имеющей как резонансы, так и антирезонансы.
Однако лишь авторегрессионная модель является линейной, что существенно облегчает её реализацию, поэтому именно она до сих пор в основном применяется для анализа
речи. При этом увеличение порядка модели позволяет получить приемлемую точность
аппроксимации спектральных характеристик. Правда, увеличение размерности противоречит вышеупомянутым требованиям минимизации объёма описаний и может быть
преодолено только частично в процессе вторичного анализа речи.
Общая модель порождения многих детерминированных и стохастических процессов с дискретным временем может быть описана разностным уравнением [27]:
p
q
x ( n ) = −∑a ( k ) x ( n − k ) + ∑b ( k ) u ( n − k ) .
k =1
(1)
k =0
Здесь u(n) — входная последовательность, а x(n) — выходная последовательность физически
реализуемого, каузального фильтра. В случае речевых сигналов входной последовательностью является выход голосового источника, в большинстве случаев недоступный
для наблюдения. Поэтому о нём принимается некоторое допущение, чаще всего в качестве такового принимается белый шум. Уравнение (1) представляет АРСС-модель случайного процесса, которую можно представить как выход цифрового фильтра с дробно-
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
5
Жигулёвцев Ю.Н.
К вопросу формирования описаний для распознавания речевых команд
рациональной передаточной функцией. Числитель этой передаточной функции определяет фильтр с бесконечно-импульсной характеристикой (БИХ),
а знаменатель — фильтр с конечно-импульсной характеристикой (КИХ). Соответственно первый определяет модель процесса скользящего среднего,
а второй — авторегрессионного процесса.
В частных случаях, когда коэффициенты a(k) либо b(k) равны нулю за исключением a(0) =1, b(0) =1, получаем АР — модель:
p
x ( n ) = −∑a ( k ) x ( n − k ) + u ( n ) ,
k =1
(2)
либо СС — модель:
q
x ( n ) = ∑b ( k ) u ( n − k ) + u ( n ) .
(3)
k =1
Параметры этих трёх процессов взаимосвязаны, соотношения между ними рассмотрены, например, в [27]. Существенно то, что лишь АР-параметры линейно связаны с вероятностными характеристиками (например, автокорреляционной последовательностью) процессов, при этом СС и АРСС — параметры могут быть аппроксимированы набором АР-параметров высокого
порядка. Отсюда вытекают методы оценивания параметров перечисленных процессов. Существенная проблема при этом заключается в том, что
истинные вероятностные характеристики, во всяком случае, для речевых
сигналов, неизвестны и к тому же нестационарны, поэтому их приходится
заменять выборочными оценками, от их свойств и методов их получения
существенно зависят результаты моделирования.
Возможности совершенствования алгоритмов
авторегрессионного анализа
Известно, что погрешность предсказания имеет наибольшие значения на интервалах размыкания голосовых складок. Поэтому для улучшения оценок
авторегрессионных параметров целесообразно исключать эти интервалы
из анализа с применением локального выделителя основного тона [42, 45],
либо разделять импульсные отклики голосового источника и речевого тракта, например, с помощью гомоморфной обработки [5,18].
6
Эффективным подходом для повышения качества формируемых описаний является учёт психоакустических особенностей восприятия речи человеком.
Нелинейное преобразование масштаба частот по шкале мелов или барков
применяется как в спектральном анализе («сжатое» или «неравномерное»
дискретное преобразование Фурье, WDFT — Warped DFT или NDFT —
Nonuniform DFT) [11, 29], так и в авторегрессионном и других методах анализа для решения большинства задач речевых технологий. Сюда относятся в первую очередь методы перцептивного линейного предсказания
(Perceptual Linear Predictive analysis — PLP) [8] и его последующие модификации (RelAtive SpecTrAl — RASTA PLP) [9, 10]. Достаточно полный анализ
и обобщение упомянутых и других подходов к реализации методов линейного предсказания приведены в [16]. В работах [9, 10] было предложено
преобразовывать коэффициенты линейного предсказания в кепстральные
коэффициенты, что стало в настоящее время практически стандартом, называемым MFCC — Mel Frequncy Cepstral Coefficients. Мел-кепстральные
параметры, кроме вектора собственно коэффициентов кепстра, включают
обычно первую, а иногда и вторую производные этого вектора, что увели-
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Жигулёвцев Ю.Н.
К вопросу формирования описаний для распознавания речевых команд
чивает размерность вектора параметров втрое. По результатам ряда сравнительных исследований такое описание обеспечивает наиболее высокое качество распознавания.
Здесь следует заметить, что, по нашему мнению, векторы производных следует использовать в отдельных, параллельных основному, процессах обработки параметров. Это
должно позволить выявлять более полный набор акустических событий в потоке речи,
включая кроме статических картин (например, спектральных портретов фонем) также и
динамические признаки [32].
Существует два основных алгоритма оценивания MFCC — классический на основе преобразованного по шкале мелов спектра Фурье с последующим логрифмированием и обратным косинусным преобразованием, и на основе преобразования коэффициентов линейного предсказания в коэффициенты мел-частотного кепстра. Реализация этих методов
осуществляется также двумя способами — блочным и рекуррентным (в зарубежной
литературе называемый адаптивным) [21]. В упомянутой публикации определён метод
обобщённого мел-кепстрального анализа, являющийся унифицированной реализацией
кепстрального анализа и линейного предсказания, соотношение между которыми задаётся двумя параметрами α и γ, определяющими соответственно степень деформации
частотной шкалы и характер спектральной оценки.
Сравнение блочных и рекуррентных подходов
В любом методе анализа сигналов поведение анализируемого процесса рассматривается во
временном окне, длительность которого должна обеспечивать получение состоятельных
в вероятностном смысле характеристик. В соответствии с этим число отсчётов сигнала
в окне анализа должно быть, по крайней мере, на порядок больше числа оцениваемых
параметров. Многие стандартные алгоритмы кодирования речевых сигналов используют
окна длительностью 10…20 мс, что при частоте дискретизации 8 кГц даёт число отсчётов
80…160, при этом число параметров составляет 10. Например, минимизация погрешности линейного предсказания предполагает накопление некоторой последовательности
отсчётов речевого сигнала, позволяющей получить выборочную оценку корреляционных связей между отсчётами в форме автокорреляционной функции либо ковариационной матрицы. На основе (или в результате получения) этих оценок формируется система
уравнений, решение которых даёт оценки параметров авторегрессионной модели.
С другой стороны, темп получения информации о параметрах должен задаваться с учётом
скорости изменения параметров сигнала. Исходя из оценок интервалов стационарности речевых сигналов, полученных на основе различных предпосылок (теория сигналов и случайных процессов, психоакустика и нейрофизиология и т.п.), интервал дискретизации вектора параметров должен составлять от одной до нескольких десятков
миллисекунд. Поэтому перемещение окна анализа вдоль оси времени осуществляется
с перекрытием на величину шага дискретизации вектора параметров. Это вызывает
определённые проблемы и ограничения, если обработка сигнала в интервале анализа
должна осуществляться с применением взвешивающего окна.
Надо учитывать, что взвешивание приводит к некоторому сужению интервала анализа за
счёт спада на краях окна. Следовательно, получаемые таким образом оценки параметров будут охватывать относительно меньше отсчётов сигнала, чем при использовании
прямоугольного окна, т.е. возникает необходимость достижения компромисса между
разрешением анализа по времени и достоверностью получаемых оценок. Результат
взвешивания прямоугольным окном существенно зависит от значений сигнала на краях
окна, и при наличии выбросов на границе значение оценки достаточно сильно флуктуирует. Это особенно заметно, когда ширина окна близка к кратному значению основной
периодичности в сигнале. При этом периодичность оценки определяется также и высшими гармониками основной частоты. Та же оценка, полученная с помощью весового окна,
флуктуирует даже сильнее, но её периодичность определяется в большей степени основной частотой сигнала. В спектральной области отмеченные особенности объясняют-
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
7
Жигулёвцев Ю.Н.
К вопросу формирования описаний для распознавания речевых команд
ся более высоким уровнем боковых лепестков у частотной характеристики
прямоугольного окна. Отметим, что рекуррентные алгоритмы предполагают
использование, как правило, прямоугольного окна, взвешивание другими
окнами приводит к необходимости дополнительной фильтрации выходных
данных, несколько снижая вычислительную эффективность рекуррентных
методов [32, 33].
Рис. 1. Оценки интенсивности при различной ширине окна анализа.
Красные линии — прямоугольное окно, синие точки – окно Хэмминга
В качестве примера на рисунке 1 приведены оценки текущей интенсивности тестового сигнала, представляющего сумму трёх синусоид с отношением частот 1 / 2 / 4 и амплитудами 0.6, 0.2, и 0.2 соответственно. Оценка выполнялась согласно выражению: s = k ⋅
∑
N
i =1
wi ⋅ abs( xi ) , где xi — отсчёт сигнала,
wi — значение весовой функции окна, N — ширина окна в числе отсчётов,
k — коэффициент, учитывающий площадь весовой функции, k = 1
8
∑
N
i =1
wi .
Следует отметить, что приведённый пример отражает поведение оценок, полученных со сдвигом окна на один отсчёт, т.е. в скользящем режиме. Блочный
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Жигулёвцев Ю.Н.
К вопросу формирования описаний для распознавания речевых команд
подход предполагает перемещение окна скачками, с частичным перекрытием. Характер оценок зависит при этом от степени перекрытия, что отражено на рисунке 2, где
приведены те же оценки при постоянной ширине окна в 160 отсчётов, но с различной
степенью перекрытия. Целесообразно принять за меру перекрытия отношение (ширина–шаг) / шаг, тогда в примере перекрытие меняется от 159 до 1.
Рис. 2. Оценки интенсивности при различном шаге окна анализа. Красные линии — прямоугольное окно, синие точки — окно Хэмминга. Ширина окон 160 отсчётов
Очевидно, что ширина окна и его форма должны выбираться по-разному при решении различных задач. Если оцениваются параметры для распознавания речи, окно должно сглаживать периодичность основного тона, в то время как для оценивания самого основного
тона важно эту периодичность выделять, подавляя высшие гармоники.
Рекуррентные методы обеспечивают обновление параметров модели на каждый вновь поступивший отсчёт речевого сигнала. Такое описание может показаться избыточным,
и для реализации процедур распознавания речи это справедливо, поскольку шаг дискретизации по времени информативных параметров обычно принимается 10…40 мс,
минимум 1 мс. Однако рекуррентные методы имеют некоторые преимущества, компенсирующие кажущийся недостаток. При синтезе речи в любом случае выходные отсчёты
необходимо получать в том же темпе, что и входные при анализе, поэтому применение рекуррентных методов предпочтительно в коммуникационных приложениях [12].
«Скользящий» режим эффективен и при вычислении корреляционных, спектральных
и других характеристик сигналов, позволяет с точностью до одного отсчёта определять границы речевых элементов и акустических событий в произнесении, а усредне-
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
9
Жигулёвцев Ю.Н.
К вопросу формирования описаний для распознавания речевых команд
ние оцениваемых параметров позволяет формировать описания речевых
реализаций с требуемым, в том числе неравномерным по времени, шагом.
Наконец, рекуррентный анализ в большей степени адекватен процессам
слухового восприятия речи человеком, происходящим в непрерывном времени с использованием аналоговых или аналого-дискретных «устройств».
Наличие параметров, обновляемых в темпе обновления входного речевого сигнала, позволяет реализовывать сложные комплексные процедуры
обработки речевых сигналов, использующие разнотемповость, конвейеризацию и распараллеливание процедур анализа и принятия решений. При
этом избыточность рекуррентных процедур компенсируется повторным
использованием полученных оценок в различных ветвях и подзадачах алгоритма.
Выбор между блочным и рекуррентным подходом непрост и неоднозначен. Решение должно учитывать характер решаемой задачи, требования к вычислительным ресурсам и методам реализации алгоритмов. Здесь необходимо отметить, что современные возможности микроэлектронных технологий
практически снимают ограничения по программной и аппаратной реализации алгоритмов любой сложности в реальном времени, если нет ограничений по стоимости, энергоёмкости, массогабаритным и иным параметрам. Во
всяком случае, эти ограничения не должны приниматься во внимание при
проведении фундаментальных исследований, имеющих целью достижение новых, наивысших результатов в речевых технологиях. В связи с этим
возникает потребность в ревизии применяемых методов и алгоритмов как
в теоретическом плане, так и в плане проведения сравнительно-экспериментальных исследований существующих и новых (или хорошо забытых
старых) подходов.
Инварианты и разложения вероятностных характеристик
Как отмечалось выше, для нахождения авторегрессионных параметров используются вероятностные характеристики анализируемых процессов – выборочная автокорреляционная Rn ( k ) либо ковариационная Cn ( i, k ) последовательность, вычисляемые по последовательности отсчётов анализируемого сигнала в соответствии с соотношениями:
Rn ( k ) =
N −1− k
∑ x (m) ⋅ x (m + k ),
n
n
(4)
m =0
N −1
Cn ( i , k ) = ∑ xn ( m − i ) ⋅ xn ( m − k ) ,
(5)
m= p
0 ≤ i ≤ p, 1 ≤ k ≤ p,
где p — порядок модели.
10
Не затрагивая вопросов реализации хорошо известных классических методов
решения авторегрессионных уравнений, отметим возможности получения дополнительной информации о речевых сигналах, которую можно извлечь из этих характеристик. Эта информация может оказаться полезной
для решения смежных задач, обычно возникающих в процессе формирования параметрического описания речевых сигналов, например, классификации «пауза–тон–шум», определения границ слов либо слитно произносимых фраз, сегментация речевого потока на слоги, фонемы и другие
речевые элементы, включая интервалы смыкания-размыкания голосовых
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Жигулёвцев Ю.Н.
К вопросу формирования описаний для распознавания речевых команд
складок. Для решения указанных задач требуется обобщённая либо детализированная
информация об энергетических, частотных, временных характеристиках речевых сигналов.
Поскольку выборочные оценки корреляционных свойств получены на интервале, из них можно извлечь усреднённую на этом интервале информацию, например, о текущей энергии
либо интенсивности. Известно, что эта информация содержится в нулевом отсчёте автокорреляционной функции. Автокорреляционная функция часто используется для решения задачи выделения основного тона. В работе [42] предлагается использовать для
выделения параметров речевых сигналов инварианты автокорреляционной матрицы.
Например, указывается, что значение её определителя позволяет определить интервалы смыкания-размыкания голосовых складок.
На рисунке 3 кроме поведения определителя показаны ещё два графика – след матрицы собственных значений и величина, обратная обусловленности ковариационной матрицы,
определяемой как отношение максимального собственного значения к минимальному.
Выбранные параметры окна анализа позволили сохранить и даже подчеркнуть периодичность основного тона.
Рис. 3. Инварианты ковариационной матрицы сигнала размерности 4х4.
Реализация слова «четыре», параметры дискретизации — 16 кГц, 16 бит.
Окно анализа 160 отсчётов (10 мс), шаг 1 отсчёт
Формирование векторов информативных параметров на основе сингулярного
разложения автоковариационных матриц с возможностью адаптации
к характеристикам шумов
В последние десятилетия всё большее внимание исследователей уделяется методам обработки речевых сигналов на основе разложения матриц по собственным значениям
и собственным векторам (РСЗ): Eigen Value Decomposition — EVD, Singular Value Decomposition — SVD, Generalised Singular Value Decomposition — GSVD и другие модификации
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
11
Жигулёвцев Ю.Н.
К вопросу формирования описаний для распознавания речевых команд
этого подхода. Математические основы метода известны давно и применялись в статистическом анализе и распознавании образов (разложение
Карунена-Лоэва — KLT, метод главных компонент [24, 44]) для сжатия данных и анализа их структуры, а также сокращения размерности пространства признаков. Для спектрального оценивания применяется гармоническое
разложение Писаренко, метод Прони, методы MUSIC и EV [27], также основанные на разложении по собственным значениям. Представляет интерес
возможность применения сингулярных разложений для исследования динамики систем, в том числе нелинейных, с распределёнными параметрами,
к которым относится и речевой тракт [28, 37].
Несмотря на достаточно длительный период развития и очевидную перспективность рассматриваемого подхода, разработку его нельзя считать полностью
завершённой, о чём свидетельствует не снижающееся число публикаций.
Первые работы по применению сингулярных разложений для шумоочистки
речи появились в 1991 году [2, 3]. К 1995 году были сформированы основные аспекты решения проблемы [4]. В работе [7] представлено большинство
основных этапов и приёмов реализации похода. Последующие публикации
посвящены в различной степени либо обобщению и уточнению процедур
[20], либо развитию дополняющих подход методов [1, 6]. В частности, представляет интерес направление, развивающее рекуррентный (в зарубежных
публикациях чаще называемый адаптивным) подход к реализации процедур [13, 1, 16, 19, 22]
Идея подхода состоит в разделении сигналов по корреляционным свойствам
на два подпространства — сигнала (с шумом) и шума. Это даёт основания
предполагать возможность очистки сигналов от шума и на основе этого получать решения задач речевых технологий, работоспособные в реальной,
чаще всего зашумлённой обстановке.
Речевой сигнал при блочной цифровой обработке обычно разбивается на перекрывающиеся отрезки — блоки, или фреймы, представляемые в виде последовательности отсчётов, содержащих компоненты собственно речевого
сигнала и наложенного на него аддитивного шума:
x = ( x1 , x2 , x3 ,..xk ) = s + n ,
T
(6)
где k — размер блока, s и n — векторы соответственно сигнала и шума, той же
размерности k, что x.
Сигнал x может быть отображён в многомерное пространство «встроенной» размерности m:
H = ( x1 , x 2 , x3 ,..x n ) ,
где
(7)
xi = ( xi , xi +1 , xi + 2 , xi +3 ,..xi + m−1 ) — часть последовательности x длины m, i =
T
1..n, n = k – p + 1, H — Ганкелева траекторная матрица.
Сингулярное разложение траекторной матрицы определяется как произведение
трёх матриц:
H = USV T
(8)
Здесь S — матрица m x n, на главной диагонали которой расположены сингулярные значения, матрицы U размером m x m и V размером n x n составлены
соответственно из левых и правых собственных векторов.
12
Предполагается, что речь и шум занимают различные подпространства — подпространства сигнала и шума размерностью p и q соответственно, причём сигнал отображается на измерения, соответствующие наибольшим,
а шум — наименьшим сингулярным значениям.
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Жигулёвцев Ю.Н.
К вопросу формирования описаний для распознавания речевых команд
Если тем или иным способом изменить веса компонентов пространств сигнала и шума, задаваемых собственными значениями, обратное преобразование (9) позволит получить
улучшенный речевой сигнал.
H e = UGSVT
(9)
Здесь G — весовая матрица, определяющая увеличение либо уменьшение вклада каждого
(или некоторых) измерений в выходной сигнал, восстанавливаемый усреднением антидиагоналей выходной Ганкелевой матрицы.
Для каждого блока процедура повторяется, выходной сигнал объединяется путём суммирования перекрывающихся блоков. При блочной обработке наиболее подходящим для взвешивания входных векторов x (6) является использование окна Ханна.
В том случае, когда нет необходимости в получении очищенного от шума речевого сигнала (например, при формировании параметрических описаний для распознавания речи
либо дикторов) есть возможность получения улучшенных оценок вероятностных характеристик сигнала. Для этого можно использовать тот факт, что левые собственные векторы сингулярного разложения точно совпадают с матрицей собственных векторов автокорреляционной матрицы. Поэтому улучшенную оценку этой матрицы можно получить,
используя преобразование
R e = UGSUT
(10)
После этого можно получить улучшенный вариант авторегрессионных параметров классическим методом.
Остаётся решить, как выбирать веса для рассмотренного преобразования. Примитивное
решение — обнулить те сингулярные значения, которые отвечают за подпространство
шума. Однако это приводит к существенным искажениям речевого сигнала, а также
появлению характерных «музыкальных тонов». Дело в том, что размерность сигнального пространства достаточно сильно варьирует при произнесении различных звуков
и довольно заметно увеличивается для шумных звуков — в несколько раз по сравнению
с гласными. Поэтому необходимо правильно оценивать размерности подпространств
и рационально выбирать весовую матрицу.
Кроме этого, рассмотренный подход справедлив в предположении о том, что шум — некоррелированный случайный процесс с равномерным распределением, то есть белый
шум. В реальности шумы чаще всего окрашены, поэтому возникает необходимость
решения задачи предварительного «обеления» (prewhitening) траекторной матрицы
перед сингулярным разложением с последующим «окрашиванием» (dewhitening) после обратного преобразования. Соответственно необходимо реализовать процедуры
оценивания характера шумов для решения о необходимости применения указанных
преобразований. Это требуется и для случая, когда характер шумов изменяется в процессе обработки, то есть существует необходимость постоянной адаптации параметров
алгоритма.
Ещё одно направление совершенствования рассматриваемого подхода состоит во включении в него процедур перцептивной обработки, то есть учёта особенностей слухового
восприятия речи, доказавших свою эффективность и в других подходах к обработке
речевых сигналов [31].
Последовательное решение задач шумоочистки и первичного анализа позволяет получать
устойчивые к шумам оценки параметров. Но более эффективным решением представляется совмещение процедур, используемых в процессе шумоочистки, с получением
устойчивых к шумам информативных параметров речевого сигнала. Поскольку в обоих случаях исходными данными служат спектральные либо корреляционные характеристики сигналов, такое решение можно признать рациональным, особенно в случае
формирования описаний речевых сигналов для их распознавания, без необходимости
восстановления очищенного от шума сигнала.
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
13
Жигулёвцев Ю.Н.
К вопросу формирования описаний для распознавания речевых команд
Реализация подхода к оцениванию информативных параметров речи на основе
использования сингулярных разложений требует построения комплексной
процедуры анализа, включающей, помимо основного процесса, ряд смежных процедур (выделение признаков «тон-шум-пауза», классификация
и идентификация шумов и др.). Представляется целесообразным выбрать
рекуррентный вариант построения алгоритмов оценивания автоковариационных матриц, основного тона, собственных значений и собственных
векторов, размерностей подпространств сигнала и шума.
Экспериментальное исследование влияния алгоритмов
шумоочистки на надёжность распознавания изолированно
произносимых слов
В дополнение к оценкам улучшения разборчивости восприятия речи алгоритмами, описанными в [30, 31], был поставлен эксперимент по оценке влияния шумоочистки на надёжность распознавания изолированно произносимых слов. Речевой материал, использованный в эксперименте, получен
от одного диктора, произносившего цифры от ноля до девяти сериями по
пять произнесений каждого слова в различные периоды времени (с 2005
по 2013 г.), с использованием разных микрофонов и в различной акустической обстановке, но при отношении сигнал/шум (ОСШ, SNR) не хуже
40 дб. Таким образом, получено шесть серий по пять реализаций десяти
слов, т.е. в общей сложности триста реализаций с частотой дискретизации 8 КГц и разрядностью 16 в wav - формате. Для удобства планирования
экспериментов имена файлов сформированы по схеме
s<s>r<r>w<ww>n<nn>.wav,
где: s — от «speaker»;
s — номер диктора, от 0 до 5;
r — от «realization»;
r — номер реализации, от 0 до 4;
w — от «word»;
ww — номер слова от 0 до 9, для цифр соответствует их значению;
n — от «noise»;
nn — значение ОСШ: 00, 06, 12, 20, 40.
Распознавание осуществлялось сравнением с эталонами на основе алгоритма
динамического программирования по методу «скользящего экзамена»,
т.е. каждая из 300 реализаций поочерёдно сравнивалась со всеми остальными, выступавшими в качестве эталонов.
В качестве эталонов, помимо исходных реализаций, использовались эти же
реализации с наложенным на них белым шумом для ОСШ 0, 6, 12, 20
и 40 дБ, то есть ещё 5*300 = 1500 реализаций. Зашумлённые реализации подвергались обработке двумя алгоритмами шумопонижения [31] —
на основе спектрального вычитания NRS и на основе обработки сигнала
в подпространствах PCSS. Таким образом, получено ещё 3000 реализаций «очищенных» сигналов.
Описания реализаций получены с использованием метода MFCC в его классической форме — через БПФ, мел-преобразование, логарифмирование
и косинусное преобразование. Отличие от классики заключается в том,
что вычислялись не 13, а 16 коэффициентов мел-кепстра, а первая и вторая производные вектора MFCC-параметров рассчитывались по 5-точечной схеме численного дифференцирования со сглаживанием:
x'(n) = {8 * [x(n + 1) – x(n – 1)] + x(n – 2) – x(n + 2)} /12,
14
где x'(n) — n-й отсчёт вектора параметров.
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Жигулёвцев Ю.Н.
К вопросу формирования описаний для распознавания речевых команд
После дифференцирования последовательность векторов производных подвергалась дополнительному сглаживанию по 5-точечной схеме:
~
x'(n)
= {6 * x'(n) + 4 * [x'(n + 1) + x'(n – 1)] + x'(n – 2) + x'(n + 2)} /16.
Для каждой реализации матрицы параметров, их первой и второй производной записывалась
в отдельные файлы с теми же именами, но с расширениями «.mf0», «.mf1» и «.mf2»
соответственно. Это обеспечивает возможность изменять объём описания, используя
каждую матрицу параметров отдельно либо с сочетании с другими и получая при этом
размерность пространства параметров от 16 до 48.
Эксперимент по распознаванию организуется следующим образом. В память компьютера загружаются матрицы реализаций, образуя массив эталонов и массив реализаций. В процессе загрузки формируется индексный массив, содержащий адреса начала каждой
реализации. Это обеспечивает возможность выделить реализацию из массива, использовав два индекса: текущей реализации и следующей, уменьшенный на единицу.
Возможны две схемы организации тестирования. В первом случае один и тот же набор реализаций используется и как эталонный, и как проверочный, поэтому формируется
общий массив реализаций. Сравнение реализаций с эталонами организуется в шести
вложенных циклах: по номерам эталонных дикторов, номерам произнесений эталонных
слов и номерам эталонных слов в словаре, а затем по номерам дикторов, произнесений
и слов, предъявляемых в качестве тестовых. При этом сравнение тестовой реализации
со «своим» эталоном не производится, а оценке расстояния в этой паре присваивается
заведомо большое значение. Все расстояния вычисляются и заносятся в таблицу расстояний, имеющую размерность 10 эталонов*30 реализаций. Результат распознавания
определяется индексом эталона минимального элемента таблицы расстояний. Поскольку процедура сравнения регулярна, то известен индекс тестового слова, и содержимое
адресуемой этими индексами ячейки таблицы результатов (размерности 10*10) увеличивается на единицу. Если ячейка не находится на диагонали квадратной матрицы
результатов, фиксируется ошибка распознавания. При 100% правильности распознавания таблица результатов диагональна с содержимым диагональных ячеек 30. Процент
правильно распознанных слов равен сумме диагональных элементов, делённой на 300
и умноженной на 100 (т.е. сумма/3). Таблицы расстояний и результатов записываются
в текстовый файл, что позволяет детально проанализировать ошибки распознавания.
Пример таблицы результатов для сравнения исходных реализаций с исходными эталонами
приведён ниже.
Таблица 1
r\e:
0
1
2
3
4
5
6
7
8
9
0
30
0
0
0
0
0
0
0
0
0
1
0
29
0
0
0
0
0
0
0
0
2
0
0
30
0
0
0
0
0
0
0
3
0
1
0
30
0
0
0
0
0
0
4
0
0
0
0
30
0
0
0
0
0
5
0
0
0
0
0
30
0
0
0
0
6
0
0
0
0
0
0
30
0
0
0
7
0
0
0
0
0
0
0
30
0
0
8
0
0
0
0
0
0
0
0
30
0
9
0
0
0
0
0
0
0
0
0
30
Процент = 99.7
Второй вариант тестирования предусматривает сравнение реализаций из двух различных наборов, например, исходных и зашумлённых или очищенных реализаций для различных
значений SNR. В остальном схемы процедур аналогичны, только тестовая реализация
сравнивается со всеми эталонами.
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
15
Жигулёвцев Ю.Н.
К вопросу формирования описаний для распознавания речевых команд
Тестирование включает семь групп экспериментов, для удобства обзора результатов обозначенных нижеприведёнными аббревиатурами:
OEOR: исходные (original) эталоны — исходные реализации;
OENR: исходные эталоны — зашумлённые (noised) реализации;
NENR: зашумлённые эталоны и реализации с одинаковым уровнем шума;
OENRB: исходные эталоны — зашумлённые реализации с границами, определёнными на исходном сигнале (искусственный пример);
NENRB: аналогично предыдущему варианту, но с шумными эталонами;
OECN: исходные эталоны — реализации, очищенные от шума алгоритмом NRS;
OECP: то же с применением алгоритма PCSS.
Результаты тестирования сведены в таблицу 2.
Таблица 2
Результаты распознавания в условиях различных уровней шумов
и применения алгоритмов шумоочистки
SNR
OENR
OENRB
NENR
NENRB
OECN
OECP
OEOR
0
31,3
79
62,3
95,3
87,7
74
99.7
6
82,7
89,3
93
98,3
94,3
87,7
12
92,3
93,2
95,3
99
96
97,7
20
97
97
98
99,7
96
98
40
99,7
98,7
98,7
99,7
98,3
99
Для наглядности приводятся графики зависимостей надёжности распознавания
шумных реализаций по исходным и шумным эталонам (рисунок 4).
16
Рис. 4. Влияние погрешностей выделения границ произнесения
под действием шума
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Жигулёвцев Ю.Н.
К вопросу формирования описаний для распознавания речевых команд
Сюда включены результаты искусственного примера, когда описания зашумлённых реализаций сформированы в точных границах, оценённых на исходных сигналах. Как и следовало ожидать, в этом случае результаты существенно лучше. Подтверждено также,
что результаты распознавания в условиях шума выше в случае использования эталонов, полученных в тех же условиях, и здесь основную долю ошибок также следует отнести к погрешностям определения границ произнесения. Следует при этом отметить,
что в экспериментах использовался простейший алгоритм выделения границ на основе
сравнения с порогами текущих энергии и частоты переходов через ноль.
Рис. 5. Эффект применения алгоритмов шумопонижения
Не вызывает удивления и результат применения алгоритмов шумоочистки (рис. 5). К сожалению, приемлемая точность распознавания в случае шумоочистки использованными
алгоритмами достигается лишь при ОСШ больше 10. Очевидно, этот порог можно понизить комплексным решением, предусматривающим использование более совершенного алгоритма выделения границ произнесения, а также совершенствование алгоритмов
шумопонижения и методик их применения, в частности, комбинирования нескольких алгоритмов в одной процедуре [30].
17
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Жигулёвцев Ю.Н.
К вопросу формирования описаний для распознавания речевых команд
Литература
1. Afzalian A., Karami mollaei M.R., Ghasemi J. A Combined Voice Activity Detector Based On Singular Value Decomposition and Fourier Transform. — Signal
Processing: An International Journal (SPIJ), Volume(4): Issue(1) Р. 54–61.
2. Bakamidis S., Dendrinos M., Carayannis G. SVD Analysis by Synthesis of
Harmonic Signals. — Acoustics Speech and Signal Processing (ASSP), IEEE,
Vol. 39, №.2, Р. 472–477. Feb. 1991.
3. Burg J.P. A New Analysis Technique for Time Series Data. — Proc. NATO
Advanced Study Institute on Signal Proc, Enschede Netherlands, 1968.
4. Ephraim Y., Van Trees H.L. A signal subspace approach for speech enhancement — IEEE Trans. Speech and Audio Processing, vol. 3, Р. 251–266, July
1995.
5. Fattah S.A., Zhu W-P., Omair Ahmad M.O. A Ramp Cosine Cepstrum Model
for the Parameter Estimation of Autoregressive Systems at Low SNR. — EURASIP
Journal on Advances in Signal Processing, vol. 2010, 15 pages, 2010.
6. Ghasemi Jamal, Mollaei Mohammad Reza Karami. A New Approach for
Speech Enhancement Based on Eigenvalue Spectral Subtraction. — Signal
Processing: An International Journal, (SPIJ) Volume(3), Issue(4) 34-41.
7. Hansen P.S.K. Signal Subspace Methods for Speech Enhancement. — Ph.D.
Thesis LYNGBY 1997 IMM-PHD-1997-42.
8. Hermansky H. Perceptual linear predictive (PLP) analysis of speech // Journ.
Acoust. Soc. Am. 1990. V. 87. № 4. P. 1738—1752.
9. Hermansky H., Morgan N., Baya A., Kohn P. RASTA-PLP speech analysis
technique — IEEE International Conference on Acoustics, Speech, and Signal
Processing, 1992. ICASSP-92., vol.1. Р. 121–124.
10. Hermansky H., Morgan N. RASTRA of processing of speech. IEEE Trans.
Speech Audio Process. 1994, 2 (4), 578–589.
11. Hwang J.J., Cho S.G., Moon J., Lee J.W. Nonuniform DFT based on nonequispaced sampling. — Proceedings of the 5th WSEAS Int. Conf. on Signal,
Speech And Image Processing, Corfu, Greece, August 17–19, 2005 (p. 11–16).
12. Itakura F., Saito S. Speech Analysis-Synthesis System Based on the Partial
Autocorrelation Coefficient. — Acoust. Soc. Jap. Meeting, 1969.
13. Jensen S.H., Jeppesen M., Rodbro C.A. Recursively Updated Eigenfilterbank
For Speech Enhancement. — Center for Person Kommunikation (CPK), Aalborg
University, DK-9220-Aalborg, Denmark.
14. Karsmakers P. Perceptual Speech Enhancement with SVD-based Subspace
Filtering. — Project Report: Katholieke Universiteit Leuven, May 2004.
15. Matrouf D., Gauvain J.-L. Using AR HMM state-dependent filtering for speech
enhancement Proceeding ICASSP '99. Vol. 2 1999.
16. Moonen M., Spriet A., Wouters M.J. A multichannel subband GSVD based
approach for speech enhancement in hearing aids. — European Transactions on
Telecommunications, Volume 13, № 2, 2001.
18
17. Moonen M., van Waterschoot T. Comparison of Linear Prediction Models for
Audio Signals. —EURASIP Journal on Audio, Speech, and Music Processing,
vol. 2008, Article ID 706935, 24 pages, 2008. doi:10.1155/2008/706935.
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Жигулёвцев Ю.Н.
К вопросу формирования описаний для распознавания речевых команд
18. Rahman M.S. Shimamura T. Linear Prediction Using Refined Autocorrelation Function. —
EURASIP Journal on Audio, Speech, and Music Processing, vol. 2007, Article ID 45962,
9 pages.
19. Rezayee A., Gazor S. An adaptive KLT approach for speech enhancement. IEEE Trans.
Speech Audio Processing, vol. 9. Р. 87–95, Feb. 2001.
20. Soumya T.S., Soumya V.J, Soman K.P., Vidyapeetham A.V. Singular Value Decomposition A Classroom Approach. International Journal of Recent Trends in Engineering. Vol. 1,
№ 2, May 2009.
21. Tokuda K., Kobayashi T., Masuko T., Imai S. Mel-Generalized Cepstral Analysis — A Unified Approach to Speech Spectral Estimation. — Third International Conference on Spoken
Language Processing (ICSLP 94) Yokohama, Japan September 18-22, 1994.
22. Uhl C., Lieb M. Experiments With An Extended Adaptive SVD Enhancement Scheme For
Speech Recognition In Noise. Philips Research Laboratories.
23. Wiener N. Extrapolation Interpolation and Smoothing of Stationary TimeSeries (M. I. T.
Press, Cambridge, Massachusetts, 1966).
24. Андерсон Т. Статистический анализ временных рядов: Пер. с англ. / Под.ред.
Ю.К. Беляева. М.: Мир, 1976. 755 с.
25. Колмогоров А.Н. Стационарные последовательности в гильбертовом пространстве.
Бюллетень М!ГУ. 1941. № 6. С. 1–40.
26. Маркел Дж.Д., Грей А.Х. Линейное предсказание речи. М.: Связь, 1980. 308 c.
27. Марпл С.Л. Цифровой спектральный анализ и его приложения. М: Мир, 1990.
28. Перервенко Ю.С. Исследование инвариантов нелинейной динамики речи и принципы построения системы аудиоанализа психофизиологического состояния. Дисс. к.т.н.
Таганрог: Южный федеральный университет, 2009.
29. Петровский А.А., Иванов А.В. Моделирование аудиторной суппрессии в частотной
области на основе СДПФ.
30. Петровский А.А., Азаров И.С., Лихачев Д.С., Ромашкин Ю.Н., Жигулёвцев Ю.Н.,
Харламов А.А. Фильтрация речи на фоне полигармонических и стохастических помех //
Речевые технологии. 2012. № 3. С. 45–57.
31. Петровский А.А., Азаров И.С., Лихачев Д.С., Ромашкин Ю.Н., Жигулёвцев Ю.Н.,
Харламов А.А. Шумоподавление на основе перцептивных алгоритмов спектрального вычитания и обработки сигналов в подпространствах // Речевые технологии. 2012.
№ 4.
32. Плотников В.Н., Суханов В.А., Жигулёвцев Ю.Н. Речевой диалог в системах управления. М.: Машиностроение, 1988. 224 с.
33. Плотников В.Н., Суханов В.А., Жигулёвцев Ю.Н., Белинский А.В. Цифровые анализаторы спектра. М.: Радио и связь, 1990. 184 с.
34. Прохоров Ю.Н. Статистические модели и рекуррентное предсказание речевых сигналов. М.: Радио и связь, 1984. 240 с.
35. Рао С.Р. Линейные статистические методы и их применения / Пер. с англ. М., 1968.
36. Робинсон Э.А. История развития теории спектрального оценивания // ТИИЭР. Т. 70.
№ 9. С. 6–32.
37. Свиридов А.А. Прогрессивное кодирование аудио с помощью сингулярного разложения. // Наука и образование: Электронный научно-технический журнал. М.: МГТУ
им. Н.Э. Баумана.
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
19
Жигулёвцев Ю.Н.
К вопросу формирования описаний для распознавания речевых команд
38. Себер Дж. Линейный регрессионный анализ: Пер. с англ. / Под ред.
М.Б. Малютова. М.: Мир, 1980. 456 с.
39. Сейдж Э.П., Мелс Дж.Л. Идентификация систем управления: Пер.
с англ. / Под ред. Н.С. Райбмана. М.: Наука, 1974. 246 с.
40. Сейдж Э., Мелс Дж. Теория оценивания и ее применение в связи
и управлении: Пер. с англ. / Под ред. Б.Р. Левина. М.: Связь, 1976. 495 с.
41. Смирнов Н.В., Дунин-Барковский И.В. Курс теории вероятностей и математической статистики для технических приложений. 3 изд., М., 1969.
42. Собакин А.Н. Анализ артикуляционных характеристик речи на базе корреляционной матрицы // X сессия РАО: Сб. тр. М.: ГЕОС, 2000. С. 268–270.
43. Сорокин В.Н. Синтез речи. М.: Наука, 1992. 392 с.
44. Фукунага К. Введение в статистическую теорию распознавания образов: пер. с англ. / под ред. А.А. Дорофеюка. М.: Наука, 1979. 368 с.
45. Цыплихин А.И. Анализ и автоматическая сегментация речевого сигнала. Автореферат дисс. к.т.н. М., 2006 г.
46. Эйкхофф П. Основы идентификации систем управления. М.: Мир, 1975.
Сведения об авторах
Жигулёвцев Юрий Николаевич —
кандидат технических наук, старший научный сотрудник, доцент МГТУ
им. Н.Э. Баумана. Окончил в 1969 г. МГТУ им. Н.Э. Баумана по специальности "Системы автоматического управления". Автор более 80 научных
публикаций, 6 авторских свидетельств на изобретения, соавтор 2 монографий. Область научных интересов: методы и средства построения систем
речевого взаимодействия.
20
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Семантические представления
Реализация информационной
технологии автоматизированного
перевода с флективных языков
на жестовый
Крак Ю.В., доктор физико-математических наук,
профессор,
Бармак А.В., кандидат технических наук, доцент,
Романишин С.А., аспирант
В статье описывается подход к решению проблемы перевода с вербального на жестовый язык глухих. Для обеспечения перевода строятся обобщенные грамматические конструкции на основе корпуса предложений, используемых людьми с недостатками слуха в обычном общении. Описано. Предложено практическую реализацию
инфологических моделей для словарей флективного и жестового языков для работы
с данными конструкциями и алгоритм перевода. Получено экспериментальное подтверждение эффективности изложенного подхода на базе украинского языка.
• автоматизированный перевод • инфологическая модель информационной технологии перевода • грамматические конструкции автоматизированного перевода.
Approach for solving the problem of translation verbal languages to sign languages
is described. Generalized grammatical constructions are built based on sentences corpus used by deaf people in regular communication. Practical realization of infological
model of inflected and sign languages is described. Translation algorithm is built. Experi-
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
21
Крак Ю.В., Бармак А.В., Романишин С.А.
Реализация информационной технологии автоматизированного перевода с флективных языков на жестовый
mental confirmation of represented approach is described based on Ukrainian
language.
• automated translation • infological model of information technology of translation • grammar structures for automated translation.
Жестовый язык (ЖЯ) – это естественный язык, передающий информацию при
помощи движения рук и пальцев, выражения лица, положения корпуса тела
человека. Используется как составная часть для общения людей и служит
основным коммуникационным средством для глухих людей [1,2]. Жестовые
языки не являются визуальной интерпретацией обычных языков; они обладают своей грамматикой, могут быть использованы для обсуждения самых
различных тем: от простых и конкретных до возвышенных или абстрактных.
Лексика разговорного ЖЯ ещё недостаточно изучена, особенно идиоматика, фразеология, морфология. Автоматическое приписывание разговорного ЖЯ всем формам словесной и письменной речи неверно. Нельзя рассматривать разговорный ЖЯ глухих в традиционных моделях лингвистики.
В силу этого проблемы, возникающие при построении систем автоматизированного перевода произвольного текста в ЖЯ, можно подать как нахождение взаимно однозначных пар конструкций вербального и жестового
языков, которые передают смысл информации.
Рассмотрим синтаксические особенности жестового языка на примере трёх типовых структур предложений вида: субьект-обьект-глагол; субьект-глаголобьект; глагол-субьект-объект. Подлежащее и сказуемое в таких предложениях связаны предикативной связью. Предложения с одной предикативной
связью будем называть простыми предложениями. Отметим, что порядок
слов в предложениях с одной предикативной связью в большинстве разговорных языков мира описывается одной из трёх типовых структур [3,4].
В ЖЯ простые предложения служат основным способом коммуникации
и делятся на повествовательные, вопросительные и побудительные [5].
Сложность при переводе составляет преобразование предложений вербальных языков, имеющих свободный порядок слов, в жестовые, в которых
порядок слов значительно более строг [6].
Для реализации автоматизированного перевода исходной текстовой информации
в ЖЯ будем предполагать, что возможно представить пары: предложение на
исходном языке — аналог на ЖЯ, в виде некоторых обобщенных конструкций, построенных, в частности, на простых предложениях. Если проанализировать наборы полученных при переводе пар, то можно, зафиксировав
порядок следования слов в предложении, получить некоторую обобщённую
форму, где вместо конкретных слов в предложении будут выписаны наборы
слов, которые могут использоваться (находиться) на этих зафиксированных
местах. Таким образом будет получен достаточно небольшой (относительно общего количества предложений некоторого языка) список обобщённых
грамматических конструкций для перевода.
Информационная технология автоматизированного перевода
с флективных языков на ЖЯ
22
Система автоматизированного перевода с флективных вербальных языков на
жестовый язык предусматривает создание множественной модели для словаря вербального языка [7] и реализации её для возможности моделирования соответствующих связанных обобщённых грамматических конструкций
вербального и жестового языков [8]. Структурная схема информационной
технологии для автоматизированного перевода отражена на рис. 1.
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Крак Ю.В., Бармак А.В., Романишин С.А.
Реализация информационной технологии автоматизированного перевода с флективных языков на жестовый
Построение информационной технологии
Словарь вербального флективного языка
Квазиоснова
+
Словарь жестового языка
Квазифлексия
Обозначение жеста
Часть речи
Параметры словоизменения
Слово
Слово
...
Слово
Жест
Эмоция
Жест
...
Жест
Предложение на вербальном языке
Предложение на жестовом языке
...
Множество жестов . . . Множество жестов
Множество слов
Множество слов
Соответствия «слово-жест»
Слово
Жест
Информационная технология для автоматизированного перевода
Вход: предложение на вербальном языке
Определение параметров словоизменения для каждого из слов предложения
Поиск грамматической конструкции входного предложения по параметрам
Поиск соответствующей грамматической конструкции жестового предложения
Замена слов на жесты и подстановка их в грамматическую конструкцию жестового
предложения
Автоматический перевод
Выбор вариантов для автоматизированного перевода
Рис. 1. Структурная схема информационной технологии
для автоматизированного перевода
Учитывая особенности флективных языков, словарь флективного языка представляется
в виде:
W = {Wi : Wi = {Ii1 œ I, Fi2 œ F, k, Ini3 œ In}}
(1)
где Wi — параметры слова вербального языка (i = 0, ..., N – 1, N — количество слов в словаре); F — множество всех возможных окончаний слов (флексий); k — номер позиции
в слове инфинитиве, с которой начинается конкатенироваться флексия; In — множество
параметров словоизменения слова (для украинского языка параметрам словоизменения является число, род, падеж, лицо, время, состояние, способ), I — множество словинфинитивов вербального языка:
I = {Ii : Ii = {word inf, p œ P}},
где P — множество частей речи; word inf — слово-инфинитив.
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
(2)
23
Крак Ю.В., Бармак А.В., Романишин С.А.
Реализация информационной технологии автоматизированного перевода с флективных языков на жестовый
Для ЖЯ, в связи с отсутствием в нём словоизменения, структура словаря будет
несколько проще. Множество жестов подаётся как
Ges = {Gesi : Gesi = {word des, pges œ PGes, em œ Em}},
(3)
где word des — обозначение жеста, PGes — жестовая часть речи, Em = {em1,
em2, em3} — множество эмоциональных окрасок жестов; em1 — повествовательная эмоциональная окраска, em2 — вопросительная эмоциональная
окраска, em3 — другие эмоциональные окраски.
Учитывая (1)-(3), инфологическую модель вербального и жестового языка представим следующим образом:
Рис. 2. Инфологическая модель словарей вербального и жестового языков
Использование предложенной инфологической модели требует создания следующей алгоритмической функциональности: добавление инфинитива, флексии и слова; получение инфинитива слова, его флексии; определение параметров словоизменения слова.
После получения инфологического представления словарей вербального и жестового языка нужно построить связанные обобщённые грамматические
конструкции предложений. Под предложением будем понимать последовательность слов языка и знаков препинания. Под грамматической конструкцией предложения будем понимать последовательность слов языка, относящихся к частям речи, которые передают смысл (в предложении отбрасываются служебные слова). Будем различать грамматические конструкции по
количеству слов, которые в них входят. Элементами грамматических конструкций будут множества слов, встречающихся в предложениях, составляющих обучающую выборку:
Gr = {Gri = {seqi œ Seq || p œ P, In, num},
GStri = {gseq œ Gseq || pges œ PGes, num, gesnum},
24
(4)
где num — номер элемента в структуре предложения украинского языка, gesnum — номер элемента в структуре предложения жестового языка, In —
множество параметров словоизменения слова, P — множество частей вер-
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Крак Ю.В., Бармак А.В., Романишин С.А.
Реализация информационной технологии автоматизированного перевода с флективных языков на жестовый
бального языка, PGes — множество частей жестового языка, W — множество слов вербального языка, Ges — множество жестов,
Seq = {Seqi : Seqi = {wordj œ W : wordj œ W, n},
(5)
где n — номер слова в последовательности,
Gseq = {Gseqi : Gseqi = {gesj œ Ges : gesj œ Ges, n}},
(6)
где n — номер жеста в последовательности.
Для представления грамматических конструкций (4) предложена следующая инфологическая
модель (рис. 3).
Рис. 3. Инфологическая модель связей между структурами предложений
и структурами жестовых предложений
Работа с данной инфологической моделью требует создания следующей алгоритмической
функциональности: создание последовательности слов, создание последовательности
жестов, создание структуры предложения, создание структуры жестового предложения,
получение номера структуры предложения для предложения на вербальном языке, получение номера структуры жестового предложения по номеру структуры предложения
на украинском языке.
После получения множества грамматических конструкций проведём обобщение каждого из
множеств элементов, входящих в него. Под обобщением будем понимать представление
каждой из полученных множеств как комбинацию конкретных грамматических категорий и частей речи:
GGr = {GGri = {pj œ P, Inj œ In, num},
GStri = {pges œ PGes, num, gesnum}.
(6)
Инфологическая модель для обобщённых грамматических конструкций представлена на
рис. 4 (с. 26).
Для работы с данной инфологической моделью нужно предложить следующую алгоритмическую функциональность: получение номера обобщенной структуры для предложения
вербального языка, получение обобщённой жестовой конструкции по номеру обобщённой структуры вербального языка.
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
25
Крак Ю.В., Бармак А.В., Романишин С.А.
Реализация информационной технологии автоматизированного перевода с флективных языков на жестовый
Кроме определения структуры предложения необходимым для перевода является наличие соответствия слов жестам. Используя соответствия между структурами предложений и структурами жестовых предложений, было выделено
множество соответствий «слово → жест». В таблице «Соответствие слов
жестам» содержится № слова и № соответствующих ему жестов.
Рис. 4. Инфологическая модель связей между обобщенными структурами
предложений и обобщёнными жестовыми конструкциями
Для получения соответствий «слово → жест» для каждой структуры предложения из таблицы «Структуры предложений» и соответствующей ей жестовой
структуры предложения из таблицы «Структуры жестовых предложений»
было получено соответствие между последовательностями слов и последовательностями жестов. Используя данные соответствия, из таблиц «Последовательности слов» и «Последовательности жестов» была сформирована
таблица «Соответствие слов жестам». При наличии неоднозначных соответствий «слово → жест» такая инфологическую модель не даёт возможности получить чёткое отношение между множеством слов и жестов. Если
одному слову соответствует несколько жестов, для выбора правильного
жеста используются отношения между предложениями «Структуры предложений» и «Структуры жестовых предложений» с учетом тематики предложения. В случае если нескольким словам соответствует один жест, трудностей
в получении соответствия «слово → жест» не возникает.
26
Для автоматизированного перевода текста с украинского языка на жестовый
язык предложен следующий алгоритм (рис. 5, с. 27):
1. Предложение поступает на вход, выполняется поиск словосочетаний в предложении.
2. Используя «Словарь вербального языка», для каждого из слов или словосочетаний из таблицы «Словарь вербального языка» определяются параметры
словоизменения.
3. На основе параметров словоизменения каждого из слов определяется
обобщённая конструкция предложения вербального языка.
4. Если соответствующая обобщённая конструкция не найдена, выполняем поиск
похожей по структуре конструкции. В таблице «Обобщённые структуры» выполняем поиск обобщённой структуры предложения, которая частично соответствует входным параметрам: все элементы структуры, кроме одного,
соответствуют словам входного предложения.
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Крак Ю.В., Бармак А.В., Романишин С.А.
Реализация информационной технологии автоматизированного перевода с флективных языков на жестовый
5. Найдя обобщённую структуру предложения, получаем соответствующую ему обобщённую
жестовую конструкцию из таблицы «Обобщённые жестовые конструкции по связанному
полю [№ обобщённой жестовой конструкции].
6. Для каждого из слов входного предложения выполняется поиск соответствий «слово →
жест», используя таблицы «Соответствие слов жестам», «Словарь вербального языка»
и «Словарь жестов».
7. Если найденf обобщённая структура предложения вербального языка, соответствующая ей
обобщённая жестовая конструкция и все соответствия «слово → жест», то для полученной конструкции жестового языка, используя соответствия «слово → жест», выводится
результат.
8. Если найдена обобщённая структура предложения вербального языка, которая частично
совпадает со структурой входного предложения, выполняется попытка прогноза перевода. Вместо обобщённой структуры предложения используется структура, которая частично совпадает с входной, и на её основе, используя соответствия «слово → жест»,
строится жестовое предложение.
9. Если не найдено обобщённых структур, частично совпадающих со структурой входного
предложения, то оно добавляется в статистическую базу для дальнейшей обработки.
Если для какого-то из слов предложения не найдено соответствующего жеста, слово
обозначается в статистической базе для дальнейшей обработки.
10. Получив результат, пользователь выбирает один из вариантов:
— Результат удовлетворительный. Предложение обозначается как правильное и добавляется в статистическую базу.
— Результат неудовлетворительный и правится вручную. После этого в статистическую
базу вносится и исправленный и предложенный вариант, для обеспечения принятия решений в дальнейшем.
11. В случае если не найдена обобщённая структура предложения, соответствие «слово →
жест», или результат перевода неудовлетворительный — уполномоченный переводчик
может добавить новую конструкцию перевода, изменить существующую, установить соответствие «слово → жест» или добавить новый жест.
Вход: простое предложение вербальном языке
Поиск словосочетаний в предложении
1
Определение параметров словоизменения для каждого из слов предложения
2
Поиск обобщенной структуры входного предложения по параметрам словоизменения
3
5
Поиск соответствующей структуры
жестового предложения
Поиск структур предложений, которые частично
совпадают со структурой входного
Поиск соответствий слово → жест для каждого из слов входного предложения
Предложение на жестовом
языке
Перевод
корректный
7
Попытка прогноза
перевода
Пользователь
10
8
Перевод
некорректный
Обозначение входного
предложения для обработки
Уполномоченный
переводчик
Рис. 5. Алгоритмическая схема автоматизированного перевода
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
4
6
9
11
27
Крак Ю.В., Бармак А.В., Романишин С.А.
Реализация информационной технологии автоматизированного перевода с флективных языков на жестовый
Экспериментальные результаты и обсуждение
Для проверки эффективности предложенной технологии перевода было реализовано соответствующее программное приложение. С помощью предлагаемой технологии был введён словарь украинского и жестового языков,
получено множество из 2 млн слов украинского языка и 3200 жестов. В результате перевода множества предложений с украинского на жестовый язык
и группировки их в грамматические конструкции было получено 1050 конструкций перевода. После проведения анализа конструкций перевода было
получено 293 обобщённых конструкции перевода.
Было использовано множество из 10 тыс. предложений, взятых из программы изучения украинского жестового языка для специализированных школ. Предложение содержат жесты из множества тем, которые используются людьми
с нарушениями слуха для повседневного общения. При тестировании на
предложениях, взятых из программы изучения украинского языка жестов,
получен однозначный перевод без искажения смысла в 100% случаев. Так
же успешным был перевод с использованием других предложений с тем же
словарным запасом.
Выводы
Для обеспечения автоматизированного перевода с украинского на ЖЯ были построены модели словарей украинского и ЖЯ. На их основе создано множество конструкций для украинского и ЖЯ, позволяющих производить
перевод фиксированного множества предложений, используемых глухими
в повседневной жизни. Произведено обобщение полученных конструкций
для перевода на основе структуры категорий словоизменения элементов
предложений.
Дальнейшие исследования направлены на создание на основе предложенной
информационной технологии веб-приложения, которое позволило бы выполнять перевод в режиме online, тестирование предложенной технологии
большим количеством предложений, сбор статистики использования конструкций для перевода.
Литература
1. Stokoe W. Sign language structure: An outline of the visual communication systems
28
of the American Deaf. Studies in linguistics, occasional papers 8. Silver Spring, MD:
Linstok Press., 1960. 94 p.
2. Зайцева Г.Л. Жестовая речь. Дактилология: Учеб. для студ. высш. учеб. заведений. М.: Гуманит. изд. центр ВЛАДОС, 2000. 192 с.
3. Tomlin R.S. Busic word order. Fundamental principles. London: Croom Helm,
1986. 308 p.
4. Харламов А.А., Ермоленко Т.В., Дорохина Г.А., Гнитько Д.С. Метод выделения главных членов предложения в виде предикативных структур, использующих минимальные структурные схемы // Речевые технологии. 2012. № 2.
С. 75–85.
5. Адамюк Н.Б., Чепчина И.И. Синтаксические особенности украинского жестового языка: на примере простого предложения // Жестова мова і сучасність.
2009. № 4. С. 170–191 (на украинском языке).
6. Воскресенский А.Л., Хахалин Г.К. От звучащей речи — к жестовой // Речевые технологии. 2009. № 1. С. 99–106.
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Крак Ю.В., Бармак А.В., Романишин С.А.
Реализация информационной технологии автоматизированного перевода с флективных языков на жестовый
7. Широков В.А. Феноменология лексикографических систем . К.: Наук. Думка, 2004. 327 с.
(на украинском языке).
8. Крак Ю.В. Обобщенные грамматические конструкции для автоматизированного перевода
с украинского на украинский жестовый язык / Ю.В. Крак, А.В. Бармак, С.А. Романишин //
Искусственный интеллект. 2011. № 3. С. 136–146 (на украинском языке).
Сведения об авторах
Крак Юрий —
доктор физико-математических наук, профессор Киевского национального университета им. Т. Шевченко, старший научный сотрудник Института кибернетики им. В.М. Глушкова НАН Украины. Специалист в области искуственного интеллекта, анализа и синтеза
голосовой и жестовой коммуникационной информации. Автор около 350 научных работ.
Бармак Александр —
кандидат технических наук, доцент Хмельницкого национального университета. Специалист в области анализа и синтеза жестовой коммуникационной информации. Автор
около 100 научных работ.
Романишин Сергей —
аспирант Хмельницкого национального университета. Круг научных интересов включает
задачи перевода с вербальных языков на жестовые глухих людей.
29
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Новая концепция
XML-ориентированного языка
разметки диалогов
Зобнин Д.С.,
Старцева Н.С.
В данной статье рассматривается опыт создания новой концепции языка
разметки диалогов, которая могла бы успешно использоваться для создания систем с голосовым диалоговым интерфейсом на основе систем
синтеза и распознавания речи.
• распознавание речи • синтез речи • голосовой интерфейс • VoiceXML
• сценарий диалога.
A new concept of dialog markup language is proposed which can be successfully used for creation of systems with voice dialog interfaces based on speech
synthesis and recognition technologies.
• speech recognition • speech synthesis • voice interface • VoiceXML • dialog
markup.
Введение
Основной проблемой при использовании систем распознавания речи в контексте взаимодействия посредством телефонной связи является отсутствие
подробной характеристики акустического сигнала [1]. Одним из способов
решения проблемы низкого качества сигнала является использование систем распознавания, основанных на грамматиках. В такие системы уже заложены основные акустические модели, характерные для конкретных языков. При этом набор слов, по которым происходит анализ, строго ограничен
грамматикой и задается разработчиком. Повышение качества распознавания в данном случае будет достигаться уменьшением грамматики, но при
этом встает вопрос гибкости сценария диалога [2].
Гибкий сценарий диалога подразумевает эмуляцию естественного диалога конечного пользователя с системой, что достигается путем заложения в грамматику и в сценарий диалога как можно большего числа различных вариантов
высказываний, по которым будет выполняться распознавание. Естественно,
ограничение множества вариантов возможно благодаря анализу предметной области, для которой создается сценарий. Поэтому задачу составления
сценариев диалогов чаще всего делегируют лингвистам и специалистам
в конкретных предметных областях.
30
Возможность привлечения экспертов и лингвистов при составлении сценариев
диалогов позволяет создавать приложения с голосовым интерфейсом, которые будут обладать достаточной гибкостью для внедрения в различные
сферы жизнедеятельности человека. Для этого необходимо наличие специ-
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Зобнин Д.С., Старцева Н.С.
Новая концепция XML-ориентированного языка разметки диалогов
альных инструментальных средств построения сценариев, обеспечивающих абстрагирование от низкоуровневых деталей устройства систем синтеза и распознавания речи.
Одно из таких средств и рассматривается в данной статье.
Стандарт VoiceXML
Структура и архитектура VoiceXML
С появлением систем синтеза и распознавания речи на рынке возможность их интеграции
с телефонией стала первостепенной проблемой бизнес-специалистов. Возникло немало
трудностей в связи с ограничениями стандартов телефонии. Но, так или иначе, проблемы решались, и возникала задача создания гибкого механизма составления сценариев
диалогов. Сценарии должны были отражать бизнес-логику самого диалога конечного
пользователя с различным кругом систем посредством телефонии.
Результатом совместной работы корпораций AT&T Corporation, IBM, Lucent и Motorola стал
стандарт VoiceXML 0.9, представленный в марте 1999 г. Результат развития описательных возможностей стандарта представлен актуальным VoiceXML 2.1 и пока еще не выпущенным VoiceXML 3.0.
Стандарт VoiceXML опирается на стек других стандартов организации W3C:
• SRGS (Speech Recognition Grammar Specification) — стандарт описания грамматик, используемый для обозначения множества шаблонов и предложений, которые ожидаются
к распознаванию [3].
• SISR (Semantic Interpretation for Speech Recognition) — стандарт, используемый совместно с SRGS для указания семантических результатов распознавания по грамматике [4].
• ECMAScript — стандарт Javascript, система событий которого заложена в основу ядра
VoiceXML. Также ECMAScript используется повсеместно и в других стандартах для описания различных конструкций [5].
• SSML (Speech Synthesis Markup Language) стандарт, используемый для разметки синтезируемых фраз [6].
• PLS — стандарт, используемый для описания произношения слов. Применяется совместно с распознавателем и синтезатором речи [7].
• CCXML (Call Control eXtensible Markup Language) – стандарт описания сценария телефонных операций, таких как соединение, перенаправление, разрыв и прочие [8].
• MSML (Media Server Markup Language) [9] и MSCML (Media Server Control Markup
Language) [10] — стандарты, описывающие работу с медиаданными.
Структура VoiceXML опирается на модель MVC (Model View Controller), используемую в DFP
(Data Flow Presentation) [11], рис. 1.
VoiceXML 3.0
Данные (специфичные для
пользовательского интерфейса)
Пользователь
Серверное приложение
База
данных
Код
приложения
Управление потоком
передачи данных
Представление данных
Ðèñ. 1. `!.,2е*23!= DFP
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
31
Зобнин Д.С., Старцева Н.С.
Новая концепция XML-ориентированного языка разметки диалогов
DFP является основой для построения систем, использующих VoiceXML. При
этом доступ к данным во время сессии звонка осуществляется посредством
стандарта SCXML (State Chart XML) [12], а сами данные должны быть представлены в виде XML. Обработка данных и манипулирование ими производится посредством ECMAScript и моделей DOM [13] или XPath [14].
Модельное представление сценария диалога на VoiceXML
Вдохновленные идеями голосового браузера и возможностями применения речевых технологий совместно с web, разработчики стандарта VoiceXML постарались максимально точно повторить схему взаимодействия конечного
пользователя с web-страницей, заменив ручной ввод на голосовое управление.
Как и в HTML, в VoiceXML структурной единицей обмена данными является форма. Она является ключевым компонентом VoiceXML и служит для получения
некоторой информации от пользователя и последующей обработки этой информации (перехода в другую форму, исполнения скрипта, и т.д.) Весь процесс распознавания речи происходит в рамках формы, поэтому действия,
применяемые при отсутствии распознания или низкой точности результата,
объявляются в локальном контексте.
За задачу передачи данных между формами отвечает контекст исполнения, содержащий массив локальных и глобальных переменных. Контроль области
видимости переменных (на уровне всего документа или только в пределах
формы) обеспечивает некоторую инкапсуляцию форм друг от друга.
Ветвление сценария на уровне VoiceXML заключается в переключении от одних
форм к другим [15]. В рамках формы система взаимодействует с пользователем, обмениваясь информацией, но, к сожалению, стандарт не предполагает выполнения каких-либо сложных операций на уровне сценария (получения писем электронной почты, отправки смс-сообщений и т.д.). Множество доступных действий ограничивается возможностями ECMAScript. При
этом предполагается, что все остальные действия могут быть выполнены за
счет взаимодействия с сервером.
Недостатки VoiceXML
Несмотря на все плюсы, у стандарта VoiceXML есть и явные недостатки. Во времена создания стандарта в процессе непосредственного написания сценариев диалогов не предполагалось участие технически неподкованных
специалистов, а степень точности систем синтеза и распознавания речи не
позволяла создавать крупные коммерческих продукты, способные обеспечивать гибкий диалог с конечным пользователем. Именно поэтому в основу
стандарта описания сценария работы диалога было положено множество
исключительно «инженерных» технологий, например, доступ к данным посредством ECMAScript или описание запросов к данным через XPath.
32
На сегодняшний день крупные коммерческие продукты, использующие технологии синтеза и распознавания в телефонии, обладают незаурядными по
сложности сценариями диалогов, а составляющие их специалисты (лингвисты и эксперты в предметных областях) в качестве способа формализации используют, в основном, блок-схемы. Изначальная направленность
VoiceXML непосредственно на инженеров-телефонистов и отсутствие нативных средств перевода блок-схем бизнес-логики в сценарии диалогов
создают немалые трудности при организации процесса разработки прило-
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Зобнин Д.С., Старцева Н.С.
Новая концепция XML-ориентированного языка разметки диалогов
жений для телефонии. Часть обязанностей лингвистов и экспертов перекладывается на
плечи подразделений по разработке ПО. Отсутствие прямых возможностей внесения
изменений лингвистами в сценарий диалога на VoiceXML (в основном, по причине сложности освоения стека стандартов) приводит к возникновению временных затрат как при
разработке продукта, так и при его дальнейшей поддержке.
Отсутствие встроенных возможностей автоматической генерации грамматик без применения сложной логики взаимодействия с базами данных и адаптерами посредством
ECMAScript, значительно усложняет задачу создания гибкого диалога, вынуждает прибегать к обработке частей диалога на стороне сервера и частично выносить бизнес-логику за пределы описания сценария. Такой подход к разработке голосовых приложений
рано или поздно приводит к путанице в схеме работы приложения и значительно увеличивает время, необходимое для изменения логики взаимодействия с пользователем.
В связи с вышесказанным, очевидна необходимость создания новой концепции языка
разметки диалогов, которая обладала бы более широкими возможностями, по сравнению с VoiceXML.
Новая концепция языка описания сценариев диалогов
Графовая модель сценария диалога
При моделировании сущностей реального мира находят применение два основных подхода.
Один из них основан на идентификации сущностей посредством выделения присущего
им характерного набора атрибутов (и дальнейшей классификации по типам, исходя из
одинаковости наборов характеристических атрибутов). Другой метод заключается в том,
что моделируемые сущности оказываются подходящей содержательной интерпретацией объектов некоторой формальной системы.
При моделировании некоторых проистекающих во времени процессов взаимодействия конечный пользователь-система наиболее оптимальным становится описание непосредственно реакций системы на определенные события, порожденные конечным пользователем. Наиболее интуитивно-понятной представляется модель сценария диалога в виде
графа состояний, где вершины — действия системы в реальном времени, а переходы
определяют следующее действие. При этом выбор перехода определяется в зависимости от реакции конечного пользователя.
Сценарием диалога в общем смысле будем называть связный ориентированный граф S:
S := (V,U).
(1)
Граф S — это упорядоченная пара из V — непустого множества вершин или узлов и U —
множества упорядоченных пар различных вершин, называемых дугами или ориентированными ребрами. В нашем случае дуги будем называть связями между вершинами,
и изначально будем предполагать, что определение не допускает наличия «висящих»
связей (связей с одним или двумя пустыми концами). Под графом диалога будем понимать граф сценария диалога.
Спецификой используемой в системе модели сценария диалога является то, что непосредственно переходы между вершинами графа не задаются пользователем при моделировании. Модель узла графа предполагает наличие входных и выходных данных, необходимых для работы узла. С точки зрения специалиста, занимающегося составлением
графа, переходы между узлами представляются связями типа предок-потомок, а выбор
потомка, в который перейдет на следующем шаге диалог, определяется логикой работы
самого узла.
Таким образом, некоторые манипуляции над стандартными представлениями о переходах
между узлами графа диалога позволили обойтись при моделировании одной сущностью — узлом графа и отношениями между узлами типа предок-потомок. Сужение бази-
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
33
Зобнин Д.С., Старцева Н.С.
Новая концепция XML-ориентированного языка разметки диалогов
са, на котором основана модель, сокращает время освоения самой модели
и в итоге позволяет более лаконично описывать граф.
Опыт работы с графом диалога показал, что целесообразно представление графа в виде модулей — это облегчает процесс анализа дублированных частей сценария. Этот факт обуславливает применение модели ветви сценария, описанной ниже.
Модель ветви сценария диалога
Применение метода декомпозиции к графовой модели сценария привело к созданию модели ветви сценария диалога. Под ветвью сценария диалога (далее
ветвь диалога) будем понимать совокупность множества внутренних узлов
ветви VI, множества внешних узлов ветви сценария VE, множества внутренних связей UI ветви диалога (множество связей, соединяющих внутренние
узлы ветви), множества внешних связей UE ветви (множество связей, соединяющих внешний узел ветви с внутренним узлом ветви):
B := (VI, VE, UI, UE).
(2)
В рамках данной модели сценарий диалога может быть представлен как множество ветвей, т.е.:
S := Br = {b | b œ Br}.
(3)
Ветвь представляется как:
b = (vI, vE, uI, uE),
где:
(4)
• vI — множество внутренних узлов ветви:
vI = {v | " – b1 : b1 œ Br & b1 ∫ b → v œ V(b) & v – V(b1)};
(5)
• vE — множество внешних узлов ветви:
vE = {v | v – vI};
(6)
• uI — множество внутренних связей ветви:
uI = {(v1, v2) | v1 œ vI & v2 œ vI};
(7)
• uE — множество внешних связей ветви:
uE = {(v1, v2) | v1 œ v1 & v2 œ vEVv1 œ vE & v2 œ v1}.
(8)
• Под оператором UI(x) будем понимать оператор, применимый к ветвям диалога и возвращающий множество внутренних связей ветви.
• Под оператором UE(x) будем понимать оператор, применимый к ветвям
диалога и возвращающий множество внешних связей ветви.
• Под оператором V(x) будем понимать оператор, применимый к ветвям диалога и возвращающий множество внутренних узлов ветви.
При подобном подходе полноценный граф сценария будет представляться как:
S := (V, U).
(9)
Под множеством вершин графа будем понимать объединение по всем ветвям
множеств внутренних вершин ветвей:
V = Ub œ Br V(b),
(10)
а под множеством связей будем понимать объединение по всем ветвям множеств
внутренних и внешних связей графа:
U = Ub œ Br UI(b) » UE(b).
(11)
34
Изначальным условием модели была связность графа сценария. При введении
нового понятия ветви необходимо определить некоторые ограничения:
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Зобнин Д.С., Старцева Н.С.
Новая концепция XML-ориентированного языка разметки диалогов
• Для любого внутреннего узла ветви сценария существует связь, соединяющая этот
узел с внешним или внутренним узлом ветви:
"v œ V(b) → $(v1, v2) UI(b) » UE(B): v = v1Vv = v2,
(12)
введение такого ограничения позволяет устранить висячие узлы.
• Для любого внутреннего узла ветви найдется путь внутри ветви, включающий в себя
рассматриваемый узел, который бы заканчивался или начинался связью с внешним узлом:
"v œ V(b) → $s: v œ s & (tail(s) œ UE(s)V head(s) œ UE),
(13)
где tail(s) — связь, являющаяся конечной для пути s в графе, head(s) — связь, являющаяся
начальной в пути s.
Это ограничение не допускает составления ветвей, не связанных с другими ветвями.
Кроме того, так как определение связи между узлами не позволяет создание висящих связей,
то модель представления сценария как множества ветвей будет эквивалентна модели
полноценного связного графа сценария, и в дальнейшем любые манипуляции над одной
моделью могут быть также применены и к другой модели.
Таким образом, определение новой модели графа сценария через введение понятия ветви и дополнительных ограничений не сужает список возможностей манипулирования
сценарием и одновременно позволяет декомпозировать его на отдельные логически
связанные части — ветви. Возможности декомпозиции позволят создавать ветви, отвечающие определенной цели, состоящие из логически связанных узлов, что на уровне
редактирования и дальнейшей модификации уменьшит количество дублированных частей и позволит упростить понимание сложных сценариев.
Понятие переменной сценария диалога
В целях обмена данными между узлами диалога и манипулированием этими данными было
введено понятие переменной сценария диалога. Переменная представляется как тройка (имя, тип, значение):
v := (n, t, val),
(14)
где:
• n — строка с именем переменной;
• t — тип переменной;
• val — значение переменной определенного типа.
При анализе требований к данным, манипуляция которыми будет осуществляться в сценарии
диалога, было предложено ограничить множество возможных типов четырьмя категориями. Т.е. множество типов T представимо как:
T := {string, dict, list, dictlist},
(15)
где:
• string — строковый тип;
• dict := "[{key, val}]" — тип словаря, определяется как упорядоченное множество пар
строк ключ-значение;
• lict := "[val]" — тип списка, определяется как упорядоченное множество строковых значений;
• dictlist := "[{key, val}]" — тип списка словарей, определяется как упорядоченное множество упорядоченных множеств строковых пар ключ-значение.
Наличие такой системы типизации позволяет описывать элементарные объекты типа строк
и списков строк, а простые объекты – как словари. При этом множество словарей, устроенных одинаковым образом, организует список простых объектов.
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
35
Зобнин Д.С., Старцева Н.С.
Новая концепция XML-ориентированного языка разметки диалогов
Модель контекста исполнения диалога
В процессе моделирования сценария диалога было решено использовать отдельную сущность, посредством которой будет осуществляться обмен данными
между узлами диалога. В качестве такой сущности было решено использовать понятие контекста диалога.
Контекст диалога представляет собой хранилище общей информации, доступной
в ходе диалога конечного пользователя с системой. Контекст представляется как объединение следующих сущностей:
• Граф диалога. Доступность к графу из узлов через контекст иногда необходима для самоанализа графа диалога. Например, при валидации узла
диалога.
• Хранилище переменных — особый контейнер, осуществляющий хранение, изменение переменных, предоставляющий доступ к значениям переменных.
• Множество обработчиков событий, вызов которых осуществляется при
возникновении особых ситуаций по ходу диалога.
За счет использования контекста как места объединения данных и структуры
сценария становится возможным процесс отладки сценария при помощи
анализа состояния контекста при переключении от одного узла к другому.
Модель узла графа как функции
Ключевым элементом сценария диалога является модель узла. Узел диалога
осуществляет манипуляцию данными в сценарии, определяет выполняемые действия, контролирует поток дальнейшего исполнения сценария.
В общем виде узел сценария можно условно представить в виде функции, принимающей в качестве входного параметра пару из двух сущностей (<команда
узлу>, <контекст сценария>), а возвращающей тройку (<следующий узел>,
<следующая команда>, <новый контекст диалога>). Такая система организации аргументов и возвращаемого значения необходима для предоставления следующих возможностей:
• обмен данными между узлами за счет использования контекста;
• осуществление прерывания стандартного хода сценария;
• обмен данными с использующей движок системой.
Обмен данными между узлами осуществляется за счет доступа к общему хранилищу переменных. При работе узла возможно как считывание узлом переменных, так и запись или изменение значений новых переменных.
Наличие общего хранилища переменных обусловлено необходимостью записи
сразу нескольких значений во время работы узла и считывания множества
переменных. При этом парность функции может быть неопределенной.
При подобной схеме работы с внутренними данными сценария появляется возможность статического анализа диалога на предмет наличия ошибок использования переменных как в рамках ветви, так и в рамках диалога в целом.
Иерархия типов узлов сценария диалога
36
Узлы классифицируются в соответствии с выполняемыми ими функциями. Множество типов узлов графа представляется иерархией типов, для которой
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Зобнин Д.С., Старцева Н.С.
Новая концепция XML-ориентированного языка разметки диалогов
определены понятия наследования. В предлагаемой модели предполагается, что основными будут следующие типы:
• корневой узел;
• узел двоичного ветвления;
• узел операции;
• узел условного ветвления.
Тип корневого узла
Данный тип узла определяет точку входа в сценарий диалога во множестве ветвей сценария.
Узел обладает тремя потомками:
• первый потомок — узел по умолчанию, т.е. узел в который будет совершен переход
при инициализации диалога;
• второй потомок — узел, в который будет совершен переход в случае возникновения
ошибки в процессе работы сценария;
• третий потомок — узел обработки стадии завершения сценария диалога.
Тип узла двоичного ветвления
Данный тип узла графа диалога предназначен для представления узлов, ветвление потомков которых осуществляется в двух направлениях, т.е. узлов, разветвляющих ход диалога на два подграфа. Такой тип ветвления часто используется в ситуациях ожидания
некоторого события, которое возможно и не произойдет. В таких случаях ход диалога
будет происходить по какому-то заранее заданному направлению в графе, а в случае
возникновения определенного события управление должно быть отдано в другой узел
графа.
Тип узла операции
Тип узла операции предназначен для определения узлов, выполняющих какое-либо действие. Такие узлы обладают ровно одним потомком и предназначены для изменения контекста или изменения состояния диалога (состояние простоя, отмена ожидания результатов распознавания и т.д.).
Тип узла условного ветвления
Данный тип предназначен для обеспечения возможности определения множества реакций на
действия конечного пользователя, сравнения различных числовых, строковых значений
и календарных дат со значениями переменных контекста.
XML-подобный язык разметки графовой модели сценария диалога
Для поддержки возможности описания графовой модели сценариев диалога был разработан язык разметки DAML (Dialogue Application Markup Language), основанный на XAML
(eXtensible Application Markup Language). DAML имеет ряд отличий от стандартного XML,
используемого в VoiceXML, что дает дополнительные возможности при описании сложных объектов.
Особенности языка (дополнительные детали XAML):
1. Сложные свойства: возможность установки атрибутов элемента непосредственным их
объявлением в объемлющем элементе (такая возможность необходима для возможности установки в атрибут сложного объекта). Например, в узле tts потомок узла задается
ссылкой как сложным объектом, но при этом по сути лишь устанавливается значение
свойства объекта:
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
37
Зобнин Д.С., Старцева Н.С.
Новая концепция XML-ориентированного языка разметки диалогов
<tts id='555'>
<tts.children>
<noderef>556</noderef>
</tts.children>
<const>\speed=60 \volume=60 Повторите ваш СНИЛС, по цифрам.</const>
</tts>.
2. Возможность установки сложных свойств как атрибутов внутристрочно.
Предыдущий пример можно переписать следующим образом:
<tts children='556' id='555' phrase='\speed=60 \volume=60 Повторите ваш
СНИЛС, по цифрам.' />.
Достоинство такого подхода заключается в том, что часто используемые XMLконструкции проще представить в виде строк и задавать как атрибуты. А при
необходимости установки более сложных типов объектов удобно пользоваться возможностями XAML.
Способы объявления и методы манипулирования
переменными и константами
Для работы с различными константными значениями было решено использовать
текстовый формат JSON. Такое решение было принято в связи с малой долей корреляции специальных символов, используемых в форматах XAML
и JSON при описании данных. Таким образом, для имеющихся четырех типов переменных (строковый, список, словарь, список словарей) в формате
JSON уже существуют все необходимые конструкции:
1. Значение строкового типа задается как обычная строка:
<const type='string'>string typed value</const>
При установке в качестве значения свойства объекта может использоваться напрямую в атрибуте XML элемента:
<definedgr name='snils2' />.
1. Значение типа список задается как разделенные запятыми строки, заключенные в квадратные кавычки:
<const type='list'>[ "val1", "val2" ]</const>.
2. Значение типа словарь задается как множество пар строк ключ-значение, где пара разделена символом ‘:’, и ключ стоит слева от символа-разделителя. Каждая пара отделена от другой символом запятой, а множество
пар ограничено символами фигурных кавычек:
<const type='dict'>{ "key1":"val1", "key2":"val2" }</const>.
3. Значение типа список словарей задается аналогично спискам, только
вместо строк используются представления словарей:
<const type='dict'>[{ "key1":"val1", "key2":"val2" }, { "key1":"val3", "key2":"val4" }]
</const>.
4. Ссылки на переменные отличаются от обычных значений свойств префиксом «@» и могут задаваться через значения атрибутов:
<stringt source='@address' />.
38
5. Для узлов, имеющих одного потомка, в рамках внутренних связей ветви
поддерживается упрощенный синтаксис:
<sleep time='15000' id='10' children='11' />
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Зобнин Д.С., Старцева Н.С.
Новая концепция XML-ориентированного языка разметки диалогов
Пример приложения на новом языке разметки
Простейшее приложение, состоящее из одной ветви, в новом языке представления сценария
диалога может быть задано следующим образом:
<root id='1'>
<root.children>
<noderef>8</noderef>
<noderef>5</noderef>
<noderef>4</noderef>
</root.children>
</root>
<asr result='service' id='8'>
<asr.children>
<noderef id='9' />
<noderef id='11' />
</asr.children>
<dynamicgr>
<const type='dict' value='{ "operator":"Оператор", "manager":"Менеджер" }' />
</dynamicgr>
</asr>
<sleep time='5000' children='10' id='9' />
<asrstop children='12' id='10' />
<switch source='service' id='11'>
<case value='operator' node='12' />
<case value='manager' node='2' />
</switch>
<tts id='2' children='13' phrase='Соединяем с менеджером' />
<connect num='' id='13'>
<connect.children>
<noderef id='4' />
<noderef id='14' />
</connect.children>
</connect>
<tts children='6' phrase='Соединяем с оператором' id='12' />
<connect id='6' num='+7499*******'>
<connect.children>
<noderef>4</noderef>
<noderef>7</noderef>
</connect.children>
</connect>
<tts id='7' children='4' phrase='К сожалению сейчас все операторы заняты, перезвоните
позже' />
<tts id='14' children='4' phrase='К сожалению сейчас менеджер недоступен, перезвоните
позже' />
<tts id='5' phrase='Произошла ошибка' children='4' />
<end id='4' />
Визуализация представленного графа сценария представлена на рис. 2, с. 40.
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
39
Зобнин Д.С., Старцева Н.С.
Новая концепция XML-ориентированного языка разметки диалогов
<ROOT> 1
<ASR> 8
result: service
Dynamic Grammar
{"operator":"Оператор",
"manager":"Менеджер"}
<SLEEP> 9
5000 ms
<SWITCH> 11
switch @ service
<ASRSTOP> 10
if = = operator when go to noderef id: 12
if = = manager when go to noderef id: 2
<TTS> 12
<TTS> 2
Соединяем с оператором
Соединяем с менеджером
<CONNECT> 6
<CONNECT> 13
number: + 74992******
number: + 74991******
<TTS> 5
Произошла ошибка
<TTS> 7
<TTS> 14
К сожалению, сейчас все операторы
заняты, перезвоните позже
К сожалению, сейчас менеджер
недоступен, перезвоните позже
<END> 4
Рис. 2. Граф сценария диалога
Заключение
При создании систем, использующих технологию распознавании речи в качестве языка описания модели сценария диалога, чаще всего используется
VoiceXML. Однако он обладает явными недостатками как на уровне концепции описания хода диалога, так и на уровне создания решений, основанных
на нем.
В частности, VoiceXML не обладает нативными средствами перевода блок-схем
бизнес-логики в сценарии диалогов, возможностями внесения изменений
лингвистами в сценарий диалога, встроенных возможностей автоматической генерации грамматик без применения сложной логики взаимодействия с базами данных и адаптерами и т.д.
40
Совершенно очевидно, что необходимо создание нового языка описания сценариев диалога. В качестве новой концепции была предложена графовая модель сценария на основе ветвей, составленных из узлов, связанных связями предок-потомок. Для описания предложенной модели был создан язык
представления диалога DXML, лаконично описывающий гибкие сценарии
и обладающий расширенными, по сравнению с VoiceXML, возможностями.
DXML успешно используется специалистами компании S2S Next при создании собственных голосовых решений.
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Зобнин Д.С., Старцева Н.С.
Новая концепция XML-ориентированного языка разметки диалогов
Литература
1. Пономарь М.О. О допустимых пределах искажений электроакустических речевых
сигналов, Вестник Московского Государственного университета. Т. 580. С. 265–271, 2010.
2. Голунов В.И. Современные проблемы в области распознавания речи., Auditech.Ltd, 15
марта 2013. [Электронный ресурс]. Режим доступа: http://auditech.ru/page/darkness.html,
свободный. — Дата обращения: 20 июня 2013.
3. W3C, Speech Recognition Grammar Specification 1.0, 16 марта 2004. [Электронный ресурс].
Режим доступа: http://www.w3.org/TR/speech-grammar/, свободный. — Дата обращения: 20
июня 2013.
4. W3C, Semantic Interpretation for Speech Recognition (SISR) Version 1.0, 5 апреля 2007.
[Электронный ресурс]. Режим доступа: http://www.w3.org/TR/semantic-interpretation/, свободный. — Дата обращения: 20 июня 2013.
5. E. International, International ECMA Script Language Specification 5.1 Edition, Ecma International, июнь 2011. [Электронный ресурс]. Режим доступа: http://www.ecma-international.org/
ecma-262/5.1/, свободный. — Дата обращения: 20 июня 2013.
6. W3C, Speech Synthesis Markup Language (SSML) Version 1.0, 7 сентября 2004.
[Электронный ресурс]. Режим доступа: http://www.w3.org/TR/speech-synthesis/, свободный. —
Дата обращения: 20 июня 2013.
7. W3C, Pronunciation Lexicon Specification (PLS) Version 1.0, W3C, 14 октября 2008. [Электронный ресурс]. Режим доступа: http://www.w3.org/TR/pronunciation-lexicon/, свободный. —
Дата обращения: 20 июня 2013.
8. W3C, Voice Browser Call Control: CCXML Version 1.0, W3C, 5 июля 2011. [Электронный
ресурс]. Режим доступа: http://www.w3.org/TR/ccxml/, свободный. — Дата обращения: 20 июня
2013.
9. W3C, Voice Extensible Markup Language (VoiceXML) 3.0, 10 декабря 2010. [Электронный
ресурс]. Режим доступа: http://www.w3.org/TR/voicexml30/, свободный. — Дата обращения:
20 июня 2013.
10. Saleem A., Xin Y. Media Server Markup Language (MSML), IETF, 2010.
11. Van Dyke J., Burger E. Media Server Control Markup Language (MSCML) and Protocol, IETF,
2006.
12. W3C, State Chart XML (SCXML): State Machine Notation for Control Abstraction, 26 апреля
2011. [Электронный ресурс]. Режим доступа: http://www.w3.org/TR/2011/WD-scxml-20110426/,
свободный. — Дата обращения: 20 июня 2013.
13. W3C, DOM4, W3C, 6 декабря 2012. [Электронный ресурс]. Режим доступа: http://www.
w3.org/TR/dom/, свободный. — Дата обращения: 20 июня 2013.
14. Microsoft, XPath Reference, Microsoft Corporation, 2 августа 2012. [Электронный ресурс].
Режим доступа: http://msdn.microsoft.com/en-us/library/ms256115.aspx, свободный. — Дата
обращения: 20 июня 2013.
15. Microsoft, VoiceXML Scripting Elements and Subdialogs, Microsoft, 2012. [Электронный
ресурс]. Режим доступа: http://msdn.microsoft.com/en-us/library/ff769496.aspx, свободный. —
Дата обращения: 20 июня 2013.
Сведения об авторах
Зобнин Дмитрий Сергеевич —
разработчик, ООО «Голосовая Платформа», [email protected]
Старцева Наталья Сергеевна —
ведущий лингвист, ООО «Голосовая Платформа», [email protected]
41
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Технология синтеза речи
в историко-методологическом
аспекте
Соломенник А.И., аспирант филологического факультета
МГУ им. М.В. Ломоносова
В статье рассматривается зарождение и развитие технологии синтеза речи,
начиная от первых механических устройств для порождения отдельных звуков
речи и заканчивая современными методами синтеза слитной речи на основе
селективного выбора единиц и скрытых Марковских моделей. Даётся характеристика различных методов и подходов к решению задачи порождения естественно звучащего речевого сигнала, кратко обсуждаются достоинства и недостатки этих методов, их историческая преемственность.
• синтез речи • история синтеза речи • методы синтеза речи • формантный
синтез • формантный синтез • артикуляционный синтез • конкатенативный
синтез • селективный синтез • статистический параметрический синтез.
The paper deals with speech synthesis technology origin and development from the
first mechanical synthesizers to modern unit selection and hidden Markov models
(HMM)-based text-to-speech synthesis. Different methods of speech synthesis are
described; their advantages and imperfections are discussed.
• speech synthesis • history of speech synthesis • speech synthesis methods • formant synthesis • articulatory synthesis • concatenative synthesis • unit selection
• HMM-based synthesis.
Введение
Синтез речи, то есть в широком смысле искусственное создание звучащей речи,
подобной человеческому голосу, — задача, которая издавна интересовала
людей (возможно, как часть идеи создания искусственного человека). Существуют легенды о «говорящих головах», умевших отвечать на вопросы,
которые были созданы Гербертом Орильякским (ок. 946 – 1003), Альбертом
Великим (1198 — 1280) и Роджером Бэконом (1214 — 1294) [Mattingly 1974].
Но и достоверная история создания машин, имитирующих человеческую
речь, насчитывает уже более двух веков. С течением времени изменялись
как и сами механизмы и принципы работы синтезирующих устройств, так
и основные области интереса и задачи учёных, занимающихся созданием
и развитием синтеза речи.
Первые механические синтезаторы
Первые синтезаторы, появившиеся во второй половине XVIII века, были механическими, они могли порождать отдельные звуки или небольшие фрагменты
слитной человекоподобной речи подобно музыкальным инструментам, то
есть требовали участия оператора-исполнителя. Очень важным является
то, что уже в них посредством различных механических приспособлений
воспроизводились основные процессы, происходящие при производстве
речи человеком.
42
В 1779 году Петербургская академия наук объявила ежегодную премию за
объяснение разницы между пятью гласными звуками и за конструирова-
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Соломенник А.И.
Технология синтеза речи в историко-методологическом аспекте
ние устройства, их порождающего. Немецкий учёный Христиан Готлиб Кратценштейн
(1723 — 1795), работавший в то время в Петербурге, предложил лучшее решение. Он
создал систему резонаторов (рис. 1), при помощи пульсирующего воздушного потока порождавших русские гласные. Воздушный поток порождался вибрирующими язычками,
подобными голосовым связкам человека [2].
/a/
/e/
/i/
/o/
/u/
Рис. 1. Система резонаторов Кратценштейна [3]
Ещё ранее и независимо от Кратценштейна над механической системой синтеза речи стал
работать и представил результат своих трудов в 1791 году австрийский изобретатель
Вольфганг фон Кемпелен (1734 — 1804). Его машина могла произносить различные
звуки и их комбинации. В ней моделировалось продвижение струи воздуха через голосовой тракт человека: имелись меха для подачи воздуха на язычок, который возбуждал
резонатор, управляемый рукой. Согласные, в том числе и носовые, получались с помощью четырёх каналов, зажимаемых пальцами [2]. По утверждению самого Кемпелена,
его машина производила 19 хорошо различимых согласных звуков [4] и короткие фразы
на нескольких языках [1]. Для управления «говорящей машиной» требовался хорошо
обученный оператор, порождение речи можно было сравнить с игрой на органе. Усовершенствованный вариант машины Кемпелена (рис. 2) был создан в 1837 году английским
физиком Чарльзом Уитстоном (1802 — 1875). Также под впечатлением от машины Уитстона американский учёный и изобретатель Александр Грэм Бэлл (1847 — 1922) собрал
собственную аналогичную модель [4].
Рис. 2. Говорящая машина Кемпелена, построенная Уитстоном [4]
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
43
Соломенник А.И.
Технология синтеза речи в историко-методологическом аспекте
В течение XIX века в технологии синтеза речи не было каких-либо революционных изменений. Известны исследования английского учёного Роберта
Уиллиса (1800 — 1875), который подобно Кратценштейну экспериментировал с синтезом гласных звуков и установил связь между качеством гласных
и геометрической формой голосового тракта. В своих работах 1828 года
«О гласных звуках» и «О механизме гортани» Уиллис описал механизм извлечения гласных звуков по аналогии со звукоизвлечением органа.
В 1840 году Джозеф Фабер (ок. 1800 — ок. 1850) представил свою говорящую
машину под названием «Эйфония», которая по сообщениям современников могла производить обычную и шёпотную речь, а также исполнять песни [1].
В XX веке, несмотря на развитие электрических методов синтеза речи, разработка механических синтезаторов речи проводилась до 60-х годов [3]. Это
было связано, с одной стороны, с малой доступностью сложных электрических компонентов [4], а с другой — с необходимостью имитации и измерения нелинейных эффектов в голосе, которые с трудом поддаются расчётам
и не могут быть легко смоделированы с помощью линейных устройств [2].
Среди наиболее известных устройств следует упомянуть механический
синтезатор Р. Риша, продемонстрированный им в 1937 году (рис. 3). По
форме он практически повторял голосовой тракт человека, был выполнен
из резины и металла и управлялся клавишами, подобными клавишам трубы [4].
Рис. 3. Механический синтезатор Риша [4]
44
Таким образом, общим методом создания механических синтезаторов стала
имитация или прямое моделирование голосового тракта человека. Основными рабочими компонентами таких моделей были: устройство для подачи
воздуха (аналог лёгких), вибрирующая часть (аналог гортани) и система резонаторов, в большей или меньшей степени точно воссоздававших форму
голосового тракта человека. Механические синтезаторы стали прототипом
современного артикуляционного синтеза.
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Соломенник А.И.
Технология синтеза речи в историко-методологическом аспекте
Первые электрические синтезаторы
В XX веке с освоением электрических устройств и зарождением электроники начались попытки построить синтезаторы речи — электрические аналоги речепроизводящей системы.
Самый первый электрический синтезатор был создан Дж. Стюартом в 1922 году [5].
Его схема (рис. 4) включала в себя электрический зуммер для моделирования голосовых связок и пару индуктивно-ёмкостных резонаторов для моделирования резонансов
горла и ротовой полости [4]. Таким образом генерировались первые две форманты (резонансные частоты голосового тракта), то есть устройство могло синтезировать только
гласные звуки.
Рис. 4. Электрическая модель голосового тракта Стюарта [4]
Аналогичный синтезатор, состоящий из четырёх подключенных параллельно резонаторов,
возбуждаемых прерывателем тока, был создан немецким инженером Карлом Вилли
Вагнером (1883 — 1953) в 1936 году [2].
Следующий важный шаг в формировании технологии синтеза речи связан с развитием радиотехники, построением вокодеров (систем кодирования и декодирования речи, в которых используются различные методы сжатия полосы частот для передачи сигналов,
«voice coder») и ЭВМ [6].
Первым электрическим синтезатором, способным генерировать фрагменты связной речи,
стал «водер» (Voder — Voice Operating Demonstrator), созданный американским инженером Гомером Дадли (1896 — 1987), Р. Ришем и С. Уоткинсом. Водер был основан на
вокодере, созданном в Bell Laboratories в середине 30-х годов. От вокодера была взята
синтезирующая часть, управлявшаяся вручную посредством тринадцати клавиш, ножной педали и переключателя источника шума на браслете (рис. 5, с. 46) [2].
Таким образом, водер синтезировал сигналы с заданным спектром посредством десяти
включённых параллельно полосовых фильтров, охватывавших весь спектр частот. Подготовка оператора для производства речи на водере длилась не менее года, однако
получаемая речь была вполне разборчива, что и спровоцировало новый интерес к синтезу речи после демонстрации водера на всемирных выставках в Нью-Йорке в 1939 году
и в Сан-Франциско в 1940 году.
В литературе [7] упоминаются попытки синтеза русской речи при помощи первых музыкальных
синтезаторов. «Вариофон» Е. А. Шолпо (1891 — 1951), сконструированный в 1931 году,
представлял собой оптический синтезатор. Звук записывался на движущуюся плёнку
с помощью вырезанных зубчатых дисков разной формы, изменявших очертания звуковой дорожки и трансмиссии, позволявшей синхронизировать контур и подачу плёнки.
Первый электронный музыкальный синтезатор АНС был спроектирован Е. А. Мурзиным
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
45
Соломенник А.И.
Технология синтеза речи в историко-методологическом аспекте
(1914 — 1970) в 1938 году и построен в 1958. АНС содержал 720 звуковых дорожек чистых тонов, которые можно было накладывать друг на друга. Клавиатуры не было, на стекле, покрытом специальной непрозрачной
мастикой, прочерчивалась линия, через которую пускался световой луч на
фотоэлементы.
Рис. 5. Схема синтезатора «водер» [Фланаган 1968]
Важным этапом в развитии методов экспериментальных фонетических исследований и синтеза речи стала разработка звукового спектрографа в 1946
году. Появилась идея использования спектрограмм для управления синтезатором речи.
46
Для автоматического озвучивания речевых спектрограмм было создано несколько устройств. В устройстве Л. Шотта 1948 года использовался линейный источник света, расположенный вдоль оси частот спектрограммы
и просвечивающий участки изображения с различной степенью прозрачности, а фотоэлементы, расположенные в ряд вплотную друг к другу по дру-
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Соломенник А.И.
Технология синтеза речи в историко-методологическом аспекте
гую сторону спектрограммы, являлись источником управляющих сигналов для набора
тех же полосовых фильтров, что и в водере. Дополнительные дорожки на спектрограмме управляли переключением тона и шума и несли информацию о частоте основного
тона. Подобный метод использовался Дж. Борстом и Ф. Купером в устройстве «водек»
(1957 год) [2].
Наиболее известный «проигрыватель» спектрограмм, синтезатор Pattern Playback (рис. 6),
был представлен американскими исследователями Ф. Купером, А. Либерманом
и Дж. Борстом в 1951 году. Он состоял из оптической системы для динамической модуляции амплитуд гармоник основного тона в 120 Гц в зависимости от изображений на
движущейся прозрачной ленте [5].
Рис. 6. Синтезатор Pattern Playback [5]
При помощи этого синтезатора, позволявшего производить монотонную разборчивую речь,
проводились многочисленные эксперименты по оценке значимости для восприятия речи
различных акустических характеристик, путём упрощения и стилизации подаваемых на
синтез фонограмм.
В первых электрических синтезаторах уже не моделируется напрямую голосовой тракт человека. Вместо этого основным методом создания синтезированной речи является
моделирование (или прямое считывание со спектрограммы) акустических характеристик речевого сигнала. Основными рабочими компонентами таких синтезаторов были
устройства, генерирующие шум и периодический сигнал, и набор фильтров или резонаторов, усиливающих определённые заранее частотные составляющие. Электрические синтезаторы стали прототипом современного компьютерного параметрического
синтеза.
Следующей важной вехой в истории синтеза речи стало развитие акустической теории речеобразования (1960), создавшей необходимую теоретическую базу для разработки основанных на ней формантных и артикуляционных синтезаторов, а также синтезаторов,
использующих линейное предсказание. Эти три метода называют также технологиями
синтеза первого поколения [8].
ХХ век: синтезаторы первого поколения
Синтезаторы первого поколения можно на основании используемых ими методов разделить на две большие группы: акустические и артикуляционные. К направлению акустического синтеза относится формантный синтез и синтез с использованием линей-
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
47
Соломенник А.И.
Технология синтеза речи в историко-методологическом аспекте
ного предсказания. При создании акустических синтезаторов не ставится
задачи непосредственного отражения в синтезе процессов, связывающих
артикуляцию с акустикой речевого сигнала, а вместо этого они выявляют
и воспроизводят в синтезируемом сигнале существенные для восприятия
акустические характеристики естественной речи. В этом смысле акустический синтез является продолжением того направления, которое было начато созданием вокодеров и электрических параметрических синтезаторов
разного типа [9].
Артикуляционный синтез
Артикуляционный (или артикуляторный) синтез в некоторой мере продолжил направление, заданное первыми механическими синтезаторами. В нём делается попытка синтезировать речевой сигнал на основе моделирования
процесса речеобразования с учетом сведений об артикуляции, используемых для количественной оценки формы речевого тракта, его резонансных
свойств и характеристик звуковых источников. Затем на основе расчетных
данных генерируется речевой сигнал [99]. В артикуляционной модели трубка, соответствующая голосовому тракту, обычно разделяется на множество небольших секций, и таким образом может быть представлена в качестве неоднородной электрической линии передачи [2].
Первые электронные артикуляционные модели были статическими и требовали ручной настройки. Первый синтезатор американского исследователя
Х. Данна 1950 года состоял из 25 одинаковых звеньев, между которыми
для учёта влияния положения языка можно было ввести переменную индуктивность, а индуктивность на конце линии отражала влияние губ. Для
произнесения вокализованных звуков синтезатор возбуждался пилообразным напряжением регулируемой частоты, а шумные звуки получались подключением белого шума к соответствующей точке линии [2].
Первый артикуляционный синтезатор с динамическим контролем (рис. 7)
DAVO (Dynamic Analog of the VOcal tract) был разработан в 1958 году
в Массачусетском технологическом институте Д. Розеном. Он управлялся записанными на ленту контролирующими сигналами, созданными вручную [3].
48
Рис. 7. Аналог голосового тракта с линией передачи, управляемый
непрерывно [2]
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Соломенник А.И.
Технология синтеза речи в историко-методологическом аспекте
С течением времени артикуляционные синтезаторы развивались, в них вводилось дополнительное моделирование ослабления сигнала в голосовом тракте, взаимодействия
источника и фильтра, распространения сигнала от губ и, конечно, совершенствовалось
моделирование голосового источника сигнала. Кроме этого, многие подходы включают
моделирование движений и параметров мышц и управления моторикой. Однако из-за
сложностей подобного рода моделирования в большинстве современных систем синтеза речи, позволяющих получать речь высокого качества, используются более «простые»
подходы, а артикуляционный синтез чаще применяется в научных исследованиях в области артикуляционной фонетики и физиологии речи. Кроме этого, артикуляционный
синтез непосредственно связан с областью аудиовизуального синтеза (или «говорящей
головы»), задачей которого является построение визуальной модели головы и лица
в процессе говорения [8].
Формантный синтез
Первым формантным синтезатором стал PAT (Parametric Artificial Talker) английского исследователя У. Лоуренса, представленный в 1953 году. Этот синтезатор состоял из трёх
электронных формантных резонаторов, соединённых параллельно, на вход которым подавался шум или гармонический сигнал. Он управлялся шестью временными функциями (три форманты, частота основного тона, амплитуда шума и амплитуда голосового
источника), которые считывались с нарисованных на движущейся стеклянной дорожке
шаблонов [5]. Синтезатор Лоуренса был первым из параллельных формантных синтезаторов. Их главное преимущество состояло в относительной простоте управления.
Вторым типом формантных синтезаторов, позволяющим более точно моделировать передаточную функцию голосового тракта, но имеющих зачастую более сложную структуру, стали каскадные синтезаторы, в которых формантные резонаторы были соединены
последовательно [10].
Рис. 8. Каскадный и параллельный синтезаторы. В параллельном синтезаторе
амплитуда каждого формантного резонатора должна контролироваться отдельно.
В каскадном выходной сигнал каждого резонатора является входным сигналом
следующего [10]
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
49
Соломенник А.И.
Технология синтеза речи в историко-методологическом аспекте
В том же 1953 году известный шведский исследователь речи, автор классической акустической модели речеобразования «источник-фильтр» Гуннар
Фант продемонстрировал свой каскадный формантный синтезатор OVE I
(Orator Verbis Electris). В нём частота двух нижних резонаторов контролировалась механической рукой, а амплитуда и частота основного тона определялись ручными потенциометрами [5].
В дальнейшем оба типа синтезаторов усложнялись и совершенствовались,
позволяя каждой новой версии звучать всё ближе к естественной человеческой речи. В 1973 году английскому исследователю Дж. Холмсу
удалось вручную настроить на своём синтезаторе (рис. 9) произнесение
предложения «I enjoy the simple life» так хорошо, что обычный слушатель
не мог отличить его от произнесения того же текста живым человеком [3].
Однако оставалась проблема с автоматическим контролем работы синтезатора, который не мог пока приблизиться к ручной настройке произнесения.
FM
LPF
F1
LPF
F2
LPF
F3
LPF
FM
LPF
F0
LPF
F1
LPF
LPF
F2
LPF
AM
F3
A1
LPF
A2
F4
A3
LPF
AMF
LPF
Рис. 9. Формантный синтезатор Холмса, состоящий из резонаторов для четырёх
формант и носовой форманты, каждый из которых возбуждался вариативной
смесью сигналов шумового и голосового источников [5]
50
С развитием компьютерной техники и появлением вычислительных машин в середине 50-х годов электрические аналоговые синтезаторы стали посте-
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
OUTPUT
Соломенник А.И.
Технология синтеза речи в историко-методологическом аспекте
пенно замещаться компьютерными программами или специально сконструированной
цифровой аппаратурой, позволявшими работать с цифровым представлением речевого
сигнала.
В 1972 году американский исследователь Д. Клатт предложил вариант гибридного формантного синтезатора, в котором сонорные и шумные звуки синтезировались каскадными
и параллельными формантными резонаторами соответственно. Публикация исходного
кода программы на языке Фортран в 1980 году позволила учёным в различных лабораториях оценить работу этого синтезатора, а также помогла в проведении перцептивных
экспериментов [5].
Первая модель формантного синтезатора русской речи «Фонемофон-1» (рис. 10) была разработана в Минске в начале 70-х годов, а в его последующих версиях удалось добиться
синтеза русской речи по произвольному тексту весьма высокого качества [7].
Рис. 10. Внешний вид синтезатора «Фонемофон-1»
Синтезаторы, использующие линейное предсказание
Метод линейного предсказания позволяет напрямую использовать при синтезе искусственной речи параметры передаточной функции голосового тракта и является своеобразной
альтернативой формантному синтезу. Первые эксперименты с кодированием речи при
помощи коэффициентов линейного предсказания (КЛП) были проведены в середине
60-х годов. Эта технология впервые была использована в недорогих устройствах типа TI
Speak’n’Spell (1980) [3].
Для синтеза речевого сигнала в КЛП-синтезаторе используются следующие изменяющиеся во времени параметры: период основного тона, средняя громкость звука, признак
тон-шум и определённое заранее количество коэффициентов линейного предсказания.
При этом качество синтезированной речи зависит от числа коэффициентов, точности их
вычисления, а также от того, насколько хорошо моделируются источники возбуждения
[6]. В общем виде простейший КЛП-синтезатор имеет достаточно сложную структурную
схему, представленную на рис. 11.
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
51
Соломенник А.И.
Технология синтеза речи в историко-методологическом аспекте
Управление
громкостью
Источник
белого
шума
Глухой
звук
Выход
Цифроаналоговый
преобразователь
Переключатель
тон-шум
Периодические
импульсы
Звонкий
звук
Фильтр, моделирующий
тракт речеобразования
Усилитель
Речь
Рис. 11. Структурная схема КЛП-синтезатора [6]
Обычно для работы КЛП-синтезатора из оцифрованной речи человека вычисляются необходимые параметры, а далее все необходимые единицы синтеза
(слова или более короткие единицы) записываются в параметризованном
виде в память и затем при синтезе извлекаются и соединяются, или конкатенируются, в определённом порядке. Таким образом, модель линейного
предсказания косвенно поспособствовала развитию технологии конкатенативного синтеза речи.
Синтезаторы первого поколения обычно требовали детального фонетико-акустического описания того, что должно быть произнесено, и не включали какоголибо автоматического способа получения подобного описания для произвольного сообщения или текста.
ХХ век: синтезаторы второго поколения
52
В середине 60-х годов, в связи с продолжающимся развитием компьютерной
техники и возросшими потребностями общества, перед разработчиками
автоматического синтеза речи была поставлена более широкая задача озвучивания любого сообщения, вводимого в компьютер в текстовом виде
и неизвестного заранее системе синтеза. Это привело к развитию синтезаторов типа «Текст–Речь» (Text-to-Speech или сокращённо TTS). В идеале такие устройства должны имитировать деятельность человека, который
читает письменное сообщение или текст любой степени сложности [9]. Поэтому в синтезаторах такого типа (то есть синтезаторах речи в современном понимании этого термина) появился блок лингвистической обработки,
независимый от акустического блока и метода генерации речевого сигнала (рис. 12), тогда как самые ранние синтезаторы и синтезаторы первого
поколения были ориентированы в основном или полностью на модельную
разработку акустического блока, то есть на задачу генерации речевого сигнала.
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Соломенник А.И.
Технология синтеза речи в историко-методологическом аспекте
Входной текст
Блок
лингвистической обработки:
подготовка
текста
к озвучиванию
Определение языка
текста
(1)
Исправление ошибок
входного текста
(2)
Нормализация текста (3)
Словарь
Собственно лингвистический анализ:
синтаксический, морфологический и т.д. (4)
Акцентно-интонационный
транскриптор (5)
Фонемный транскриптор
(6)
Формирование просодических
характеристик (7)
Блок акустического синтеза
РЕЧЕВОЙ СИГНАЛ
Рис. 12. Лингвистический этап автоматического синтеза речи [9]
Первая полноценная система «Текст-Речь» для английского языка была создана в 1968 году
в Японии Норико Умеда и его коллегами. Она была основана на артикуляционной модели акустического блока. Анализ текста и расстановка пауз производились при помощи
сложных правил. По свидетельству специалистов, речь, производимая этой системой,
была разборчивой, но довольно монотонной [5].
В дальнейшем алгоритмы лингвистической предобработки текста усложнялись благодаря
увеличению скорости компьютерного анализа данных и объёма памяти для хранения
вспомогательной лингвистической информации (различных словарей, речевых баз, моделей и т.п.). Это позволяло более точно представлять необходимые для акустического
синтеза детальные фонетические описания: фонетическую транскрипцию и просодические характеристики сегментных единиц, получаемые на основе интонационно-просодических моделей (длительность, частоту основного тона и громкость).
Следует подчеркнуть, что эти фонетические описания должны быть преобразованы в процессе синтеза во входные данные (акустические характеристики), необходимые для блока генерации речевого сигнала (например, частоты формант), что может быть сделано
двумя способами: либо с помощью особых правил, либо посредством измерения (или
«копирования») этих характеристик для отдельных звуков или целых фраз естественной
человеческой речи. Копирование характеристик является наиболее простым и эффективным методом получения качественной (то есть разборчивой и естественной) синте-
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
53
Соломенник А.И.
Технология синтеза речи в историко-методологическом аспекте
зированной речи. Так называемый ресинтез, то есть подача на вход синтезатора акустических характеристик естественной речи, является также
надёжным способом понять, насколько хорошо работает его акустический
компонент.
Конкатенативный синтез
Конкатенативный (или компилятивный) синтез, называемый также техникой второго поколения [8], смог появиться благодаря тому, что перед создателями систем синтеза уже не стояли такие жёсткие ограничения по доступной
компьютерной памяти (как в 70-е и 80-е годы) и появилась возможность
хранить большие объёмы речевых данных. В отличие от систем первого поколения в них не используется упрощённая классическая модель «источникфильтр». Вместо этого в памяти компьютера хранятся фрагменты реальных
акустических сигналов (либо в виде оцифрованных фрагментов звуковой
волны, либо в параметризованной форме, полученной в результате акустического анализа исходных «живых» образцов) из речи определённого «диктора-донора», из которых путём склейки (или конкатенации) и создавалась
первичная основа синтезируемого акустического сигнала. В дальнейшем
эта основа подвергается модификации по правилам, функция которых состоит в том, чтобы придать склеенным фрагментам акустического сигнала
нужные просодические характеристики [9].
Различные системы конкатенативного синтеза используют в качестве базовых
элементов для склейки звуковые единицы различного размера: фрагменты фонемной размерности (акустические аллофоны), полуслоги, слоги
и образцы смешанных типов. Наиболее часто в таких системах используются дифоны — отрезки, начинающиеся в середине одного звука и заканчивающиеся в середине следующего. Дифоны как оптимальная единица для учёта эффектов коартикуляции в речевом сигнале были впервые
предложены американским исследователем Дж. Петерсоном с коллегами
в 1958 году [5].
На качество речи, производимой конкатенативным синтезатором, влияет как
качество и количество самих единиц для конкатенации (степень покрытия
всех необходимых сегментных единиц), так и используемые алгоритмы просодической модификации речевого сигнала. Наиболее широко используемым методом модификации речи во временной и частотной области является алгоритм PSOLA (Pitch Synchronous Overlap and Add), разработанный
в 1985 году, и его последующие варианты [3].
По современным меркам объём звуковой базы для обычного конкатенативного
синтеза речи является относительно небольшим, что позволяет построить
синтезатор высокого качества довольно быстро. Однако главным недостатком систем такого типа является то, что они, в отличие от, например, формантного синтеза по правилам, не обладают достаточной гибкостью в изменении тембра голоса, так как для этого необходимо создавать новую базу
акустических образцов для другого диктора-донора [9].
ХХ век: синтезаторы третьего поколения
54
К третьему поколению технологий автоматического синтеза речи обычно относят
синтез на основе скрытых Марковских моделей и селективный синтез речи
[8]. Их общей чертой является использование больших объёмов речевых
данных, а также высокая естественность синтезированной речи.
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Соломенник А.И.
Технология синтеза речи в историко-методологическом аспекте
Селективный синтез речи
В настоящее время доминирующей технологией автоматического синтеза речи является так
называемый селективный синтез, так как он позволяет получать синтезированную речь,
которая по своим характеристикам наиболее приближена к естественной [8].
Селективный синтез речи (в англоязычных источниках называемый unit selection) является
разновидностью конкатенативного синтеза, то есть при генерации речевого сигнала
используются заранее сделанные звукозаписи естественной речи. В отличие от более
ранних аллофонных или дифонных синтезаторов речи, порождающих итоговый речевой
сигнал из отдельных и специально подготовленных звуковых единиц, выделенных из
небольшого и тщательно подобранного набора слов, при селективном синтезе для каждой базовой единицы синтеза производится выбор наиболее подходящего кандидата
из множества вариантов, взятых из озвученных предложений естественного языка. Для
этого записываются специальные звуковые базы, размер которых может составлять до
нескольких десятков часов звучащей речи. В процессе акустического синтеза алгоритм
строит оптимальную последовательность звуковых единиц (рис. 13), учитывая одновременно и то, насколько кандидат подходит под описание необходимых характеристик
целевого звука (стоимость замены), и то, насколько хорошо выбранные элементы будут
конкатенироваться с соседними (стоимость связи). При этом с учетом указанных стоимостей из базы в качестве оптимальных могут быть выбраны не отдельные звуки, а их
цепочки или даже целые предложения. Такой подход позволяет минимизировать модификации речевого сигнала, что повышает естественность синтезируемой речи.
Рис. 13. Выбор целевой последовательности при селективном синтезе речи
Первыми системами селективного синтеза стали n-Talk (1992) [Sagisaka et al. 1992] и CHATR
(1994) [12], а в 1996 году известные специалисты по синтезу речи А. Хант и А. Блэк предложили алгоритм выбора оптимальной последовательности единиц для конкатенации,
который стал классическим [13].
Статистический параметрический синтез
Статистический параметрический синтез, так же как и описанный выше конкатенативный,
является методом, основанным не на правилах, а на имеющихся акустических данных.
Однако в отличие от конкатенативного метода, при котором необходимые для синтеза
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
55
Соломенник А.И.
Технология синтеза речи в историко-методологическом аспекте
параметры речевого сигнала уже присутствуют в самих хранимых в памяти компьютера единицах конкатенации, в статистическом параметрическом
синтезе делается попытка машинного обучения системы на имеющихся речевых данных с целью получения модели соответствия характеристик речи,
поступающих на вход акустического блока, физическим параметрам целевых звуковых единиц. Полученная акустическая модель даёт два преимущества: уменьшение памяти для хранения модели вместо самой речевой
базы и возможность её параметрической модификации, например, быстрого изменения тембра голоса [8].
Наиболее распространённой техникой в данном направлении синтеза является метод, основанный на использовании скрытых Марковских моделей
(HMM — hidden Markov models). В НММ представлена не только последовательность фонем, но и различная лингвистическая информация (та же,
что и для селективного синтеза), а акустические параметры, сгенерированные НММ, используются для управления вокодером, т.е. для порождения
речевого сигнала используются параметры речевого тракта и параметры
возбуждения [14] Скрытые Марковские модели звуковых единиц применялись в системах распознавания речи с конца 70-х годов. Работу над автоматическими системами синтеза речи, основанными на HMM, начали в 1995
году японские учёные К. Токуда с коллегами [15]. Возможность использования статистического подхода в применении к синтезу речи обусловлена
возросшим быстродействием вычислительных машин и объёмов носителей
информации для хранения больших речевых баз, необходимых для обучения акустических моделей.
Заключение
Как видно из сказанного выше, в уже довольно длительной истории технологий
синтеза речи значительно менялись приоритеты и направления исследований. Это связано и с целями, которые ставились перед синтезаторами:
от демонстрации возможности получения звуков, подобных человеческой
речи, и моделирования процессов речеобразования до получения разборчивого, а затем и естественного выразительного чтения компьютером произвольного текста. Нельзя не отметить также, что история и успехи разработок в области синтеза речи тесно связаны с развитием других научных
дисциплин: физики (механики, электродинамики, акустики), математики
(статистики), информатики, физиологии, психологии и, конечно же, лингвистики (фонетики, автоматической обработки естественного языка).
Основными направлениями современных исследований в области автоматического синтеза речи являются аудиовизуальный синтез, синтез экспрессивной и эмоциональной речи, а также объединение двух подходов к синтезу
речи третьего поколения: селективного синтеза и синтеза на основе скрытых Марковских моделей [8]. Предметом широких исследований в последние годы является также и оценка качества работы синтезаторов речи: за
рубежом активно ведутся работы по стандартизации оценок. Для русскоязычных синтезаторов существуют отдельные перспективные разработки,
но есть потребность в выработке единого стандарта для оценки качества
синтеза [16].
56
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Соломенник А.И.
Технология синтеза речи в историко-методологическом аспекте
Литература
1. Кейтер Дж. Компьютеры — синтезаторы речи. М.: Мир, 1985.
2. Кодзасов С. В., Кривнова О. Ф. Общая фонетика. Москва, 2001. 592 с.
3. Лобанов Б. М., Цирульник Л. И. Компьютерный синтез и клонирование речи. Минск, «Белорусская Наука», 2008. 316 с.
4. Обжелян Н. К., Трунин-Донской В. И. Машины, которые говорят и слушают. Кишинев,
1987.
5. Фланаган Дж. Анализ, синтез и восприятие речи. М.: Связь, 1968.
6. Black A., Taylor P. CHATR: A Generic Speech Synthesis System // COLING94, Japan, 1994.
7. Hunt A., Black A. Unit Selection in a Concatenative Speech Synthesis System Using a Large
Speech Database // Proceedings of ICASSP 96, 1996. Р. 373–376.
8. Klatt D. Review of Text-to-Speech Conversion for English // JASA vol. 82 (3), 1987. Р. 737–793.
9. Klatt D. H. Software for a cascade/parallel formant synthesizer // JASA. 1980. V. 67. Р. 971–995.
10. Lemmetty, S. Review of Speech Synthesis Technology. Master’s Thesis, Helsinki University of
Technology, 1999. 104 p.
11. Mattingly, I. G. Speech Synthesis for Phonetic and Phonological Models // Current Trends in
Linguistics, edited by T. S. Sebeok, Vol. 12, 1974. Mouton, The Netherland. Р. 2451–2487.
12. Sagisaka, Y. et al. ATR — n-Talk speech synthesis system // Proceedings of ICSLP92, Banff,
Canada, 1992. Р. 483–486.
13. Taylor P. Text-to-Speech Synthesis. Cambridge University Press, 2009. 474 p.
14. Tokuda K., Masuko T., Yamada T. An algorithm for speech parameter generation from
continuous mixture HMMs with dynamic features // Proceedings of Eurospeech-1995, 1995.
15. Соломенник А.И., Таланов А.О., Соломенник М.В., Хомицевич О.Г., Чистиков П.Г. Оценка
качества синтезированной речи: проблемы и решения. Изв. вузов. Приборостроение. Тематический выпуск «Речевые информационные системы». № 2, 2013. С. 38–42.
Сведения об авторе
Соломенник Анна Ивановна —
аспирант кафедры теоретической и прикладной лингвистики филологического факультета МГУ им. М.В. Ломоносова, научный сотрудник ООО "Речевые технологии" (Минск,
Беларусь). Научные интересы: автоматический синтез речи (в частности, оценка качества синтезированной речи), идентификация диктора по голосу. Электронная почта:
[email protected]
57
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Фотооптический синтезатор АНС
и его роль в развитии методов
синтеза речи
Крейчи С.А., научный сотрудник филологического
факультета МГУ им. М.В. Ломоносова,
Кривнова О.Ф., доктор филологических наук, старший
научный сотрудник филологического факультета МГУ
им. М.В. Ломоносова,
Егоров А.М., начальник компьютерного центра
филологического факультета МГУ им. М.В. Ломоносова
В работе описана история графического синтеза речи «по правилам», основанного на фотоэлектронном преобразовании модулированного света в звуковой сигнал. Многопараметрический синтезатор
АНС, имеющий банк из 720 синусоидальных звуков и позволяющий
аддитивно синтезировать по принципу Фурье шумовые и тональные
составляющие речевого сигнала, изменяя с помощью графического
управления их частотные, амплитудные, спектральные и временные
параметры, применялся в лаборатории фонетики и речевой коммуникации филологического факультета МГУ им. М.В. Ломоносова
в 60–70-е годы прошлого столетия, для экспериментального изучения
слухового восприятия речевых сегментов, синтезированных по теоретическим правилам. В работе приводится также описание компьютерной модели синтезатора АНС и результаты программного синтеза по
тем же правилам.
• речь • синтез • фотоэлектронный • АНС • синтезатор • графический
• правило • преобразование • Фурье • шум • тон • синус • аддитивный
• слух • восприятие • сегмент • компьютерный • модель • многопараметрический.
58
The history of the graphic synthesis of speech “by rules” based on the photoelectronic conversion modulated light into the sound signal is described.
Multiparametric synthesizer ANS, which has a bank of 720 sine tones and
which makes it possible to additively synthesize according to Fourier's principle noise and tone components of speech signal, changing with the aid of
graphic control their frequency, amplitude, spectral and time parameters,
was adapted in the laboratory of phonetics and speech communication of
the philological department of Moscow Lomonosov University in 60–70th
years of past century, for the experimental study of the auditory sensation
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Крейчи С.А., Кривнова О.Ф., Егоров А.М.
Фотооптический синтезатор АНС и его роль в развитии методов синтеза речи
of the speech segments, synthesized according to the theoretical rules. In the article
is given also the description of the computer model of synthesizer ANS and the results
of program synthesis according to the same rules.
• speech • synthesis • photoelectronic • ANS • the synthesizer • graphic • rule • conversion • Fourier • noise • tone • the sine • additive • noise • perception • the segment • computer • model • multiparametric.
В конце 20-х – начале 30-х годов прошлого столетия кинематограф стал звуковым. На
киноленте появилась «звуковая дорожка» (рис.1).
ЗВУКОВАЯ ДОРОЖКА
Рис. 1. Вид кадра звукового кинофильма
«Великий немой» заговорил благодаря изобретению фотооптической записи звука —
фиксации звуковых колебаний на движущейся светочувствительной киноплёнке
фотографическим способом. Практически одновременно были предложены два
метода фотооптической звукозаписи — метод Тагера (рис. 2А) и метод Шорина
(рис. 2Б).1
1
Павел Григорьевич Тагер (1903–1971), советский изобретатель в области звукового кино. Оригинальная
система звукового кино «Тагефон» на принципе модуляции светового потока была предложена П.Г. Тагером в 1926 году, а в 1928 году была им запатентована.
Александр Фёдорович Шорин (1890–1941) — советский изобретатель системы фотографической звукозаписи для звукового кино (1928).
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
59
Крейчи С.А., Кривнова О.Ф., Егоров А.М.
Фотооптический синтезатор АНС и его роль в развитии методов синтеза речи
Рис. 2. Фрагменты оптических фонограмм на киноленте.
А — переменной плотности Б — переменной ширины
Классическая фотооптическая фонограмма, существующая в неизменном
виде с появления звукового кинематографа, представляет из себя дорожку переменной ширины, на которой записан звук. Фонограммы переменной плотности в настоящее время не используются.
На рис. 3 изображена упрощённая функциональная схема звукового кинопроектора. Воспроизведение осуществляется с помощью лампы накаливания (1), оптической системы (3), формирующей изображение
фонограммы (2), узкой звукочитающей щели (4) поперёк фонограммы
и фотоэлектрического датчика (5), преобразующего модулированный
световой поток в колебания электрического тока, которые преобразуется в звук с помощью усилителя с акустической системой (6).
2
3
1
4
5
6
Рис. 3. Функциональная схема звукового инопроектора
Звуковая дорожка с переменной шириной оптической фонограммы, отражавшей форму звуковой волны, привела к идее «рисованного звука» —
искусственного создания её на киноплёнке. В 1931 году Е.А. Шолпо2
сконструировал музыкальный инструмент, получивший название «вариофон». Вариофон представлял собой оптический синтезатор. Звуки за-
60
2
Евгений Александрович Шолпо (1891–1951) — советский изобретатель, музыкант и искусствовед.
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Крейчи С.А., Кривнова О.Ф., Егоров А.М.
Фотооптический синтезатор АНС и его роль в развитии методов синтеза речи
писывались на движущуюся 35-мм плёнку с помощью вырезанных зубчатых дисков
разной формы, изменявших очертания звуковой дорожки. Ниже (рис. 4) показаны
примеры таких дисков.
Рис. 4. Диски Шолпо, формирующие изображение звуковой волны
Несмотря на трудоёмкость метода создания формы звуковой волны непосредственно
в аплитудно-временной области, с помощью вариофона в 30-х годах прошлого столетия были синтезированы фонограммы к ряду мультипликационных фильмов.
Идеи «рисованного звука» были в дальнейшем развиты Е.А. Мурзиным.3 В отличие от
Шолпо, Мурзин пошёл по пути синтеза звука в спектрально-временной области
путём создания достаточно ёмкого «банка» простейших волн синусоидальной формы, из которых путём сложения (согласно теореме Фурье) можно было бы получить
звуковые волны более сложной формы (аддитивный синтез звука).
В отличие от дисков Шолпо, Мурзин создал стеклянный диск, покрытый фотоэмульсией,
на котором были размещены, в виде концентрических колец, 144 звуковые дорожки с синусоидальной формой волны. На рис. 5 показан общий вид диска Мурзина
и фрагмент звуковых дорожек в увеличенном виде. Реально ширина дорожки на
диске Мурзина составляет 0,3 мм, а диаметр самого диска такой же, как у современного CD.
Рис. 5. Диск Мурзина и фрагмент звуковых дорожек в увеличенном виде
3
Евгений Александрович Мурзин (1914–1970) — изобретатель первого в мире фотоэлектронного синтезатора.
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
61
Крейчи С.А., Кривнова О.Ф., Егоров А.М.
Фотооптический синтезатор АНС и его роль в развитии методов синтеза речи
Длина периода волны на всех дорожках была практически одинаковой. Небольшие отклонения были вызваны тем, что «сшить» конец и начало
кольца надо было так, чтобы не было «перелома» фазы. При вращении
диска частота колебаний определялась линейной скоростью кольца, которая при постоянстве угловой скорости вращения возрастала от центра к периферии диска. Расчёт количества периодов на кольце и шага
по радиусу диска был сделан таким образом, что разница в частоте колебаний у соседних звуковых дорожек составляла порядка 1%. Таким
образом, диапазон 144-х дорожек на диске составлял 2 октавы с дискретностью в 1/6 полутона. Воспроизведение звуковых дорожек с диска
Мурзина происходит по той же функциональной схеме, что и в звуковом
кинопроекторе. При этом сложение простейших волн со звуковых дорожек (синтез по Фурье) происходит уже после преобразования их в электрические сигналы. В синтезаторе Мурзина, названном «АНС» в честь
русского композитора Александра Николаевича Скрябина, вращается 5
одинаковых дисков с фотооптическими фонограммами. Возрастающая
в 4 раза от диска к диску скорость вращения обеспечивает диапазон
частот от 20Гц до 20кГц. Дискретность по диапазону в 1/6 полутона
обеспечивает точность (в пределах разрешения слуха по высоте) синтеза до 16-и гармоник основного тона сигнала. Полная ёмкость «банка»
синусоидальных тонов синтезатора АНС составляет 720 дорожек. При
одновременном звучании всего «банка» результат воспринимается как
«белый» шум.
В отличие от звукового в кинопроектора, в синтезаторе АНС предусмотрено ещё устройство, позволяющее выбирать из 720-и звуковых дорожек
только необходимые для звучания в данный момент времени и находящиеся между сформированным изображением фонограммы и читающими фотоэлементами. Это так называемая «партитура» (рис. 6),
представляющая собой стеклянную панель, покрытую непрозрачной
мастикой, в которой можно делать просветы против нужных в данный
момент звуковых дорожек.
Подвижная рама
62
Стеклянная панель с закодированными звуками
Рис. 6. Фрагмент партитуры синтезатора АНС
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Крейчи С.А., Кривнова О.Ф., Егоров А.М.
Фотооптический синтезатор АНС и его роль в развитии методов синтеза речи
Партитура может двигаться относительно устройства чтения – узкой щели, через которую
модулированный свет от звуковых дорожек попадает на фотоэлементы. При движении партитуры прочерченная на ней линия просвета преобразуется в звук определенной высоты и длительности. Кроме того, ширину просвета можно изменять
от 0,1 до 1,0 мм, что позволяет регулировать амплитуду синтезированного звука в
пределах 20 дБ. То есть, партитура – это трёхмерное рабочее поле синтезатора с
координатами, аналогичными динамической спектрограмме (сонограмме). Степень
почернения на сонограмме соответствует ширине просвета на партитуре синтезатора АНС, вертикальная (высота звука) и горизонтальная (время звучания) оси
совпадают. Для удобства реализации гласных звуков, имеющих гармоническую
структуру спектра, в синтезаторе АНС предусмотрено специальное кодирующее
устройство – кодер. Это подвижная каретка с установленными на ней 16-ю управляемыми резцами, позволяющими синхронно прочерчивать линии на партитуре напротив дорожек, частоты которых соответствуют частотам гармоник звука дорожки
напротив линии, прочерченной 1-м резцом.
Рычаг поворота
резцов
Рычажки включения резцов
Рычаг фиксатора
высоты
Указатель высоты
звука
Рис. 7. Кодирующее устройство (кодер) синтезатора АНС
Кодер может передвигаться вдоль вертикальной шкалы, проградуированной в полутонах (шкала в виде фортепианной клавиатуры), и фиксироваться на выбранной в
данный момент высоте, после чего с его помощью проводится на партитуре линия
необходимой длины. Затем операция повторяется для новой высоты и новой длительности.
Промышленный образец синтезатора АНС был готов в 1964 году и предназначался для
создания электронной музыки к кинофильмам и театральным постановкам. На базе
синтезатора АНС в Москве была открыта Экспериментальная студия электронной
музыки (ЭСЭМ), просуществовавшая до 1975 года.
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
63
Крейчи С.А., Кривнова О.Ф., Егоров А.М.
Фотооптический синтезатор АНС и его роль в развитии методов синтеза речи
Рис. 8. Внешний вид синтезатора АНС
1 — блок канальных усилителей с рычажками предустановки уровня звучания; 2 — блок фотоумножителей; 3 — переключатели уровня общего
звучания; 4 — клавиши установки режима амплитудной огибающей
звука; 5 — рычаг управления механическим приводом «партитуры»;
6 — ручной привод партитуры; 7 — педали переключения режимов
работы синтезатора; 8 — педаль начала звучания; 9 — кодирующее
устройство (кодер); 10 — шкала кодера; 11 — читающее устройство
(система плоских линз); 12 — рабочее поле графического управления
синтезом звука (партитура); 13 — клавиши динамического управления
звучанием; 14 — рычажки установки режима записи в память; 15 — механический привод кодера.
Дальнейшая судьба синтезатора АНС была связана с Лабораторией фонетики и речевой коммуникации филологического факультета МГУ
им. М.В. Ломоносова. Здесь он использовался в комплексной научноисследовательской программе, включавшей анализ, синтез, восприятие звучащей речи и имевшей такие практические приложения, как
автоматическое распознавание речи, идентификация личности говорящего, измерения разборчивости речи в вокодерных каналах связи.
64
В 60-х годах прошлого столетия появился русский перевод широко известной
монографии шведского исследователя речи Г. Фанта «Акустическая теория речеобразования», положившей начало моделированию речевого тракта с помощью электрических аналогов артикуляторных органов.
Появилось такое понятие, как синтез речи «по правилам». Под «правилами» имелся в виду алгоритм вычисления изменяющихся параметров
элементов электрического аналога речевого тракта в зависимости от
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Крейчи С.А., Кривнова О.Ф., Егоров А.М.
Фотооптический синтезатор АНС и его роль в развитии методов синтеза речи
произносимых звуков. Для управляющей ЭВМ правила задавались в виде таблиц
изменяющихся параметров.
В этот период синтезатор АНС оказался удобным инструментом для реализации синтеза
«по правилам», так как рабочее поле синтезатора позволяло в реальном времени
управлять такими параметрами, как основной тон голоса; его спектральный состав;
степень усиления или ослабления гармоник в местах спектральных максимумов или
минимумов речевого тракта; вставка необходимых шумовых компонентов в местах
согласных звуков; длительность каждого отдельного звука. Таким образом, рассчитанные теоретически спектрально-временные параметры высказывания на синтезаторе АНС могут быть реализованы графическим способом в реальном времени.
Кроме того, прослушивание результата и корректировка отдельных параметров также осуществляются в реальном времени.
Внешне рисунок речевого высказывания на партитуре синтезатора АНС (рис. 9) аналогичен узкополосной сонограмме, на которой видны гармоники гласных звуков.
С
А
Ш
А
Рис. 9. Вид звуков слова «Саша» на партитуре синтезатора АНС
Из этого следует, что в речевых задачах синтезатор АНС в докомпьютерный период
исследований выполнял функции одного из главных компонентов современных
систем синтеза речи — акустического модуля или, иначе, модуля генерации речевого сигнала («говорилки»). В компьютерную эпоху синтез речи как необходимый инструмент обеспечения человеко-машинной коммуникации стал одним из
важнейших направлений в компьютерных речевых технологиях. Опыт речевых
разработок и результаты фонетических исследований, проведенных с использованием синтезатора АНС, оказались особенно полезными для дальнейшего развития таких способов генерации речевого сигнала, как параметрический ресинтез
(вокодерного типа) и параметрический синтез произвольного сообщения по правилам.
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
65
Крейчи С.А., Кривнова О.Ф., Егоров А.М.
Фотооптический синтезатор АНС и его роль в развитии методов синтеза речи
Здесь уместно сделать небольшой исторический экскурс. Первые попытки
синтеза речи на базе ЭВМ относятся к концу 50-х годов, а первый синтезатор по произвольному тексту типа «текст-речь» был создан в конце 60-х годов прошлого столетия. Современные системы синтеза речи
в общем случае состоят из двух главных блоков: блока лингвистической
обработки текста (сообщения) и блока озвучивания (акустического модуля), а также интерфейса между ними — управляющего блока [Кривнова и др., 1997]. Более детальная функциональная и архитектурная
стратификация синтезатора определяется стратегией формирования
речевого сигнала, т.е. устройством блока озвучивания и его взаимодействием с блоком лингвистической обработки текста и модулем управления просодическими (интонационными) параметрами.
Самое крупное разделение стратегий, применяемых в акустических модулях
современных синтезаторов речи, связано с целевым объектом моделирования: здесь прежде всего выделяются подходы, которые направлены на построение действующей модели речепроизводящей системы
(речевого тракта) человека, и подходы, где ставится задача смоделировать только сам речевой сигнал.
Первый подход известен под названием артикуляторного синтеза. Звуковая
волна генерируется в этом случае по математической модели, имитирующей работу речевого аппарата человека (с учетом возникающих
при этом аэродинамических и акустических процессов), в соответствии с классической акустической моделью речеобразования «источник-фильтр». В ближайшей перспективе этот метод для практического
использования не подходит в силу чрезвычайной сложности моделей
и наличия нерешённых теоретических проблем.
Второй подход представляется на сегодняшний день более простым, и потому он лучше изучен; возможно, именно поэтому он является также
и более успешным. Внутри него выделяются два основных направления — формантный синтез (очень популярная разновидность параметрического синтеза по правилам) и конкатенативный (компилятивный)
синтез4.
Системы, использующие формантный синтез, в течение многих лет признавались наиболее перспективными. Формантные синтезаторы генерируют возбуждающий сигнал (источник звука), который проходит через
фильтр (фильтры), построенный (-ые) на нескольких резонансах, похожих на резонансы речевого тракта.
Разделение возбуждающего сигнала и передаточной функции речевого
тракта, как известно, составляет основу классической акустической
теории речеобразования. Таким образом, при этом подходе моделируется не работа речевых органов, а непосредственно её акустический
результат (прежде всего голосовые и спектральные характеристики
сигнала, вычисленные или выделенные из готового сигнала на основании модели «источник-фильтр»). Подобная стратегия генерации
66
4
В настоящее время наиболее популярен и продуктивен в коммерческом отношении синтез, использующий в том или ином виде готовые, заранее записанные фрагменты дикторской речи, он же конкатенативный (от «конкатенация — «соединение, склейка»). Две главных его разновидности — синтез универсального назначения (по произвольному тексту)
и специального (для ограниченной предметной области; например, говорящие часы, автосекретарь, объявления на вокзале и т.п.). Далее эти системы не будут рассматриваться, так
как они работают на принципах, совершенно отличных от тех возможностей, что заложены
в синтезаторе АНС, см. [Hunt, Black 1996; Кривнова 1998].
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Крейчи С.А., Кривнова О.Ф., Егоров А.М.
Фотооптический синтезатор АНС и его роль в развитии методов синтеза речи
речевого сигнала доминировала до начала 1980-х гг. не только в зарубежных
[Klatt 1987], но и в отечественных разработках синтеза речи. Более подробно о
достижениях и проблемах этого направления речевых технологий можно прочитать
в статье [Лобанов 2008]. В настоящее время по основным параметрам качества
синтезированной речи формантные синтезаторы уступают более современным
технологиям.
В последнее время все большую популярность приобретает параметрический синтез
речи по правилам с использованием скрытых Марковских моделей (HMM-СММсинтез) [Black et al. 2007]. Это и не удивительно, так как многие компьютерные
приложения включают функции не только синтеза, но и распознавания речи,
а системы последнего типа в основном работают на технологиях с применением
акустических СММ языка. В обоих случаях для обучения и формирования статистических акустических моделей звуковых единиц целевого языка используются
представительные массивы записанной естественной речи (тренировочные речевые корпуса).
Для синтеза речи в этом случае используются статистические параметры, задаваемые акустическими моделями, а не исходное звучание фрагментов естественной
речи. По оценкам экспертов, эта наиболее перспективная и продвинутая технология параметрического синтеза в последние несколько лет сравнялась по уровню
качества синтезированной речи с селективным синтезом методом конкатенации,
а в некоторых условиях даже может её превосходить (при малых объёмах тренировочного корпуса; по разборчивости в условиях шума). К ее достоинствам относится
и то, что в акустических СММ-моделях учитываются все акустически релевантные
параметры состояний речевого тракта, параметры звуковых источников и передаточной функции, длительность, энергия и динамика их изменения при переходе из
одного состояния в другое (т.н. дельта-параметры), и при этом возможно масштабирование сложности системы (более качественный синтез — выше требования
к ресурсам, нет привязки к фиксированному набору донорских голосов).
Однако в акустических модулях таких систем обычно используются вокодеры, что порождает относительно неестественный («металлический», «жужжащий») тембр
звучания синтезированной речи, и в этом направлении современный параметрический синтез нуждается в дальнейших усовершенствованиях.
Возвращаясь к обсуждению возможностей параметрического синтезатора АНС, нужно отметить, что в его наиболее востребованный, рабочий период (70–80-е годы
прошлого столетия) одним из направлений разработок Лаборатории фонетики
и речевой коммуникации МГУ было изучение системы коммуникативных сигналов
морских млекопитающих, в частности, свистовых сигналов дельфинов. Целью этих
исследований было создание искусственного языка-посредника для более полного
объёма выполняемых задач обученным дельфином. Такие работы велись в США,
и результаты показывали, что дельфин способен выполнять более сложную программу действий, сообщаемую таким языком, чем по простым командам. В этом
плане синтезатор АНС позволял реализовать свистовые сигналы дельфинов и легко изменять их конфигурацию (контур частотно-временной огибающей). Эксперименты по восприятию дельфинами синтезированных свистовых сигналов проводились в дельфинариях, но в 90-х годах все научные программы такого рода были
свёрнуты.
Роль синтезатора АНС в речевых исследованиях также заметно снизилась с появлением персональных компьютеров у каждого исследователя и разработкой доступных исследовательских программ типа Speech Analyzer SIL или Praat. Однако идея
управления синтезом звука на синтезаторе АНС с помощью графического рисунка
продолжала жить, и нашла своё воплощение в оригинальной разработке компьютерного центра филологического факультета МГУ им. М.В. Ломоносова.
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
67
Крейчи С.А., Кривнова О.Ф., Егоров А.М.
Фотооптический синтезатор АНС и его роль в развитии методов синтеза речи
Алгоритмы такого управления должны были воспроизвести, в большей или
меньшей степени приближения, механические действия самого синтезатора АНС. В результате была выработана следующая блок-схема модели:
1. Блок, эмулирующий вращающиеся оптические диски, как источника
синусоидальных колебаний (см. рис. 5).
2. Графический блок (или «партитура»), как компьютерный аналог стеклянной панели синтезатора (см. рис. 6).
3. Эммулятор кодера (см. рис. 7).
4. Управление синтезом и воспроизведение синтезированного звука.
Это, конечно, очень упрощённая блок-схема, но было интересно, сможет ли
она в цифровом виде повторить качества и функциональность свойств
аналогового синтезатора?
Поставленные задачи были реализованы на языке C# (си шарп) в среде
Microsoft Visual C# 2008. Выполняемый модуль – ANS.exe, объём модуля — 62 килобайта. Первый блок был реализован в виде 720-ти генераторов синусоидального сигнала. Частота каждого генератора соответствует частоте воспроизводимой каждой дорожкой «Диска Мурзина».
Для каждго из генераторов задан случайный фазовый сдвиг, а также
случайная девиация периода в пределах 5%.
Графический блок или «партитура» представляет собой простой графический редактор, в котором можно с помощью «мыши» рисовать как произвольные фигуры, так и прямые линии. Толщину линий можно регулировать от 1 до 10 пикселей (1 пиксель = размеру точки экрана монитора).
Рис. 10. Общий вид окна ANS.exe с произвольно нарисованными линиями
Вертикальные линии в графическом редакторе соответствуют 0,5 секунды
звучания, горизонтальные — одной октаве по частоте звука в логарифмическом режиме шкалы. Имеется возможность переключения частотной шкалы из логарифмического масштаба в линейный.
68
На рис. 11 представлена спектрограмма синтетезированного сигнала сгенерированная из палитры рис. 10, которая сделана в анализаторе
«PRAAT» в линейном масштабе частотной шкале.
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Крейчи С.А., Кривнова О.Ф., Егоров А.М.
Фотооптический синтезатор АНС и его роль в развитии методов синтеза речи
Рис. 11
Эммулятор кодера представляет собой панель с двенадцатью клавишами, т.е. — одна
октава. Кодер в пределах окна палитры можно перемещать как с помощью мыши,
так и с помощью клавиш перемещения курсора. Сочетания клавиш с Ctrl, Shift и Alt
позволяют перемещать кодер по горизонтали на 1/8 сек., на 1/4 сек. и на 1/2 сек. по
горизонтали и на 1/2 октавы или 1 октаву по вертикали. Нажатием «мыши» на клавишу кодера опускается или поднимается рисующий маркер, нажатие «мышкой»
на символ # в правом нижнем углу переключает маркер в положение рисование /
не рисование. Перемещать маркер по палитре можно как с помощью «мышки», нажав и удерживая левую клавишу в области квадратика в правом верхнем углу, так
и с помощью клавиатуры. На рис. 12 представлен пример рисования с помощью
маркера.
Блок управления синтезом — это алгоритм, преобразующий линии, нарисованные на
партитуре, в звук. Окно шириной в один пиксель перемещается по партитуре, при
этом включаются те генераторы, где на партитуре располагаются пиксели с оттенком градации серого цвета от 1 бита до 8. Оттенок серого цвета регулирует амплитуду сигнала. Общая длительность сигнала составляет 4 сек. Частотная шкала может
быть как логарифмической (по умолчанию), так и линейной.
Рис. 12. Рисование с помощью маркера
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
69
Крейчи С.А., Кривнова О.Ф., Егоров А.М.
Фотооптический синтезатор АНС и его роль в развитии методов синтеза речи
Имеется возможность сохранить звуковой сигнал в формате WAV, а также
загрузить рисунок в партитуру или сохранить рисунок в формате TIFF.
Рис. 13. Пример записи отрывка музыкальной композиции
в палитре синтезатора ANS
На рис. 13 представлен пример записи отрывка музыкальной композиции
Гершена Кингсли «Popcorn» (1969) в палитре синтезатора ANS, а на
рис. 14 — результат спектрального анализа синтезированного звука
в линейном режиме частотной шкалы, сделанный в анализаторе Praat.
Frequency (Hz)
5000
0
0
4
Time (s)
Рис. 14. Спектрограмма синтезированного звука в линейном режиме
частотной шкалы, сделанная в анализаторе Praat
70
Синтезатор АНС – уникальный пример технической реализации фотооптического метода звукосинтеза и графического управления параметрами
звучания продолжает действовать и в настоящее время является экспонатом Центрального музея музыкальной культуры им. М.И. Глинки.
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Крейчи С.А., Кривнова О.Ф., Егоров А.М.
Фотооптический синтезатор АНС и его роль в развитии методов синтеза речи
Литература
1. Анфилов Г.А. Физика и музыка. М., 1962.
2. Крейчи С.А. Синтез речи, или история говорящих машин // «Комппьютерра», 15, М.,
1999. С. 32–33.
3. Крейчи С.А., Ровнер ., А.?. АНС продолжает работать // «Музыкальная Академия»,
4,. М. 1999. С. 191–195.
4. Мурзин Е.А. У истоков электронной музыки. М., 2008.
5. Крейчи С.А. История синтезатора АНС// Сб. «А.Н. Скрябин в пространствах культуры
ХХ века». М., 2009. С. 193–205.
6. Крейчи С.А., Дмитрюкова Ю.Г. АНС. Музыкальные инструменты// Энциклопедия, М.,
2008. С. 30–31.
7. Kreichi S.А. The ANS Synthesizer: Composing on a Photoelectronic Instrument //
«Leonardo», v. 28, 1, 1995, USA. P. 59–62.
8. Vail M. Eugeniu Murzin’s ANS // «Keyboard», nov. 2002, USA. P. 120.
9. Лобанов Б.М. О развитии речевых технологий в Белоруссии // «Речевые технологии», 1, 2008. C. 49–59.
10. Кривнова О.Ф., Гладков С.М., Чардин И.С. Узнайте его по голосу (автоматический
компьютерный синтез речи по тексту) // «Компьютерра» (компьютерный еженедельник),
декабрь 1997.
11. Black A., Zen H., Tokuda K. Statistical parametric Speech Synthesis // ICASSP, 2007, IV.
P. 1229–1231.
12. Klatt D. How Klattalk became DECtalk: An Academic's Experiences in the Business
World // The Official Proceedings of Speech Tech '87 (New York: Media Dimensions / Penn
State), 1987.
13. Hunt A.J., Black A.W. Unit Selection Synthesis in a Concatenative Speech Synthesis
system Using a Large Speech Data Base // Proc. of ICASSP-1996. P.1–4.
14. Кривнова О.Ф. Автоматический синтез русской речи по произвольному тексту (вторая версия с женским голосом) // Труды международного семинара Диалог'98 по компьютерной лингвистике и ее приложениям. Казань, 1998. С. 498–511.
Сведения об авторах
Крейчи Станислав Антонович —
научный сотрудник филологического факультета МГУ им. М.В. Ломоносова.
Кривнова Ольга Фёдоровна —
доктор филологических наук, старший научный сотрудник филологического факультета
МГУ им. М.В. Ломоносова.
Егоров Анатолий Михайлович —
начальник компьютерного центра филологического факультета МГУ им. М.В. Ломоносова.
71
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
О возможности идентификации
говорящего с использованием
Skyp-канала (на базе акустических параметров)*1
Потапова Р.К., академик Международной академии информатизации, доктор филологических наук, профессор,
заслуженный работник Высшей школы РФ
Собакин А.Н., доктор филологических наук,
Маслов А.В., преподаватель
В статье предложен метод идентификации говорящего по речевому сигналу в системе Skype на базе импульсного преобразования
речи (ИПР). Для сравнения исследовались речевые сигналы, записанные в безэховой камере, и те же речевые сигналы, прошедшие
через канал передачи IP-телефонии Skype. Цель исследования —
определение индивидуальных особенностей функционирования голосового источника говорящего (фонации) в зависимости от канала
передачи речевого сигнала для установления возможности идентификации говорящего по голосовым характеристикам в информационных системах.
· метод ИПР · характеристики голосового источника · статистическое
оценивание формы импульса · интрадикторская вариативность.
The paper presents the research method proposed for speaker identification by speech signals in the Skype system based on the use of speech
pulse conversion (SPC). Speech signals recorded in an anechoic chamber, and the same speech signals transmitted via the IP-telephony Skype
channel were studied. The goal of the research was to identify individual
features of speaker’s vocal source (phonations) depending on the speech
signal transmission channel in order to ascertain the possibility of speaker
identification by speech characteristics in information systems.
72
* Доклад был прочитан на «XIV Международной научно-технической конференции. Киберненика и высокие технологии XXI века»
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Потапова Р.К., Собакин А.Н., Маслов А.В.
О возможности идентификации говорящего с использованием
Skyp-канала (на базе акустических параметров)
Идентификация говорящего по голосу и речи, пути и методы решения этой задачи становятся
всё более актуальными аспектами проблемы выявления лиц, выступающих в деструктивном ключе и призывающих к дестабилизации государственных устоев, терроризму,
смене режимов и т.д. Следует подчеркнуть, что развитие новых информационн0-коммуникационных технологий и, в частности, Интернета внесло свой «вклад» в социальную
составляющую межличностного взаимодействия.
В настоящее время в Интернете активно используется наряду с письменной речью звучащая
(устная) речь на базе программы Skype. Согласно данным средств массовой информации (например, Metro, № 11, 02.2013 г.) аналитики компании TeleGeography отмечают,
что в настоящее время интернет-сервис Skype занимает одну треть от всего телефонного голосового трафика в мире. Если по обычной телефонной связи за 2012 год объём
передаваемой информации увеличился на 5% по сравнению с показателем 2011 года,
то по связи Skype — на 44%, что свидетельствует о возросшей роли данного способа
коммуникации.
В связи с этим возникает новая опасность использования данного инструментария в деструктивных целях. Вполне вероятно, что использование методов маскировки (например,
грима, накладных бороды, усов и т.д.) может изменить визуальный образ говорящего
по каналу Skype. Однако можно предположить, что определенные параметры речевого
сигнала говорящего, несмотря на влияние передающего тракта, несут «следы» индивидуального голоса и речи говорящего, участвующего в акте речевой коммуникации, и это
может относиться, прежде всего, к тонкой структуре речевого сигнала.
Процесс речевой коммуникации представляет собой сложный и не полностью изученный
феномен [Потапова 2010; 2012]. Одним из подходов к изучению подобного феномена
является процедура упрощения явления, выделения его наиболее важных характеристик и функциональных связей. Оптимальным подходом к исследованию речевой коммуникации служит создание функциональной модели процесса речевой коммуникации,
включающего блоки речепроизводства и речевосприятия.
Процесс речепроизводства можно представить в виде двух компонент:
— формирование команд управления на нейронном уровне органами фонации и артикуляции;
— непосредственное генерирование органами фонации и артикуляции звуковых эффектов, соотносящихся с частотой основного тона и сегментным строем того или иного
языка.
Органы слуха реципиента регистрируют волновые колебания воздушного давления, и высшие отделы головного мозга производят дальнейшую обработку данных. Все перечисленные уровни речевой коммуникации труднодоступны для прямых наблюдений и регистрации характеристик их функционирования, что создает дополнительные трудности
при изучении данного явления.
В ряде прикладных областей речеведения [Потапова 2010; Потапова, Потапов 2012] единственным доступным для измерений является речевой сигнал, который служит в дальнейшем базовым источником информации о процессах речеобразования и восприятия
речи, их параметрах и характеристиках.
Опираясь на исследования пространственного распространения звукового давления в речевом тракте, Г. Фант обобщил полученные результаты [Фант 1964] и предложил одномерную модель речеобразования, удобную для разработки математических методов
анализа и синтеза речи по параметрам. Согласно данной модели, речь рассматривается в виде фильтрации источников звука линейной системой речевого тракта. Модель
является электротехническим аналогом линейной цепи с сосредоточенными параметрами в виде четырехполюсника, на входе которого имеется энергетический источник напряжения. Передаточная функция четырёхполюсника описывает резонансные свойства
речевого тракта [Фант 1964: 39–58].
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
73
Потапова Р.К., Собакин А.Н., Маслов А.В.
О возможности идентификации говорящего с использованием
Skyp-канала (на базе акустических параметров)
Источник напряжения имитирует работу голосовых связок на озвученных участках речи и (или) стохастическую функцию возбуждения на шумоподобных
участках. На основе линейной модели речеобразования разработан метод
импульсного преобразования речи (ИПР), позволяющий по речевому сигналу исследовать характеристики функционирования голосовых связок.
Исследование формы импульса основного тона (ОТ) предлагается осуществлять на основе импульсного преобразования речи (ИПР) [Собакин
1972; 2006], которое позволяет по речевым колебаниям определять аналог импульса ОТ без использования дополнительных каналов измерения
акустических характеристик речевых колебаний. Метод ИПР показал свою
эффективность при исследовании колебаний голосовых связок по речевым
сигналам, записанным в акустической студии.
В настоящей статье рассматривается проблема применимости данного метода
при исследовании сигналов, преобразованных в системах IP-телефонии как
наиболее распространённых коммуникационных средств в Интернете.
В качестве примера синтетической передачи речевых сообщений в интернетпространстве выбрана система Skype. Выбор системы передачи речи типа
Skype определяется широким охватом интернет-пользователей, что может
быть применено к сфере идентификации автора сообщения в специальных
целях (например, для выявления авторства высказываний).
Основные задачи, связанные с применением ИПР к исследованию голосового
источника и возможной идентификации говорящего по полученным данным, состоят в следующем:
1. Проверить работоспособность метода ИПР на речевых сигналах, записанных в системе Skype.
2. Провести сравнительный анализ полученных данных с результатами исследования тех же речевых сигналов, записанных в акустической студии
(безэховой камере).
3. Установить наличие или отсутствие индивидуальных характеристик голосовых источников дикторов, обусловленных спецификой передачи по каналу Skype.
Необходимость проверки работоспособности метода ИПР объясняется скрытостью принципов кодирования, передачи и синтеза речевых сообщений в системе Skype. Каждая фирма, разрабатывающая систему анализа и синтеза
речи (и не только), в современных условиях при наличии высокопроизводительных вычислительных систем в качестве конечного результата имеет
программный продукт. Это позволяет не раскрывать методов и алгоритмов
преобразования речи на этапе его первичного описания, методов кодирования и передачи по каналу связи, а также методов синтеза речевых сообщений.
В рамках данного исследования наибольший интерес представляют методы восстановления (имитации) формы импульса основного тона. При этом остаются неизвестными ни методы синтеза импульсов ОТ, ни характеристики
голосового источника, используемые при синтезе голосового возбуждения
речевого тракта.
74
При изучении речи рассматривают четыре основных типа источника речевых колебаний [Сапожков 1963, 31–37]:
1) голосовое (тональное) возбуждение;
2) шумовое (турбулентное) возбуждение;
3) смешанное возбуждение;
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Потапова Р.К., Собакин А.Н., Маслов А.В.
О возможности идентификации говорящего с использованием
Skyp-канала (на базе акустических параметров)
4) импульсное возбуждение (взрыв).
Различают также аспирированные (придыхательные) звуки и звуки с модуляцией воздушного
потока, когда имеется сужение в голосовой щели, но колебаний связок не происходит.
Звуки речи делятся на гласные (только голосовой источник возбуждения), глухие согласные
(турбулентный источник возбуждения), звонкие согласные (смешанный источник возбуждения) и взрывные. Тип источника возбуждения является одним из признаков звука и его отличительной характеристикой. Наиболее информативным из перечисленных
источников является голосовой источник возбуждения речевого тракта [Ondrachkova
1966; Потапова, Михайлов 2012; Потапова, Потапов 2012]. Колебания голосовых связок
в процессе образования звуков речи содержат индивидуальные особенности говорящего и улавливаются слушающим в процессе восприятия слухового образа. Особенно ярко
индивидуальные характеристики гортани проявляются при образовании гласных звуков
речи.
Гласные звуки речи встречаются в различном окружении других звуков речи и, в частности,
могут образовываться в изолированном (стационарном) варианте. При этом функционирует только голосовой источник возбуждения.
Основными характеристиками голосового источника являются:
1) интенсивность голосового источника — временнáя огибающая речевого сигнала;
2) период колебаний голосовых связок (период основного тона) или величина обратная
этому периоду — частота основного тона;
3) форма импульса основного тона, определяемая микроструктурой колебаний голосовых связок в процессе образования гласных звуков речи.
Первые два признака голосового источника (интенсивность и частота основного тона) вместе
с формантными характеристиками используются во многих системах идентификации
дикторов [Рамишвили 1981] и, как отмечает автор, значительная часть информации
о тембре голоса диктора при таком подходе не учитывается. Это обстоятельство оказывает отрицательное влияние на качество процедуры идентификации дикторов.
Таким образом, представляется целесообразным при идентификации использовать информацию о форме импульса основного тона или о его аналоге. Задача определения формы импульса основного тона по речевому сигналу является достаточно сложной и до настоящего времени не имеющей эффективного решения. Один из возможных вариантов
ее решения описан в работе [Собакин 2010].
Форма импульса основного тона в модельном представлении иногда описывается положением максимума импульса, величиной (амплитудой) максимума, наклоном начального
и конечного участков импульса [Fant 1979]. Общепринято, что максимум возбуждения речевого тракта определяется крутизной наклона импульса глотки в момент закрывания связок. Однако более тонкие исследования функционирования голосового
источника показывают, что аппроксимация импульса основного тона прямыми линиями и его экстремумами не учитывает продольных и поперечных колебаний голосовых
связок.
По данным работы [Sundberg, Gauffin 1978] на интервале смыкания голосовых связок воздушный поток уменьшается до нуля не сразу, а постепенно. Это объясняется тем, что голосовые связки расположены в процессе сближения не параллельно. Иногда на интервале
смыкания отмечается небольшая пульсация.
В данном исследовании используется импульсное преобразование речи (ИПР) [Собакин
1972; 1999; 2006] для выявления индивидуальных характеристик голосовых связок по
речевому сигналу.
Преобразование речи в импульсную последовательность, синхронную с колебаниями голосовых связок, позволяет исследовать форму полученных импульсов методами математи-
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
75
Потапова Р.К., Собакин А.Н., Маслов А.В.
О возможности идентификации говорящего с использованием
Skyp-канала (на базе акустических параметров)
ческой статистики. Для этого предлагается проводить нормировку полученных импульсов по их центрам, и осуществлять сложение нормированных
импульсов. Эти процедуры позволяют получить статистически значимый
«образ» полученной последовательности импульсов в виде нечеткого множества, сохраняющий индивидуальные особенности функционирования голосового источника диктора.
В ходе исследования аппаратно-программный комплекс, при помощи которого
осуществлялась звукозапись в акустической студии, состоял из следующих
элементов:
I. Аппаратное обеспечение
I.1. Портативный компьютер Toshiba Qosmio G30-211-RU
I.2. Аудиоплата Creative Professional E-MU 1616m PCMCIA
I.3. Усилитель измерительный Bruel & Kjaer, тип 2610
I.4. Микрофон Shure SM48, класс качества 1
I.5. Дикторская кабина AUDIOSTOP-1
II. Программное обеспечение
II.1. Операционная система Microsoft Windows XP
II.2. Программа записи и исследования речевых сигналов «Мастерская сигналов» («ZSignalWorkshop» [Мастерская сигналов 2012]).
II.3. Виртуальный микшерский пульт Creative (поставляется в комплекте со
звуковой платой, указанной в п. I.2).
В целях мониторинга и контроля качества производимых записей дополнительно использовались наушники профессионального класса качества
Beyerdynamic DT 770 PRO, программно-аппаратный комплекс Computerized
Speech Lab (CSL), модель 4500, а также программный пакет Sony Sound
Forge 9.0.
В рамках данного исследования проверялась гипотеза о возможности определения индивидуальных характеристик импульса основного тона по речевому сигналу с использованием ИПР для двух типов записи речевых сигналов:
1) сигналов, записанных в акустической студии и пропущенных через полосовой фильтр телефонного канала связи (сигналы без искажений системы
передачи по каналу связи);
2) сигналов первого типа, пропущенных через систему телефонии Skype.
Обработка гласных осуществлялась вычислительной программой в системе символьной математики MATLAB 7.6.0.324, автором которой является А.В. Маслов.
На первом этапе исследовались сигналы первого типа без искажений канала
связи.
Выбранный исследователем отрезок речевого сигнала (рис. 1) делится на вектора (одномерные массивы) типа {x(j),…, x(j+N+p-1)},где N- размерность
векторов, p — порядок автокорреляционной матрицы. Параметры задаются
исследователем.
76
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Потапова Р.К., Собакин А.Н., Маслов А.В.
О возможности идентификации говорящего с использованием
Skyp-канала (на базе акустических параметров)
Рис. 1. Осциллограмма звука [a] диктора — женщины
По набору векторов строится соответствующая автокорреляционная матрица. Последовательно с изменением текущего значения временнόго параметра n вычисляется определитель каждой построенной матрицы. Для сглаживания выделенных импульсов в некоторых случаях применялся корень из определителя порядка автокорреляционной матрицы.
Последовательность вычисленных определителей образует импульсную функцию, являющуюся моделью работы голосовых складок (рис. 2).
Рис. 2. Последовательность импульсов
Полученная квазипериодическая последовательность импульсов полностью согласуется,
по крайней мере визуально, с работой голосового источника: импульсы соответствуют увеличению амплитуды речевых колебаний на периоде основного тона. Именно так
в рамках рассматриваемой модели речеобразования должно происходить в моменты
раскрытия голосовых связок: проступающая в речевой тракт (линейную диссипативную
систему) энергия подсвязочного давления увеличивает амплитуду сигнала на выходе
этой системы.
Дальнейшая статистическая обработка полученных импульсов направлена на получение
статистически значимой оценки формы («образа») импульса основного тона. Подобная
отработка полученной импульсной последовательности связана с решением нескольких
сложных задач:
1) выделение самих импульсов;
2) нормировку импульсов по амплитуде;
3) статистическое оценивание формы импульса.
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
77
Потапова Р.К., Собакин А.Н., Маслов А.В.
О возможности идентификации говорящего с использованием
Skyp-канала (на базе акустических параметров)
В импульсной последовательности определялись экстремумы (максимумы и минимумы соответственно), что позволяло выделить изолированные импульсы. При этом значения последовательности, не превышающие пороговой
величины, обнулялись.
В данной работе пороговое значение принималось равным 1/100 от максимума
одного импульса или временной огибающей, вычисленной для нескольких
(как правило, 3-5) смежных импульсов.
Пример описанного метода выделения импульсов приведен на рисунке 3.
Рис. 3. Выделенные максимумы и минимумы
Изолированный импульс в данном случае определялся как часть изменения функции на участке от минимума до ближайшего минимума. Из приведённого
примера видно, что полученные таким образом импульсы будут отличаться друг от друга по амплитуде и длительности. Поэтому простое наложение
этих импульсов друг на друга является некорректным и подобная процедура не позволяет в данном случае выделить статистически значимую форму
импульса основного тона.
В данной работе предлагается использовать интегральные характеристики выделенного импульса, зависящие от всей конфигурации импульса в целом.
Подобной интегральной характеристикой импульса, по мнению авторов
проекта, может служить центр импульса, координаты которого определяются равенством площадей относительно двух секущих параллельных осям
координат.
Полученные результаты содержат информацию о двух принципиально важных
свойствах работы голосовых связок в процессе образования изолированных гласных звуков речи:
— характер колебаний голосовых связок коррелирован с произносимым
звуком речи для одного и того же диктора;
— голосовые связки разных дикторов при образовании одинаковых звуков
функционируют по-разному и имеют несомненные индивидуальные характеристики.
Напомним, что в данной работе рассматривается вопрос о применимости импульсного преобразования речи к исследованию сигналов, преобразованных в системах IP-телефонии как наиболее распространенных коммуникационных средств интернета.
78
Как указывалось ранее, в качестве примера синтетической передачи речевых
сообщений в интернет-пространстве была выбрана распространенная система Skype, т.е. рассматривались сигналы второго типа, прошедшие си-
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Потапова Р.К., Собакин А.Н., Маслов А.В.
О возможности идентификации говорящего с использованием
Skyp-канала (на базе акустических параметров)
стему Skype, и содержащие дополнительные шумы и искажения, свойственные данной
системе передачи речевых сообщений.
В рамках настоящего исследовании наибольший интерес представляют методы восстановления (имитации) формы импульса основного тона в системе Skype. При этом остаются неизвестными ни методы синтеза импульсов ОТ, ни характеристики голосового источника,
используемые при синтезе голосового возбуждения речевого тракта.
Работоспособность метода проверялась на материале, полученном при произнесении шести
дикторов. Каждый диктор произносил в стационарном режиме шесть русских гласных
«а», «э», «и», «о», «у», «ы». Гласные записывались в акустической комнате (безэховой
камере) с помощью широкополосного микрофона. Записанные гласные пропускались
через систему передачи речевых сообщений Skype и вновь записывались. Качество записи исходных и преобразованных гласных в обоих случаях было высоким (частота дискретизации по времени — более 40 кГц, дискретизация по амплитуде — 16 бит/отсчет).
Записанные сигналы гласных программно фильтровались полосовым фильтром с полосой
пропускания от 300 Гц до 3400Гц с затуханием порядка 60 дБ на концах диапазона частот от 0Гц до 4000Гц, соответствующего диапазону частот телефонного канала. Затем
сигнал прореживался в отношении 1:5, что приближенно соответствовало частоте дискретизации по времени 8 кГц (по Котельникову).
Предварительный ответ на вопрос, поставленный в ходе данного исследования, следует считать положительным. Метод ИПР работоспособен в применении к сигналам в системе
Skype при исследовании индивидуальных характеристик голосового источника, как для
мужских, так и женских голосов.
Результаты исследования изолированно произнесенных русских гласных на данном этапе позволяют сделать следующие выводы:
1. Метод ИПР работоспособен на речевых сигналах (гласных звуках речи), записанных
на приёмном конце IP-телефонии системы Skype.
2. Сравнительный анализ импульсных характеристик гласных, полученных в системе
Skype, с результатами тех же речевых сигналов, записанных в акустической студии (безэховой камере), показал, что усредненные «образы» импульсов отличаются друг от друга для одного и того же диктора, т.е. имеется интрадикторская вариативность.
3. Выделенные импульсные последовательности и созданные на их основе статистически значимые «образы» импульсов основного тона в системе Skype, описывающие работу голосового источника, по форме различны для различных гласных одного диктора
и, что более важно, существенно отличаются друг от друга для разных дикторов
(интердикторская вариативность), что может служить основой для идентификации говорящего.
Литература
1. Потапова Р.К. Речь: Коммуникация, информация, кибернетика. 4-е изд., доп. М.: Книжный
дом «Либроком», 2010. 594 с.
2. Потапова Р.К. Речевое управление роботом: лингвистика и современные автоматизированные системы. 3-е изд. М.: Комкнига, 2012. 328 с.
3. Потапова Р.К. Новые информационные технологии и лингвистика: Учебное пособие. Изд.
5-е. М.: Книжный дом «ЛИБРОКОМ», 2012. 368 с.
4. Потапова Р.К., Михайлов В. Г. Основы речевой акустики. М.: ИПК МГЛУ «Рема», 2012.
494 c.
5. Потапова Р. К., Потапов В. В. Речевая коммуникация: От звука к высказыванию. М.: ЯСК,
2012. 464 с.
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
79
Потапова Р.К., Собакин А.Н., Маслов А.В.
О возможности идентификации говорящего с использованием
Skyp-канала (на базе акустических параметров)
6. Рамишвили Г.С. Автоматическое опознавание говорящего по голосу. М.:
«Радио и связь», 1981. 224 с.
7. Сапожков М.А. Речевой сигнал в кибернетике и связи. М.: «Связьиздат»,
1963. 452 с.
8. Собакин А.Н. Об определении формантных параметров голосового
тракта по речевому сигналу с помощью ЭВМ // Акустический журнал АН
СССР. 1972. № 1. С. 106–114.
9. Собакин А.Н. Основной тон речи и метод его исследования // IX сессия РАО:
Современные речевые технологии. Сб. тр. М.: ГЕОС. 1999. С. 47–50.
10. Собакин А.Н. Артикуляционные параметры речи и математические методы
их исследования // Вестник МГЛУ. М., 2006. 220 с.
11. Собакин А.Н. Выделение импульсов основного тона по речевому сигналу. XXII сессия РАО: Современные речевые технологии. Сб. тр. М.: ГЕОС.
2010. С. 48–52.
12. Фант Г. Акустическая теория речеобразования / Пер. с англ. М.: Наука,
1968. 284 с.
13. Fant G. Speech production. Glottal source and excitation analysis // Quart Progr.
And Status. Rept. Speech Transmiss. Lab. 1979. № 1. P. 85–107.
14. Farnsworth D.W. High speed motion pictures of the human vocal cords // Bell
Teleph. Lab.: Record. 1940. V. 18. P. 203.
15. Ondrachkova J. Glottographical research in sound groups // Модели восприятия
речи. Международный психологический конгресс. М.,1966. Л., 1966. P. 90-94.
16. Sundberg J. and Gauffin J. Logopedics wave-form and Status Rept. Speech
Transmiss. Lab. 1978. № 2–3. P. 35–50.
17. Электронный ресурс «Мастерская сигналов», 2012. Режим доступа [http://
zhenilo.narod.ru/main/index.htm].
Сведения об авторах
Потапова Родмонга Кондратьевна —
доктор филологических наук. Академик Международной академии информатизации, профессор, директор Института прикладной
и математической лингвистики ф-та ГПН МГЛУ, заслуженный работник высшей школы Российской Федерации,
Собакин Аркадий Николаевич —
кандидат технических, доктор филологических наук, ФГБОУ ВПО
Московский государственный лингвистический университет,
Маслов Алексей Витальевич —
преподаватель кафедры прикладной и экспериментальной лингвистики ф-та ГПН МГЛУ.
80
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Понимание текста как интерпретация
цепочек предикатных структур
важных предложений текста,
полученных на этапе прагматического
анализа (объединение лингвистического
и статистического подходов)
Харламов А.А., доктор технических наук, с.н.с.,
Ермоленко Т.В., кандидат технических наук
В статье описан подход к представлению текста в минимальном по объёму его описании на метаязыке, на основе которого возможно восстановление текста в близком
по смыслу к исходному тексту виде. Таким представлением является цепочка расширенных предикатных структур предложений текста, выделенных путём ранжирования с последующим удалением несущественных, с точки зрения текста, предложений. Подход объединяет лингвистический и статистический методы анализа смысла
текста.
• полный лингвистический анализ предложения • статистический семантический
анализ текста • прагматический анализ • предикатные структуры • сравнение текстов • классификация текстов.
This paper reports on an approach to presentation of a text in its minimized form in
metalanguage that allows restoring a text similar to the origin. Here such text representation
is a string of extended predicative structures of the text sentences, isolated by ranging and
further removal of sentences insignificant according to the semantic net of the text.The
extended predicative structures are a result of a comprehensive linguistic analysis of text
sentences. Analysis of the semantics of the whole text is made by statistical methods.
Введение
Смысловой анализ естественно-языкового текста в автоматизированном режиме обычно реализуется методами либо лингвистического, либо статистического анализа. В первом
случае выявляется смысловая структура отдельного предложения (или нескольких следующих друг за другом предложений, связанных анафорическими, или эллиптическими
связями) в виде его расширенной предикатной структуры, включающей в свой состав
наряду с предикатом субъект, главный и второстепенные объекты [Харламов с соавт.,
2012a; Харламов с соавт., 2012b]. Смысловой же анализ целого текста реализуется с использованием статистических подходов. В этом случае строится семантическая сеть
всего текста, содержащая ключевые понятия текста (слова и устойчивые словосочетания) в их взаимосвязях [Харламов, 2006].
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
81
Харламов А.А., Ермоленко Т.В.. Понимание текста как интерпретация цепочек предикатных
структур важных предлжений текста, полученных на этапе прагматического анализа
Под пониманием смысла текста (далее для краткости — текста) обычно понимается интерпретация содержания текста на некоем метаязыке, который, при
необходимости, позволяет восстановить текст, пусть даже в другой форме,
но с сохранением его смысла [Мартынов, 1977].
До настоящего времени все методы понимания текста сводились к построению
семантической сети текста. Большая часть подходов к построению семантической сети текста основывалась на ее формировании экспертом (вручную)
[Голенков с соавт, 2011]. Однако семантическая сеть текста, которая удобна
для интерпретации смысла текста экспертом, не является представлением
текста, удобным для последующего восстановления первоначального, или
близкого по форме текста.
Целью исследования, результаты которого представлены далее, является разработка алгоритмов представления текста в минимальном по объему описании текста на метаязыке, на основе которого возможно восстановление текста в близком по смыслу к исходному тексту виде. Таким представлением
является цепочка расширенных предикатных структур предложений текста,
выделенных путем ранжирования с последующим удалением несущественных с точки зрения текста предложений этого текста.
Разделение семантического анализа на два этапа — собственно семантического
анализа, а также прагматического анализа — позволяет построить некоторое представление текста, которое, с одной стороны, сохраняет существенные смысловые черты исходного текста, а с другой, позволяет восстановить
текст из этого представления в близкой к исходной текстовой форме. Под
семантическим анализом целого текста в этом случае понимается выявление ключевых понятий текста в их взаимосвязях в тексте с их весовыми
характеристиками. Под прагматическим анализом понимается извлечение
из текста некоторых высказываний, которые описывают основное содержание текста. Единицами прагматического уровня анализа текстов являются
высказывания, которые есть последовательности предложений, относящиеся к одной общей теме. При этом этап семантического анализа целого
текста вследствие взвешивания ключевых понятий позволяет ранжировать
ключевые понятия текста и, следовательно, предложения текста, их содержащие, и, таким образом, извлекать из текста наиболее существенные
с точки зрения структуры текста, предложения. На этапе прагматического
анализа эти предложения объединяются в последовательности, которые
характеризуют прагматику текста: это последовательности предложений,
составляющие или описание чего-либо, или алгоритм реализации чего-либо. Цепочки расширенных предикатных структур, соответствующих предложениям выявленных последовательностей предложений, оказываются
тем метапредставлением, которое в дальнейшем можно использовать для
восстановления исходной формы текста. Как можно заметить, построение
семантической сети целого текста осуществляется статистическими методами, а выявление расширенных предикатных структур предложений текста — лингвистическими, то есть в предлагаемом подходе объединяются
лингвистические и статистические методы анализа текстовой информации
[Харламов, 2012].
82
Если поименовать полученные, таким образом, расширенные предикатные структуры предложениями, из которых они были извлечены, то последовательность этих предложений и будет интерпретацией исходного текста. Можно
также поименовывать цепочки расширенных предикатных структур понятиями, характеризующими описания, или алгоритмы, этими цепочками представленные. Для реализации автоматического прагматического анализа,
и понимания текста используются методы обработки текста на графемати-
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Харламов А.А., Ермоленко Т.В.. Понимание текста как интерпретация цепочек предикатных
структур важных предлжений текста, полученных на этапе прагматического анализа
ческом, морфологическом и синтаксическом уровнях, а также на семантическом уровне.
Задача графематического анализа заключатся в разборе текстовой информации на отдельные предложения и базовые элементы (слова, сокращения, цифровые и символьные комплексы и т.д.).
Морфологический анализ сводится к автоматическому определению леммы и распознаванию
частей речи каждого слова текста (каждому слову ставится в соответствие лексико-грамматический класс). Синтаксический анализ заключается в автоматическом выделении
синтаксических элементов предложения — именных групп, терминологических целых,
предикативных основ, что позволяет сформировать расширенные предикатные структуры предложений. На этапе семантического анализа предложений текста определяется
семантика отдельных фрагментов текстовой информации в виде расширенных предикатных структур. Выявление информационно-логической основы всего текста — проведение семантического анализа целого текста предполагает решение задачи выявления
и оценки смыслового содержания текста в виде семантической сети, содержащей ключевые понятия в их взаимосвязях в тексте с их весовыми характеристиками. Прагматический анализ заключается в выявлении сценарной структуры текста — высказываний
текста (описательных, или алгоритмических). Эта структура, будучи сформированной на
основе семантического представления целого текста, характеризует динамику развития
описываемых в тексте ситуаций в виде цепочек расширенных предикатных структур.
Под пониманием текста в рамках данной статьи понимается выявление важных, с точки зрения данного текста, цепочек расширенных предикатных структур текста, которые, таким
образом, описывают содержание текста в терминах метаязыка предикатных структур.
1. Автоматический анализ текста
Автоматический анализ текста включает в себя графематический, морфологический, синтаксический, семантический и прагматический уровни обработки.
1.1. Графематический уровень обработки
На графематическом уровне анализа текст очищается от нетекстовой информации, сегментируется на слова и предложения. Единицей графематического анализа является цепочка символов, выделенная с двух сторон пробелами. Выделенная цепочка символов
подвергается последовательной обработке эвристическими правилами: отсекаются
знаки пунктуации, проверяется наличие гласных внутри цепочки, чередование верхнего
и нижнего регистров и т.д.
Полные словоформы анализируются на морфологическом уровне лингвистического анализатора. Цель на этом уровне – разбить все множество словоформ на подмножества по
признаку принадлежности к той или иной лексеме и, по возможности, однозначно определить грамматические характеристики.
1.2. Морфологический анализ
Большая часть слов текста представляет неизменный фундамент языка и охватывается словарем в пределах 100 тысяч слов. Другая, более редкая, но не менее важная составляющая лексикона постоянно пополняется и в принципе не имеет чётко очерченных границ, как следствие, прежде всего в части имен собственных и словообразовательных
вариантов известных слов, для морфологического анализа используются методы как
с декларативной, так и с процедурной ориентацией.
Для декларативного морфологического анализа используется полный словарь всех возможных словоформ для каждого слова. При этом каждая словоформа снабжена полной
и однозначной морфологической информацией, куда входят как постоянные, так и переменные морфологические параметры. Задача морфологического анализа сводится
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
83
Харламов А.А., Ермоленко Т.В.. Понимание текста как интерпретация цепочек предикатных
структур важных предлжений текста, полученных на этапе прагматического анализа
к поиску нужной словоформы в словаре. Если слово не найдено, используются процедурные методы, где каждое слово разделяется на основу и аффикс, и словарь содержит только основы слов вместе со ссылками на соответствующие строки в словаре аффиксов [Дорохина, 2011].
1.3. Анализ синтаксического уровня
Синтактико-семантический анализ предложения проводится в несколько этапов: фрагментация предложения; объединение однородных фрагментов;
установление иерархии между фрагментами разных типов; объединение
фрагментов в простые предложения; построение внутри фрагментов простых синтаксических групп; выявление предикативного минимума каждого
из простых предложений; выделение остальных членов простого предложения, являющихся актантами выявленного предиката, построение синтаксических групп, в которых актант предиката — главное слово.
Синтаксические правила задают отношения между словами (сегментами) в предикативном виде. В зависимости от типа сегментов и типа подчинительного союза с помощью эвристических правил можно реализовать несколько
операций объединения над ними: подчинение, однородность, импликацию,
присоединение. В результате осуществляется разбиение сложных предложений на простые предложения, связанные сочинительными или подчинительными союзами.
Следующий шаг — построение простых синтаксических групп внутри каждого
простого предложения и выделение предикатного ядра. К простым синтаксическим группам относятся группы на атрибутивном уровне, группы
с предлогом и сравнительные конструкции. Множество простых предложений русского языка задается перечнем минимальных структурных схем
предложений, описывающих предикативный минимум предложения. Во
всех сегментах предложения, не являющихся вложенными и однородными,
проводится последовательный поиск подходящего шаблона минимальной
структурной схемы предложения. В соответствии с найденным шаблоном,
каждому главному члену предложения присваивается соответствующее
значение.
Далее решается задача получения расширенной предикатной структуры простых
предложений и заполнения валентных гнезд предиката [Харламов с соавт.,
2012а]. Выделение остальных членов простого предложения (остальных семантически значимых объектов и атрибутов) проводится с помощью последовательного сравнения слов предложения с актантной структурой глагола,
для чего используется словарь валентностей глаголов.
1.4. Семантический анализ целого текста
Статистический подход позволяет выявить семантическую структуру целого
текста — глобальную внутреннюю структуру текста как однородную (ассоциативную) семантическую сеть, вершинами которой являются ключевые
понятия текста (слова и устойчивые словосочетания), а рёбрами — их смысловые (ассоциативные) отношения в тексте, например, опосредованные
их попарной встречаемостью в смысловых фрагментах текста. И ключевые
понятия, и их связи взвешиваются их численными характеристиками —
смысловыми весами.
84
Для корректной обработки текста, с целью формирования семантической сети,
предварительно необходимо осуществить его (текста) развертывание: по
возможности, эксплицирование анафор и эллипсисов.
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Харламов А.А., Ермоленко Т.В.. Понимание текста как интерпретация цепочек предикатных
структур важных предлжений текста, полученных на этапе прагматического анализа
Статистический смысловой анализ текста реализован на основе технологии обработки текстовой информации TextAnalyst [Харламов, 2006], позволяющей автоматически выявлять ключевые понятия в тексте на основе только информации о структуре самого текста
(независимо от предметной области). Для этого формируется частотный портрет текста,
содержащий информацию о частоте встречаемости понятий текста, представленных как
корневые основы соответствующих слов, или их устойчивых сочетаний, встречающихся
в тексте, а также об их совместной (попарной) встречаемости в смысловых фрагментах текста (например, в предложениях). Частотный портрет, таким образом, содержит
информацию о частоте встречаемости понятий и их попарной (в терминах их ассоциативной связи) встречаемости в тексте. Использование хопфилдоподобного алгоритма
позволяет перейти от частоты встречаемости к смысловому весу (вес связей при этом
остается неизменным).
В результате такой итеративной процедуры перенормировки наибольшие веса получают понятия, связанные с наибольшим числом других понятий с большим весом, то есть те
понятия, которые стягивают на себя смысловую структуру текста.
Вследствие такой обработки из ассоциативной частотной сети текста получается так называемая ассоциативная (однородная) семантическая сеть N как совокупность несимметричных пар понятий < ci cj >, где ci и cj — понятия, связанные между собой отношением ассоциативности (совместной встречаемости в некотором фрагменте текста,
например, предложении).
Иначе семантическую сеть можно представить в виде множества звёздочек < ci < cj >:
N @ < ci < cj >>,
(1)
где < cj > — множество ближайших ассоциантов ключевого понятия < ci > (понятий,
напрямую связанных с данным понятием).
Полученные смысловые веса ключевых понятий показывают значимость этих понятий в тексте. В дальнейшем эта информация используется для выявления предложений текста,
содержащих наиболее существенную с точки зрения структуры текста информацию
в тексте. Для этого на основе смысловых весов понятий, входящих в предложения текста, вычисляются смысловые веса предложений. Предложения затем ранжируются
с удалением из текста предложений, имеющих вес ниже порогового.
1.5. Прагматический уровень анализа
Определение. В данном разделе под предикатом будем понимать тройку < ci rij cj >, где ci —
субъект, rij — отношения, размечающие связи субъекта с главным объектом c1 и другими объектами cj , j > 1 — актантами предиката. Причём, ri1 @ rP , где rP — предикатное
отношение, c1 — главный объект:
P @ < ci , rij , cj >.
(2)
Под прагматическим анализом в данной работе будем понимать выявление сценария текста
(корпуса текстов), представленного в виде цепочки (цепочек) расширенных предикатных
структур, соответствующих предложениям текста (корпуса текстов описывающих предметную область) оставшимся после удаления предложений незначительной смысловой
значимости в тексте. Сценарий описывает динамику развития представленной в тексте
(корпусе текстов) ситуации. Такая цепочка может быть описательной, или алгоритмической. В первом случае сценарий характеризует восприятие, во втором — действие. Прагматическому анализу обязательно предшествует семантический анализ: до выявления
прагматики текста необходимо сформировать семантическую модель предметной области, или семантическую модель текста, на ключевые понятия которой в дальнейшем
проецируется входной текст.
Прагматический анализ текста, таким образом, заключается в выявлении цепочек предикатных структур предложений, которые на этапе семантического анализа целого текста
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
85
Харламов А.А., Ермоленко Т.В.. Понимание текста как интерпретация цепочек предикатных
структур важных предлжений текста, полученных на этапе прагматического анализа
оказались наиболее весомыми в рамках предметной области, к которой относится текст. Степень важности предложений текста определяется с учетом степени важности ключевых слов, которая определяется их ранжированием в рамках семантической сети предметной области на этапе семантического анализа. Количество этих предикатных структур зависит от порога,
примененного к смысловому весу предикатных структур (предложений, их
содержащих), а порядок этих предикатных структур в цепочках – от порядка
следования оставшихся после ранжирования и порогового преобразования
предложений в тексте. Такие цепочки полностью характеризуют смысловое
содержание текста (корпуса текстов — предметной области).
Цепочки расширенных предикатных структур, представленных их субъект-объектными парами Wi = (< ci , rij , cj >), соответствуют последовательностям
их содержащих предложений текста в порядке их появления в тексте. Множество текстов, описывающих предметную область, порождают множество
таких цепочек предикатных структур Wi | i = 1.|I.
1.6. Понимание текста как поименование цепочек предикатных структур
текста предложениями текста, их содержащими
Понимание конкретного текста связано с выявлением предикатных структур
Pi = < ci , rij , cj >, характеризующих смысл предложений этого текста,
а также цепочек этих предикатных структур Wi = (< ci , rij , cj >, которые
опосредуют смысл отдельных последовательностей предложений текста.
Любой текст данной предметной области, порождающий цепочку предикатных структур, таким образом, может быть проинтерпретирован как последовательность предложений текста, их содержащих. Под пониманием текста
в данном случае будем понимать проекцию цепочек предикатных структур
текста на множество соответствующих цепочек предикатных структур предметной области и поименование этих цепочек соответствующими им предложениями.
Интерпретация в виде последовательности предложений является удобной для
представления эксперту и может быть использована для общения с конечным пользователем в случае необходимости удобного интуитивно понятного
представления результатов автоматического смыслового анализа текстов.
2. Пример прагматического анализа текста
Для иллюстрации описанного в работе способа понимания текста рассмотрим
некоторый русскоязычный текст по курсу физики [http://www.kodges.ru/
Т.И. Трофимова. Курс физики, Москва: Высшая школа, 2001]:
«Глава 2. Динамика материальной точки и поступательного движения твердого
тела.
§ 5. Первый закон Ньютона: всякая материальная точка (тело) сохраняет состояние покоя или равномерного прямолинейного движения до тех пор, пока
воздействие со стороны других тел не заставит её изменить это состояние.
Первый закон Ньютона выполняется не во всякой системе отсчета, а те системы, по отношению к которым он выполняется, называются инерциальными системами отсчета…».
86
После сегментации текста в процессе графематического анализа на слова
и смысловые фрагменты и после проведения морфологического анализа
слов проводится в несколько этапов синтактико-семантическая обработка
предложения. В том числе, в предложениях текста выявляются и раскры-
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Харламов А.А., Ермоленко Т.В.. Понимание текста как интерпретация цепочек предикатных
структур важных предлжений текста, полученных на этапе прагматического анализа
ваются анафорические ссылки. После разрешения анафор текст примера будет выглядеть так:
«Первый закон Ньютона: всякая материальная точка (тело) сохраняет состояние покоя
или равномерного прямолинейного движения до тех пор, пока воздействие со стороны
других тел не заставит точку изменить состояние покоя или равномерного прямолинейного движения. Первый закон Ньютона выполняется не во всякой системе отсчета,
а те системы, по отношению к которым закон выполняется, называются инерциальными
системами отсчета».
Результат анализа для нашего примера приведён в таблице 1.
Таблица 1
Предикативный минимум простых предложений, входящих в состав
предложений исходного текста
№
предл.
1
Составляющие простые
предложения
Первый закон Ньютона
Всякая материальная точка
(тело) сохраняет состояние
покоя или равномерного
прямолинейного движения
До тех пор пока воздействие со
стороны других тел не заставит
точку изменить состояние
покоя или равномерного
прямолинейного движения
Первый закон Ньютона
выполняется не во всякой
системе отсчета
1
1
2
А те системы, по отношению
к которым закон выполняется,
называются инерциальными
системами отсчета
2
Шаблон минимальной
структурной схемы
предложения
Существительное в
именительном падеже
Существительное
в именительном
падеже+спрягаемая форма
глагола
Предикативный
минимум
(субъект-предикат)
закон NULL
точка сохраняет
Существительное
в именительном
падеже+спрягаемая форма
глагола+инфинитив
воздействие не
заставит изменить
Существительное
в именительном
падеже+спрягаемая форма
глагола
Существительное
в именительном
падеже+спрягаемая форма
глагола
закон выполняется
системы называются
Выделение остальных членов расширенной предикатной структуры предложения осуществляется последовательным сравнением слов предложения с актантной структурой глагола из словаря валентностей глаголов. Заполненные валентные гнезда для предикатов
текста примера приведены в таблице 2.
Таблица 2
Заполнение валентных гнезд для предикатов текста примера
№
предл.
1
1
1
2
2
Предикат
сохраняет
не заставить
изменить
выполняться
называться
1. Субъект
2. Объект
3. Адресат
4. Инструмент
–
–
–
–
точка
состояние
воздействие
–
–
состояние
закон
системы
5–7.
Локативы
–
–
системе
системами
Далее, на основе статистического семантического анализа целого текста, выявляется
множество ключевых понятий текста. Осуществляется построение ассоциативной сети
текста путем объединения ключевых понятий с учётом их попарной встречаемости
в тексте. И в процессе итеративной процедуры осуществляется перенормировка частот
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
87
Харламов А.А., Ермоленко Т.В.. Понимание текста как интерпретация цепочек предикатных
структур важных предлжений текста, полученных на этапе прагматического анализа
встречаемости ключевых понятий в смысловой вес ключевых понятий, являющихся вершинами семантической сети. Смысловые веса предложений
вычисляются как нормированные суммы смысловых весов составляющих
предложения ключевых понятий. Пример смысловых весов предложений
приведён в таблице 3.
Таблица 3
Смысловой вес предложений (фрагмент)
Предложение
Смысловой вес
Динамика материальной точки и поступательного движения
1
67
твердого тела
Динамика является основным разделом механики, в ее основе
2
15
лежат три закона Ньютона, сформулированные им в 1687 г.
Законы Ньютона играют исключительную роль в механике
3 и являются (как и все физические законы) обобщением
15
результатов огромного человеческого опыта.
Первый закон Ньютона: всякая материальная точка (тело)
сохраняет состояние покоя или равномерного прямолинейного
4
99
движения до тех пор, пока воздействие со стороны других тел
не заставит ее изменить это состояние.
…
Предложения текста ранжируются по смысловому весу путём сравнения их смыслового веса с заранее заданным пороговым значением. Удаляются предложения, которые имеют смысловой вес ниже порогового (порог, например,
равен 50).
Оставшиеся предложения могут быть использованы для построения квазиреферата (сценария) текста в виде цепочки предложений текста, соответствующих выявленным расширенным предикатным структурам текста. Фрагмент
такого квазиреферата выделен жирным шрифтом ниже на фоне исходного
текста:
«Глава 2. Динамика материальной точки и поступательного движения твердого тела.
§ 5. Первый закон Ньютона. Масса. Сила.
Динамика является основным разделом механики, в её основе лежат три закона
Ньютона, сформулированные им в 1687 г. Законы Ньютона играют исключительную роль в механике и являются (как и все физические законы) обобщением результатов огромного человеческого опыта. Их рассматривают
как систему взаимосвязанных законов и опытной проверке подвергают не
каждый отдельный закон, а всю систему в целом. Первый закон Ньютона:
всякая материальная точка (тело) сохраняет состояние покоя или равномерного прямолинейного движения до тех пор, пока воздействие со
стороны других тел не заставит её изменить это состояние. Стремление
тела сохранять состояние покоя или равномерного прямолинейного движения называется инертностью. Поэтому первый закон Ньютона называют
также законом инерции.
88
Механическое движение относительно, и его характер зависит от системы отсчета. Первый закон Ньютона выполняется не во всякой системе отсчета,
а те системы, по отношению к которым он выполняется, называются
инерциальными системами отсчета. Инерциальной системой отсчета
является такая система отсчета, относительно которой материальная
точка, свободная от внешних воздействий, либо покоится, либо движется равномерно и прямолинейно».
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Харламов А.А., Ермоленко Т.В.. Понимание текста как интерпретация цепочек предикатных
структур важных предлжений текста, полученных на этапе прагматического анализа
Ниже, в Таблице 4 представлены расширенные предикатные структуры оставшихся
предложений в порядке их следования в тексте.
Таблица 4
Расширенные предикатные структуры оставшихся предложений
в порядке их следования в тексте
№
Предикат
предл.
1
NULL
2
Субъект Связь
динамика
Объект
R_G
точка
R_G
движение
Адресат
Связь Атрибут Инструмент Связь Атрибут
Локативы
материR_A
альный
поступаR_A
тельный
R_G
тело
R_A твердый
1.NULL
Закон
Ньютона
R_A
первый
2.сохранять
точка
R_A
всякий
R_A
материальный
R_O
состояние
покой
движение
R_A
R_A
3.не
заставить
изменить
воздействие
R_G
сторона
R_G
R_O
R_O
прямолинейный
равномерный
тело
R_A
другой
точка
состояние
R_A
это
…
Таблица 5
Обозначение связей в предикатной структуре предложения, использованных в таблице 4
Обозначение связи
R_S
R_O
R_I
R_L
R_A
R_A_P
R_G
Синтаксическая группа
Валентные гнезда предиката
Предикат-Субъект
Предикат-Объект
Предикат-Инструмент
Предикат-Локатив
Связи на атрибутивном уровне
Объект-Признак объекта
Действие-Признак действия
Синтаксические группы актантов
Генитивное определение в постпозиции
Обсуждение результатов
Рассмотренный пример прагматического анализа (на фоне всех остальных этапов анализа от графематического до семантического) показывает, что использованный подход
является достаточно трудоёмким, так как требует осуществления полного лингвистического анализа текста до синтактико-семантического анализа отдельного предложения,
включительно. В сравнении с этим, статистический семантический анализ целого тек-
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
89
Харламов А.А., Ермоленко Т.В.. Понимание текста как интерпретация цепочек предикатных
структур важных предлжений текста, полученных на этапе прагматического анализа
ста реализуется сравнительно просто. Однако вычислительная сложность
такого подхода к прагматическому анализу текстов оправданна. С одной
стороны, это позволяет представить текст в виде компактного метаописания
в виде цепочек расширенных предикатных структур, которое может быть
раскрыто в обратную сторону в некоторое текстовое представление, близкое по смыслу к исходному тексту, то есть реализовать понимание текста.
Это может быть эффективно использовано, например, для формирования
синтезируемого ответа в системах речевого диалога, а также для сопоставления с аналогичным метапредставлением на другом языке в системах контекстного перевода. С другой стороны, это же метаописание может быть
интепретировано эксперту как последовательность предложений текста
(квазиреферат), и такое представление весьма удобно пользователю, как
обычный естественно-языковой текст.
Кроме того, представление текста в виде цепочек расширенных предикатных структур позволяет улучшить смысловое сравнение текстов путем выявления степени пересечения множеств таких цепочек двух сравниваемых
текстов. То же можно сказать о классификации текстов: сравнение таких
множеств цепочек для исходного текста и рубрик (классов текстов, описывающих предметные области) позволяет отнести текст к одному или нескольким классам в зависимости от степени пересечения соответствующих множеств цепочек.
Заключение
В статье представлен метод прагматического анализа текста с использованием
объединенного полного лингвистического и статистического семантического подходов к анализу текста. Представленный метод позволяет представить текст минимальным множеством прагматических цепочек — цепочек
расширенных предикатных структур предложений, несущих максимальный
смысл этого текста. Цепочки расширенных предикатных структур представляют собой некоторое компактное метаописание смысла текста, которое
может быть интерпретировано предложениями естественно-языкового текста. Такое описание может быть использовано для автоматического смыслового сравнения текстов и для автоматической классификации текстов.
Литература
90
1. [Харламов с соавт., 2012a] Харламов А.А., Ермоленко Т.В., Дорохина Г.В.,
Гнитько Д.С. Метод выделения главных членов предложения в виде предикатных структур, использующий минимальные структурные схемы. Речевые технологии. № 2. 2012.
2. [Харламов с соавт., 2012b] Бондаренко Е.А., Каплина О.А., Харламов А.А.
Предикатные структуры в системе машинного распознавания текста Речевые
технологии. № 4. 2012.
3. [Харламов, 2006] Харламов А.А. Нейросетевая технология представления
и обработки информации (естественное представление знаний). М.: Радиотехника, 2006. 89 с.
4. [Мартынов, 1977] Мартынов. Универсальный семантический код / Минск: Наука и техника, 1977. 192 с.
5. [Голенков с соавт, 2011] Голенков В.В., Гулякина Н.А. Графодинамические
модели параллельной обработки знаний: принципы построения, реализации
и проектирования // Труды Международной научно-технической конференции
«Открытые семантические технологии проектирования интеллектуальных систем» (OSTIS’2011), Минск: 2011
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Харламов А.А., Ермоленко Т.В.. Понимание текста как интерпретация цепочек предикатных
структур важных предлжений текста, полученных на этапе прагматического анализа
6. [Харламов, 2012] Харламов А.А. Способ автоматизированного восстановления сценария
текста на естественном языке. Заявка на патент на изобретение № 2012153432 от 12 декабря
2012 г.
7. [Дорохина, 2011] Дорохина Г.В. Автоматическое выделение синтаксически связанных
слов простого распространенного неосложненного предложения / Г.В. Дорохина, Д.С. Гнитько // «Сучасна інформаційна Україна: інформатика, економіка, філософія»: матеріали доповідей конференції, 12–13 травня 2011 року, Донецьк, 2011. Т. 1. 34–38 с.
8. Hopfield, J.J. Neural networks and physical systems with emergent collective computational
abilities. Proc. Natl. Acad. Sci. 79, 1982. P. 2554–2558.
Сведения об авторах
Харламов Александр Александрович —
доктор технических наук, старший научный сотрудник Института высшей нервной деятельности и нейрофизиологии РАН,
Ермоленко Татьяна Владимировна —
кандидат технических наук, научный сотрудник отдела распознавания речевых
образов Института проблем искусственного интеллекта МОНМС и НАН Украины (г. Донецк).
91
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Рецензия на книгу
Р.К. Потаповой и В.В. Потапова
«Речевая коммуникация.
От звука к высказыванию»
(М.: ЯСК, 2012. 460 с.)
Кривнова О.Ф., доктор филологических наук
Новая книга Р.К. Потаповой и В.В. Потапова, известных российских учёных, признанных специалистов в области общего речеведения и фонетики устного
дискурса (см., например, Потапова 1986; 1997; 2010; Потапова, Потапов
2006; Potapova, Potapov 2011 и др.), посвящена актуальным проблемам речеведения, понимаемого авторами как раздел общей семиотики, включающий как сегментный, так и супрасегментный компоненты звуковой системы
языка. Фонетическая реализация различных единиц, образующих указанные компоненты, исследуется и интерпретируется в рецензируемой книге в
рамках антропоцентрического функционального подхода, что значительно
расширяет границы и типы значимых звуковых элементов и явлений речевой коммуникации как в её вербальном, так и в паравербальном слое.
Оригинальные концептуальные установки авторов иллюстрируются результатами целого ряда собственных экспериментальных исследований, многие из
которых также описываются в рецензируемой книге.
Основное содержание монографии разделено на три больших раздела, со сквозной нумерацией глав (их 14), что, на наш взгляд, несколько затрудняет ориентацию читателя в материале книги. Кроме того, в книге имеются введение, заключение и три приложения:
1. Иллюстрации акустической обработки сигнала на базе новых информационных технологий.
2. Интонационная специфика русской речи: от теории к практике в Интернете.
3. О книге Rodmonga K. Potapova Vsevolod V. Potapov. Kommunikative Spechtätigkeit. RuSland und Deutschland im Verglich. Böhlau Verlag. Köln; Veimar;
Wien, 2011. 312 S. (на нем. языке).
92
Во введении авторы подчёркивают необходимость полиаспектного исследования звучащей речи, что обусловлено разнообразием её функций и типов передаваемой информации. Как и в целом ряде предыдущих работ
Р.К. Потаповой, в новой книге справедливо отмечается необходимость
дальнейшего развития в области наук о человеке такого направления, как
речеведение. Подробный анализ представительного количества работ,
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Кривнова О.Ф.
Рецензия на книгу Р.К. Потаповой и В.В. Потапова «Речевая коммуникация. От звука к высказыванию»
накопленных в за короткий период второй половины ХХ века (в библиографическом
списке книги около 500 наименований), приводит авторов к выводу, что в речеведении
«исследователи имеют дело как с микромиром звучащей речи (речевым сигналом и его
ингерентными свойствами), так и с её макромиром на уровне интегративно-структурного целого с позиций антропоцентризма». Название книги создаёт у читателя установку
на то, что задача авторов состоит в анализе, систематизации и обобщении результатов
исследований, направленных на изучение разнообразных отношений и взаимосвязей
между физическим микромиром и ментальным макромиром речевой коммуникации,
причем в ракурсе «снизу вверх» — от звука к высказыванию как части сложного устного дискурса.
И, действительно, раздел I «Акустическая природа звуков речи», открывающий изложение
и занимающий примерно одну треть всего объёма монографии, посвящён рассмотрению фундаментальных сведений из области акустической фонетики. Базис звучащей
речи, безусловно, образуют минимальные звуковые единицы языка, их дискретные последовательности и их материальное воплощение в речевом потоке. В главе 1 данного
раздела, которая называется «Экспериментально-фонетическое исследование сегментного строя языков», рассматриваются вопросы, связанные с изучением сегментного
звукового компонента устной речи. Нам представляется, что такое понимание задачи
данной главы более адекватно отражает ее содержание, чем название, предложенное
авторами. Изучение сегментного строя языка, даже экспериментально-фонетическое,
предполагает, на наш взгляд, несколько иные тематические акценты, чем те, что сделаны в данной главе. Здесь подробно обсуждаются основы спектрального анализа речи,
возможности его использования для решения различных речеведческих проблем,
рассмотрены конкретные результаты, полученные с помощью спектрального анализа
в таких задачах, как звуковая сегментация речи, идентификация значимых фонологических признаков сегментных единиц, акустические корреляты коартикуляционных
процессов.
Большой интерес представляют таблицы 1–10, которые содержат усредненные спектральные
характеристики основных классов сегментных единиц языка, преимущественно русского. В данной главе обсуждаются также возможности и значение методики синтеза речевых фрагментов на основе их предварительной акустической параметризации с целью
получения контролируе-мых фонетических стимулов для дальнейшего изучения процессов восприятия речи.
При чтении этого небольшого раздела возникает ряд вопросов, ответа на которые нам найти,
к сожалению, не удалось. Приведем некоторые из них. Почему из всех развиваемых
в настоящее время методов синтеза речи в данном разделе рассматривается именно
формантный синтез по правилам, не самый популярный в настоящее время? Какая конкретная система синтеза речи послужила прототипом для данного описания? Как в ней
генерируются интонационные характеристики высказывания? И т.д.
Учитывая качество современных синтезаторов, трудно согласиться и с критерием успешности синтеза, который даётся на стр. 69: «Успешный синтез высказывания заключается
не в том, чтобы оно явилось адекватным воспроизведением реального высказывания
носителем языка (диалекта), а в том, чтобы оно воспринималось носителями языка (диалекта) как возможное в этом языке (диалекте)».
Глава завершается очень полезным с методической точки зрения разделом о принципах подбора экспериментального материала для проведения экспериментально-фонетических
исследований в области сегментной фонетики с использованием матричного метода,
разработанного Р.К. Потаповой.
Глава 2 раздела I «Супрасегментные (просодические) характеристики речи» переключает
внимание читателя на тематику просодической фонетики. Во введении к главе уточняются термины «просодия, специфические и интегральные акустические характеристики
звуков, слоговая и словесная просодия».
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
93
Кривнова О.Ф.
Рецензия на книгу Р.К. Потаповой и В.В. Потапова «Речевая коммуникация. От звука к высказыванию»
Изложение начинается с сегментных просодических характеристик, т.н. собственных, ингерентных показателей ЧОТ, интенсивности и длительности для
разных категорий звуков. Подробно описывается механизм голосообразования и причины некоторых различий в собственной ЧОТ у разных гласных.
Даются таблицы средней интенсивности речевых образцов в разных речевых режимах, при их измерении разными единицами (н/м2, мквт/м2, дБ)
табл.14, а также таблицы разногромкости гласных (15-19) для разных языков, демонстрирующие, что параметр интенсивности представляет собой
сложный акустический феномен, определяемый как физиологическими,
так и фонетическими факторами. К сожалению, сопоставление указанных
таблиц, весьма полезное, например, для контрастивного фонетического
анализа, затруднено отсутствием описания экспериментальных процедур,
с помощью которых были получены приводимые количественные показатели.
Авторы дают также сведения о показателях собственной длительности звуков
разных классов, типичные для основных европейских языков — английского, немецкого, французского и русского. Не всегда, к сожалению, указываются конкретные источники этих сведений.
Далее в главе 2 подробно описываются просодические характеристики супрасегментных единиц речи — слога и фонетического слова. Особенно богат
фонетической информацией слоговой раздел. Здесь говорится об истоках изучения слога, обосновывается его центральная роль в организации
и формировании речевого потока, значимость для фонетической типологии и сопоставительной фонетики. Теоретические положения иллюстрируются разнообразными сведениями из области изучения основных слоговых
структур на материале европейских языков, в частности, о частоте встречаемости, о звуковом составе слога, включая просодические характеристики
компонентов слога и характер их примыкания, причём с учетом разных контекстных условий; обсуждаются также проблемы слогоделения, особенно
актуальные для языков типа русского, где мало ограничений на звуковой
состав слога и не столь значительны центростремительные силы внутри
него.
Много интересных фонетических данных содержится и в параграфе «Просодические характеристики фонетического слова». Отмечается, что во многих
языках наблюдаемые фонетические закономерности действуют через
слоги, включённые в состав фонетического слова, т.е. самостоятельного
слова с примыкающими к нему безударными служебными словами или частицами. Авторы отмечают, что ритмические схемы, объединяющие слоги
в фонетическое слово и одновременно дифференцирующие их по степени
выделенности (ударности), относятся к числу наиболее ярких фонетических
особенностей того или иного языка. В этой связи в монографии даются
краткие, но ёмкие характеристики ритмического своеобразия фонетических слов в русском, немецком и английском языках.
94
Конечно, читателям, занимающимся специальными исследованиями в этой области фонетики, хотелось бы видеть в данном разделе более подробную
сопоставительную фонетическую информацию, однако понятны и ограничения объема книги, которые пришлось учитывать авторам. С другой стороны,
жаль, что из-за подобных ограничений авторы уделили мало места дискуссионному теоретическому вопросу о существовании в речи более крупных
фонетических блоков, которые состоят из ритмически объединенных знаменательных слов, но «не дотягивают» по ряду критериев до просодических
составляющих типа синтагм и интонационных фраз. Некоторые исследователи называют такие ритмические объединения составными фонетически-
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Кривнова О.Ф.
Рецензия на книгу Р.К. Потаповой и В.В. Потапова «Речевая коммуникация. От звука к высказыванию»
ми словами, в отличие от простых, в то время как другие — «фонетическими синтагмами» или промежуточными фразами, в отличие от настоящих интонационно-смысловых
синтагм и фраз. Между тем этот вопрос весьма существен для понимания принципов
организации разных речевых текстов и закономерностей макросегментации речевого
потока.
Не совсем понятно включение в заключительную часть раздела о просодических характеристиках слова сведений об особенностях реализации консонантных стечений разного
типа в составе слогов, входящих в состав данного слова. Более логичным представляется такой план изложения, при котором сначала демонстрируется устойчивость vs вариативность слоговой структуры слова в речи, а затем объясняются причины этой вариативности. Тем более что в обсуждаемой главе есть отдельный подраздел 2.7, в котором
подробно рассматривается акустическая вариативность компонентов слога в составе
фонетического слова и фразы.
Авторы касаются также дискуссионного вопроса о физических границах фонетических слов
в потоке речи. Известно, что их частое отсутствие или неяркое маркирование сильно затрудняет автоматическое распознавание слитной речи. Анализируя экспериментальные
данные, полученные разными исследователями для акустических характеристик звуков
в контексте межсловных границ разного типа, авторы приходят к неутешительному, но
реальному выводу. Они пишут: «акустические корреляты границ фонетического слова
сравнительно чётко фиксируются в том случае, когда слова произносятся при полном
типе артикуляции. В потоке же речи определение границ фонетического слова сопряжено с целым рядом трудностей, возникающих в связи с целым рядом дискурсивных
и фонетических факторов» (с. 124). В то же время нельзя не признать, что эта проблема
требует дальнейшего, систематического изучения на разнообразном речевом материале, с применением новейших методов моделирования и анализа речевых последовательностей.
Глава 2 завершается, как и глава 1, методически полезным разделом о подборе речевого
материала для экспериментально-фонетических исследований с учётом возмущающих
факторов слоговой и словесной просодии. Это важно не только для анализа т.н. лабораторной речи, но и для корпусных исследований, всё более популярных в настоящее
время.
Особое место в обсуждаемой главе занимает последний подраздел, посвящённый терминам «просодия, просодика, просодемика». Напомним, что с обсуждения термина «просодия» данная глава также начинается. Представляется, что композиционно и содержательно было бы более удобно объединить эти обсуждения в один раздел, начинающий главу. Интересно было бы также проследить частоту употребления этих терминов
в фонетической науке и тождественность их содержания в работах разных авторов.
В последнее время достаточно частотным является общий термин «просодическая фонетика», с подразделением последней на субстанциональную и функциональную поддисциплины. Безусловно, такое терминоупотребление имеет параллели в предлагаемых авторами терминах «просодия, просодология (просодика, просодемика)». Однако
в современной фонетической литературе эти термины по каким-то причинам не стали
общепринятыми.
Второй большой раздел книги «Сегментно-структурная архитектоника речевого высказывания» состоит из 7 глав, весьма разнородных по задачам, объёму и внутренней
детализации. Так, гл.3, посвящённая обсуждению фонетических средств, которые обеспечивают микросегментацию и макросегментацию звучащей речи, наиболее обширна,
занимает 70 стр. текста. В то же время остальные главы 4–6 гораздо меньше по объёму
и занимают каждая примерно 15-20 стр. Представляется, что композиция этого раздела
могла бы быть более сбалансированной без ущерба для излагаемого материала.
Главная теоретическая установка гл. 3 «Фонетические средства сегментации звучащей речи»
заключается в тезисе о неправомерности поиска универсального способа сегментации
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
95
Кривнова О.Ф.
Рецензия на книгу Р.К. Потаповой и В.В. Потапова «Речевая коммуникация. От звука к высказыванию»
речи. Напротив, авторы утверждают и убедительно показывают, что «на каждом условно выделяемом иерархическом уровне (фонетики высказывания, ОК) производится сегментация на разные опорные единицы: фразы,
синтагмы, фонетические слова <…> при макросегментации; слоги, звуки,
внутризвуковые сегменты (при микросегментации)» (стр. 146).
В связи с потенциальной делимитативной функцией в пункте 3.1 данной главы,
посвящённой проблеме микросегментации, рассматриваются на материале немецкого языка фонотактические закономерности внутри и на стыках
значимых единиц языка, позиционное варьирование фонем с акцентом
на фонетический эффект границ и стыковых контекстов, а также особые
пограничные сигналы. Утверждается, что корректная сегментация речи
на единицы фонемной размерности представляет собой сложную задачу
ввиду отсутствия прямых связей между дискретной последовательностью
звуковых единиц и речевым сигналом как квазинепрерывным физическим феноменом, между перцептивно-слуховыми признаками членения
речи и физическими границами в сигнале. Авторы отмечают, что для ряда
языков звуковая «делимитация не только находится в прямой зависимости
от морфологического строя языка, но и диктуется последним» (стр. 142).
В качестве яркого примера такой зависимости приводится немецкий язык.
Результаты экспериментально-теоретических исследований на материале
этого языка свидетельствуют, что существует прямая зависимость между
степенью семантической спаянности контактирующих знаковых единиц
и степенью аллофонической модификации стыковых фонем. При этом
разные категории фонем, например, гласные и согласные, обнаруживают
различные модели вариативности, зависящие к тому же от стиля речи. Интересно, в какой степени этот вывод может быть распространен на другие
языки.
Обращаясь к проблеме слогоделения в подразделе 3.1.3 «Принципы слоговой сегментации речевого потока», авторы подчеркивают её особую сложность по сравнению с задачей выделения в речи супрасегментных единиц
большей размерности. Слог признается важной опорной единицей сегментации речевого потока, но при этом правила слогоделения могут учитывать как фонотактическую фонемную структуру позиционно разных типов
слогов, так и их акустико-фонетические признаки, способные выполнять
сегментирующую функцию. Специфика этих признаков, подробно обсуждаемая в предлагаемом обзоре, к сожалению, временами затушевывается
повторным рассмотрением вопросов собственно звуковой сегментации
и идентификации или же обсуждением функций слога в организации речи.
Весьма перспективным представляется двухуровневый алгоритм слогоделения, при котором на первом этапе с опорой на просодические параметры сигнала производится сегментация слитной речи на псевдослоги типа
СГ, а затем результаты такой предварительной сегментации фильтруются
с использованием фонотактических сведений о типах слоговых структур,
разрешённых и/или частотных в данном языке.
96
Подраздел 3.2 «Фонетические характеристики членения речевого потока на
фонетические слова (ритмические структуры)» начинается с краткого изложения принципов структурно-типологического подхода к исследованию
речевого ритма. В их основе лежат перцептивные исследования ритмической организации устных разноязычных текстов в контрастивном аспекте
(Potapov 2001). На их основе делается вывод о реализации в речи ритмической иерархии, начинающейся с базового ритма отдельных слов и завершающейся интегративным ритмом на уровне интонационно-смысловых синтагм. Подробно анализируется ритмика отдельного слова, включая
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Кривнова О.Ф.
Рецензия на книгу Р.К. Потаповой и В.В. Потапова «Речевая коммуникация. От звука к высказыванию»
сложные слова и более сложные ритмические звенья в немецком и английском языках. Специальные эксперименты были проведены авторами для выявления значимости грамматических маркеров в ритмически обусловленном членении письменного
текста на смысловые блоки в рамках синтагмы (проблема синтактико-просодического
интерфейса), определена иерархия факторов, влияющих на ритмико-структурную организацию речевого высказывания. Согласно полученным результатам к ним относится
специфика словесного ударения, грамматический строй языка, включая порядок слов
на уровне их частеречных признаков, функционально-стилистическая принадлежность
звучащего текста.
Общая теоретико-экспериментальная часть этого подраздела завершается обсуждением вопроса сегментации речи на фонетические слова, который был уже частично затронут
в первом разделе книги. Авторы отмечают, что идеи фонетистов по этому вопросу исторически претерпели определённые изменения: полное отрицание присутствия в речи
границ фонетических слов сменилось утверждением, что сигналами таких границ могут
служить особые физические характеристики звуков на стыках слов, сравнительно с аналогичными характеристиками внутри слова, а также особые пограничные сигналы типа
паузы. В изложении этого материала присутствует некоторый повтор фактов, уже представленных в разделе I, которого можно было бы избежать с помощью кратких ссылок,
в целях информационной разгрузки изложения, и так плотно насыщенного разного рода
фонетическими фактами.
В подразделе 3.3 подводятся итоги различных исследований макросегментации звучащего
текста: обсуждается вопрос о типах макросегментов в разных видах текста, о просодических средствах их вычленения (преимущественно речь идёт о паузах на материале
немецких текстов); подчёркиваются особенности просодического членения спонтанных
устных текстов, со свойственной им дробностью членения и смазанной корреляцией
между смысловыми и просодическими составляющими. В связи с этим авторы анализируют теоретические попытки ввести в просодическую фонетику такие понятия, как
«неполная синтагма» и «паузальная группа».
К сожалению, за пределами этого обсуждения остались такие понятия, как ЭДЕ (элементарная дискурсивная единица) и intermediate phrase, получившие большую популярность
в современных работах по устному дискурсу.
Отдельно и весьма подробно рассмотрена как в теоретическом, так и экспериментальном
плане проблема функционирования синтактико-просодического интерфейса на уровне
интонационно-смысловых синтагм (условия просодической актуализации потенциальных синтагм). Исследования, которые проводились авторами и их коллегами в течение
ряда лет в МГЛУ на материале изолированных предложений русского, немецкого и английского языков, подтверждают, с одной стороны, зависимость просодического оформления предложений от их семантико-синтаксической структуры и типов формальных
связей, а с другой, обнаруживают наличие специфических условий, влияющих на просодическую актуализацию синтаксических составляющих. Из числа последних в рецензируемой монографии анализируются длина, линейная позиция составляющей в предложении и сила собственно синтаксических факторов. Обсуждая и выделяя определенные правила синтактико-просодического интерфейса на уровне озвучивания отдельных
предложений, авторы осознают их функциональную ограниченность, справедливо отмечая, что «эти правила образуют лишь канву для вышивания на ней живого рисунка
макросегментации звучащей речи, обусловленной конкретной коммуникативной установкой» (стр. 190). Убедительная аргументация этого положения даётся на материале
просодического анализа делимитации читаемых и спонтанных немецких текстов с разной степенью подготовленности, текстов разной жанровой принадлежности и другими
дискурсивными характеристиками. Тематика данного раздела книги относится, на наш
взгляд, к наиболее актуальным проблемам устного дискурса и нуждается в дальнейшей
разработке как в теоретическом, так и в прикладном аспекте.
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
97
Кривнова О.Ф.
Рецензия на книгу Р.К. Потаповой и В.В. Потапова «Речевая коммуникация. От звука к высказыванию»
Специалистам в области общей фонетики будет интересен также раздел 3.3
главы 3, где рассматриваются просодические средства, обеспечивающие
перцептивно-слуховую сегментацию звучащей речи. К ним, по мнению
авторов, относятся: физические темпоральные паузы, включая их особую
разновидность «дыхательные паузы», а также т.н. нетемпоральные паузы
(паузы без перерыва в фонации). Традиционное использование слова «пауза» в данном контексте представляется нам неудачным, лучше было бы
говорить о перцептивно значимых нетемпоральных разрывах (плавности)
текста (ср. англ. breaks) или о нетемпоральных пограничных сигналах. Вместе с тем, проведённые исследования свидетельствуют, что распознавание
и перцептивная оценка просодических границ в звучащих текстах зависят
не только от физических параметров речевого фрагмента, локализованного
в точке воспринимаемого разрыва, но также от более широкого фонетического контекста и от семантико-синтаксических ожиданий, прогнозируемых
слушающим на основании идентифицированного ранее фрагмента текста.
Здесь авторы касаются мало изученной, но чрезвычайно увлекательной области когнитивной фонетики, связанной с механизмами текущей обработки
звуковой информации в разнообразных ситуациях устного дискурса, уделяя
особое внимание специфическим средствам макросегментации спонтанной речи — т.н. паузам хезитации разного типа, реализация которых часто
приводит к конфликту между синтаксическим и фонетическим членением
текста, к появлению неполных или «рваных» синтагм. Такого рода паузы,
будучи помехами в работе синтактико-просодического интерфейса, в то же
время помогают получить важные сведения о действии механизмов речепорождения в разных дискурсивных условиях, с учетом таких разных факторов, как особенности синтаксического строя используемого языка и социальные признаки говорящих , что демонстрируется в книге Р.К. и В.В. Потаповых на материале исследований спонтанной речи носителей русского
и немецкого языков.
Глава 4 «Просодические характеристики макросегментации звучащей речи»,
первая из серии малообъёмных глав раздела II, создаёт впечатление неоправданного, повторного изложения сведений о просодических средствах
макросегментации речи, которые были достаточно детально описаны ранее
в самостоятельной и большой гл. 3. Хотелось бы видеть более чёткое авторское обоснование необходимости выделения этих сведений в отдельную
главу.
98
Пятая глава «Теоретические и прикладные аспекты речевой сегментологии»
возвращает читателя к одной из центральных проблем монографии — сегментации звучащего речевого произведения во всем многообразии вопросов, связанных с этой проблемой: от определения единиц членения разной
размерности, их звукового оформления, включая пограничные явления, до
методики и критериев обнаружения речевых сегментов разного типа в реальном речевом материале и в условиях специальных фонетических экспериментов. На основании представленного в монографии анализа исследований, проведённых в этой области, авторы приходят к выводу, что «уже
накоплен достаточный опыт для того, чтобы поставить вопрос о выделении
знаний о сегментации звучащей речи в специальный раздел общей и прикладной фонетики, фундаментального и прикладного речеведения: сегментологию» (стр. 240). При этом подчёркивается необходимость разграничения микро- и макросегментации, обусловленного спецификой вычленяемых
речевых сегментов. К микросегментам могут быть отнесены интразвуковые
акустические события и вычленяемые участки отдельных звуков речи, сами
звуки, их последовательности, включая отдельные слоги. К сфере макро-
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Кривнова О.Ф.
Рецензия на книгу Р.К. Потаповой и В.В. Потапова «Речевая коммуникация. От звука к высказыванию»
сегментации относятся сложные ритмические группы, интонационно-смысловые синтагмы, фразы, сверхфразовые единства, фоноабзацы, автономные тексты. Фонетические
слова, как полагают авторы, по многим сегментационным критериям занимают промежуточное положение, в связи с чем можно было бы говорить об уровне медиасегментации. В главе кратко рассматриваются также специфические особенности процедуры
сегментации (сегментного речевого парсинга) для каждого из выделенных уровней сегментологии, отмечается различная степень изученности этой проблемы применительно к разным языкам, и в частности, для русского языка указывается на необходимость
дальнейших исследований парсингового анализа «единиц уровня фонетической медиасегментации (фонетических слов)».
Говоря о необходимости выделения сегментологии в самостоятельный раздел речеведения
и фонетики, авторы указывают, что это «позволит оптимизировать всесторонний анализ
звучащего текста, дать его полное структурное и количественное описание, «определить условия функционирования и значимость речевых сегментов различных уровней
для фонокоммуникации в целом» (стр. 245).
В главе 6 «Сегментация звучащих текстов с опорой на критерий вербальной многоуровневой
комплексности» подчеркивается важность речевого парсинга для моделирования процесса понимания устной речи, в том числе в автоматизированных системах искусственного интеллекта. Кроме теоретических соображений, связанных с макросегментацией
текста, в данной главе описываются результаты опытов по исследованию корреляции
между формально-грамматическим членением текста и его перцептивной макросегментацией с использованием просодической информации. Исследование проводилось
на материале небольших звучащих текстов, озвученных в режиме чтения и пересказа 11 дикторами. В опытах по перцептивно-слуховой оценке макросегментации этих
текстов участвовали на разных этапах как опытные эксперты-фонетисты, так и другие
испытуемые с определенным опытом аудирования. В главе приводятся подробные таблицы, иллюстрирующие как исходные условия эксперимента, так и полученные результаты1. В заключительной части данной главы авторы довольно резко переходят от обсуждения закономерностей в макросегментации слитной речи, наблюдаемых в проведенных ими опытах, к глобальным проблемам создания систем искусственного интеллекта.
Представляется, что для более полного понимания рассматриваемых вопросов были
бы полезны дополнительные сведения о целях, материале и условиях проведения описываемых здесь экспериментов (например, непонятно, почему происходит переход на
анализ телефонных диалогов, в чем он заключался и т.д.).
В седьмой главе с весьма сложным названием «Феномен речевой сегментологии с учетом
когнитивной рефлексии и коммуникативно-деятельностного подхода» описываются
результаты перцептивно-слуховых и перцептивно-зрительных экспериментов, посвященных смысловой и квазисмысловой макросегментации монологов и диалогов спонтанного характера. На первом этапе эксперименты проводились на материале русских
орфографических транскриптов фонограмм устных монологов с отсутствующими в них
традиционными знаками членения письменного текста (без знаков препинания, прописных букв, пробелов, маркеров абзацного членения). Задача испытуемых состояла
в том, чтобы преобразовать реальные транскрипты фонограмм в осмысленные письменные тексты с нужными графическими знаками членения. Заключительный вывод
этого этапа состоит в том, что локализация текстовых границ и вариативность способов
их графического маркирования определяются выбором того или иного типа просодического текстового маркера и смысловой структурой текста. При этом обнаружено, что
степень вариативности медиасегментации (восстановления словесных пробелов), осуществляемой испытуемыми при преобразовании исходных транскриптов в письменные
тексты, существенно ниже, чем степень вариативности макросегментации. Авторы по1
К сожалению, в таблицах, где приводятся относительные(нормированные) акустические показатели, не указано, относительно каких величин осуществляется нормирование.
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
99
Кривнова О.Ф.
Рецензия на книгу Р.К. Потаповой и В.В. Потапова «Речевая коммуникация. От звука к высказыванию»
лагают, что это свидетельствует о различии речемыслительных процессов,
действующих на уровнях макро- и медиасегментации.
На втором этапе аналогичное исследование было проведено на материале
транскриптов фонограмм устных диалогов. Анализ отчётов, полученных от
испытуемых, показал, что «маркеры границ, отмеченных информантами,
можно разделить на три группы (ядерные, промежуточные и маргинальные)
в зависимости от частоты их встречаемости (в отчетах информантов, ОК) на
том или ином участке квазитекста (исходного транскрипта, ОК)», стр. 288–
289. В целом, выводы по гл. 7 (стр. 288–289) в значительной степени повторяют выводы, сделанные ранее в гл. 6 (стр. 279–280).
Материал третьего большого раздела «Антропоцентрический подход к изучению звуковой материи» выходит далеко за рамки проблем, связанных
с сегментологией звучащей речи. Раздел включает семь небольших глав,
со средним объемом каждая около 14 стр., которые, на наш взгляд, можно
было бы укрупнить.
Раздел открывается главой 8 «Сопоставительная паравербалика и ее просодические корреляты», где справедливо утверждается, что «полное изучение
процессов передачи смысловой информации должно опираться не только
на вербалику, но и на невербалику (пара- и экстравербалику)» (стр. 293).
Авторы определяют паравербальную речевую систему как «набор особых
поведенческих знаков, образуемых, с одной стороны, сегментными средствами фонации и артикуляции, с другой стороны, супрасегментными средствами просодии, присущими участникам коммуникативного акта» (стр. 294).
Кроме того, к паравербальному компоненту коммуникации относятся и неголосовые поведенческие действия, производимые коммуникантами: кинесические (проксемика), визуальные (окулесика) и пр. Рассматриваются базовые формы и типовые примеры функционирования голосовых паравербальных знаков: кратковременный автономный тип, например, различные
щелкающие, свистящие, носовые и другие звуки, которые используются
говорящими для передачи различного рода оценок и психоэмоциональных
состояний; более протяженный зависимый тип, в котором происходит наложение голосовых паравербальных средств на вербальное наполнение высказывания, например, использование шепота, назализации, ухмылки и пр.
Обращается внимание на то, что незнание специфики иноязычной и инокультурной паравербалики может привести к коммуникативным сбоям, что
в свою очередь влияет на результат коммуникации в целом. Приводятся
конкретные примеры функционирования паравербального компонента
в межкультурной и межличностной коммуникации.
Глава 9 «Фонетические средства оптимизации речевого воздействия» посвящена
обсуждению перлокутивной функции фонетических средств в речевой коммуникации. Авторы считают, что здесь роль звучащей речи так велика, что
для её изучения имеет смысл выделить особую область прагматики — прагмафонетику, в задачи которой должно входить изучение системы фонетических средств речевого воздействия (РВ). Дается краткий экскурс в историю ораторского искусства и риторики, где, как известно, обращалось особое внимание на использование специальных фонетических средств для
достижения большей убедительности и выразительности устной речи.
100
Возвращаясь к задаче изучения и описания фонетики РВ, авторы отмечают,
что, приступая к ее решению, целесообразно различать коммуникативную
и эмотивную функции речевой просодии, и подчеркивают бóльшую значимость эмотивной функции в процессах оптимизации РВ. Даётся краткий
обзор экспериментально-фонетических исследований эмотивной функции
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Кривнова О.Ф.
Рецензия на книгу Р.К. Потаповой и В.В. Потапова «Речевая коммуникация. От звука к высказыванию»
просодических и тембральных фонетических средств в целях оптимизации РВ. Вводится понятие прагматически ориентированного текста как такого речевого сообщения,
«содержание которого, помимо информирования, предназначено для воздействия на
эмоционально-волевую психику получателя информации» (стр. 304). Авторы разделяют
распространенное мнение, что степень РВ звучащего текста на просодическом уровне
тесно связана с его экспрессивностью, что, в свою очередь, определяется эмоциональной насыщенностью текста. Для подтверждения этого мнения приводятся конкретные
данные перцептивно-слухового и акустического анализа просодического оформления
устных текстов в режиме чтения и спонтанного говорения. Также обсуждаются работы
по фоностилистике и более специальные исследования, в которых имеются описания
важных речевых параметров прагмафонетического плана, полученные на разном языковом материале в различных формах устного дискурса.
Стоит отметить, что данная глава в целом так насыщена просодическими фактами, что было
бы уместно дополнительное внутреннее структурирование приводимой информации
и обобщающие выводы.
В главе 10 «Восприятие эмоционального поведения иноязычных и инокультурных коммуникантов» рассматривается национально-культурная специфика взаимодействия вербальных и невербальных средств в речевых коммуникативных актах. В центре авторского
внимания — анализ и оценка эмоционального поведения коммуникантов реципиентами
иной культуры и языка с учетом специфики вербальной и невербальной коммуникации.
Исходя из того, что фонетические паравербальные средства в любой культуре связаны
прежде всего с прагмафонетическим эффектом речевого воздействия, авторы провели
ряд исследований, задача которых заключалась в том, чтобы выявить специфические
черты эмоционального поведения иноязычных коммуникантов (носителей немецкого
языка) по оценкам носителей русского языка, полученным на базе субъективной интепретации вербального и невербального компонентов речевых сообщений иноязычных
коммуникантов. Данная задача имеет решающее значение для моделирования речевого взаимодействия «человек-человек», что убедительно показано авторами в обсуждаемой главе.
Исходная гипотеза исследований формулировалась следующим образом: «обработка слуховых и зрительных образов при восприятии речевой информации реализуется во взаимодополняющем комплиментарном режиме. В то же время симультанные и сукцессивные виды ее декодирования имеют свои особенности» (стр. 323). Материалом для
анализа послужили фрагменты различных ток-шоу телевидения Германии. На первом
этапе проводились симультанный перцептивно-слуховой и перцептивно-зрительный
виды анализа фрагментов немецких ток-шоу; в качестве экспертов выступали носители русского языка без знания немецкого и носители немецкого языка в возрасте от
18 до 22 лет. Эксперты-аудиторы должны были «наряду с определением общего эмоционального настроя коммуникации оценить конкретный вклад в его создание каждого из
вербальных и невербальных средств, перечисленных в специальной анкете» (стр. 326,
в тексте главы приводится образец анкеты).
Сопоставительный анализ отчётов экспертов позволил установить, что русские эксперты при
определении общего эмоционального настроя иноязычной коммуникации опираются
прежде всего на невербальную речевую информацию, а паравербальную просодическую используют в качестве дополнительного оценочного параметра. В противоположность этому для немцев при эмотивном декодировании родной речи характерна ориентация на тембр голоса.
На втором этапе исследования условия эксперимента были несколько изменены: материал
включал немецкую деловую речь, предъявлялся по двум каналам восприятия (слуховому и зрительному) последовательно, анкетный вопросник был расширен. В качестве
экспертов выступали только носители русского языка (как и раньше без знания немецкого). Обработка экспертных отчетов показала, что сукцессивное декодирование эмо-
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
101
Кривнова О.Ф.
Рецензия на книгу Р.К. Потаповой и В.В. Потапова «Речевая коммуникация. От звука к высказыванию»
тивной информации по обоим перцептивным каналам в целом даёт те же
результаты, что и симультанное, однако характеризуется большей точностью и надежностью.
На основе полученных результатов авторы делают следующий вывод: «добавление акустического канала к зрительному значительно расширяет возможности декодирования эмотивной информации даже при наличии такой помехи
в коммуникации, как отсутствие языковых знаний на уровне семантики»
(стр. 329).
Заключительная часть главы содержит описание исследования, аналогичного
вышеизложенному, но на материале русского языка. Результаты приводятся в компактной табличной форме. Они свидетельствуют, что для немецких
экспертов-аудиторов без знания русского языка опорным средством оценки
эмотивной составляющей русской речевой коммуникации является тембровый голосовой параметр или тембр в комбинации с мелодикой и темпом
речи. Авторы усматривают в такой перцептивной ориентации немецких экспертов влияние специфики немецкой артикуляционной базы и звуковой
системы немецкого языка.
Итоговый вывод весьма существен для дальнейшего моделирования речевой
коммуникации как в теоретическом, так и прикладном плане. Подчёркивается, что восприятие вербального и невербального поведения коммуникантов направлено не только на анализ интеллектуально-содержательной
речевой информации, но также на оценку ситуации в целом и декодирование эмоционально-модальной составляющей устного текста/дискурса.
Применительно к иноязычной и инокультурной коммуникации отсутствие
знаний в данной области является своеобразной помехой для получения
адекватной оценки всех составляющих (сверхзадачи, мотивации, замысла
и др.) акта межличностной коммуникации» (стр. 333). Остаётся только присоединиться к авторам рецензируемой книги в их акценте на необходимость
дальнейших изысканий в этой увлекательной области.
В главе 11 «Идентификация говорящего и его эмоционального состояния по голосу и речи» авторы обращают внимание на весьма обширный информационный пласт звучащей речи, который создается достаточно константными
характеристиками говорящего: деятельностными, индивидуально-личностными и интеллектуальными. Для более подробного рассмотрения выделен
физиолого-психический фактор дифференциации говорящих, приобретающий особое значение в современной жизни при решении многих практических задач: при профессиональном отборе, при получении психологического портрета говорящего, идентификации личности по голосу и т.д. Выдвигается гипотеза, согласно которой на основании внешних речевых признаков
(акустических и лексико-грамматических) может быть установлено физиологическое и психическое состояние говорящего, позволяющее сделать
адекватный вывод о преобладании в его поведении процессов: «возбуждения/торможения; уравновешенности/неуравновешенности; рассеянности/
сосредоточенности и т.д.» (стр. 337).
102
Переходя к проблеме идентификации говорящего, отмечается, что она в конечном счёте сводится к задаче построения индивидуального речевого портрета говорящего. Далее в рассмотрение вводится целый ряд признаков,
которые образуют речевой портрет или должны учитываться при его создании: акустико-лингвистические (первичные и вторичные), коммуникативные
и индивидуальные (биологические, психологические, социальные), нормативные (универсальные, групповые, идиосинкразические), контролируемые/неконтролируемые; приобретённые/неприобретённые и т.д. Множество
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Кривнова О.Ф.
Рецензия на книгу Р.К. Потаповой и В.В. Потапова «Речевая коммуникация. От звука к высказыванию»
идентифицирующих признаков, приводимых в книге, столь велико и разнообразно, что
было бы желательно более чёткое его структурирование, устранение повторов, сведение значимых параметров в результирующую классификационную таблицу или какуюто иную наглядную схему.
Значительное место в данной главе занимает обсуждение вопроса об автоматизации получения портретных характеристик говорящего по его речевой продукции. Наиболее
перспективным, по мнению авторов, является экспертный подход с использованием
фреймовых структур акустико-фонетических и лингвистических знаний и специальных
баз данных, содержащих всю известную информацию о об универсальных и специфических признаках и параметрах речевого сигнала, значимых для речевого портрета говорящего.
Несколько неожиданным для читателя представляется переход от вопроса о речевом портрете говорящего к проблеме реализации и распознавания эмоций в речи (стр. 345),
хотя можно согласиться с авторами, что переживаемые эмоции изменяют устойчивые
формальные признаки речи говорящего, т.е. модифицируют его речевой портрет. В этой
части главы 11 подробно описываются результаты экспериментально-фонетических исследований о влиянии некоторых эмоций и эмоциональных состояний (радость гнев,
страх, тревожность) на сегментные и просодические характеристики звучащей речи (на
актерском и естественном речевом материале). Подробно описывается методика проведения подобных экспериментов, приводятся иллюстративные графики для различных
акустико-физиологических параметров. В заключение авторы делают осторожный вывод о возможности использования полученных данных в судебной фонетике при идентификации говорящего по голосу и речи, при идентификации его эмоционального состояния, а также «для дальнейшего сравнения с другими результатами, которые учитывают
речевую реализацию эмоций на примере других языков» (стр. 352).
Глава 12. «Определение “облика говорящего” по данным перцептивно-слухового анализа
звучащей речи» возвращает читателя к центральному вопросу главы 11, к сожалению,
без каких-либо ссылок на предыдущее изложение. На самом деле, материал данной
главы содержит описание эксперимента, цель которого заключалась в выявлении перцептивно-слуховых признаков речи говорящего, значимых (объективно и субъективно)
для создания его речевого портрета. Подробно описывается материал исследования,
методика, состав и задачи дикторов и аудиторов. Задачи аудиторов были связаны с анализом и оценкой акустических свойств речевого материала. Данные, полученные в результате перцептивно-слухового анализа, были обработаны статистически для всех рассматриваемых групп личностных признаков говорящего: фонетических, языковых, физиолого-метрических и эмоциональных. В главе приведены графики, иллюстрирующие
полученные результаты и выводы. Произведено ранжирование признаков по степени их
перцептивной надежности и значимости, которое может быть основой для экспертной
инструкции по фоноскопии.
Глава 13 «Восприятие звучащей речи в затруднённых условиях» в чём-то перекликается
с главами 5 и 6 второго раздела, так как в ней рассматривается низший уровень смыслового восприятия звучащего текста с акцентом на вычленение и идентификацию его
словесного наполнения при наличии определенных помех на уровне акустического распознавания. Даётся краткий обзор литературных данных по проблеме восприятия и интерпретации текста в разных аспектах: психолингвистическом, литературоведческом,
лингвистическом, когнитивном. Переход к описанию эксперимента по восприятию устного текста в шумах (стр. 371), следующий сразу после такого обзора, выглядит достаточно
неожиданным и неоправданно резким.
Условия эксперимента (вкратце) были следующие: аудиторам (n=24) предлагались для прослушивания зашумленные устные монологи дикторов на разные темы. В их задачу входило: записать слова, которые им удалось идентифицировать при прослушивании каждого монолога, а затем реконструировать на их основе весь монолог. Отчёты аудиторов
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
103
Кривнова О.Ф.
Рецензия на книгу Р.К. Потаповой и В.В. Потапова «Речевая коммуникация. От звука к высказыванию»
по каждому монологу и по всей совокупности были затем проанализированы и статистически обработаны, приводятся графические иллюстрации
наиболее важных результатов. Полученные данные отчасти подтверждают
результаты других исследований по восприятию отдельных слов и словосочетаний в шумах, но в то же время представляют значительный интерес
для более глубокого изучения и моделирования механизмов обработки и
понимания связного текста. Так, проведённый авторами анализ показал,
что при незначительной и средней зашумленности в тексте лучше всего
опознаются существительные и глаголы, а при значительном шуме плохая
опознаваемость характерна для всех слов. Обнаружилось также, что при
записи идентифицированных слов аудиторы часто используют их исходные
грамматические формы, т.е. переходят на лемматический способ представления идентифицированных слов.
В главе 14 «Фоностилистика научной речи с позиций прагмафонетики» рассматривается возможность взаимодействия традиционного фоностилистического подхода к речи с прагмафонетическим разделом речеведения. В начале главы даётся обстоятельный обзор теории стилей в отечественной
и зарубежной лингвистике, отмечается, что лингвостилистика до недавнего
времени была обращена в основном к письменной речи, что совершенно
недостаточно с точки зрения теоретических и практических задач общего
речеведения. Этот вывод в полной мере касается и устной научной речи,
интерес к изучению которой особенно оживился в последние годы в связи
с расширением международных и межкультурных научных связей. С позиций речеведения на первый план здесь выходят задача изучения особенностей устно-речевой актуализации научного текста в разных дискурсивных
условиях (социальных, языковых, культурных и пр.).
На основании своего исследовательского опыта авторы монографии делают попытку выделить базовые признаки научного устно-речевого стиля
(стр. 383–384), относящиеся как к содержанию и композиции научного
текста, так и к его устной языковой форме. При этом отмечается, что результативность различных актов научного общения определяется сложной
дискурсивной компетенцией участников, отдельные составляющие которой
подробно обсуждаются.
Переходя к анализу имеющихся фоностилистических исследований научной
речи, авторы выделяют лекционный жанр как наиболее полно изученный
для разных языков. В подтверждение этого даётся подробное описание наиболее важных результатов, полученных на материале русской, английской
и немецкой научной речи. В этой части главы приведены обширные цитаты
из первоисточников, однако, на наш взгляд, не хватает каких-то обобщающих выводов сопоставительного функционально-фонетического характера.
В качестве примера экспериментально-фонетического исследования лекторской
речи описан также цикл экспериментов, осуществлённых авторами монографии на материале аудиторных устных лекций, прочитанных высококвалифицированными немецкими специалистами ряда университетов Германии.
На стр. 389–399 подробно рассматриваются задачи, условия, материал и
методика каждого экспериментального цикла, а демонстрируемая авторами
тщательность в постановке и характеристике проводимых экспериментов
может служить примером для многих экспериментальных работ в области
фонетики звучащей речи. В центре внимания обсуждаемого исследования
находились следующие вопросы:
— макросегментация лекторской речи и её фонетические средства;
104
— ключевые слова и просодические средства смыслового подчёркивания;
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Кривнова О.Ф.
Рецензия на книгу Р.К. Потаповой и В.В. Потапова «Речевая коммуникация. От звука к высказыванию»
— соотношение вербальных и невербальных средств в научной коммуникации лекторского типа;
— общие особенности интонационно-ритмической организации лекционного материала
с разной степенью подготовленности.
По всем указанным вопросам были получены интересные результаты, которые свидетельствуют о важной текстоорганизующей функции просодических средств в лекционной
немецкой речи, которая проявляется как в макросегментации текста, так и в обеспечении смыслового подчеркивания отдельных фрагментов в логическом и/или эмотивном плане. Результаты аудиовизуального анализа лекционного дискурса показывают, что «в формировании дидактически мотивированной лекторской речи принимают
участие как вербальные средства, в частности супрасегментные параметры просодии,
так и невербальные (жестикуляция), которые своеобразно варьируют в зависимости
от информационной насыщенности текста/дискурса и его композиционной структуры»
(стр. 399).
Хочется надеяться, что исследования в этой области речеведения будут продолжены на разном речевом и языковом материале с учетом основных направлений изучения устноречевой научной коммуникации (УНРК), намеченных авторами рецензируемой книги.
Заключение содержит очень краткое обобщение материала, изложенного в монографии. Её
тематическая многоаспектность является прямым отражением многослойности и полиинформативности устно-речевой коммуникации и сложности проблем, которые требуют
дальнейшей разработки в рамках фундаментального и/или прикладного речеведения.
Простое перечисление этих проблем и связанных с ними задач занимает в монографии
почти полную страницу авторского изложения (стр. 401–402). Не вызывает сомнения,
что новая книга Р.К. Потаповой и В.В. Потапова вносит существенный вклад в дальнейшее развитие этой увлекательной предметной области общей науки о человеке. Можно
надеяться, что выход этой монографии стимулирует появление новых исследований, которые, в конечном счёте, позволят построить адекватную модель межличностной речевой коммуникации во всем её дискурсивном многообразии. Нельзя не отметить также,
что книга прекрасно издана как с точки зрения редакционной подготовки, так и в полиграфическом плане.
Литература
1. Потапова Р.К. (1986) Слоговая фонетика германских языков. М.: Высшая школа. 144 с.
2. Потапова Р.К. (ред.) (1997) Общая и прикладная фонетика / Златоустова Л.В., Потапова
Р.К., Потапов В.В., Трунин-Донской В.Н.. М.: Изд-во Моск. ун-та. 416 с.
3. Потапова Р.К. (2010) Речь: коммуникация, информация, кибернетика. 4-е изд., доп. М.:
УРСС. 600 с.
4. Потапова Р.К., Потапов В.В. (2006) Язык, речь, личность. Москва: Языки славянской культуры. 496 с.
5. Potapov V.V. (2001) Dynamik und Statik des sprachlichen Rhythmus: Eine vergleichende Studie
zum slavischen und germanischen Sprachraum. Köln; Weimar; Wien: Böhlau Verlag. 309 s.
6. Potapova R.K., Potapov V.V. (2011) Kommunikative Sprechtätigkeit. Rußland und Deutschland
im Vergleich. Köln; Weimar; Wien: Böhlau Verlag. 312 s.
Сведения об авторе
Кривнова Ольга Фёдоровна —
доктор филологических наук, в.н.с. кафедры теоретической и прикладной лингвистики филологического факультета МГУ им. М.В. Ломоносова.
105
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Сравнение эффективности
моделей вариативности
произношения для систем
распознавания речи1
Чучупал В.Я., в.н.с. ВЦ РАН,
кандидат физико-математических наук
Коренчиков А.А., студент 5 курса МГУ
Ðàáîòà ïîñâÿùåíà èññëåäîâàíèþ ñïîñîáîâ ìîäåëèðîâàíèÿ âàðèàòèâíîñòè ïðîèçíîøåíèÿ â ñèñòåìàõ ðàñïîçíàâàíèÿ ðå÷è.
Îïðåäåëåíà âåðîÿòíîñòíàÿ ìîäåëü ïðîèçíîøåíèÿ ñëîâà, ïðèâåäåíû àëãîðèòìû îöåíêè åå ïàðàìåòðîâ. Ïðèâåäåíî ñðàâíåíèå,
ñ òî÷êè çðåíèÿ óðîâíÿ îøèáîê è ñëîæíîñòè ðåàëèçàöèè, íåñêîëüêèõ âàðèàíòîâ ðåàëèçàöèè ìîäåëè âàðèàòèâíîñòè ïðîèçíîøåíèÿ â ñèñòåìå ðàñïîçíàâàíèÿ ðå÷è.
• àâòîìàòè÷åñêîå ðàñïîçíàâàíèå ðå÷è • âàðèàòèâíîñòü ðå÷è
• ìîäåëèðîâàíèå ïðîèçíîøåíèÿ • ñêðûòûå ìàðêîâñêèå ìîäåëè.
The paper addresses the problem of pronunciation modeling for automatic speech recognition. A statistical pronunciation model based
on the explicit approach is reviewed along with the ways for estimation of its parameters and its implementation in the speech recognition engines. The experimental results are described that show the
usefulness of the proposed approach in terms of WER gain.
106
1
Ðàáîòà âûïîëíåíà ïðè ôèíàíñîâîé ïîääåðæêå ÐÔÔÈ, ïðîåêò 11-01-00900à.
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Чучупал В.Я., Коренчиков А.А.
Сравнение эффективности моделей вариативности произношения для систем распознавания речи
Введение
Акустический образ слова в системах распознавания речи обычно моделируется путём задания его фонемной (или произносительной) транскрипции как последовательности
составляющих это слово фонем. Большинство слов в произносительном словаре систем распознавания речи представлено единственной транскрипцией, которая соответствует каноническому (нормативному или базовому) произнесению.
Вариативность в произношении слов является одной из основных причин появления
ошибок при распознавании речи. Она может возникать вследствие различных обстоятельств: индивидуальных особенностей, темпа речи, эмоционального состояния
говорящего и т.п. При автоматическом распознавании к перечисленным выше причинам может добавиться вариативность, вызванная неадекватностью акустических
моделей наблюдаемым данным из-за различия между обучающим и фактическим
материалом.
По приведенным выше причинам конкретное произнесение слова может существенно отличаться от нормативного, что часто приводит к ошибкам в его распознавании.
Под моделированием вариативности произношения в речевой технологии подразумевают
набор моделей и методов для определения множества наиболее вероятных в той или
иной ситуации акустических образов слов и словосочетаний.
В литературе встречаются два основных подхода к моделированию вариативности произношения [2, 3]. Явное моделирование (explicit modeling) заключается в моделировании
вариативности произношения путем модификаций фонемных транскрипций слов [2].
При неявном моделировании (implicit modeling) [4] вариативность произношения обеспечивается путем изменений структуры моделей звуков канонической транскрипции.
Оба подхода никоим образом не отменяют использования канонических транскрипций
и направлены на определение дополнительных вариантов произнесения слов и словосочетаний.
В данной работе мы следовали явному подходу к моделированию вариативности произношения, то есть, предполагали, что все наблюдаемые изменения в произношении
можно адекватно описать соответствующими изменениями фонемных транскрипций.
Практическая реализация такого подхода для моделирования вариативности произношения слов в системе распознавания речи обычно связана с решением следующих
задач:
• выбор модели вариативности и ее параметров;
• определение наиболее вероятных вариантов произнесения слов;
• определение алгоритма использования вариантов произнесения при распознавании.
Соответственно, в работе рассмотрена вероятностная модель вариативности произношения, алгоритмы оценки ее параметров и реализации в процедурах поиска. Приведено
сравнение эффективности использования нескольких вариантов моделей вариативности при распознавании цифр и числительных.
Модель вариативности произношения
Цель использования модели вариативности произношения в системе распознавания речи
— уменьшение числа ошибок в распознавании. При использовании явного подхода
это предполагается достичь за счет использования кроме базовых транскрипций, их
вариантов, которые более соответствуют фактическим произнесениям.
Для того, чтобы показать, как можно эффективно использовать вариативность произношения, напомним формулировку вероятностного подхода к распознаванию речи [5].
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
107
Чучупал В.Я., Коренчиков А.А.
Сравнение эффективности моделей вариативности произношения для систем распознавания речи
Пусть X = {xt |t = 1,...,T} — последовательность параметров наблюдаемого
речевого сигнала, а W = {wi |i = 1,...,N} — последовательность слов
словаря. Результат распознавания образа X, наиболее вероятная последовательность слов W*, определится путем оптимизации выражения [1]:
W * = arg max P(W | X ) = arg max
W
W
P( X | W ) P(W )
.
P( X )
(1)
Первый сомножитель — P(X|W) в числителе (1) соответствует правдоподобию данных при заданной последовательности слов. Полученная величина правдоподобия затем умножается на второй сомножитель, значение
P(W), определяемое с помощью модели языка. Отметим, что моделей
произношения слов, транскрипций, в (1) в явном виде нет.
Различие между словами и транскрипциями заключаются в том, что слова относятся к смыслу высказывания и записываются в орфографической форме, а их произносительные транскрипции определяют акустические параметры и образы слов. Это различие можно учесть, дополнив критерий (1)
моделью вариативности произношения.
Пусть акустической моделью некоторого слова W служит его произносительная транскрипция tw. Множество всех транскрипций слова w обозначим
Tw. Моделью последовательности слов W может быть любая последовательность их транскрипций. Обозначим это множество как TW. Запись tW
будет использоваться для обозначения какой-либо одной последовательности транскрипций из множества TW.
Отметим, что применяемые на практике процедуры распознавания речи фактически определяют лучшую последовательность не самих слов, а их произносительных транскрипций [6], т.е. вместо (1) при распознавании оптимизируется:
t W * = arg max P (t W | X ) = arg max
tW ∈T W
tW ∈T W
P( X | t W ) P(t W )
.
P( X )
(2)
Наиболее вероятная последовательность слов определяется затем путем отнесения каждой произносительной модели в последовательности tW* соответствующему ей слову:
(3)
tW*→W*.
Поскольку на практике слова из словаря, как правило, имеют одну единственную транскрипцию, отображение (3) однозначно и критерии (1) и (2)
эквивалентны. При фактическом наличии вариативности произношения
эти критерии, очевидно, уже не будут эквивалентны.
Используя равенство
как:
P(tW)=P(tW|W)P(W) выражение (2) можно записать
W * = arg max P (t W | X ) =
tW ∈T W
108
P( X | t W ) P(t W | W ) P(W )
.
P( X )
(4)
Запись в форме (4) позволяет явно отделить, помимо акустической модели
и модели языка, как оценки вероятности наблюдения набора слов P(W),
также модель вариативности произнесения, как вероятности появления заданной последовательности транскрипций P(tW|W) для данной последовательности слов словаря. Множество вероятностей {P(tW|W)} естественно при этом рассматривать как параметры такой модели вариативности.
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Чучупал В.Я., Коренчиков А.А.
Сравнение эффективности моделей вариативности произношения для систем распознавания речи
Оценка параметров модели вариативности произношения
Для распознавания речи с использованием критерия (4) нужно знать значения параметров
трёх моделей: акустической, произносительной и модели языка.
Оптимальная оценка значений параметров моделей по методу максимальной апостериорной вероятности соответствует использованию критерия:
P(W | X ) = arg max
tW
где используется, что
P( X | t W ) P(t W | W ) P(W ) ,
∑ tW P( X | tW ) P(tW | W ) P(W )
(5)
P( X ) = ∑ P( X | t W ) P(t W | W ) P(W ) .
tW
Полученные в результате значения параметров можно рассматривать как дискриминантное решение (5) в том смысле, что оно максимизирует вероятность корректных
(для обучающих данных) моделей при минимизации суммарной вероятности всех
возможных.
Параметры модели языка P(W) Полученные в результате значения параметров можно
рассматривать как дискриминантное решение (5) в том смысле, что оно максимизирует вероятность корректных (для обучающих данных) моделей при минимизации суммарной вероятности всех возможных.
Параметры модели языка X таков, что известна последовательность слов w1w2 ... wN и их
моделей — транскрипций: t w1 t w2 ... t wN, которая соответствует речевым высказываниям в X. В предположении, что последовательность транскрипций не изменяется
в процессе обучения акустических моделей, наиболее правдоподобная оценка параметров модели произношения p(tw|w) определится из:
p (t w | w) = arg max ∏ p (t w ) .
w ,t w
w ,t w
(6)
Решение (6) получается совершенно аналогично соответствующим оценкам для вероятностей появления слов в модели языка [7], т.е это соответствующие частоты встречаемости:
#{t w }
,
p (t | w) =
#{w}
w
(7)
где символ # означает число событий, встретившихся в обучающих данных.
Таким образом, наиболее правдоподобная оценка вероятности появления транскрипции
слова равно её относительной частоте в обучающей выборке.
Поскольку параметры произносительных и акустических моделей очевидно зависят друг от
друга, раздельное независимое оценивание их, по (6), в отличие от параметров модели языка, некорректно.
В этом случае предлагаем использовать алгоритм попеременной оптимизации: сначала
получить оптимальные оценки по одной группе параметров полагая другие неизменными, а затем сделать то же самое для другой группы параметров. Более конкретно, предполагая вначале все варианты произнесений слов равновероятными, т.е.
p (tiw | w) = p (t wj | w), i ≠ j ,
выполним, с использованием существующих акустиче-
ских моделей, распознавание фраз из корпуса данных. Вычислим последовательности наиболее вероятных фактических транскрипций и получим оценку их частот в соответствии с (7). Далее вычислим, для только что определенной последовательности
транскрипций, новые значения параметров акустических моделей и выполним заново
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
109
Чучупал В.Я., Коренчиков А.А.
Сравнение эффективности моделей вариативности произношения для систем распознавания речи
распознавание фраз из корпуса. Оба этапа (оценки частот транскрипций и
параметров акустических моделей) чередуем до тех пор, пока перестанут
меняться либо частоты появления транскрипций, либо вероятность ошибок распознавания.
Принципиальная блок-схема соответствующего алгоритма приведена на следующем рис. 1.
Корпус
данных
Распознавание и выравнивание границ фонем
Оценка частот фактических транскрипций
Модель произношения
Обучение акустических моделей
Акустические модели
+
Проверка
на изменение состава
моделей
–
Конец
Рис 1. Алгоритм оценки параметров модели произношения
Отметим, что перед началом работы алгоритма каждое слово из обучающей
части корпуса данных имеет набор потенциально допустимых транскрипций, которые отвечают возможным вариантам его произнесения.
Оценка эффективности полученных таким образом моделей вариативности
произношения осуществляется по результатам распознавания на тестовой выборке.
Модификация процедур распознавания речи
для учёта вариативности произношения
110
Наиболее известный и простой способ реализации вариативности произношения при использовании (2) основан на пополнении произносительного словаря новыми вариантами произнесения, наравне с каноническими
транскрипциями и нахождением решения в соответствии с выражениями
(2)–(3).
Как уже отмечалось, недостатком такого решения является то, что в этом случае фактически определяется наиболее вероятная последовательность
транскрипций слов, но не самих слов.
Формальное условие для определения наиболее вероятной последовательности слов W* можно получить, если записать правую часть равенства (1)
в виде:
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Чучупал В.Я., Коренчиков А.А.
Сравнение эффективности моделей вариативности произношения для систем распознавания речи
P(W | X ) =
P(W , X )
=
P( X )
∑
T ∈T W
P( X , T )
P( X )
=
∑
T ∈T W
P( X | T ) P(T )
P( X )
.
(8)
Из (4) и (8) следует, что наиболее вероятная последовательность слов может быть получена как:
W * = arg max ∑ P (T W | X ) P(T W ) .
W
T
(9)
W
Решение в соответствии с (9) определяет наиболее вероятную последовательность слов,
а не транскрипций, что лучше отвечает интуитивному пониманию решения задачи
распознавания: важнее, какие слова сказаны, а не то, каким образом они были произнесены.
Алгоритм распознавания с использованием критерия (4) отличается от версии для (2)–(3)
тем, что принимать решение о правдоподобии слова теперь нужно по взвешенной
сумме правдоподобий его транскрипций.
Реализация вычислений по (9) достаточно очевидна, но требует дополнительные, по сравнению с обычным (2)–(3) алгоритмом, шаги.
Несмотря на теоретическую оптимальность практическая реализация алгоритма на основе
(9) связана с проблемой, которая возникает из-за процедур обрезки (pruning, [7]) вершин дерева лексикона при распознавании. Для того, чтобы поиск мог быть выполнен
в разумные по времени сроки все вершины дерева, которые имеют невысокое правдоподобие, выбрасываются из дальнейшего поиска, обрезаются. Таким образом, для
практического использования нужно предложить вариант вычислений (9) в тех случаях, когда листья лексикона (предположим, без ограничения общности, что словарь
представлен в виде префиксного дерева)обрезаны вследствие их малой вероятности.
В этом случае их правдоподобие неизвестно и нужно модифицировать алгоритм (9),
что в любом случае приводит к потере его оптимальности.
В экспериментах, описанных в следующем разделе, при использовании алгоритма вычислений в соответствии с (9), в тех случаях, когда листья оказывались обрезаны, правдоподобие соответствующих транскрипций аппроксимировалось значением текущего
порога обрезки.
Для преодоления описанных недостатков рассмотрим следующий способ оценки правдоподобия слова, неоптимальный вариант (9) с заменой взвешенной суммы правдоподобий моделей на выбор одной максимально правдоподобной модели с весом в виде:
W * = arg max P (T W | X ) P(T W )
W ,T W
(10)
Алгоритм вычислений в соответствии с (10) избавлен от вышеупомянутой проблемы и фактически отличается от (2)–(3) только наличием «штрафующего» множителя P(TW | X),
т.е. обладает такой же вычислительной сложностью.
Численные эксперименты
Эффективность трех рассмотренных выше алгоритмов: на основе (2)–(3), (9) и (10) оценивалась в ходе численного эксперимента, который выполнялся на корпусах данных
ISABASE-2 [8] и TeCoRus [9] на материале, который в основном состоял из цифр и
чисел. Обучащая выборка включала речевые высказывания 200 дикторов ISABASE-2
(40000 предложений) и 50 дикторов TeCoRus (3000 предложений) , тестовая — 776
предложений (3147 цифр) от 11 дикторов TeCoRus.
Таким образом, в экспериментах использовалась, в основном, вариативность цифр и числительных. Словарь включал 130 слов, число появлений цифр в корпусе на три по-
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
111
Чучупал В.Я., Коренчиков А.А.
Сравнение эффективности моделей вариативности произношения для систем распознавания речи
рядка больше, чем других слов. Записи также включали небольшое число
«неслов»: оговорок, запинок и т.п., которые порождали дополнительные
ошибки.
Отметим, что использовать в экспериментах только данные TeCoRus, который
содержал значительное количество цифр и числительных было не совсем
репрезентативно, так как дикторы TeCoRus принадлежали в основном
к одной профессиональной и локализованной по месту жительства группы, говорили достаточно медленно и аккуратно, то есть были основания
предполагать, что в данном случае заметной вариативности произнесения
(цифр и числительных) может не оказаться.
Результаты численного эксперимента по сравнительной эффективности распознавания для всех трех алгоритмов (только на TeCoRus и только для
цифр т.е. словарь из 10 слов) приведены в Табл. 1. В качестве меры уровня ошибок использовался широко известный показатель пословной ошибки распознавания WER (word error rate). Здесь колонка «Обычный» соответствует методу (2)–(3), «Оптимальный» — методу (9) и «Субопт.» — методу (10). Вариативность произношения определялась как среднее число
фактических транскрипций, которые приходились на одно слово словаря.
Табл.1
Значения показателя пословной ошибки распознавания при использовании
различных вариантов учета вариативности произнесения
(только на данных TeCoRus)
Метод
Ошибка WER
Вариативность
Обычный
1.62
5.78
1.0
1.9
Оптимальный
2.00
1.9
Субоптим.
3.17
1.9
Эти результаты можно интерпретировать как свидетельство фактического отсутствия вариативности произнесения цифр в данном корпусе, что, как
было указано выше, вполне объяснимо. Это согласуется и с поведением алгоритма обучения: если оценивать варианты только на TeCoRus, то
с увеличением итераций в алгоритме Рис. 1 среднее количество вариантов на слово приближается к 1.
На следующей Табл. 2 показаны результаты измерений показателя WER (на
том же тестовом материале) для вариантов произношения и моделей, которые оценивались на основной выборке — корпусах данных ISABASE-2
и TeCoRus.
Табл. 2
Значения показателя пословной ошибки распознавания при использовании
различных способов учета вариативности произношения
Метод
Ошибка WER
Вариативность
112
Обычный
7.78
7.57
1.0
1.3
Оптимальный
7.38
1.3
Субоптим.
7.44
1.3
Результаты, приведенные в Табл.2, можно считать соответствущими теоретическим, поскольку оптимальным для минимизации показателя WER оказалось использование метода частотного взвешивания вариантов произнесений (9). Метод простого добавления транскрипций (2)–(3) оказался
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Чучупал В.Я., Коренчиков А.А.
Сравнение эффективности моделей вариативности произношения для систем распознавания речи
менее эффективным, по сравнению с как с оптимальным, так и субоптимальным (10),
которые учитывают частотность транскрипций, но все же предпочтительнее, чем использование только канонических моделей.
Изменения показателя WER в результате использования моделей произношения были невелики, предполагаем, что это существенно зависит от словаря (цифры, например,
нельзя назвать вариативными, они как именованные сущности, обычно произносятся
достаточно разборчиво) и от условий, в которых осуществляется речевая коммуникация. В данном случае оба корпуса данных были записаны в Москве хорошо образованными дикторами, материал — читаемый, то есть условия возникновения вариативности в значительной мере отсутствовали.
Заключение
Рассмотрены вопросы практической реализации методов моделирования произношения
в системах распознавания речи. В частности предложены алгоритмы для оценки параметров моделей произношения и алгоритмы поиска с использованием этих моделей,
которые позволяют вычислить результаты распознавания с использованием критерия
лучшей последовательности слов по сравнению с критерием определения лучшей последовательности состояний, который обычно используется при реализации поиска на
основе алгоритма Витерби.
Список литературы
1.
Jelinek F. Statistical Methodsfor Speech Recognition // The MIT Press, Cambridge, Massachusetts, 1997.
2.
Wester M. Pronunciation modeling for ASR — knowledge-based and data-derived methods // Computer Speech and Language, Vol.17, Pp. 69–85, 2003.
3.
Fosler-Lussier E. Dynamic pronunciation models for automatic speech recognition // Ph.D. thesis, University of California, Berkley, CA, 1999.
4.
Saraclar M., Khudanpur S. Pronunciation change in conversational speech and its implications for automatic speech recognition // Computer Speech and Language, Vol.18, Issue 4,
375–395, 2004.
5.
Bahl L.R., Jelinek F., Mercer R.L. «A maximum likelihood approach to continuous speech
recognition», IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. PAMI-5,
pp.179–190, 1983.
6.
Chow Y.-L., Richard Schwartz R. The N-Best Algorithm: Efficient Procedure for Finding
Top N.
7.
Sentence Hypotheses. // Proc. Int. Conf on Acoustic, Speech and Signal Processing,
ICASSP, 1990, Pp. 199–202.
8.
Young S., Bloothooft G., editors. Corpus-based methods in language and speech processing // Text, Speech and Language Technology, Vol. 2, Kluwer Academic Publishers, 1997.
9.
Богданов Д.С., Кривнова О.Ф., 11. Кривнова О.Ф., Богданов Д.С., Подрабинович А.Я.,
Арлазаров В.Л. Creation of Russian Speech Databases: Design, Processing, Development
Tools // International Conference SPECOM'2004. Proceedings. СПб. 2004.
10. Чучупал В.Я., Маковкин К.А, Чичагов А.В., Кузнецов В.Б., Огарышев В.Ф. Речевой корпус данных TeCoRus // Свидетельство об официальной регистрации базы данных
№ 2005620205, 2005 г.
113
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
ИДЕАЛЬНОЕ
ТИРАЖИРОВАНИЕ
zкнижки, буклеты, методички;
zстуденческие газеты и журналы;
zтестовые задания, опросные листы;
zи многое другое
Ризограф – это простая, быстрая и дешевая печать
для ваших преподавателей и студентов.
Ризографы предельно просты в обслуживании, и работать на них так же легко,
как на обычных копирах, поэтому с печатью справятся и преподаватели, и студенты.
Высокая скорость печати (от 90 до 180 страниц в минуту, в зависимости от
модели) гарантирует высокую производительность, а большой подающий лоток
обеспечивает длительную непрерывную печать.
Важная особенность ризографа — экологическая чистота. Аппараты отличаются
низким энергопотреблением и не используют нагревание при печати.
Печать тиражей на ризографах гораздо экономичнее, чем на обычных принтерах
или копирах, и уже при средних тиражах снижается до нескольких копеек.
Ризограф идеально подходит для большинства печатных работ в учебных
заведениях и вузовских типографиях, прост в управлении и позволит существенно
сэкономить на печати.
Узнайте больше и выберите подходящую вам модель ризографа:
ООО «НИИ школьных технологий» Тел.: (495) 345-52-00
E-mail: [email protected], [email protected]
www.riso.ru
114
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
IV Международная научно-техническая
конференция
«Открытые семантические технологии
проектирования интеллектуальных систем»
Open Semantic Technologies for Intelligent
Systems
OSTIS-2014
20–22 февраля 2014 г. Минск. Республика
Беларусь
ИНФОРМАЦИОННОЕ СООБЩЕНИЕ
Приглашаем принять участие в IV Международной научно-технической конференции «Открытые семантические технологии проектирования интеллектуальных систем» (OSTIS-2014), которая будет посвящена 90-летию Виктора Владимировича Мартынова. Конференция OSTIS-2014 открывает цикл
научных мероприятий, приуроченных к 50-летию основания Белорусского
государственного университета информатики и радиоэлектроники.
Конференция пройдет в период с 20 по 22 февраля 2014 г. в Белорусском
государственном университете информатики и радиоэлектроники, г. Минск,
Республика Беларусь.
Рабочие языки конференции: русский, белорусский, английский.
ОСНОВНЫЕ ОРГАНИЗАТОРЫ КОНФЕРЕНЦИИ
• Российская ассоциация искусственного интеллекта (РАИИ);
• Белорусский государственный университет информатики и радиоэлектроники
(БГУИР);
• Государственное учреждение «Администрация Парка высоких технологий»
(Республика Беларусь);
• Объединённый институт проблем информатики Национальной академии наук
Беларуси (ОИПИ НАН Беларуси);
• Тверской государственный технический университет;
• Научно-исследовательский институт «Прикладная семиотика» АН Татарстана.
ПРОГРАММНЫЙ КОМИТЕТ КОНФЕРЕНЦИИ
Боргест Н.М., к.т.н., доц., РФ
Борисов А.Н., д.т.н., проф., Латвия
Гаврилова Т.А., д.т.н., проф., РФ
Глоба Л.С., д.т.н., проф., Украина
Голенков В.В., д.т.н., проф., РБ
Головко В.А., д.т.н., проф., РБ
Гордей А.Н., д.фил.н., проф., РБ
Грибова В.В., д.т.н., РФ
Гулякина Н.А., к.ф.-м.н., доц., РБ
Еремеев А.П., д.т.н., проф., РФ
Ефименко И.В., к. фил. н., РФ
Заболеева-Зотова А.В., д.т.н., РФ
Загорулько Ю.А., к.т.н., доц., РФ
Клещев А.С., д.т.н., проф., РФ
Кобринский Б.А., д.мед.н., РФ
Козлов О.А., д.п.н., проф., РФ
Комарцова Л.Г., д.т.н., РФ
Кузнецов О.П., д.т.н., проф., РФ
Курейчик В.М., д.т.н., проф., РФ
Ландэ Д.В., д.т.н., Украина
Лобанов Б.М., д.т.н., проф., РБ
Массель Л.В., д.т.н., проф., РФ
Найденова К.А., к.т.н., РФ
Невзорова О.А., к.т.н., доцент, РФ
Осипов Г.С., д.ф.-м.н., проф., РФ
Палюх Б.В., д.т.н., проф., РФ
Петровский А.А., д.т.н., проф., РБ
Плесневич Г.С., к.ф.-м.н., РФ
Родченко В.Г., к.т.н., доц., РБ
Рычкова Л.В., к.фил.н., доц., РБ
Смирнов С.В., д.т.н., проф., РФ
Соловьёв С.Ю., д.ф.-м.н., проф., РФ
Соснин П.И., д.т.н., проф., РФ
Стефанюк В.Л., д.т.н., проф., РФ
Сулейманов Д.Ш., академик АН Татарстана, РФ
Тарасов В.Б., к.т.н., доц., РФ
Тельнов Ю.Ф., д.э.н., проф., РФ
Тузиков А.В., д.ф.-м.н., проф., РБ
Харламов А.А., д.т.н., РФ
Хорошевский В.Ф., д.т.н., проф., РФ
Чернявский А.Ф., академик НАН Беларуси
Шарипбаев А.А., д.т.н., проф., Казахстан
Щербак С.С., к.т.н., доц., Украина
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
115
НАПРАВЛЕНИЯ РАБОТЫ КОНФЕРЕНЦИИ:
• Принципы, лежащие в основе семантического представления знаний,
и их унификация.
Типология знаний и особенности семантического представления различного вида знаний и метазнаний.
Связи между знаниями и отношения, заданные на множестве знаний.
Семантическая структура глобальной базы знаний, интегрирующей различные накапливаемые знания.
• Языки программирования, ориентированные на параллельную обработку семантического представления баз знаний.
• Модели решения задач, в основе которых лежит обработка знаний,
осуществляемая непосредственно на уровне семантического представления обрабатываемых знаний. Семантические модели информационного поиска, интеграции знаний, анализа корректности и качества баз
знаний, сборки информационного мусора, оптимизации баз знаний, дедуктивного и индуктивного вывода в базах знаний, правдоподобных рассуждений, распознавания образов, интеллектуального управления. Интеграция различных моделей решения задач .
• Семантические модели восприятия информации о внешней среде
и отображения этой информации в базу знаний.
• Семантические модели мультимодальных пользовательских интерфейсов интеллектуальных систем, в основе которых лежит семантическое представление используемых ими знаний, и унификация этих моделей.
• Семантические модели естественно-языковых пользовательских интерфейсов интеллектуальных систем. Структура семантического представления лингвистических баз знаний, описывающих естественные языки и обеспечивающих решение задач понимания естественно-языковых
текстов и речевых сообщений, а также задач синтеза естественно-языковых текстов и речевых сообщений, семантически эквивалентных заданным фрагментам баз знаний.
• Интегрированные комплексные логико-семантические модели интеллектуальных систем, основанные на семантическом представлении знаний, и их унификация.
• Различные технические платформы и варианты реализации интерпретаторов унифицированных логико-семантических моделей интеллектуальных систем, основанных на семантическом представлении
знаний.
• Средства и методы, основанные на семантическом представлении
знаний и ориентированные на проектирование различных типовых компонентов интеллектуальных систем (баз знаний, программ, решателей
задач, интерфейсов).
• Средства и методы, основанные на семантическом представлении
знаний и ориентированные на комплексное проектирование различных
классов интеллектуальных систем (интеллектуальных справочных систем, интеллектуальных обучающих систем, интеллектуальных систем
управления, интеллектуальных робототехнических систем, интеллектуальных систем поддержки проектирования и др.).
• Прикладные интеллектуальные системы, основанные на семантическом представлении используемых ими знаний.
116
ЦЕЛЬ И ФОРМАТ ПРОВЕДЕНИЯ КОНФЕРЕНЦИИ
Целью конференции является обсуждение проблем создания открытой комплексной семантической технологии
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
компонентного проектирования интеллектуальных систем. Этим
определяется и формат её проведения, предполагающий (1) пленарные доклады, (2) секционные заседания; (3) «круглые столы», посвященные обсуждению различных вопросов создания указанной технологии; (4) выставочные презентации докладов.
Выставочная презентация докладов даёт возможность каждому
докладчику продемонстрировать результаты своей разработки на выставке. Формат проведения конференции предполагает точное время начала каждого доклада и точное время его выставочной презентации.
Важнейшей задачей конференции является привлечение к её работе
не только учёных и аспирантов, но и студенческой молодежи, интересующейся проблемами искусственного интеллекта, а также коммерческих организаций, готовых сотрудничать с научными коллективами,
работающими над созданием современных технологий проектирования интеллектуальных систем.
КОНКУРС СТУДЕНЧЕСКИХ ПРОЕКТОВ ИНТЕЛЛЕКТУАЛЬНЫХ
СИСТЕМ И КОНКУРС ДОКЛАДОВ МОЛОДЫХ УЧЁНЫХ
В рамках конференции OSTIS-2014 будет проведён конкурс студенческих проектов интеллектуальных систем. Правила оформления заявок
на участие в этом конкурсе опубликованы на сайте конференции
(http://conf.ostis.net/index.php?title=Конкурс_студенческих_проектов).
Кроме того, будет проводиться конкурс докладов молодых учёных.
В конкурсе принимают участие доклады, включенные в Программу
конференции и представленные на ней молодыми авторами, имеющими возраст до 30 лет и не имеющими ученых степеней.
УСЛОВИЯ УЧАСТИЯ В КОНФЕРЕНЦИИ
В конференции имеют право участвовать все те, кто интересуется проблемами искусственного интеллекта, а также коммерческие организации, готовые сотрудничать с научными коллективами, работающими
над созданием современных технологий проектирования интеллектуальных систем.
Для участия в конференции OSTIS-2014 необходимо до 1 декабря
2013 года на электронную почту конференции [email protected] отправить:
• статью для публикации в сборнике материалов конференции OSTIS2014. Статья на конференцию должна быть оформлена в соответствии с шаблоном оформления статей (см. сайт конференции http://conf.
ostis.net/index.php?title=OSTIS-2014);
• заявку доклада на конференцию OSTIS-2014 (см. сайт конференции http://conf.ostis.net/index.php?title=OSTIS-2014). Каждое поле заявки обязательно для заполнения. Заполняя регистрационную форму,
вы подтверждаете согласие на обработку Оргкомитетом конференции
персональных данных, публикацию статей и информации об авторах
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
117
в печатном и электронном виде. В заявке доклада должна
содержаться информация по каждому автору. К заявке доклада должны быть прикреплены цветные фотографии
всех авторов статьи (это необходимо для публикации Программы конференции).
Отбор статей для публикации в сборнике и участия в работе
конференции осуществляется рецензентами из числа членов Программного комитета конференции.
Заявки и статьи, оформленные без соблюдения предъявляемых требований, не рассматриваются.
До 10 января 2014 года авторам статей, включённых в Программу конференции, направляются приглашения для участия в конференции.
Участие в конференции не предполагает организационного
взноса.
ПОРЯДОК ПРЕДСТАВЛЕНИЯ НАУЧНЫХ СТАТЕЙ
Статьи (только по перечисленным выше направлениям)
представляются в готовом для публикации виде. Текст статьи должен быть логически законченным и содержать новые
научные и практические результаты. От одного автора допускается не более двух статей.
Оргкомитет оставляет за собой право отказать в приеме
статьи в случае, если статья не будет соответствовать требованиям оформления и тематике конференции, а также если
будет отсутствовать заявка доклада, соответствующая этой
статье.
ПУБЛИКАЦИЯ МАТЕРИАЛОВ КОНФЕРЕНЦИИ
Оргкомитет конференции предполагает публикацию статей,
отобранных Программным комитетом по результатам их рецензирования, в сборнике материалов конференции и на
официальном сайте конференции http://conf.ostis.net. Неимущественные права принадлежат авторам статей, поэтому
публикация и распространение материалов статей на иных
информационных ресурсах допускаются только с согласия
авторов статей.
ФОРМИРОВАНИЕ ПРОГРАММЫ КОНФЕРЕНЦИИ
Программа конференции формируется Программным комитетом по результатам рецензирования представленных статей, а также на основании подтверждения автора(-ов) статьи
о прибытии на конференцию.
118
КЛЮЧЕВЫЕ ДАТЫ КОНФЕРЕНЦИИ
1 октября 2013 г. —
начало подачи материалов для участия в конференции.
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
1 декабря 2013 г. —
крайний срок получения материалов для участия в конференции Оргкомитетом.
до 10 января 2014 г. —
рассылка приглашений для участия в конференции и сообщение
о включении статьи в сборник материалов конференции OSTIS.
1 февраля 2014 г. —
размещение на сайте конференции http://conf.ostis.net/index.php?title=
OSTIS-2014 проекта программы конференции.
12 февраля 2014 г. —
размещение на сайте конференции http://conf.ostis.net/index.php?title=
OSTIS-2014 сборника материалов и Программы конференции OSTIS2014.
20 февраля 2014 г. —
регистрация участников и открытие конференции OSTIS-2014.
21 февраля 2014 г. —
работа секций и проведение конкурса студенческих проектов интеллектуальных систем в рамках конференции.
22 февраля 2014 г. —
работа секций; подведение итогов работы конференции, а также награждение за лучшие доклады молодых ученых и призеров и победителей по итогам конкурса студенческих проектов интеллектуальных
систем.
25 февраля 2014 г. —
публикация фоторепортажа и отчёта о проведённой конференции на
сайте конференции: http://conf.ostis.net/index.php?title=OSTIS-2014.
КОНТАКТНЫЕ ДАННЫЕ ОРГАНИЗАТОРОВ КОНФЕРЕНЦИИ OSTIS
Вся необходимая информация по предстоящей и предыдущих конференциях OSTIS находится на сайте конференции http://conf.ostis.net.
Материалы для участия в конференции представляются в Оргкомитет
конференции по электронной почте [email protected]
Методическая и консультативная помощь участникам конференции
осуществляется только через электронную почту конференции.
Конференция проходит в Республике Беларусь, г. Минск, ул. Платонова, 39 (5-й учебный корпус Белорусского государственного университета информатики и радиоэлектроники).
119
РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2013
Редакция:
Редактор — Вероника Маанди
Выпускающий редактор — Анастасия Чипенко
Корректор — Татьяна Денисьева
Дизайн — Анна Ладанюк
Вёрстка — Александр Перевозов
Адрес редакции: 109341, Москва, ул. Люблинская, д. 157, корп. 2
Тел.: 8 (495) 979-54-27
Подписано в печать 03.02.2013. Формат 60х90/8. Бумага офсетная. Печать офсетная
Печ. л. 15,0. Тираж 1000 экз. Заказ № 4210. Издательский дом «Народное образование»
Отпечатано в типографии «НИИ Школьные технологии». Тел.: 8(495) 345-52-00
© «Народное образование»
1/--страниц
Пожаловаться на содержимое документа