close

Вход

Забыли?

вход по аккаунту

;pdf

код для вставкиСкачать
АННОТАЦИЯ
диссертации на соискание ученой степени доктора философии (PhD) по
специальности 6D060200-Информатика
РАХИМОВОЙ ДИАНЫ РАМАЗАНОВНЫ
ИССЛЕДОВАНИЕ МОДЕЛЕЙ И МЕТОДОВ СЕМАНТИКИ
МАШИННОГО ПЕРВОДА С РУССКОГО ЯЗЫКА
НА КАЗАХСКИЙ ЯЗЫК
Актуальность темы диссертационного исследования: Тема диссертации
посвящена проблеме
исследования семантики машинного перевода
применительно с русского на казахский язык. Машинный перевод (МП) как
область искусственного интеллекта развивается более 50 лет. В последнее
время выделяется два основных направления в реализации систем машинного
перевода: многоуровневая формализация естественного языка и использование
совместных статистических характеристик языков на основе параллельных
текстовых корпусов. В настоящий момент примеры существующих систем МП
(СМП) свидетельствуют о потребности в повышении качества МП путем
перехода на уровень семантического анализа предложений и текстов.
Приобретают особую важность методы, позволяющие в автоматическом
режиме строить переводные словари для подобных систем, а также
классические и статистические алгоритмы синтеза конструкций естественного
языка (ЕЯ) по семантическим структурам.
Особенностью машинного перевода, основанного на правилах, является то,
что решения, созданные для перевода конкретной пары языков, как правило, не
могут быть полностью использованы для другой пары языков. Это связано с
тем, что у каждого языка имеются свои особенности, которые могут
значительно отличаться даже для родственных лингвистических групп.
Основной целью работы является повышение качества систем
машинного перевода посредством выхода на уровень семантического анализа.
Ставится задача исследования применимости к классической многоуровневой
системе
машинного
перевода
новой
семантической
модели,
совершенствующий семантический анализ на этапе анализа для получения
корректных данных на выходе синтеза. Полученные алгоритмы должны
получить свою практическую реализацию в виде экспериментальных систем.
Объектом исследования в данной диссертации является системы
машинного перевода с русского на казахский язык, а именно, семантика
машинного перевода.
Предметом исследования в данной диссертации является модели и
алгоритмы семантического анализа в машинном переводе с русского языка на
казахский язык и их программная реализация.
Задачи исследования:
–Разработка морфологического анализа и синтеза слов для машинного
перевода с русского языка на казахский язык;
–Разработка моделей и алгоритмов устранения многозначности слов при
машинном переводе с русского языка на казахский;
–Разработка модели и алгоритмов семантического анализа и синтеза
онтологической структуры предложения при машинном переводе с русского
языка на казахский;
–Разработка программного продукта машинного перевода с русского на
казахский язык с использованием моделей и алгоритмов семантического
анализа и синтеза предложений;
Научная новизна данного исследования заключается в следующем:
–Разработаны модели и алгоритмы морфологического анализа и синтеза
машинного перевода с русского языка на казахский язык на основе метода
многозначных отображений (м-отображений), отличительной особенностью
которых является табличное представление различных отображений процесса
машинного перевода одного языка на другой, явное представление проблем
многозначностей на различных этапах машинного перевода, решение их путем
создания преобразований многозначных отображений в однозначные
отображения, повышение скорости алгоритмов машинного перевода;
–Разработана расширенная атрибутная грамматика, отличающаяся учетом
семантических атрибутов и семантических связей между словами в
предложении, позволяющая построить онтологическую структуру предложения
естественного языка;
–Разработаны алгоритмы семантического анализа онтологической
структуры предложения русского языка и синтеза структуры предложения
казахского языка на основе предложенной расширенной атрибутной
грамматики;
–Разработана модель и алгоритмы устранения многозначности слов и
словосочетании (для многозначных предлогов) для русско-казахского
машинного перевода на основе использования метода контекстного вектора,
отличающаяся введением коэффициента предпочтительности контекстного
слова по семантическим атрибутам.
Достоверность и обоснование научных положений, выводов и результатов
диссертационной работы обосновывается практической реализацией
экспериментального программного продукта - переводчика с русского языка на
казахский язык.
Теоретическая значимость полученных результатов заключается в
адаптации существующих и разработке новых моделей и алгоритмов
семантики машинного перевода с русского языка на казахский язык.
Практическая значимость полученных результатов заключается в
разработке экспериментального программного продукта на основе положений,
вынесенных на защиту.
Положения, выносимые на защиту:
–Модели и алгоритмы морфологического анализа и синтеза слов на основе
многозначного отображения для машинного перевода с русского языка на
казахский язык;
–Расширенная атрибутная грамматика Кнута как семантическая модель
предложения естественного языка;
–Модель и алгоритмы построения онтологической структуры предложения
на основе расширенной атрибутной грамматики Кнута;
–Модель и алгоритмы устранения многозначности слов на основе метода
контекстных векторов с введением коэффициента предпочтительности
контекстного слова по семантическим атрибутам;
–Программная реализация разработанных моделей и алгоритмов для
русско-казахского машинного перевода для простых предложений;
–Оценка качества машинного перевода.
Результаты диссертации опубликованы в 13 работах. Из них 3 статьи в
журналах, рекомендованных Комитетом по контролю в сфере образования и
науки МОН РК, 2 статьи в международных научных изданиях входящих в базу
данных Thomson Reuters и Scopus, 6 работ в материалах международных и
республиканских конференций.
Структура и объем диссертации: Диссертационная работа написана в
виде рукописи на русском языке, состоит из введения, четыре разделов,
заключения, списка использованных источников и приложений. Работа
изложена на 135 страницах, включая 45 рисунков и 20 таблиц. Список
использованных источников содержит 127 наименований.
1/--страниц
Пожаловаться на содержимое документа