Публикация научных статей.
Вход на сайт
E-mail:
Пароль:
Запомнить
Регистрация/
Забыли пароль?
Международный научно-исследовательский журнал публикации ВАК
Научные направления
Поделиться:
Статья опубликована в №6 (февраль) 2014
Разделы: Информационные технологии
Размещена 06.02.2014. Последняя правка: 05.02.2014.

ОБЗОР СЕМАНТИЧЕСКИХ МОДЕЛЕЙ ПЕРЕВОДА

Мануева Юлия Сергеевна

магистрант

ПромТрансИнформ, Новосибирский государственный технический университет

младший разработчик баз данных

Научный руководитель: Гриф Михаил Геннадьевич, доктор технических наук, профессор, Новосибирский государственный технический университет


Аннотация:
Данная статья посвящена обзору семантических моделей перевода.


Abstract:
This article focuses on the review of semantic models in the translation process.


Ключевые слова:
семантическая модель, машинный перевод, система перевода

Keywords:
semantic model, machine translation, translation system


УДК 004.89

На данный момент большинство систем перевода основано на анализе морфологических и синтаксических аспектов языка. Семантическая модель перевода в свою очередь предполагает рассмотрение смысловой стороны языка, сопоставление элементов содержания, анализ его структуры, выделение элементарных единиц или компонентов. При добавление семантического модуля количество неточностей при переводе значительно уменьшается.

Рассмотрим различные семантические модели, которые будут рассмотрены ниже:

  • Модель WASP;
  • Семантическая модель для арабского языка;
  • Модель семантических структур.

 

1 Модель WASP

В настоящее время работы по осмыслению естественного языка главным образом сосредоточены на поверхностном семантическом анализе, таком как определение семантической роли и устранение лексической неоднозначности. Данная модель рассматривает более амбициозную задачу семантического анализа, которая заключается в построении формального, полного символического представления смысла предложения. Семантическое представление английского предложения – if our player 4 has the ball, then our player 6 should stay in the left side of our half (если игрок под номером 4 получит мяч, то игрок 6 должен оставаться в левой части нашей половины площадки)

Большинство работ по семантическому анализу были сосредоточены на относительно простых предметных областях, таких как «Информационные службы авиаперевозок», которые определялись только единственным семантическим фреймом.

Разработанный алгоритм проводит семантический анализ, на основе предложений естественного языка, снабженных представлением смысла. Алгоритм не требует никаких предварительных знаний о синтаксисе языке, хотя предполагается, что имеется однозначная, контекстно-свободная грамматика семантических представлений.

Разработанный алгоритм называется WASP(Word Alignment-based Semantic Parsing). Для описания модели семантического анализатора WASP начнем с рассмотрения примера. Рассмотрим задачу определения семантического представления предложения. Для решения поставленной задачи сначала проанализируем синтаксическую структуру предложения. Далее смысл предложения будет получен путем объединения значений его подразделов.

Данный процесс может быть формализован в виде записи анализа. Согласно теории компиляторов, в которых синтаксический анализ и генерация кода объединены в одну фазу, семантический анализатор определяет перевод, как набор пар строк, в каждой паре которых одна строка является предложением естественного языка, а другая – его семантическим представлением. Для определения конечного перевода, используется синхронная контекстно-свободная грамматика. По аналогии с обычной однозначной контекстно-свободной грамматикой, каждое правило состоит из одного терминала с левой стороны. Правая часть - пары строк hα, βi, где не-терминалы в β –это перестановки не-терминалов в α.

Каждое правило X → hα, βi представляет собой сочетание предложения естественного языка X → α и его семантического представления X → β. Назовем строку α примером, а строку β шаблоном. Не-терминалы проиндексированы для того, чтобы показать свою связь между примером и шаблоном. Каждый шаг включает в себя переписывание пары связанных не-терминалов в обоих строках: в предложении естественного языка и в семантическом представлении.

Получив на входе предложение E, задача семантического анализа - найти вывод так что F является переводом е. Поскольку может быть несколько выводов, которые дают е (и, следовательно, несколько возможных переводов е), должен быть разработан такой механизм для отбраковки неправильных вариантов. Данный механизм представляет собой грамматику G и вероятностную модель с параметром λ, который принимает возможные вывод d, и возвращает вероятность того, будет ли данный шаблон признан правильным с учетом входного предложения.

Другими словами, семантическое представление является выводом с наиболее вероятным исходом. Если предположить, что каждое слово естественного языка связано более чем с одним смыслом, правила преобразования начинаются извлекаться снизу вверх. Разработанный метод, как и многие модели перевода, которые требуют более простой модели на основе соответствия для получения фразового словаря. Данная модель показывает, что идеи из теории компиляции и машинного перевода (модели соответствия слов) могут быть успешно применены для семантического разбора задачи, цель которой заключается в переводе естественного языка на формальный язык.

Главное достоинство этого алгоритма заключается в возможности интеграции с самыми современными статистическими методами машинного перевода. Также была решена задача создания формального, символического представления смысла предложения.

В качестве недостатков можно перечислить: использование вероятностной модели может привести к ошибкам и неточностями и необходимость наличия обучающего множества.

 

2 Семантическая модель для арабского языка

При переводе арабского текста на арабский язык жестов большинство исследований было направлено на переводом слов без учета семантики переводимого предложения. Для решения данной проблемы предыдущие исследования в этой области были дополнены дополнительным семантическим модулем. Предлагаемая система перевода ограничена предметной областью правоведения.

Модель представляет собой онтологию. Онтология – это абстрактная модель того или иного явления с выявлением соответствующих понятий этого явления. В настоящее время онтология имеет большое значение для общего понимания различных областей науки и для получения знания о том, как знания структурированы и связаны друг с другом. Онтология может быть классифицирована в соответствии с двумя признаками: количество и тип структуры концептуализации или предмет концептуализации. Первый признак подразделяется на три категории: терминологическая онтология, предназначенная для представления терминов, которые используются для представления знаний в определенных доменах, таких как словари; информационная онтология, предназначенная для записи и структурирования баз данных одной области; онтология моделирования знаний предназначена для концептуализации знания.

Информационная онтология подразделяется на четыре категории: онтология применения предназначена для моделирования знаний, необходимых для конкретного применения, онтологии предметной области - для представления знаний, имеющих отношение к определенной области, и универсальная онтология предназначена для представления знаний, актуальных для многих областей, и онтология представления - для представления мира сущностей с нейтральным точки зрения.

Предметная область будет состоять из иерархического набора классов. Кроме того, предложен набор свойств для сопоставления классов и экземпляров друг с другом: имеет, является, является видом, является синонимом.

В качестве входных данных модуль семантического анализа получает выходные данные предыдущего процесса перевода и проводит поиск каждого слова в онтологии предметной области для получения кода жеста. Если слово не имеют соответствующего жеста его заменяют на один из его синонимов, которые имеют жест в базе данных. Если слова не имеют соответствующего жеста в онтологии предметной области, слово будет записано по буквам, а в дальнейшем показано дактилем [2].

Достоинство данной модели в том, что она является реализованным компонентом системы перевода.

Недостатки: ограниченная область применения, отсутствие формальной модель, не учитываются специфические семантические особенности жестового языка, такие как классификаторные предикаты.

 

3 Модель семантических структур

Модель семантических структур является блоком системы, предназначенной для перевода устной или письменной речи ограниченной области высказываний и основанной на семантике.

Для представления семантической структуры используется интерлингва(язык-посредник). Генератор цепочки слов в сочетании с языковым постпроцессором выдает цепочку слов на целевом языке. На текущий момент как и семантической преобразователь так и генератор цепочки слов работают с чисто стохастическими и пробными базами знаний.

Система перевода, подходит для ограниченного области высказываний без придаточных предложений и состоит из трех основных компонентов:

 Семантический модуль преобразует последовательность слов O , сказанную на исходном языке или цепочку слов W письменного текста языка в соответствующее семантическое представление - структуру SE.

Генератор набора слов преобразует структуру SE в соответствующее слово набора Wg на целевом языке.

Языковой постпроцессор преобразует грамматически неверное слово в цепочке Wg в правильную ("оптимизированную") Wopt цепочку.

В данном подходе, семантическая структура SЕ, представляющая смысловое содержание, представляет собой дерево, состоящее из конечного числа N семантических единиц (называется "semuns") SN.

Каждая семантическая единица соответствует ровно одному переданному слову.

Рассмотрим семантическую S структура  цепочки немецких слов "bitte schiebe die große rote kugel fünf millimeter nach rechts» («пожалуйста, наведите мышь на большой красный шар на пять миллиметров правее"):

Из множества всех возможных S, SE, что должно быть найдено одно, что наиболее вероятно, учитывая последовательность наблюдений O, т.е. которая максимизирует апостериорной вероятностью P (S | O).

Cемантическая модель определяет априорную вероятность P (S) для возникновения определенной семантической структуры S. Cинтаксическая модель определяет условную вероятность P (W | S) для вхождения слова набора W при определенной семантической структуре S. Фонетическая модель определяет условную вероятность P (Ph | W) для возникновения фонемы Ph набора при определенном слово набора W. Акустическая модели определяет условную вероятность P (O | Ph) для возникновения  последовательности O при определенном Ph набора фонем.

Фонетическая и акустическая модель не является необходимой для декодирования письменного текста. В отличие от генератора слово в цепочке «сверху-вниз» при распознавании речи, которая должна выдвигать большое количество гипотез слова, он поставляет только наиболее вероятные слова набора Wg данной семантической структуры

Семантическая структура SE рекурсивно рассматривает последовательно каждую единицу за единицей. Если текущая единица - это существительное, прилагательное или артикль, правильный выбор должен быть найден в соответствии с соответствующими грамматическими особенностями. Пол определяется в зависимости от существительное, но падеж и число извлекаются только из семантической структуры SE.

 емантическая единица’ cmd create’ соответствует слову "erzeuge’. Как глагол, оно остается неизменным. Единица ’form sphere ’ соответствует слову ’kugel’. Единица ’ color red’ соответствует слову ’zwei’. Как число, оно остается неизменным.

При подаче на вход написанного текста процент неверного преобразования слова в семантическую структуру составляет лишь 0,2. Многие из ошибок словаря возникают из-за незнакомых слов.

Были проведены тесты с 307 реально существующими семантическими структурами в предметной области "графический редактор" с переводом на 4 различных языка: немецкий, английский, французский и словенский. Разработанная система работает в он-лайн режиме [3].

Достоинства данной системы: реализованный компонент системы перевода на несколько языков, наличие формализованной модели. Одно из основных достоинств - это учет синтаксической и морфологической информации семантическим блоком. Кроме того, система работает в он-лайн режиме.

Основной недостаток - использование вероятностной модели может привести к ошибкам и неточностям.

Рассмотренные системы не решают в полной мере задачу описания сущности соответствия содержания оригинала содержанию перевода. Семантическая модель для одной предметно области, как в случае с моделью арабского языка нельзя считать моделью для всего языка, так как в ней рассматривается только одна предметная область. Наиболее перспективной моделью является модель семантических структур. В ее основе лежит применение интерлингвы, что обеспечивает более широкий список языков перевода. В данной статье были рассмотрены семантические модели перевода, и выявлены их преимущества и недостатки. 

Библиографический список:

1. Learning for Semantic Parsing with Statistical Machine Translation Yuk Wah Wong and Raymond J. - [Электронный ресурс]. URL: http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.142.4373
2. A Proposed Semantic Machine Translation System for translating Arabic text to Arabic sign language - [Электронный ресурс]. URL: http://dl.acm.org/citation.cfm?id=2107556.2107579
3. Automatic speech translation based on the semantic structure - [Электронный ресурс]. URL: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.16.4095&rep=rep1&type=pdf




Рецензии:

8.02.2014, 1:02 Назарова Ольга Петровна
Рецензия: Логично, доступно изложен материал. Рекомендуется к печати.

15.03.2014, 14:48 Агакишиева Тахмина Сулейман
Рецензия: Рекомендуется к печати.



Комментарии пользователей:

Оставить комментарий


 
 

Вверх