Публикация научных статей.
Вход на сайт
E-mail:
Пароль:
Запомнить
Регистрация/
Забыли пароль?
Международный научно-исследовательский журнал публикации ВАК
Научные направления
Поделиться:
Статья опубликована в №16 (декабрь) 2014
Разделы: Информационные технологии, Философия
Размещена 22.12.2014. Последняя правка: 21.12.2014.

Философские проблемы семантического анализа и генерации текста

Машенцева Елена Алексеевна

ФГБОУ ВПО СамГТУ

студент

Забержинский Борислав Эдуардович кандидат технических наук, доцент, Самарский государственный технический университет, кафедра информационных технологий


Аннотация:
Данная статья посвящена рассмотрению техник и методологий философского осмысления текстов сгенерированных автоматизированными системами. Также проводятся оценки возможности понимания контекста информационными системами без человеческого вмешательства. Помимо этого в статье отражается сущность философии текста, приведен пример сгенерированного реферата и предложен алгоритм действий для улучшения и удобства работы с автоматизированными системами генерации текстов. В статье приведены выводы о невозможности на современном этапе развития отсутствия человека в процессе корректировки сгенерированных текстов.


Abstract:
This article is devoted to the techniques and methodologies of philosophical understanding of the texts, generated by automated systems. There are also evaluating the possibility of understanding the context of information systems without human intervention. Additionally, this article shows the essence of the philosophy of the text, shows an example of the generated abstract and the algorithm of actions for improving and making usable the work with automated systems of texts generation. The article presents the conclusions of the impossibility of the human absence in a process of the adjustment of generated texts.


Ключевые слова:
текст; генерация текста; феномен понимая текста; философия текста.

Keywords:
text; text generation; the phenomenon of text understanding; philosophical understanding of the texts.


УДК 168.53

Чтение текста на сегодняшний день является одним из основных источников приобретения опыта понимания, знаний и умений в целом. Понятие «текста» в философии приобрело на столько широкое и важное значение, что существуют представления о текстуальности всякой существующей вещи и понимания всего нашего мира как мегатекста, который своими корнями уходит в древние священные писания. Это можно объяснить тем, что текст представляет собой некую абстракцию, которая содержит внутри себя большой набор объектов и явлений, различия между которыми настолько велики, что трудно представить себе тот факт, что все они могут содержаться в одном понятии.

При этом существует и феномен понимания текста, который является частным случаем понимания в целом, именно он становится главной причиной для создания четко структурированных и связных текстовых сообщений. Внимание человека, прежде всего, должно сосредотачиваться на тех текстах, которые потенциально могут быть эффективно применены им для различных целей. Из этого можно сделать вывод о том, что ценность текста определяется практическим отношением читателя к возможным эффективным применениям данных текстовых сообщений.

Существует также понятие «веса» слова, которое означает, что употребленная в тексте лексема не может быть заменена другой. Чем выше суммарный вес слов, тем более текст становится автономным, т.е. не зависящим от своего исходного контекста.

Примерами таких текстов, по мнению немецкого философа Гадамера, служат лирическое стихотворение и философский текст, которые содержат в себе индивидуальный опыт отыскания истины, отличаются большей содержательностью и семантическим богатством [1. с. 118].

Цель данной работы заключается в рассмотрении техник философского осмысления текстов сгенерированных автоматизированными системами, а также оценки возможности понимания контекста информационными системами без человеческого вмешательства.

Для начала необходимо выделить особенности философского текста. М.К. Мамардашвилли в своей работе «Картезианские размышления» писал, что философский текст содержит в себе закон собственного понимания, мы поймем философский текст в том случае, если сумеем воспроизвести сказанное в нем как возможность нашего собственного мышления – «в том смысле, что мы можем это помыслить» [5. с. 79].

Многогранность философского текста определяется его многовариантностью понимания. Читателю, прежде всего, необходимо выявить истину, заложенную внутри текста. Для этого герменевтикой были определены два уровня содержания текста: истинный и предметный. Первый является уровнем истинного содержания, второй - очевидным содержанием, понимание которого не составляет труда. Согласно Гадамеру, понять текст значит «вступить в игру», и только тогда когда истина текста сходится с истиной, которую достиг читатель, можно говорить о том, что понимание как таковое возникло.

Исходя из этого, необходимо определить, что является сущностью философии текста и чем она определяется.

Основываясь на таких философских методологиях как лингвистическая прагматика, семиотика, логическая семантика, теоретическая поэтика,  и др. можно сделать вывод о том, что сущность философии текста отражается в следующем:

1) Сохранение взаимосвязи всех элементов текста;

2) Проявление одинаковых мотивов в связях между элементами текста;

3) Отсутствие “случайностей” в тексте;

4) В каждом проявлении текста лежат глубокий смысл и универсальные закономерности, которые носят мифологический характер;

5) Текст не описывает реальность, а вступает с ней в сложные взаимоотношения;

6) То, что может быть истинным в одном тексте (“возможном мире”), может быть ложным в другом;

7) Текст – диалог между автором и читателем.

Не смотря на востребованность в современном мире качественных в информационном содержании литературных произведений, статей и других источников текстовой информации, появляются так называемые генераторы текстов.

Ниже приведен пример сгенерированного с помощью генератора текста «Яндекс» реферата по философии:

 

Реферат по философии

Тема: «Сложный принцип восприятия глазами современников»

Моцзы, Сюнъцзы и другие считали, что гносеология порождена временем. Гегельянство подрывает непредвиденный закон исключённого третьего, не учитывая мнения авторитетов. Генетика амбивалентно раскладывает на элементы онтологический смысл жизни. Гегельянство преобразует конфликт. Согласно мнению известных философов, реальность иллюзорна. Предмет деятельности понимает под собой гедонизм.

Мир непредвзято представляет собой гедонизм, ломая рамки привычных представлений. Страсть заполняет предмет деятельности. Интересно отметить, что катарсис неоднозначен.

Акциденция, по определению, нетривиальна. Деонтология ментально трансформирует знак. По своим философским взглядам Дезами был материалистом и атеистом, последователем Гельвеция, однако бабувизм индуктивно принимает во внимание предмет деятельности. Знак неоднозначен. Культ джайнизма включает в себя поклонение Махавире и другим тиртханкарам, поэтому ощущение мира транспонирует онтологический интеллект.


Из представленного выше текста видно, что смысл реферата, сгенерированного случайным образом, не понятен, кроме того текст не связный, что противоречит выше перечисленным правилам философии текста.

Анализ текста философского содержания требует особого подхода. Символизм философских текстовых выражений определяет до-создание смысла текста читателем. Он становится полноправным соавтором текста, который творит и дополняет уже содержащийся в тексте смысл, что затрудняет работу с автоматизированными системами генерации текстов. Поэтому к алгоритмам генерации необходимо добавить методологию исследования понимания и интерпретации текстов, что на современном этапе жизни человечества является трудоемким процессом. Не смотря на это, есть возможность приближения сгенерированного философского текста к естественному языку.

 Для того чтобы попытаться получить такой реферат, необходимо разобраться в том, как работают автоматизированные системы генерации текстов.

 Работа любого генератора текста базируется на синтаксическом анализе, который называется парсингом, он применяется совместно с лексическим анализом слов. Главная задача парсинга – это сопоставление линейных последовательностей лексем языка с его формальной грамматикой. Результатом парсинга является синтаксическая структура предложения, которая представлена  в виде дерева зависимостей или дерева составляющих, либо в виде комбинации этих двух способов представления лексем.

Самым распространенным и наиболее просто реализуемым методом, который используется в автоматизированных системах для генерации текстов, являются цепи Маркова. Из теории следует, что любое предложение в тексте, как минимум, может являться марковской цепью первого порядка. В этом случае, слова будут рассматриваться не в их базовых формах, а в любых. То есть, после данного слова с разной вероятностью может встретиться любое другое.

Генератор текста с использованием цепи Маркова работает в два прохода: сначала создается словарная база, для этого достаточно обширный текст разбирается на слова, и для каждого слова определяется, какие слова чаще всего встречаются после него. Далее на основе этой базы можно строить цепочки. Случайным образом выбирается первое слово. Следующим выбирается слово из ограниченного набора «возможных после него». И так, слово за словом, создается псевдотекст. Смысла в нем, к сожалению, нет, но его и не стоит ожидать.

 Помимо этого метода существуют и другие: замена слов синонимами, перемешивание предложений из разных текстов и др. Но проблема остается прежней: добиться естественности текста - трудоемкий процесс, который в конечном итоге все равно не может обойтись без коррекции текста человеком.

Однако, несмотря на все свои недостатки, генераторы текстов могут быть полезны для людей, разрабатывающих или продвигающих web-сайты. Наличие качественных контента и ссылок является основополагающей задачей для повышения PageRank-а web-страницы.

Понятие PageRank является одним из ключевых моментов в работе поисковой системы. Наряду с другими параметрами, влияющими на выдачу (сортировку) сайтов в результатах поиска, знание модели работы PageRank необходимо не только для понимания процесса поиска, но и для использования оптимизаторами при продвижении сайтов в поисковой системе.

PageRank является числовой величиной (мерой "важности") страницы. Она зависит от числа внешних ссылок на данную страницу, от их веса (важности) и веса контента. Другими словами от количества, качества ссылающихся страниц и содержимого web-сайта. Eсли же говорить математическим языком, то PageRank это алгоритм расчета авторитетности страницы, используемый поисковой системой. PageRank не является основным, но является одним из вспомогательных факторов при ранжировании сайтов в результатах поиска.

Здесь же находит свое место и синтаксический анализ, парсинг, о котором было сказано выше. Любой парсер состоит из трех фаз, которые отвечают за три отдельных процесса синтаксического анализа.

1) Получение контента в исходном виде. Под получением контента, чаще всего подразумевается скачивание кода веб-страницы, из которой необходимо извлечь данные или контент;

2) Извлечение и преобразование данных. В этой фазе происходит извлечение требуемых данных из полученного, на первом этапе, кода страницы. Чаще всего для извлечения используют регулярные выражения. Также на этом этапе происходит преобразование извлеченных данных к нужному формату, если это требуется;

3) Генерация результата. Завершающий этап парсинга. На нем происходит вывод или запись полученных, на втором этапе, данных, в требуемый формат. Чаще всего, запись ведется напрямую в базу данных.

Помимо проблем, связанных с повышением PageRank-а страницы и использованием автоматизированных систем для генерации текстов, в сети Интернет, к сожалению, не редки случаи кражи контента с web-сайтов, что подрывает всю работу разработчиков, которые боролись за сохранение своего авторства.

Для того чтобы достигнуть выше перечисленных целей (сохранение авторства, повышение PageRank-а, приближение к тексту на естественном языке)  предлагается следующий алгоритм действий:

1) Выбрать примерно 100 первых проиндексированных поисковой системой web-сайтов по необходимой тематике;

2) Извлечь из них только необходимый материал, философскую составляющую, конкретно для имеющегося web-сайта;

3) Проанализировать философский смысл полученных отрывков из текстов, а также сочетания предложений, грамотность, пунктуацию и т.д.;

4) Сгенерировать новый текст из имеющихся в выбранном генераторе текстов;

5) Отредактировать полученный текст.

Данный подход упростит работу с содержанием разрабатываемого web-сайта, особенно если контент был украден. Не смотря на то, что любая вычислительная машина не в состоянии оценить философский смысл или идею текста, она вполне может осмысленно копировать, сопоставлять и склеивать различные куски фраз в осмысленные фрагменты, однако, в целом, без вмешательства человека – это будет малозначащий текст.

Из всего вышеперечисленного можно сделать вывод, что текст является материалом для какого-либо вида деятельности. Его предназначение – быть прочитанным и воспринятым человеком, а для этого необходима тщательная работа над его содержимым. Исходя из этого требования, в информационной сфере появились генераторы текстов, которые сегодня еще не так совершенны, но, возможно, что в будущем люди смогут разработать алгоритм, позволяющий машине “общаться” с людьми на естественном языке, который сможет отразить содержательность и семантическое богатство генерируемых философских текстов.

Библиографический список:


1. Болдасов М.В., Соколова Е.Г. Генерация текстов на естественном языке – теории, методы, технологии// НТИ. Сер. 2. Информационные процессы и системы. 2006. – С. 1 – 15.
2. Гадамер Г.-Г. Актуальность прекрасного/Под ред. В.С. Малахова. - М.: Искусство, 1991. - С. 65.
3. Коткавирта Ю. Философская герменевтика Х.-Г. Гадамера //Герменевтика и деконструкция / Под ред. В. Штегмайера, Х. Франка, Б.В. Маркова. СПб., 1999. - С. 47–67.
4. Мамардашвилли М.К. Картезианские размышления.//М.: Издательская группа «Прогресс»; «Культура», 1993. — С. 352.
5. Немцев М. Проблема нормативных оснований философской герменевтики Г.-Г. Гадамера и философия языка К.-О. Апеля // Гуманитарные науки в Сибири. 2008. № 1. – C. 3.
6. [Электронный ресурс]: URL: http://bourabai.kz/alg/parser.htm
7. [Электронный ресурс]: URL: http://westseo.ru/article/parsing




Рецензии:

24.12.2014, 19:25 Адибекян Оганес Александрович
Рецензия: Отзыв на статью Машенцовой Е.А. «Философские проблемы семантического анализа и генерации текстов» Адибекяна Оганеса Александролвича, д.ф.н. В статье рассматриваются относительные позиции мыслей людей и их изложений виде текста, что люди делают для того, чтобы восстанавливать их самим, когда это нужно, даже и другим человеком, для кого это сделано. К сопоставлению авторов текстов и этим их записям добавлены какие-то авто-маты, которые совершают с изложенными сведениями какие-то операции. Очень важно, чтобы такая аппаратура не обманывала тех, кого она обслужи-вает. Описываются какие-то подстраховочные, корректировочные средства. Все это интересно, а обеспечение корректной работы техники важно. Но фи-лософия не знание о работе техники. Такое воззрение - охват и сопоставление окружающего мыслимого мира, мышления человека, употребления им графических способов фиксации мыслей для облегчения их использования самим и другими людьми. Философия присутствует при том, что люди научились не только мыслить, говорить, писать, читать, но и привлекать к этим делам облегчающее дело технику. Все это стоили бы как-то кратко ого-ворить, если автор не возразит. Но важно подчеркнуть, что слов сильно мало по сравнению с теми вещами, которых они копируют, они многосмысленны. Порой нужный смысл определяются теми другими понятиями, в сочетании с которыми выражаются суждения – грамматические предложения. Технике в этом трудно, поэтому обработанным этими средствами сведениям доводится проходить через руки лингвистов, переводчиков. В статье ничего менять не нужно, а только добавить оговоренные сведения. Адибекян Оганес Александрович, доктор философских наук. 22.12.2014 г.

27.12.2014, 4:55 Колесникова Галина Ивановна
Рецензия: Солидарна с Оганес Александрвичем. Статья может быть рекомендована к публикации

27.12.2014, 21:16 Каменев Александр Юрьевич
Рецензия: Рекомендуется к печати.



Комментарии пользователей:

23.12.2014, 2:33 Крылов Дмитрий Анатольевич
Отзыв: Хотелось бы обратить внимание на отсутствие привязки библиографии к тексту работы. Возникло ощущение, что и сам материал статьи сгенерирован.


Оставить комментарий


 
 

Вверх