Публикация научных статей.
Вход на сайт
E-mail:
Пароль:
Запомнить
Регистрация/
Забыли пароль?

Научные направления

Поделиться:
Разделы: Информационные технологии
Размещена 04.05.2016. Последняя правка: 04.05.2016.
Просмотров - 2371

Алгоритм поиска слов-маркеров и его применение в задаче кластерного анализа (на примере исследования влияния событийной сферы на характер текстовой информации)

Платонов Тимур Сергеевич

Казанский федеральный университет

Студент

Научный руководитель: Кирилова Галия Ильдусовна, доктор педагогических наук


Аннотация:
Предложен и описан алгоритм поиска слов-маркеров. Показано его применение в задаче кластерного анализа текстовой информации. Исследование реализовано на примере публичных комментариев пользователей относительно волнующих их событий. Рассмотрено влияние таких событий на характер текстовой информации. В качестве событийной сферы были выбраны публикации в СМИ. Был предложен алгоритм и схема анализа, которые способны установить связь таких публикаций с динамикой смены настроения людей.


Abstract:
Proposed and described the word-markers search algorithm. Displayed its application to the problem of the cluster analysis of textual information. The research was realized by the example of the public user comments about events that concern to them. Considered an effect of such events to the nature of the text information. As an event-sphere were selected media publications. The algorithm and the scheme of analysis was proposed which are able to establish a connection these publications with the dynamic of people mood changing.


Ключевые слова:
слова-маркеры; кластерный анализ; характер текстовой информации.

Keywords:
word-markers; cluster analysis; character of text information.


УДК 004.021

Введение

На данном этапе развития технологий актуальной проблемой, над которой работает множество людей, является искусственный интеллект. Ведущий аспект решения этой задачи, помимо распознавания визуальной информации, - это распознавание естественного языка, интерпретация его семантики. При помощи программного обеспечения (ПО) и исполнителя ПО (в данном случае - компьютера) возможно решить любую обозримую задачу, как гласит тезис Чёрча-Тьюринга-Дойча. Единственные препятствия - это сложность ПО и производительность исполнителя. Закономерно, что на данный момент “бутылочным горлышком” является сложность ПО и отсутствие необходимых алгоритмов эффективного распознавания видео/текста. Исполнители (в нашем конкретном случае центральные процессоры), согласно публикуемой крупнейшим производителем настольных процессоров - компанией Intel - статистикой производительности процессоров, выпущенных за последние 4 года, прибавили в вычислительной скорости не более 10 процентов в среднем. Это может говорить о том, что нет соответствующего спроса, следовательно имеющиеся процессорные мощности вполне удовлетворяют задачам создания и работы искуственного интеллекта.

Данное исследование определённо не претендует на роль всестороннего и всеобъемлющего алгоритма для решения задачи распознавания естественного языка в текстовом виде, однако оно позволяет с некоторой точностью определить семантику (а именно эмоциональный окрас) небольшого текста. 

Используемые методы и ход исследования

В данной статье опишем основную идею алгоритма поиска слов-маркеров. В качестве признаков были взяты за основу слова-маркеры, которые однозначно относят текст к одному из кластеров.[1] Для того, чтобы кластеризовать тексты на разные эмоциональные группы (позитивная и негативная. Тексты, не отнесённые ни к одной группе, отбрасывались), необходимо определить признаки, которым эти тексты должны соответствовать.[4] Далее, в каждом тексте осуществлялся подсчёт количества “позитивных” и “негативных” слов-маркеров и их динамика в исследуемые периоды. Окрас текста определялся преобладающим количеством маркеров соответствующей группы.

В качестве практического применения данного алгоритма я выбрал гипотезу, которую можно сформулировать как “Публикация в СМИ негативных новостей оказывает на настроение людей также негативный эффект”. Похожие идеи рассматриваются в публикации.[2] Для того, чтобы узнать, влияют ли такие публикации на людей, была разработана следующая схема анализа: 

  1. Отбираются публикации в СМИ, изначально сильно волнующие людей.

  2. В качестве периода для исследования динамики были выбраны дни: 3 дня до, сам день и 3 дня после публикации.

  3. На той площадке, где была опубликована новость о событии, фиксируются нейтральные публикации в соответствующие анализируемые дни.

  4. Для определения характера текстовой информации вводится понятие коэффициент “доброты”: N(позитивных текстов)/N(негативных текстов) в автоматическом режиме[3].

  5. Для каждой публикации высчитывается коэффициент “доброты” из текстов комментариев пользователей.

Этапы исследования и полученные результаты

Наглядно это можно показать следующим примером: 

Этап 1. Отбираются источники информации мнений людей относительно волнующего события. 

Для эффективного выделения мнений людей (на основе их комментариев) необходима была площадка, которая предоставляет централизованный программный доступ ко всем комментариям людей к определённой публикации. При этом люди, комментирующие публикации на площадке, не должны относиться к какой-либо определённой узкой социальной группе (скажем, только рыбаки или только военные). Площадка, соответствующая указанным требованиям была найдена - это самая крупная социальная сеть в России - VK. Она предоставляет доступ к комментариям к записе посредством API - интерфейса программирования приложения. Представители соцсети - граждане России, владеющие навыками пользования комьютером или другим устройством с возможностью выхода в сеть Internet. Также, на площадке имеется широкое представительство средств массовой информации, которые публикуют новости на темы, которые, в том числе, волнуют людей. 

Была выбрана новость (см. рис. 1), которую нейтрально можно описать как “российский самолёт в Египте в октябре 2015 года” - ей соответствует публикация “Пост”. Помимо этого, были выбраны 6 сравнительно нейтральных публикаций в дни до и после основной публикации “Пост”.

 

Рис. 1. Источники информации мнений людей относительно волнующего события

Этап 2. По каждому источнику считается количество позитивных и негативных мнений, высчитывается коэффициент “доброты” 

Загружался полный список комментариев пользователей к публикации. Из этого списка выделялись негативные и позитивные комментарии (на основе слов-маркеров преобладающего типа). Все нейтральные публикации, в которых не было зафиксировано ни одного слова-маркера, были отброшены.

Имея количества негативных и позитивных комментариев к публикации, несложно вычислить коэффициент “доброты” для каждой такой публикации по следующему правилу: количество позитивных комментариев разделить на количество негативных комментариев. Чем больше значение данного коэффициента, тем позитивнее настроение людей в контексте опубликованного поста.(см. таблицу 1) 

Таблица 1. Количество позитивных и негативных мнений

Этап 3. Построение диаграммы зависимости публикации в СМИ на настроение людей

Для наглядной демонстрации полученных результатов необходимо построить диаграмму: процентное соотношение между позитивными и негативными мнениями по оси Y; дни до, после и во время публикации по оси X. Наглядно можно увидеть (в том числе и по коэффициенту “доброты”), что в день публикации и сразу после количество сообщений с негативным окрасом в источниках возросло (см. рис. 2) 

Рис. 2. Процентное соотношение между позитивными и негативными мнениями к публикациям

Выводы

Таким образом, алгоритм поиска слов-маркеров помог с некоторой точностью определить влияние публикаций в СМИ на настроения людей, подтвердив тем самым изложенную ранее гипотезу. Однако, необходимо заметить, что в естественном языке слова могут иметь различные значения в зависимости от контекста. Дальнейшие исследования в этой области могут быть обогащены семантическим значением обрабатываемой информации.

Библиографический список:

1. Технология Data Mining: Интеллектуальный Анализ Данных. / Р.Г. Степанов. - Казань. - К(П)ФУ. - 2008. - 210 с.
2. Функционирование информационной образовательной среды профессиональной школы: метауровень. / Кирилова Г.И., Пшеничный П.В., Латыпов Р.Х. // Казанский педагогический журнал. - № 6. - 2014. - С. 12-17
3. Нечёткие методы автоматической классификации. / Д. А. Вятченин. - Минск. - УП «Технопринт». - 2004. - 219 с.
4. Психология общения. / Р. Вердербер. - Санкт-Петербург. - ”Издательский дом Нева”. - 2003. - 318 c.




Рецензии:

5.05.2016, 19:44 Эрштейн Леонид Борисович
Рецензия: Очень хорошая по сути идея при очень плохой ее подаче. Понятнее нужно все это расписать. У Вас про слова маркеры очень мало. А между тем суть Вашей статьи как раз в них. Дайте же классификацию этих маркеров, дайте их примеры, попробуйте рассмотреть ситуации когда в одном предложении есть противоречивые маркеры. Вероятно целесообразно разделить их по силе. В общем тут есть над чем работать. В таком виде это все плохо и к публикации я не рекомендую. НО, сама идея мне видится очень продуктивной, представьте ее хорошо и все будет здорово.



Комментарии пользователей:

Оставить комментарий


 
 

Вверх