Казанский федеральный университет
Студент
Научный руководитель: Кирилова Галия Ильдусовна, доктор педагогических наук
УДК 004.021
Введение
На данном этапе развития технологий актуальной проблемой, над которой работает множество людей, является искусственный интеллект. Ведущий аспект решения этой задачи, помимо распознавания визуальной информации, - это распознавание естественного языка, интерпретация его семантики. При помощи программного обеспечения (ПО) и исполнителя ПО (в данном случае - компьютера) возможно решить любую обозримую задачу, как гласит тезис Чёрча-Тьюринга-Дойча. Единственные препятствия - это сложность ПО и производительность исполнителя. Закономерно, что на данный момент “бутылочным горлышком” является сложность ПО и отсутствие необходимых алгоритмов эффективного распознавания видео/текста. Исполнители (в нашем конкретном случае центральные процессоры), согласно публикуемой крупнейшим производителем настольных процессоров - компанией Intel - статистикой производительности процессоров, выпущенных за последние 4 года, прибавили в вычислительной скорости не более 10 процентов в среднем. Это может говорить о том, что нет соответствующего спроса, следовательно имеющиеся процессорные мощности вполне удовлетворяют задачам создания и работы искуственного интеллекта.
Данное исследование определённо не претендует на роль всестороннего и всеобъемлющего алгоритма для решения задачи распознавания естественного языка в текстовом виде, однако оно позволяет с некоторой точностью определить семантику (а именно эмоциональный окрас) небольшого текста.
Используемые методы и ход исследования
В данной статье опишем основную идею алгоритма поиска слов-маркеров. В качестве признаков были взяты за основу слова-маркеры, которые однозначно относят текст к одному из кластеров.[1] Для того, чтобы кластеризовать тексты на разные эмоциональные группы (позитивная и негативная. Тексты, не отнесённые ни к одной группе, отбрасывались), необходимо определить признаки, которым эти тексты должны соответствовать.[4] Далее, в каждом тексте осуществлялся подсчёт количества “позитивных” и “негативных” слов-маркеров и их динамика в исследуемые периоды. Окрас текста определялся преобладающим количеством маркеров соответствующей группы.
В качестве практического применения данного алгоритма я выбрал гипотезу, которую можно сформулировать как “Публикация в СМИ негативных новостей оказывает на настроение людей также негативный эффект”. Похожие идеи рассматриваются в публикации.[2] Для того, чтобы узнать, влияют ли такие публикации на людей, была разработана следующая схема анализа:
Отбираются публикации в СМИ, изначально сильно волнующие людей.
В качестве периода для исследования динамики были выбраны дни: 3 дня до, сам день и 3 дня после публикации.
На той площадке, где была опубликована новость о событии, фиксируются нейтральные публикации в соответствующие анализируемые дни.
Для определения характера текстовой информации вводится понятие коэффициент “доброты”: N(позитивных текстов)/N(негативных текстов) в автоматическом режиме[3].
Для каждой публикации высчитывается коэффициент “доброты” из текстов комментариев пользователей.
Этапы исследования и полученные результаты
Наглядно это можно показать следующим примером:
Этап 1. Отбираются источники информации мнений людей относительно волнующего события.
Для эффективного выделения мнений людей (на основе их комментариев) необходима была площадка, которая предоставляет централизованный программный доступ ко всем комментариям людей к определённой публикации. При этом люди, комментирующие публикации на площадке, не должны относиться к какой-либо определённой узкой социальной группе (скажем, только рыбаки или только военные). Площадка, соответствующая указанным требованиям была найдена - это самая крупная социальная сеть в России - VK. Она предоставляет доступ к комментариям к записе посредством API - интерфейса программирования приложения. Представители соцсети - граждане России, владеющие навыками пользования комьютером или другим устройством с возможностью выхода в сеть Internet. Также, на площадке имеется широкое представительство средств массовой информации, которые публикуют новости на темы, которые, в том числе, волнуют людей.
Была выбрана новость (см. рис. 1), которую нейтрально можно описать как “российский самолёт в Египте в октябре 2015 года” - ей соответствует публикация “Пост”. Помимо этого, были выбраны 6 сравнительно нейтральных публикаций в дни до и после основной публикации “Пост”.
Рис. 1. Источники информации мнений людей относительно волнующего события
Этап 2. По каждому источнику считается количество позитивных и негативных мнений, высчитывается коэффициент “доброты”
Загружался полный список комментариев пользователей к публикации. Из этого списка выделялись негативные и позитивные комментарии (на основе слов-маркеров преобладающего типа). Все нейтральные публикации, в которых не было зафиксировано ни одного слова-маркера, были отброшены.
Имея количества негативных и позитивных комментариев к публикации, несложно вычислить коэффициент “доброты” для каждой такой публикации по следующему правилу: количество позитивных комментариев разделить на количество негативных комментариев. Чем больше значение данного коэффициента, тем позитивнее настроение людей в контексте опубликованного поста.(см. таблицу 1)
Этап 3. Построение диаграммы зависимости публикации в СМИ на настроение людей
Для наглядной демонстрации полученных результатов необходимо построить диаграмму: процентное соотношение между позитивными и негативными мнениями по оси Y; дни до, после и во время публикации по оси X. Наглядно можно увидеть (в том числе и по коэффициенту “доброты”), что в день публикации и сразу после количество сообщений с негативным окрасом в источниках возросло (см. рис. 2)
Рис. 2. Процентное соотношение между позитивными и негативными мнениями к публикациям
Выводы
Таким образом, алгоритм поиска слов-маркеров помог с некоторой точностью определить влияние публикаций в СМИ на настроения людей, подтвердив тем самым изложенную ранее гипотезу. Однако, необходимо заметить, что в естественном языке слова могут иметь различные значения в зависимости от контекста. Дальнейшие исследования в этой области могут быть обогащены семантическим значением обрабатываемой информации.
Рецензии:
5.05.2016, 19:44 Эрштейн Леонид Борисович
Рецензия: Очень хорошая по сути идея при очень плохой ее подаче. Понятнее нужно все это расписать. У Вас про слова маркеры очень мало. А между тем суть Вашей статьи как раз в них. Дайте же классификацию этих маркеров, дайте их примеры, попробуйте рассмотреть ситуации когда в одном предложении есть противоречивые маркеры. Вероятно целесообразно разделить их по силе. В общем тут есть над чем работать. В таком виде это все плохо и к публикации я не рекомендую. НО, сама идея мне видится очень продуктивной, представьте ее хорошо и все будет здорово.
Комментарии пользователей:
Оставить комментарий