Публикация научных статей.
Вход на сайт
E-mail:
Пароль:
Запомнить
Регистрация/
Забыли пароль?
Международный научно-исследовательский журнал публикации ВАК
Научные направления
Поделиться:
Разделы: Информационные технологии, Социология
Размещена 16.05.2016. Последняя правка: 15.05.2016.

Опыт выявления плагиата при работе с графической информацией

Егорова Кристина Николаевна

бакалавр

Казанский (Приволжский) Федеральный Университет

студент

Кирилова Галия Ильдусовна, доктор наук, профессор, КФУ, Институт вычислительной математики и информационных технологий, отделение фундаментальной информатики и информационных технологий / кафедра системного анализа и информационных технологий (внешний совместитель), Михайлова Ирина Станиславовна, студент, КФУ, Институт вычислительной математики и информационных технологий


Аннотация:
Цель данной работы — создать модель с заложенным в неё алгоритмом, который должен решать некий класс задач, связанных с работой по определению плагиата для графических изображений — задачи подбора, сопоставления и анализа данных для исследования и возможного решения проблемы. В данном исследовании нас интересовало два момента: какие методы и модели пригодны для сопоставления изображений (для выявления пар “оригинал - плагиат”) и какие категории лиц больше подвержены заимствованию (чаще заимствуют изображения).


Abstract:
Purpose of this work is to create a model with embed algorithm which has to solve some issues connected with detection of plagiary in the digital art sphere (e.g. selecting, comparing and analysis of images). In this research we deal with two cases of matching content: 1) which methods and models meet the requirements for comparing images and 2) what population groups are perceived to plagiarism the most. Practical section consists of two parts based on hypothesizes and its' consideration.


Ключевые слова:
графические информация; плагиат; сопоставление; анализ изображений.

Keywords:
graphic information; plagiarism; comparison; image analysis.


УДК 311.213

Обозначение проблемы

В век цифровых технологий проблема интеллектуальной собственности стоит весьма остро. Участились случаи плагиата и воровства чужих идей и в сфере изобразительного искусства — с появлением цифровой живописи недобросовестные художники стали воровать работы у других или же заниматься обрисовкой фотографий. Они зарабатывают деньги на чужом труде, участвуя в конкурсах с чужими работами или используя их для создания своих путем “обмазывания” исходных картинок в цифровых редакторах. Именно эта проблема лежит в основе нашего исследования.

Актуальность проблемы в том, что на данный момент что не существует инструмента, позволяющего автоматически выявлять пары “оригинал - плагиат” среди цифровых изображений; в то время как для текстовой информации существуют “антиплагиат”-системы, автоматизирующие процесс сравнения и выборки. Имеющиеся алгоритмы позволяют найти на просторах Интернет только копии исходного изображения или его дубликаты, что не решает задачу. В своем исследовании мы стремились предложить схему анализа, которая помогает решать поставленную проблему как для растровых, так и для векторных изображений.

В результате удалось так же определить категории лиц для которых наиболее активно используется плагиат — данная тенденция становится наиболее заметна среди молодых людей возрастом от 16 лет.

Модель и методы исследования

Таким образом, от общей проблемы математического анализа изображений мы перешли к проблеме проверки на плагиат графической информации. Для этого нами была поставлена задача попарного сопоставления изображений. В процессе выборки мы стремились для каждой пары выбранных изображений выделить некое формальное обоснование (критерии), позволяющее признать пару подходящей для исследования.

Для второй части исследования (распознавание категорий лиц) использовалась методика числового сопоставления выборок данных и использование статистических функций для подтверждения полученной нами информации.

Данные исследования

Для проведения исследования были отобраны ресурсы, содержащие достаточное количество данных для данной предметной области. К ресурсам был выдвинут ряд требований:

  1. Соответствие выбранной области (концентрация на тематике плагиаторства и “обводок”)
  2. Информативность (содержательные, полные посты)
  3. Конструктивность (“не предвзятые” записи, преследующие цель восстановить справедливость, а не оклеветать человека)
  4. Постоянная активность ресурса (наличие постоянных обновлений в течении долгого времени).
  5. Наличие необходимого контингента.

Поиск источников позволил нам выделить базовые страницы, которые являются источниками для осуществления выборки по заданным критериям — сообщества в социальных сетях [4, 5, 6] и отдельные сайты [7,8].

В свою очередь, для данных были выбраны следующие критерии, которым они должны соответствовать:

  1. Достоверность (т.е. доказательство плагиата обязательно — им является пара изображений “оригинал-плагиат”). Данный критерий обязателен на этапе выборки данных, но в искомую таблицу учета данных не вносится по ненадобности.
  2. Уникальность (информация об одном и том же человеке не должна дублироваться, несмотря на то)
  3. Сопоставимость (представление данных в одинаковых форматах)
  4. Полнота информации об авторе (примерный возраст, пол, творческий “стаж”)
  5. Год публикации на ресурсах — 2013 или 2015.
Пример одной такой пары, удовлетворяющей заданным критериям представлен на рис.1 и рис2.

 Рис.1 (предположительно оригинал. Название: “Silent Breeze” [9]);

fykyGz-ihYM.jpg

Рис.2 (предположительно  плагиат). 2013 год. Информация об авторе плагиата: девушка, возраст 16 лет, стаж ~полгода [9-10] 

Ход исследования на основе описанной модели

Для наглядного исследования проблемы по заданной модели, мы выдвинули следующую гипотезу:

  • А, неформальное определение: Средний возраст плагиаторов в 2015 по сравнению с 2013 годом уменьшился, и в плагиате среди молодых художников чаще заметны девушки.
  • В, формальное определение: Если сопоставить выборки пар "оригинал-плагиат" за 2013 и за 2015 год, рассматривая в качестве критерия также возраст автора, то можно выявить следующую тенденцию: количество плагиаторов среди молодых художниц возросло, и оно больше, чем количество плагиаторов-парней.

Решающий критерий для принятия гипотезы — количественное сопоставление данных, найденных в выбранных источниках, и подтверждение их статистическими формулами. Основная гипотеза будет принята, если данные будут удовлетворять критерию: количество плагиата за 2015 год (среди авторов до 20 лет) будет выше, чем за 2013. Альтернативная гипотеза предполагает обратное — количество плагиата осталось тем же или даже уменьшилось.

Для подтверждения или же опровержения гипотезы мы проводили эксперимент в соответствии с выдвинутыми критериями: для источников данных, для самих данных, для принятия основной/альтернативной гипотезы.

В своем исследовании мы рассмотрели 2 глобальных интервала: 1.01.2013-31.12.2013 и 1.01.2015-01.12.2015 (т.е. в качестве интервала выступает 1 год). Для каждого интервала рассматривается подборка из 36 записей.  Выделено 2 подынтервала для каждого интервала: 1.01.2013-31.05.2013 и 1.06.2013-31.12.2013, 1.01.2015-31.05.2015 и 1.06.2015-31.12.2015.

Визуализация имеющихся наборов данных:

 
  
рис.3 Диаграмма, отображающая количественное соотношение плагиаторов младше 20 лет к их общему числу.




рис.4 Диаграмма, отображающая количественное соотношение девушек к общему числу “заимствующих” в выборках по подынтервалам.

Обработанные и подсчитанные данные были внесены в таблицы. Затем производилась работа с формулами, отображающими статистические зависимости. Для работы с гипотезой использовались следующие:

  • Функция ХИ2 тест на независимость, которая возвращает значение статистики для распределения хи-квадрат (χ2) и соответствующее число степеней свободы. Критерий χ2 можно использовать для определения того, подтверждается ли гипотеза экспериментом.
  • F-тест — двусторонняя вероятность того, что разница между дисперсиями массивов несущественна. 
  • Коэффициент корреляции Пирсона.

Ниже приведена финальная таблица с обработанными данными и значениями, полученные в результате вычисления заявленных выше формул.

 Таблица 1. Результаты выборок по подинтервалам и вычисление статистических формул.



Результаты исследования показывают, что доля девушек среди общего числа плагиаторов возросла (выборка 1). Также по результатам исследования видно, что количество молодых художников — до 20 лет — в 2015 году возросло (выборка 2). Используя значение χ2 можно предположить, что гипотеза доказана.


Выводы

Данная статья была написана в процессе подготовки по курсу “Теория систем и системный анализ”. Мы проводили своё исследование, опираясь на статьи, описывающие опыт работы с данными, средствами визуализации и содержащие общие рекомендации по работе с информацией [1-3].

В ходе нашего исследования мы предложили свою модель работы с цифровыми изображениями для решения определенного класса задач (для подбора, сопоставления и анализа данных, необходимых для некоторого исследования). В ходе него также были описаны методики работы с информацией, определены критерии для источников данных и для выборок. Были выдвинуты гипотезы и проведены испытания, которые её подтвердили.

Представленная нами модель не позволяет полностью автоматизировать работу по распознаванию изображений и выделению заданных пар вида “оригинал-плагиат”, но позволяет существенно сократить усилия, необходимые для этого. Она актуальна и представляется на уровне объективной новизны, т.к. в настоящее время нет никаких вспомогательных инструментов, облегчающих данную задачу. Кроме того, представленная модель показала себя эффективной для исследования различных категорий населения, что позволяет нам выйти за рамки данной задачи и использовать имеющийся алгоритм и в других областях.

Библиографический список:

1. Vlasova, V.K., Kirilova, G.I., Curteva, O.V. Matrix classification of information environment algorithms application in the educational process / Vlasova, V.K., Kirilova, G.I., Curteva, O.V. // Mathematics Education . – V. 11. – № 1. – 2016. – P.165-171.
2. Кирилова Г.И., Шорина Т.В. Опыт применения средств визуализации в курсе «Информационная безопасность и защита» // Вестник НЦБЖД. 2010. № 3. С. 22-26.
3. Кирилова Г.И. Исследовательская компетентность специалиста информационного общества // Образовательные технологии и общество. 2008. Т. 11. № 4. С. 390-395.
4. LF: сообщество социальной сети vk.com, посвященное работам цифровых художников и поиску заимствований чужих работ [Электронный ресурс]. — Режим доступа: https://vk.com/noitarebil_tnorf (дата обращения: 20.12.2015), для доступа требуется авторизация.
5. Берешь и рисуешь: сообщество социальной сети vk.com, посвященное работам цифровых художников [Электронный ресурс]. — Режим доступа: https://vk.com/club29809816 (дата обращения: 24.12.2015), для доступа требуется авторизация.
6. Плагиат, обводки, обмазки. Список умельцев: сообщество социальной сети vk.com, посвященное работам цифровых художников и уличению в конкретных случаях плагиата [Электронный ресурс]. — Режим доступа: https://vk.com/art_plagiary (дата обращения: 24.12.2015)
7. Deviantart [Электронный ресурс]. — Режим доступа: http://www.deviantart.com/ (дата обращения: 20.12.2015)
8. Tumblr [Электронный ресурс]. — Режим доступа: www.tumblr.com (дата обращения: 20.12.2015)
9. Изображение (предположительно оригинал): автор roido-kun. Источник: http://www.deviantart.com/art/Silent-Breeze-482559037 (дата обращения: 19.12.2015)
10. Изображение (предположительно плагиат): автор stacygreenhv. Источник: http://stacygreenhv.deviantart.com/ (дата обращения: 20.12.2015)




Рецензии:

16.05.2016, 11:22 Иванова Наталья Александровна
Рецензия: Актуально. Серьезное исследование. Статья рекомендуется к печати.

16.05.2016, 13:11 Эрштейн Леонид Борисович
Рецензия: Тема актуальная. Но этот текст оставляет странное впечатление. Целью исследования здесь вроде бы является разработка алгоритма выявления плагиата графических изображений. Если я прав, то алгоритма в статье нет. Проблема плагиата это проблема авторства и копирования. Возьмем рисунок 1 автора статьи. А почему автор статьи уверен, что создатель рисунка на рисунке 1, а не на рисунке 2? Откуда это известно? Из статьи совершенно не понятно. Что касается утверждения о том, что "В результате удалось так же определить категории лиц для которых наиболее активно используется плагиат — данная тенденция становится наиболее заметна среди молодых людей возрастом от 16 лет". Так это простите очевидно. Ребятам моложе 16 это просто не нужно. Гипотеза работы носит социологический характер. Но я хочу спросить,а какое собственно имеет значение какого возраста эти самые плагиаторы? То есть по тексту, актуальность описана для одной темы, а гипотеза для другой. Да, разработка алгоритма определения плагиата графики бесспорна. Но актуальность того какого возраста плагиаторы графики отнюдь не бесспорна. Надо ее доказывать. А этого нет. В общем в таком виде я, конечно, не могу рекомендовать это к публикации. Надо привести это в порядок, сделать текст ясным и конкретным и тогда можно его рассматривать.

16.05.2016, 13:53 Адибекян Оганес Александрович
Рецензия: Адибекян Оганес Александрович. Проблема плагиата рисунчатого рода следует за плагиатами диссертационными, художественно-литературными, если не добавлять использование запатентованных изобретений без покупки права на это. Авторам, приходится затрачивать труд, за которое хочется побольше получить, не делясь возможным доходом с кем-то. Осуждение свободно употребительных действий в государствах с рыночной экономикой естественно, эта система затруднила себя обнаружением непозволенных заимствований и наказанием. С учетом всего этого статья Егоровой Кристины Николаевны интересная, ценная, раз не только просвещает людей, но и предлагает средства борьбы с учтенным злом. Но у читателя возникает вопрос, а как наказывают, следует наказывать того, кто воспроизводит чужое, ссылок на действительного автора не делает, его работу не рекламирует? Неужели таких сведений в использованной литературе нет, никто не подумал о наказании. Статью стоит опубликовать, но желательно чтобы такие добавления были.



Комментарии пользователей:

Оставить комментарий


 
 

Вверх