бакалавр
Казанский (Приволжский) Федеральный Университет
студент
Кирилова Галия Ильдусовна, доктор наук, профессор, КФУ, Институт вычислительной математики и информационных технологий, отделение фундаментальной информатики и информационных технологий / кафедра системного анализа и информационных технологий (внешний совместитель), Михайлова Ирина Станиславовна, студент, КФУ, Институт вычислительной математики и информационных технологий
УДК 311.213
Обозначение проблемы
В век цифровых технологий проблема интеллектуальной собственности стоит весьма остро. Участились случаи плагиата и воровства чужих идей и в сфере изобразительного искусства — с появлением цифровой живописи недобросовестные художники стали воровать работы у других или же заниматься обрисовкой фотографий. Они зарабатывают деньги на чужом труде, участвуя в конкурсах с чужими работами или используя их для создания своих путем “обмазывания” исходных картинок в цифровых редакторах. Именно эта проблема лежит в основе нашего исследования.
Актуальность проблемы в том, что на данный момент что не существует инструмента, позволяющего автоматически выявлять пары “оригинал - плагиат” среди цифровых изображений; в то время как для текстовой информации существуют “антиплагиат”-системы, автоматизирующие процесс сравнения и выборки. Имеющиеся алгоритмы позволяют найти на просторах Интернет только копии исходного изображения или его дубликаты, что не решает задачу. В своем исследовании мы стремились предложить схему анализа, которая помогает решать поставленную проблему как для растровых, так и для векторных изображений.
В результате удалось так же определить категории лиц для которых наиболее активно используется плагиат — данная тенденция становится наиболее заметна среди молодых людей возрастом от 16 лет.Модель и методы исследования
Таким образом, от общей проблемы математического анализа изображений мы перешли к проблеме проверки на плагиат графической информации. Для этого нами была поставлена задача попарного сопоставления изображений. В процессе выборки мы стремились для каждой пары выбранных изображений выделить некое формальное обоснование (критерии), позволяющее признать пару подходящей для исследования.
Для второй части исследования (распознавание категорий лиц) использовалась методика числового сопоставления выборок данных и использование статистических функций для подтверждения полученной нами информации.
Данные исследования
Для проведения исследования были отобраны ресурсы, содержащие достаточное количество данных для данной предметной области. К ресурсам был выдвинут ряд требований:
Поиск источников позволил нам выделить базовые страницы, которые являются источниками для осуществления выборки по заданным критериям — сообщества в социальных сетях [4, 5, 6] и отдельные сайты [7,8].
В свою очередь, для данных были выбраны следующие критерии, которым они должны соответствовать:
Ход исследования на основе описанной модели
Для наглядного исследования проблемы по заданной модели, мы выдвинули следующую гипотезу:
Решающий критерий для принятия гипотезы — количественное сопоставление данных, найденных в выбранных источниках, и подтверждение их статистическими формулами. Основная гипотеза будет принята, если данные будут удовлетворять критерию: количество плагиата за 2015 год (среди авторов до 20 лет) будет выше, чем за 2013. Альтернативная гипотеза предполагает обратное — количество плагиата осталось тем же или даже уменьшилось.
Для подтверждения или же опровержения гипотезы мы проводили эксперимент в соответствии с выдвинутыми критериями: для источников данных, для самих данных, для принятия основной/альтернативной гипотезы.
В своем исследовании мы рассмотрели 2 глобальных интервала: 1.01.2013-31.12.2013 и 1.01.2015-01.12.2015 (т.е. в качестве интервала выступает 1 год). Для каждого интервала рассматривается подборка из 36 записей. Выделено 2 подынтервала для каждого интервала: 1.01.2013-31.05.2013 и 1.06.2013-31.12.2013, 1.01.2015-31.05.2015 и 1.06.2015-31.12.2015.
Визуализация имеющихся наборов данных:
рис.4 Диаграмма, отображающая количественное соотношение девушек к общему числу “заимствующих” в выборках по подынтервалам.
Обработанные и подсчитанные данные были внесены в таблицы. Затем производилась работа с формулами, отображающими статистические зависимости. Для работы с гипотезой использовались следующие:
Ниже приведена финальная таблица с обработанными данными и значениями, полученные в результате вычисления заявленных выше формул.
Результаты исследования показывают, что доля девушек среди общего числа плагиаторов возросла (выборка 1). Также по результатам исследования видно, что количество молодых художников — до 20 лет — в 2015 году возросло (выборка 2). Используя значение χ2 можно предположить, что гипотеза доказана.
Выводы
Данная статья была написана в процессе подготовки по курсу “Теория систем и системный анализ”. Мы проводили своё исследование, опираясь на статьи, описывающие опыт работы с данными, средствами визуализации и содержащие общие рекомендации по работе с информацией [1-3].
В ходе нашего исследования мы предложили свою модель работы с цифровыми изображениями для решения определенного класса задач (для подбора, сопоставления и анализа данных, необходимых для некоторого исследования). В ходе него также были описаны методики работы с информацией, определены критерии для источников данных и для выборок. Были выдвинуты гипотезы и проведены испытания, которые её подтвердили.
Представленная нами модель не позволяет полностью автоматизировать работу по распознаванию изображений и выделению заданных пар вида “оригинал-плагиат”, но позволяет существенно сократить усилия, необходимые для этого. Она актуальна и представляется на уровне объективной новизны, т.к. в настоящее время нет никаких вспомогательных инструментов, облегчающих данную задачу. Кроме того, представленная модель показала себя эффективной для исследования различных категорий населения, что позволяет нам выйти за рамки данной задачи и использовать имеющийся алгоритм и в других областях.
Рецензии:
16.05.2016, 11:22 Иванова Наталья Александровна
Рецензия: Актуально. Серьезное исследование. Статья рекомендуется к печати.
16.05.2016, 13:11 Эрштейн Леонид Борисович
Рецензия: Тема актуальная. Но этот текст оставляет странное впечатление. Целью исследования здесь вроде бы является разработка алгоритма выявления плагиата графических изображений. Если я прав, то алгоритма в статье нет. Проблема плагиата это проблема авторства и копирования. Возьмем рисунок 1 автора статьи. А почему автор статьи уверен, что создатель рисунка на рисунке 1, а не на рисунке 2? Откуда это известно? Из статьи совершенно не понятно. Что касается утверждения о том, что "В результате удалось так же определить категории лиц для которых наиболее активно используется плагиат — данная тенденция становится наиболее заметна среди молодых людей возрастом от 16 лет". Так это простите очевидно. Ребятам моложе 16 это просто не нужно. Гипотеза работы носит социологический характер. Но я хочу спросить,а какое собственно имеет значение какого возраста эти самые плагиаторы? То есть по тексту, актуальность описана для одной темы, а гипотеза для другой. Да, разработка алгоритма определения плагиата графики бесспорна. Но актуальность того какого возраста плагиаторы графики отнюдь не бесспорна. Надо ее доказывать. А этого нет. В общем в таком виде я, конечно, не могу рекомендовать это к публикации. Надо привести это в порядок, сделать текст ясным и конкретным и тогда можно его рассматривать.
16.05.2016, 13:53 Адибекян Оганес Александрович
Рецензия: Адибекян Оганес Александрович. Проблема плагиата рисунчатого рода следует за плагиатами диссертационными, художественно-литературными, если не добавлять использование запатентованных изобретений без покупки права на это. Авторам, приходится затрачивать труд, за которое хочется побольше получить, не делясь возможным доходом с кем-то. Осуждение свободно употребительных действий в государствах с рыночной экономикой естественно, эта система затруднила себя обнаружением непозволенных заимствований и наказанием. С учетом всего этого статья Егоровой Кристины Николаевны интересная, ценная, раз не только просвещает людей, но и предлагает средства борьбы с учтенным злом. Но у читателя возникает вопрос, а как наказывают, следует наказывать того, кто воспроизводит чужое, ссылок на действительного автора не делает, его работу не рекламирует? Неужели таких сведений в использованной литературе нет, никто не подумал о наказании. Статью стоит опубликовать, но желательно чтобы такие добавления были.
Комментарии пользователей:
Оставить комментарий