Исследовательские алгоритмы сбора и обработки данных о грамотности молодежи в сети Интернет

Вход на сайт

Научные направления

Поделиться:

Статьи из раздела: Физическая активность в период обучения в ВУЗе

Разделы: Социология
Размещена 25.05.2017. Последняя правка: 25.05.2017.
Просмотров - 1856

Фактические данные

Количество ошибок/Ресурс

Казань. Куда пойти?

Подслушано

Злой школьник

Отсутствуют (0)

Больше одной (2+)

нет

Казанский Федеральный Университет

Студент

Ялкаев Николай, Никонов Алексей: студенты Казанского Федерального Университета. Научный руководитель: Кирилова Галия Ильдусовна, должности: профессор, д.н., Казанского Федерального Университета / Институт вычислительной математики и информационных технологий / отделение фундаментальной информатики и информационных технологий / кафедра системного анализа и информационных технологий (внешний совместитель) профессор, д.н., Казанского Федерального Университета / Институт психологи

Аннотация:

В данной статье нами были исследованы алгоритмы сбора и обработки данных о грамотности молодежи в сети Интернет. Тема актуальна в настоящее время, так как с появлением Интернета наблюдается изменение уровня владения письменной речью, а точнее его снижение, об этом говорит статистика, лежащая в открытом доступе. Появление интернет-сленга и частое употребление его даже в повседневной жизни снижает словарный запас среднестатистического представителя современной молодежи. Сбор данных производился путем нормальной выборки из доступных интернет-ресурсов (на примере комментариев в группах социальной сети “ВКонтакте”) для их последующей формализации и численной обработки. В ходе исследования нами отработан алгоритм ручного сбора данных на базе которого анализировались страницы пользователей социальной сети и построен универсальный алгоритм, который может быть полезен для социологических исследований подобных электронных ресурсов и личных страниц пользователей. В результате, с помощью мет

Abstract:

The article provides algorithms of data mining and processing research on youth literacy in the Internet. The topic is relevant at present, since with the advent of the Internet there is a change in the level of ownership of written speech, or rather, its decline, this is indicated by statistics. The emergence of the Internet slang and frequent use of it even in everyday life reduces the vocabulary of the average representative of modern youth. The data was collected by a normal sample from available Internet resources (for example, comments in groups of social network "VKontakte") for their subsequent formalization and numerical processing. During the research, we developed an algorithm for manual data collection on the basis of which the pages of users of the social network were analyzed and a universal algorithm that could be useful for sociological researches of such web-resources and users' personal pages. Methods of mathematical statistics have proved the dependencies: the

Ключевые слова:

алгоритмы; данные; анализ текстовых данных; сбор; грамотность; молодежь; сетевое пространство; зависимость.

Keywords:

algorithms; data; text analysis; mining; literacy; youth; network; addiction.

УДК 31

Введение

Наша исследовательская команда не смогла остаться равнодушной к проблеме неграмотности современной молодёжи, так как проявление своей необразованности в месте, где современный человек проводит большую часть своего времени, может поставить под сомнение не только уровень образования “виновника комментария”, но и оказать плохое влияние на более молодые поколения, которые в связи со своим любознательным возрастом достаточно быстро воспринимают и усваивают информацию.

Глобальной задачей данного исследования является поиск и апробация исследовательских алгоритмов сбора и обработки данных, выяснение общего уровня грамотности среди молодежи и поиск возможного пути решения данной проблемы.

Актуальность

Теоретическая и практическая значимости работы вытекают из результатов нашего исследования, которые если и не решают проблему неграмотности молодежи в интернете, то хотя бы позволяют обнаружить возможные ее причины, что является немаловажным, так как обнаружить корень проблемы - уже половина ее решения.

Тенденция снижения уровня грамотности среди молодежи - еще одна проблема современного мира. После появления интернета наблюдается изменение уровня владения письменной речью, а точнее его снижение, об этом говорит статистика (к примеру, в России каждый год проводится “Тотальный диктант”, результаты которого свидетельствуют о вышеупомянутой проблеме) [1].

Сегодня интернет превратился в место, где найти человека, соблюдающего простейшие правила орфографии и пунктуации русского языка, становится всё сложнее[5]. Также частое времяпрепровождение в интернете снижает интерес к чтению литературы, что способствует ухудшению грамотности и уменьшению словарного запаса [6].

В связи с растущей популярностью социальных сетей, разговорная и письменная речь смешались, при этом в Интернете используется разговорная речь, претерпевшая изменения посредством включения новых слов (интернет-терминов, заимствованных слов и т.д.) и интернет-сленга. В результате современная молодёжь совершает больше ошибок в письменной речи [4].

Обзор литературы

Данное исследование проводилось на базе научных публикаций, которые свидетельствуют об опосредованном влиянии Интернета на грамотность современной молодёжи например [1] .

Также немаловажную роль сыграло знакомство с выполненными студентами прошлых лет исследованиями [2], которые позволили не только сделать сравнение, выступить в качестве альтернативного источника, но и дополнить исследование статистическими данными, исходя из которых можно говорить о возможной динамике грамотности среди современной молодежи.

В список источников, которые также внесли свой вклад в наше исследование, включены работы, раскрывающие вопросы падения грамотности в Интернете, а именно, что за ней скрывается [3] и почему она мешает жить [4], причины, её вызывающие [5].

Материалы и методы

Объектом нашего исследования является безграмотность среди современной молодёжи. Немаловажной частью нашего исследования оказался сбор данных, после проведения которого мы смогли провести их анализ и сделать выводы, получить результаты. Основным источником данных оказалась крупнейшая в Европе социальная сеть “ВКонтакте”. За основную единицу информации мы условились считать комментарий пользователя, который одновременно являлся фактом.

В нашем исследовании мы стремились к выделению таких совокупностей данных (фактов), на основе которых возможно было бы доказать их статистическое сходство или различие с помощью математических методов (ХИ2 и F тесты). Также рассматривались личные страницы пользователей (делалось это с целью получения дополнительной информации, необходимой для проведения исследований).

В ходе исследования на основе алгоритма ручного сбора данных, на базе которого анализировались страницы пользователей социальной сети, построен универсальный алгоритм сбора и анализа данных (рис.1), который может быть полезен для социологических исследований подобных электронных ресурсов и личных страниц пользователей. Однако для каждой решаемой задачи требуется конкретизация процедур, изменение критериев сбора данных.

Рис 1. Блок-схема алгоритма сбора и анализа данных

Научная новизна

Основная идея извлечения данных заключалась в выборе конкретного пользователя и подсчета количества ошибок в его комментарии. Новизна исследования заключается в следующих пунктах:

обработка данных производилась путем нормальной выборки из доступных ресурсов с помощью анализа ошибок в текстах
производилось выявление новых зависимостей и уточнение закономерностей. Полученные критерии позволили оценить зависимость между различными участниками эксперимента
использовались методы выявления признаков применительно к задаче выявления ошибок в тексте

Корректная обработка и формализация основных источников данных, а также использованные статистические методы позволили получить результаты, развернутое описание которых следует в следующем пункте.

Результаты исследования

Для определения причины неграмотности современной молодежи и поиска путей решения этой проблемы (что является главной задачей нашей исследовательской работы) нами были выдвинуты гипотезы и предположения, проверка которых позволит получить результаты, которые помогут сдвинуться с мертвой точки.

В результате был принят ряд гипотез:

Частота ошибок зависит от длины текста
Количество допущенных ошибок зависит от социального статуса испытуемого. Количество допущенных ошибок зависит от возраста автора комментария

В то же время гипотеза о том, что существует зависимость между совершенным количеством ошибок аудиторией и ресурсом (пабликом), которым она характеризуется, была отвергнута.

Следующие предположения были отвергнуты:

Группа “Школьники” совершают больше всего ошибок в тексте
В длинных текстах частота ошибок больше, чем в коротких
Подростки (13-17 лет) совершают больше ошибок, чем более старшие поколения.
Исследуемые, посещавшие паблик “Молодёжка”, совершали больше ошибок, чем исследуемые с других ресурсов.

Визуализация и анализ данных

Данные об авторе комментария заполняются в таблицу и далее происходит сортировка записей по определенному критерию. После производится выборка и анализ данных по параметрам, применение математических методов (алгоритмов) для поиска сходства и различий, а также получения закономерностей и выявления зависимостей.

Доказано различие между группами “Студенты” и “Рабочие”. Найдены сходства между женщинами студентами-школьникам. Люди юношеского возраста совершают больше ошибок, чем люди подросткового возраста. В коротких текстах ошибки встречаются чаще, чем в длинных.

После обработки эти данные вносятся в таблицу, затем проводятся дополнительные вычисления. Далее анализируется таблица и выявляются зависимости, закономерности.

Зависимость коэффициента ошибок от длины текста

Покажем кривую, которая демонстрирует зависимость коэффициента ошибок от длины текста. По горизонтали: длина текста (1-49 - короткий, 50-99 - средний, от 100 - длинный). По вертикали: значение коэффициента ошибок (коэффициент ошибок = количество ошибок / (длина текста / 10)). По графику (рис.2) видно, что в коротких текстах ошибки встречаются чаще.

Рис 2. Зависимость коэффициента ошибок от длины текста.

График зависимости длины текста

Рис 3. Визуализация собранных данных. По горизонтали: коэффициент ошибок, разбитый по диапазонам. По вертикали: количество исследуемых

Проверка на модельных данных

Рис 4. Данные таблицы содержат результаты вычислений, полученные в исследовании, где критерием деления общей выборки был социальный статус

Рис 5. Визуализация собранных данных. По горизонтали: количество ошибок, разбитый по диапазонам (ноль - 0, мало - 1, много - 2 и более ошибок). По вертикали: количество исследуемых

Сходства между девушками студентами-школьниками

Рис 6. Результаты F-теста, показанные на рисунке, демонстрируют сходство между девушками-студентами и девушками-школьницами

Кривая зависимости среднего количества ошибок от ресурса

Рис 7. Данная ломаная кривая демонстрирует зависимость среднего количества ошибок от ресурса.

По горизонтали: название ресурса. По вертикали: значение среднего количества ошибок. График показывает, что наибольшее среднее количество ошибок совершается аудиторией ресурса “Казань. Куда пойти?” и наименьшее - “Подслушано”.

Рис 8. Данная таблица содержит результаты вычислений, полученные в исследовании, где общая выборка сортировалась относительно паблика, который посетил пользователь

Рис 9. Визуализация собранных данных. По горизонтали: количество ошибок, разбитый по диапазонам (ноль - 0, мало - 1, много - 2 и более ошибок). По вертикали: количество исследуемых

Обсуждение и заключения

В ходе исследования мы столкнулись с проблемой нехватки данных, в результате чего, есть вероятность, что часть выводов являются искаженными и неправильными. Возможно, некоторые результаты связаны с тем, что выполнялась случайная выборка. Неграмотность в Интернете всё же зависит от рассмотренных критериев, образованности человека, его возраста и длины написанного им сообщения.

Обоснованность полученных нами результатов можно подтвердить несколькими фактами: выборка, несмотря на свою относительно небольшую величину, удовлетворяет определенным нами правилами сбором информации; в анализе полученной выборки использовались инструменты математической статистики.

Минимальный набор задач данного исследования выполнен.

Библиографический список:

1. Цицкун Виолетта Владимировна. СyberLeninka, Опосредованное влияние интернета на грамотность современной молодежи// Вестник Ленинградского государственного университета им. А.С. Пушкина. - 2015. - № 4. - Том 1.
2. Латыпов Р. Х. и др. Функционирование информационной образовательной среды профессиональной школы: метауровень.// Казанский педагогический журнал. - 2014. - Т. 106. - № 5. - С. 28-36.
3. Загриева Камиля, Хакимова Эльза, Уразгалиева Назгуль. Безграмотность в сети.// https://docs.google.com/document/d/1AjI-lw95izxexlF4qTy6SMx5wVK1bNS0vuoeiKFcJX0/edit (дата обращения: 1.10.2016).
4. Ясюкова Л. А. Психолого-педагогические причины неграмотности современных школьников //Национальный психологический журнал. – 2007. – № 1. – С. 2.
5. Сидорова М. Ю. Кто и почему пишет неправильно в Интернете? //Филология и человек. – 2007. – №. 1. – С. 67-82.

Рецензии:

25.05.2017, 8:13 Эрштейн Леонид Борисович
Рецензия: Статья хорошая. Но чего не хватает. 1. Цели исследования. 2. Анализа этих чудных диаграмм и графиков. А так все очень интересно и здорово. Ну ребятки, ну напишите анализ, ну постарайтесь, статья без него сиротливо выглядит, честное слово. Алгоритм конечно примитивный, но то что там дальше весьма интересно. В общем доработайте.

Комментарии пользователей:

Оставить комментарий

E-mail: sci@sci-article.ru
©2013-2023 Электронный периодический научный журнал SCI-ARTICLE.RU
Любое использование размещённых на сайте журнала статей и материалов возможно только с обязательной активной ссылкой на сайт журнала «SCI-ARTICLE.RU».

▲
Вверх

E-mail:
Пароль:
Запомнить
	Регистрация/ Забыли пароль?