Полесский государственный университет
Студентка
Лапцевич Екатерина Сергеевна, студент; Васильченко Анастасия Олеговна, Кандидат экономических наук, доцент, Полесский государственный университет
УДК 351.82
Введение. Цифровая трансформация государственного управления привела к росту объемов информации, поступающей в органы власти. Этот поток данных, характеризующийся противоречивостью и низким качеством, формирует феномен «цифрового шума». Он создает барьеры для эффективной аналитики, что снижает качество и обоснованность управленческих решений. В связи с этим разработка механизмов фильтрации информации становится важной задачей для повышения эффективности государственного аппарата.
Актуальность. Потребность в реализации идей «цифрового государства» и «электронного управления» в Беларуси обуславливает важность данного изучения. Для эффективной работы органов власти необходимо предоставлять лицам, ответственным за принятие решений, оперативную и проверенную информацию. Отсутствие подходящих методов отбора информации может приводить к выбору стратегий на базе неточных или неполных сведений.
Цель исследования: разработка комплексной методики фильтрации информации для минимизации «цифрового шума» в системах поддержки принятия решений государственного аппарата Беларуси.
Задачи:
1) Определение главных причин и форм проявления «цифрового шума» в контексте белорусского госаппарата.
2) Проведение сравнительного анализа современных методов технической и семантической фильтрации данных.
3) Проектирование многоуровневой методики, адаптированной к организационным и языковым особенностям Республики Беларусь.
4) Формулировка практических рекомендаций по внедрению.
Материалы и методы: При проведении исследования применялись теоретические подходы, основанные на анализе научных публикаций в области теории информации, обработки естественных языков (NLP) и машинного обучения. Был реализован метод сопоставления различных алгоритмов – LDA, BERT, оценки тональности, коллаборативной фильтрации и других – исходя из таких параметров как скорость работы, качество результатов, понятность принципов функционирования и стоимость развертывания.
Научная новизна. Основным результатом исследования является создание сложной многоступенчатой методики, специально разработанной с учетом особенностей информационного обмена и организационной деятельности государственных структур Республики Беларусь. Заявленный комбинированный метод, объединяющий этапы подготовки данных, семантического анализа, проверки надежности и адаптации контента под пользователя, обеспечивает систематический подход к включению в действующие системы помощи в принятии управленческих решений.
Государственный аппарат сталкивается с экспоненциальным ростом объема данных из разнородных источников, таких как: СМИ, социальные сети, отчеты, статистика. Это приводит к «цифровому шуму» - избытку противоречивой и низкокачественной информации. «Шум» затрудняет выделение значимых сигналов, увеличивает время анализа, способствует принятию решений на основе неполных или искаженных данных, повышает когнитивную нагрузку на лиц, принимающих решения. Эффективная фильтрация информации становится условием повышения оперативности, обоснованности и качества государственного управления в соответствии с целями построения «электронного правительства» [1 с. 23].
Государственная политика обеспечения информационной безопасности исходит из следующих показателей [2 c. 51]:
- доступ к какой-либо информации осуществляется с учетом определяемых законом прав собственности на эту информами.;
- юридические и физические лица, собирающие, накапливающие и обрабатывающие персональные данный и конфиденциальную информацию, несут ответственность перед законом за сохранность и использование;
- государство формирует нормативно-правовую базу, регламентирующую права, обязанности и ответственность всех субъектов, действующих в информационной сфере.
Государственную систему защиты информации Республики Беларусь составляют [2 c. 66]:
- государственный центр безопасности информации (ГЦБИ);
- структурные подразделения по защите информации органов государственного управления, предприятий, организаций и учреждения;
- головные предприятия по направлениям защиты информации;
- сертификационные и испытательные центры, предприятия, учреждения и организации различных форм собственности по оказанию услуг в области защиты информации.
В государственном аппарате «цифровой шум» проявляется в виде информационной избыточности, а именно дублирование отчетов, рассылок, многословность документов; в виде текстов с высокой эмоциональной окраской, но низкой фактологической ценностью, спам, флуд; противоречивость данных; необходимость анализа огромных массивов данных для выявления единичных, но критически важных тенденций или угроз [2 c.89].
Первоочередные мероприятия по решению проблемы «информационного шума» должны включать [3 c. 47]:
1. Создание нормативно-правовой базы реализации государственной политики в области информационной безопасности, в том числе определение последовательности и порядка разработки законодательных и нормативно-правовых актов, а также механизмов практической реализации принятого законодательства;
2. Формирование государственной научно-технической программы совершенствования и развития методов и средств обеспечения информационной безопасности, предусматривающей их использование в национальных информационных и телекоммуникационных сетях и системах с учетом перспективы вхождения страны в глобальные информационные сети и системы;
3. Создание системы сертификации на соответствие требованиям информационной безопасности отечественных и закупаемых импортных средств информатизации, используемых в государственных органах власти и управления.
Выделяют следующие методы борьбы с «информационным шумом».
Метод удаления дубликатов восходит к работам по теории информации Клода Шеннона, который говорил: «Основная задача на этом этапе – устранить бесполезную избыточность, не потеряв при этом информативность». В процессе поиска и удалении дубликатов используются алгоритмы хеширования для идентификации полностью совпадающих или практически идентичных документов [3 c. 84].
Стремминг и лемматизация (для русского и белорусского языков), предложенные Мартином Портером, который говорил: «Стремминг – процесс сокращения склоняемых, спрягаемых слов к их корневой основе, не обязательно реально существующему слову, для упрощения последующего анализа». Методы означают приведение словоформ к нормальной форме (лемме) [4 c. 92].
Выделяют методы семантического анализа и тематического моделирования, такие как латентное размещение Дирихле (LDA), метод BERT, метод анализа тональности.
Латентное размещение Дирихле (LDA) было представлено в 2003 году как генеративная вероятностная модель для коллекций дискретных данных. Важный идейный момент LDA заключается в том, что вероятностные модели удобно понимать и представлять в виде порождающих процессов, то есть последовательно описывать, как порождается единица данных, а имено каждое слово в документе [5 c. 30].
Метод BERT и его производные (ruBERT BERT – large) предложенный Джейкобом Девлином и др., описывающий трансформерные модели для глубокого контекстного понимания языка. Метод позволяет решать задачи классификаций, распознавание именованных сущностей.
Метод анализа тональности, предложенный М.А. Лукашевичем, Т.А. Ляшевской и др., в который входит классификация эмоциональной окраски текста. Авторы говорили: «В задачах мониторинга общественного мнения анализ тональности позволяет отделить фактографический «сигнал» от эмоционального «шума» и оценить социальную напряженность» [6 c. 29].
Выделяют метод ранжирования и оценки достоверности PageRank и TrustRank, предложенный Ларри Пейдж, Сергеем Брином, Золтаном Дьенджи, Моникой Равеа. В методе описывают алгоритмы анализа гиперссылок для оценки авторности веб-источников. TrustRank специально разработан для борьбы со спамом [7 c. 58].
Метод контекстуально-ролевой персонализации коллаборативная и контентная фильрация, заложенный в работах Пола Ресника, Нила Хьюмана, Дж. Шардананда и П. Маензи, описывает классические методы рекомендательных систем, адаптированные работы для документооборота. Авторы метода говорили: «Система должна предсказывать релевантность документа для пользователя на основе поведения схожих пользователей и сходства документов с уже одобренными» [8 c. 25].
В таблице 1 показан сравнительный анализ методов.
|
Метод |
Скорость обработки |
Точность |
Интерпретируемость |
Затраты на внедрение |
Лучшее применение в госаппарате |
|
LDA |
Высокая |
Средняя |
Высокая (темы видны) |
Низкие |
Первичный анализ больших корпусов документов, кластеризация обращений граждан |
|
BERT, ruBERT |
Средняя /низкая |
Очень высокая |
Низкая («черный ящик») |
Высокие |
Точная классификация, NER (извлечение лиц, организаций), сложный факт-чекинг. |
|
Анализ тональности |
Высокая |
Высокая для веб-источников |
Средняя |
Средние |
Оценка авторитетности интернет-СМИ и блогов. |
|
Коллаборативная фильтрация |
Высокая после обучения |
Средняя (проблема «холодного старта») |
Низкая |
Средние |
Персонализация ленты новостей для ЛПР внутри интернета. |
Примечание – Собственная разработка
Сравнительный анализ существующих способов обработки данных продемонстрировал отсутствие единого подхода к устранению информационного шума. Каждая техника характеризуется собственным набором свойств, предопределяющим её наиболее результативное применение в государственной системе управления. Разработка действенной системы поддержки принятия решений требует использования интегрированного подхода, последовательно объединяющего преимущества каждой техники. Это обеспечит формирование многоуровневой системы фильтрации: начиная с оперативного предварительного очищения и классификации тем, и заканчивая углублённым семантическим анализом, оценкой надёжности и индивидуальной настройкой, соответствующей требованиям белорусского государственного аппарата.
В завершение, предложенная комплексная методика фильтрации информации для государственного аппарата Республики Беларусь представляет собой многоуровневую адаптивную систему, направленную на минимизацию «цифрового шума» и повышение качества данных для поддержки принятия решений. Система базируется на последовательном применении определенных этапов и методов. Системный эффект от внедрения данной методологии проявляется в создании интеллектуальной информационной среды, которая не просто отфильтровывает "шум", но и активно формирует релевантный информационный ландшафт, адаптированный под конкретные управленческие задачи и когнитивные особенности ЛПР. Это позволяет трансформировать пассивную обработку данных в активный процесс управления знаниями, где каждый уровень фильтрации добавляет ценность и смысловую глубину исходной информации.
Предложенный подход представляет собой сбалансированное решение, сочетающее современные методы обработки естественного языка, машинного обучения и рекомендательных систем для создания эффективного инструментария поддержки принятия решений в условиях цифровой трансформации государственного управления.
Рецензии:
29.12.2025, 19:43 Ашрапов Улугбек Товфикович
Рецензия: Развитие искусственного интеллекта и машинного обучения открывает новые горизонты в борьбе с информационным шумом. Алгоритмы, способные анализировать и фильтровать данные, становятся все более изощренными, позволяя пользователям сосредоточиться на действительно важной и релевантной информации. Персонализированные новостные агрегаторы, которые адаптируются под интересы конкретного пользователя, уже демонстрируют значительный прогресс в этом направлении. В будущем технологии будут еще более точно определять, какие данные являются полезными для пользователя, минимизируя тем самым информационный шум и повышая качество потребляемого контента. Правительства имеют доступ к огромным объемам данных, и алгоритмы ИИ используются для анализа и извлечения полезной информации, что позволяет принимать решения на основе фактов. Системы поддержки принятия решений могут анализировать и понимать сложную информацию, используя современные методы машинного обучения и аналитики данных, выявляя тенденции, закономерности и корреляции, которые было бы сложно обнаружить вручную. В результате правительственные органы могут принимать взвешенные решения, основанные на объективных исследованиях и данных. В статье "ПРОБЛЕМА «ЦИФРОВОГО ШУМА»: МЕТОДИКА ФИЛЬТРАЦИИ ИНФОРМАЦИИ ДЛЯ СИСТЕМ ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ В ГОСАППАРАТЕ РЕСПУБЛИКИ БЕЛАРУСЬ" автором описана методика фильтрации информации для белорусских государственных органов, определены причины «цифрового шума», показан сравнительный анализ методов и даны рекомендации по снижению "цыфрового шума" для систем поддержки принятия решений. Рекомендую статью "ПРОБЛЕМА «ЦИФРОВОГО ШУМА»: МЕТОДИКА ФИЛЬТРАЦИИ ИНФОРМАЦИИ ДЛЯ СИСТЕМ ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ В ГОСАППАРАТЕ РЕСПУБЛИКИ БЕЛАРУСЬ" к публикации в журнале SCI-ARTICLE.RU.
Комментарии пользователей:
Оставить комментарий