Уфимский государственный авиационный технический университет
студент, ВМИК
Воробьева Гульнара Равилевна, кандидат технических наук, старший научный сотрудник, доцент кафедры вычислительной математики и кибернетики, Уфимский Государственный Авиационный Технический Университет
УДК: 004
Введение. При разработке разнообразных геоинформационных систем очень часто возникает проблема оптимизации обработки данных. Причиной этому служит большой объем данных, собираемых станциями с различных точек земного шара. Их обработка требует высокой производительности от устройств и может занимать долгое время ввиду количества данных. Кроме того, очень часто они представляются в качестве временного ряда, в то время как для многих задач важно положение в пространстве.
Актуальность. Значимость геоданных переоценить сложно. Рассмотрим это на примере геомагнитных данных. Они собираются с помощью ИНТЕРМАГНЕТ по всему миру, но из-за нестабильности геомагнитной обстановки часть значений отсутствует, однако все еще необходима. Они обозначаются как “88888” или “99999”, что при отсутствии предварительной обработки данных может существенно исказить результаты их интерпретации и анализа. Вследствие этого возникает проблема восстановления данных, которую можно решить с помощью резервирования.
Резервирование - один из возможных путей повышения надежности информации, поступающей с станций. К нему существует несколько подходов: структурный, временной, информационный, функциональный и др. Резервирование в данном случае обеспечивает непрерывный мониторинг данных в заданной точке даже при отказе систем магнитной станции [2].
Информационное резервирование - особый вид, который используется в различных системах сбора и обработки информации. Он предполагает введение дополнительной информации для восстановления основной в случае ее потери или искажения. Это может быть достигнуто путем, например, хранения копий данных на различных устройствах.
Материалами в данной статье выступают геомагнитные данные.
В сети ИНТЕРМАГНЕТ многие магнитные станции расположены таким образом, что дублируют регистрируемый информационный сигнал друг друга. Поэтому в данном случае резервирование может обеспечить восстановление геомагнитных данных в заданной точке. Для осуществления данного метода нужно найти станции, которые могут образовывать доверительный список резервирования, то есть могут заменять друг друга. Это можно определить с помощью автокорреляции. Кроме того, необходимо установить, что данные, зарегистрированные в разных точках, являются результатом наблюдения одного и того же процесса или явления., а значит должны быть взяты с соседних станций. Кластеризация, в свою очередь, поможет в этом убедиться.
Кластеризация - одна из основных задач в интеллектуальном анализе пространственных данных, где под данными подразумеваются наблюдения для какого-либо участка, которые описывают пространственные единицы (одну или несколько). Они могут быть разнотипными, но собранными в пределах одной и той же границы. Цель кластеризации в группировке структурированных данных, собранных в разных местах, так, чтобы данные внутри кластеров моделировали непрерывность социально-экономической или географической среды. . Оценить однородность данных можно с помощью пространственной автокорреляции.
Пространственная кластеризация — это метод группировки набора пространственных объектов в группы, называемые «кластерами». Объекты внутри кластера демонстрируют высокую степень сходства, тогда как кластеры максимально различны. Цель кластеризации - сделать обобщение и выявить связь между пространственными и непространственными атрибутами.
При информационном резервировании данные должны относиться к одному кластеру, то есть быть взяты с соседних станций. В их основе должна лежать пространственная однородность. Ее можно определить с помощью автокорреляции.
Пространственная автокорреляция — это термин, используемый для описания наличия систематических пространственных изменений переменной, а положительная пространственная автокорреляция, которая чаще всего встречается на практике, представляет собой тенденцию для областей или участков, близких друг к другу, иметь аналогичные значения [5].
Целью данной статьи является изучение задачи пространственной кластеризации и интерполяции геомагнитных данных и её актуальности.
Далее будет рассматриваться метод резервной станции, который представляет собой способ пространственно-информационного резервирования. Суть его в том, что сильная корреляционная связь наборов данных - основание для взаимозаменяемости соответствующих временных рядов. Таким образом, пропущенные значения могут быть заменены на фрагмент данных другой обсерватории, зарегистрированный в то же время [4]. Этот подход использует результаты корреляционного анализа геомагнитных данных, отнесен к категории информационного пространственного резервирования.
Пространственная автокорреляция сложнее обычной автокорреляции, потому что она многомерна и двунаправлена. Для ее определения используются статистики Джири и Морана.
C Джири - это мера пространственной автокорреляции или попытка определить, коррелируются ли смежные наблюдения одного и того же явления. Значение C Джири находится между 0 и некоторым неопределенным значением, превышающим 1. Значения, значительно меньшие 1, демонстрируют возрастающую положительную пространственную автокорреляцию, в то время как значения, значительно превышающие 1, иллюстрируют возрастающую отрицательную пространственную автокорреляцию [1].
C Джири обратно связан с индексом Морана , но не идентичен. Индекс Морана является мерой глобальной пространственной автокорреляции, в то время как C Джири более чувствителен к локальной пространственной автокорреляции.
Индекс Морана является одним из индикаторов пространственной автокорреляции, которые позволяют исследовать территориальные закономерности в пространственных данных. Такие взаимосвязи количественно определяют степень, в которой значение переменной, измеренной в одном месте, зависит от значений той же переменной, измеренной на определенном географическом расстоянии от этого места. Если такая зависимость существует в наборе данных, считается, что переменная демонстрирует пространственную автокорреляцию. Также индекс Морана указывает на наличие кластеризации данных территорий в пространстве, но не объясняет ее причин [3].
Локальный индекс Морана (LISA) - это статистика локальной пространственной автокорреляции. Он был разработан Анселином (1995) как локальный индикатор пространственных взаимосвязей или статистики LISA. В качестве статистики LISA имеет следующие два свойства:
- LISA для каждого наблюдения дает указание на степень значительной пространственной кластеризации схожих значений вокруг этого наблюдения.
- сумма LISA для всех наблюдений пропорциональна глобальному показателю пространственной автокорреляции.
Научная новизна. В отдельных научных работах, находящихся в свободном доступе в русскоязычном пространстве, по данной теме мало информации. Поэтому эта статья носит информационный характер и содержит краткий обзор методов, которые необходимо применить для работы с информационным резервированием. Кроме того, она может послужить стартовой точкой для дальнейших изысканий. Это дает достаточную научную новизну работы.
Заключение. Ввиду всего вышесказанного можно сделать вывод, что не всегда имеются все необходимые данные со станций. Для их восстановления существуют различные методы. Метод резервных станций опирается на автокорреляцию и кластеризацию.
Таким образом, задача пространственной кластеризации и автокорреляции геомагнитных данных в наше время является актуальной.
Работа поддержана грантом РФФИ № 20-07-00011-а.
Рецензии:
22.02.2021, 15:07 Олевский Виктор Аронович
Рецензия: Сформулируйте свой позитив в научной новизне, а не критику.
4.01.2021, 8:19 Голубев Владимир Константинович Отзыв: Было бы хорошо формально, как принято, увязать высказывания в статье с библиографическими источниками с использованием ссылок в квадратных скобках, типа [x]. |