Публикация научных статей.
Вход на сайт
E-mail:
Пароль:
Запомнить
Регистрация/
Забыли пароль?

Научные направления

Поделиться:
Статья опубликована в №4 (декабрь) 2013
Разделы: Информационные технологии
Размещена 04.12.2013.
Просмотров - 4133

Особенности мониторинга виртуальной ИТ-инфраструктуры.

Данильчук Александр Анатольевич

магистрант НГТУ

филиал ЗАО «Энвижн Груп» Энвижн-Сибирь»

инженер-стажер

Юн. С. Г., к.т.н., доцент; Новокрещенов Н. С., руководительль направления систем хранения и обработки данных


Аннотация:
Статья посвящена обзору особенностей мониторинга ИТ-инфраструктуры.


Abstract:
Article reviews the features of monitoring IT infrastructures


Ключевые слова:
ИТ-инфраструктура, мониторинг, управление

Keywords:
IT, monitoring, managment


УДК 004.032

Мониторинг виртуальной среды — это критически важная задача, выполнение которой позволяет гарантировать работоспособность и высокую доступность виртуальной среды. К сожалению, этой задаче не всегда уделяется должное внимание, а временное отсутствие проблем зачастую приводит к потере бдительности. Однако при первой же крупной аварии становиться ясно, что мониторинг просто жизненно необходим; и как важно не просто следить за «жизненными показателями» ИТ-инфраструктуры, а так же анализировать эти показатели и прогнозировать возможные исходы, просчитывать риски возникновения определенных событий и т.д.

Наличие дополнительного слоя делает виртуальную среду сложнее традиционной физической среды. Суть виртуализации — в совместном использовании ресурсов. Вместо изолированных ресурсов вы имеете дело с большими пулами общих ресурсов со сложными взаимосвязями между виртуальными и физическими ресурсами. Соответствие между физическим и виртуальным оборудованием контролируется гипервизором, который использует различные техники для снижения нагрузки на физические ресурсы и достижения максимальной эффективности их использования. Это значительно усложняет мониторинг, так как важно понимать не только значения отдельных показателей, но и взаимосвязи внутри всей инфраструктуры.

Эффективный мониторинг требует понимания множества зависимостей между объектами и ресурсами в виртуальной среде. Необходимо не только правильно выбрать объекты и показатели для мониторинга, но и понимать влияние, оказываемое мониторингом на остальную виртуальную среду, чтобы оценить его воздействие в случае возникновения проблем [1]. Часто для того, чтобы понять, где возникла проблема, а где ее нет, требуется понимать значение всех получаемых данных.

Правильный мониторинг — это ключ к здоровью вашей виртуальной среды и отсутствию проблем. В этой статье приведены рекомендаций, основанные на проведенном аналитическом обзоре объекта исследования и практическом опыте и рекомендаций экспертов в данной области [2, 3, 5]. Данные рекомендации позволяют справиться с трудностями мониторинга виртуальной среды.

В физической среде мониторинг производительности осуществляется через гостевую операционную систему (ОС), которая ввиду своей близости к оборудованию может представить точные данные о его производительности. Обычно мониторинг выполняется централизованно, с помощью агента, установленного внутри гостевой ОС и передающего данные приложению мониторинга, либо через нативные API гостевой ОС, такие как Windows Management Interface (WMI). В виртуальной среде эти методы не эффективны по причине удаленности гостевой ОС от оборудования и могут привести к искаженным результатам. Слой виртуализации, отделяющий гостевую ОС от оборудования, прозрачен для гостевой ОС. Гипервизор предоставляет виртуальное оборудование гостевой ОС и контролирует весь доступ к физическому оборудованию. Таким образом, гостевые ОС на виртуальных машинах воспринимают себя единственными пользователями физических ресурсов хоста, в то время как гипервизор распределяет эти ресурсы между несколькими виртуальными машинами.

Поскольку в виртуальной среде гостевая ОС и физическое оборудование разделены, для получения точных результатов мониторинга оборудования необходимо использовать инструменты, разработанные специально для виртуальной среды. Средства мониторинга производительности, созданные для физических серверов, не учитывают наличие слоя виртуализации и выполняемые им функции. В результате, значения показателей, полученные с помощью этих средств, могут некорректно отражать реальную производительность виртуальной машины. Это в первую очередь касается данных, относящихся к ЦПУ и памяти, — у гипервизора немало способов для экономии и максимизации эффективности использования памяти хоста; при этом гостевые ОС о подобных способах ничего не “знают”. Это касается и ЦПУ — эффективная работа виртуальных машин достигается за счет использования диспетчера ЦПУ, действия которого также незаметны для гостевых ОС. Еще одной причиной неточности результатов мониторинга может быть контроль распределения ресурсов в слое виртуализации. Использование подходящих инструментов для мониторинга производительности на уровне слоя виртуализации гарантирует точность статистики производительности.

Но, несмотря на то, что мониторинг производительности виртуальных машин действительно необходимо осуществлять на уровне слоя виртуализации, не следует пренебрегать значениями показателей, полученными внутри гостевой ОС [4].

С течением времени количество показателей производительности, дающих правильный и значимый результат при их измерении внутри гостевой ОС, без учета слоя виртуализации, становится все меньше и меньше. Многие показатели Windows относятся к конкретным приложениям, работающим на гостевой ОС, поэтому необходим взгляд на них как изнутри, так и снаружи виртуальной машины. Кроме того, существует ряд специфических для виртуальной среды показателей производительности, которые могут предоставлять гостевой ОС данные о том, что происходит в слое виртуализации. Обычно такие показатели входят в состав компонентов VMware tools (или подобных, в зависимости от платформы виртуализации), которые служат в качестве модуля обмена между гостевой ОС и гипервизором.

Слой виртуализации — это просто один из слоев в вычислительном стеке, но ресурсы хранения играют важнейшую роль, и от их состояния зависит выполнение многих рабочих нагрузок.

Как минимум, ресурсы хранения — это основа виртуальной среды, что в корне отличает ее от модели физической среды.

В виртуальной среде зачастую возникает конкуренция за ресурсы хранения, при этом в средах на платформе vSphere, в большинстве случаев, используются системы хранения данных SAN или NAS. При чрезмерной рабочей нагрузке виртуальных машин на недостаточно хорошо оборудованное устройство хранения скорость работы дисков может существенно снизиться.

В виртуальной среде ключевым фактором предотвращения проблем с ресурсами хранения является мониторинг основных показателей, таких как задержки записи и чтения на хранилищах данных. Если значения этих показателей не отслеживать, то добавление всего лишь одной виртуальной машины может привести к перегрузке устройства хранения и выведению его из строя, что, в свою очередь, повлечет нарушение работы приложений.

Наиболее важные показатели состояния ресурсов хранения — количество операций ввода/вывода в секунду (IOPS) и задержки (latency), которые информируют об уровне загруженности ресурсов хранения и о времени ожидания при попытке доступа к ним. IOPS показывает объем ввода-вывода, а задержки — за какое время данные достигают ресурсов хранения. Необходим постоянный мониторинг этих показателей, который позволит определить потенциальные “узкие места” и устранить их до того, как они создадут проблемы для работы виртуальной среды. Необходимо вовремя распознавать тенденции и знать принципы оптимального использования ресурсов хранения, чтобы замечать недостатки и составлять планы для соответствия потребностям в ресурсах хранения в будущем.

Кроме того, в виртуальной среде много уникальных показателей, которые в традиционной физической среде просто не существуют. Эти показатели относятся к слою виртуализации и являются важными индикаторами состояния виртуальной среды. Незнание этих показателей и их роли в отражении состояния и производительности виртуальной среды — не допустимы.

Одни и те же физические ресурсы в виртуальной среде используются одновременно несколькими виртуальными машинами, и многие показатели виртуальной среды отражают именно это совместное использование. Другие показатели помогают определить “узкие места” между виртуальным и физическим слоем, где гипервизор соотносит физическое оборудование с виртуальным.

CPU Ready – один из таких уникальных показателей для хоста VMware. Он показывает, как долго виртуальная машина ожидает выделения ресурсов физического ЦПУ для выполнения своего запроса. Этот показатель имеет большое значение, так как длительное время ожидания может существенно замедлить работу виртуальных машин. Этот показатель не может быть измерен внутри гостевой ОС, которая не знает о существовании слоя виртуализации и, соответственно, о времени ожидания выделения ресурсов. Таким образом, чтобы исключить наличие проблем с производительностью, необходимо знать как текущее значение показателя CPU Ready, так и допустимое пороговое значение для него.

Использование памяти — еще один сложный аспект виртуальной среды. Гипервизор использует множество методов выделения/ освобождения памяти для того, чтобы минимизировать нагрузку на физическую память. Суммарное количество виртуальной памяти, выделенной виртуальным машинам, может превышать физические возможности хоста (memory over-commit). В результате, показатели, относящиеся к памяти, могут оказаться сложными для понимания и интерпретации.

Ниже перечислены все группы ресурсов с описанием их функциональности в виртуальной среде.

• ЦПУ — При одновременном использовании ресурсов физических ЦПУ виртуальные машины должны ожидать обработки своих запросов. Чем дольше ожидание, тем медленнее работает виртуальная машина. Мониторинг времени ожидания виртуальных машин и их уровня использования ресурсов ЦПУ очень важен в виртуальной среде.

• Память — Гипервизор использует множество методов для экономии и перераспределения памяти с целью максимально эффективного ее использования. Для виртуальных машин может быть выделено больше памяти, чем имеется в наличии на хосте (memory over-commit). Если у хоста не хватает физической памяти, он компенсирует это за счет использования диска. Важно отслеживать уровень активного использования памяти виртуальными машинами, а также использование файла подкачки. Очень важно выделять достаточное количество памяти, а использование файла подкачки должно быть сведено к минимуму, так как это может сильно замедлить работу виртуальных машин.

• Диск — Запросы ввода-вывода должны ожидать обработки, проходя путь от виртуальной машины, через гипервизор, к физическому адаптеру ввода-вывода, а оттуда — на ресурсы хранения. Путь данных ввода-вывода намного длиннее и сложнее и может проходить по сети или фабрике (fabric) в случае использования общих систем хранения данных.

Мониторинг прохождения данных позволяет находить узкие места, гарантировать отсутствие препятствий и предотвращать чересчур долгое время ожидания доступа к ресурсам хранения.

• Сеть – Важно вести мониторинг сети, который позволит гарантировать, что у коммутаторов vSwitch достаточно физических сетевых адаптеров (pNIC), чтобы обслуживать все виртуальные машины и исключить потерю пакетов.

В таблице 1 представлены основные показатели, рекомендуемые для мониторинга различных групп ресурсов.

Таблица 1 - Основные показатели, рекомендуемые для мониторинга различных групп ресурсов.

ЦПУ

Память

Диск

Сеть

CPU Ready

Memory Swapped

Disk Commands (IOPS)

Network Usage

CPU Usage

Memory Active

Disk Total Latency

Network Dropped Tx

CPU Used

Memory Ballooned

Disk Queued

Network Dropped Rx


 Современные средства мониторинга предоставляют возможность оповещения о происходящих виртуальной среде событиях. Как правило, оповещения информируют о проблемах, возникших в виртуальной среде, а также о ситуациях, которые могут привести к возникновению проблем. Это дает возможность не только своевременно разрешить ситуацию и избежать ее развития в худшую сторону, но и предотвратить возникновение критических событий. Использование системы оповещений гарантирует, что вы узнаете о критических событиях и превышениях пороговых значений показателей производительности до того, как проблема повлияет на пользователей и их работу.

Однако есть и оборотная сторона оповещений — их может быть слишком много или же среди них может быть много ложных оповещений, и тогда велика вероятность того, что вы будете просто игнорировать все оповещения. Для эффективного использования оповещений необходимы их правильная активация и настройка. Необходимо активируйте только самые важные оповещения — если активировать много оповещений о незначительных событиях, то важные оповещения могут затеряться и остаться незамеченными. Также убедиться, что критерии срабатывания оповещений не слишком занижены; продолжительность действия критериев срабатывания – это ключевой фактор, от значения которого зависит количество оповещений.

Емкость хранилищ данных также нуждается в пристальном мониторинге. Часто возникает угроза переполнения дисков снапшотами виртуальных машин и “тонкое” выделение ресурсов хранения. Другие ключевые области, для которых следует активировать оповещения, — это задержки доступа к ресурсам хранения (storage latency), конкуренция за ресурсы ЦПУ (CPU contention) и уровень загруженности памяти (memory utilization).

Помимо использования оповещений для мониторинга производительности виртуальной среды, следует также использовать их для отслеживания отдельных событий, касающихся подачи питания, снапшотов, изменений конфигурации и высокой доступности.

Следует отметить, что оповещения могут относиться к объектам разного уровня, таким как виртуальная машина, хост, кластер и ЦОД. Вместо того, чтобы устанавливать оповещения для каждой виртуальной машины по отдельности, можно сделать это на более высоком уровне, например на уровне кластера. Такое оповещение будет применимо ко всем дочерним объектам. Во избежание чрезмерного количества оповещений не следует устанавливать слишком много оповещений на слишком высоком уровне иерархии, если только это не критические оповещения. Следует планировать стратегическое использование оповещений; убедиться, что на критически важных виртуальных машинах оповещений больше, а на менее важных — меньше.

Таким образов, для обеспечения эффективного мониторинга за виртуальной инфраструктурой, необходимо следовать следующим рекомендациям:

  1. Сформировать понимание взаимосвязей и зависимостей внутри виртуальной среды.
  2. Выделить параметры виртуальной среды, которые важно включить в инфраструктуру мониторинга.
  3. Не перегружать работой средств мониторинга виртуальную среду чрезмерно частым снятием показателей характеристик.
  4. Мониторинг производительности виртуальных машин следует выполнять как изнутри, так и снаружи гостевой операционной системы.
  5. Обеспечить тщательный мониторинг ресурсов хранения и сетей передачи данных.
  6. Необходимо сопоставлять события виртуальной среды с показателями производительности.
  7. Использовать оповещения о происходящих событиях эффективно.

Библиографический список:

1. Types of Monitoring [Электронный ресурс]. URL: http://californiarangeland.ucdavis.edu/Publications%20pdf/MS1.pdf (Дата обращения 22.04.13).
2. Veeam White Paper. 10 best practices for VMware monitoring. [Электронный ресурс]. URL: http://go.veeam.com/wpg-one-siebert-top-10-best-practices-for-vmware-monitoring-ru.html (Дата обращения: 02.09.2013)
3. 7 Expert Tips for Managing Your Remote vSphere Infrastructure. [Электронный ресурс]. URL: http://go.veeam.com/wp-2011-christian-mohn-7-expert-tips-managing-remote-vsphere.html (Дата обращения: 11.10.2013)
4. А. А. Данильчук, С. Г. Юн, В. В. Люстров. Методика определения целесообразности включения IT-систем предприятия в инфраструктуру мониторинга. // Актуальные вопросы современной науки (IV международная научная конференция) – Санкт-Петербург. 2013 - ISBN 978-5-91753-068-0
5. Мониторинг виртуальной инфраструктуры при помощи Veeam One - задачи и решения. [Электронный ресурс]. URL: http://go.veeam.com/wps_mikheev_2012_virtual_infrastructure_monitoring_with_veeam_one-ru.html (Дата обращения: 11.10.2013)




Рецензии:

4.12.2013, 21:22 Назарова Ольга Петровна
Рецензия: Грамотный анализ. Рекомендуется к печати.



Комментарии пользователей:

Оставить комментарий


 
 

Вверх