Проблемы в Dynatrace представляют собой аномалии, то есть отклонения от нормального поведения или состояния. Такими аномалиями могут быть, например, медленный сервис или медленный вход пользователя в приложение. Всякий раз, когда обнаруживается проблема, Dynatrace вызывает конкретное событие проблемы(Event type), указывающее на такую аномалию.
Вновь обнаруженные аномальные события в вашей среде не обязательно приведут к немедленному возникновению новой проблемы. Поднятые проблемы всегда дают представление о лежащей в их основе первопричине. Чтобы выявить коренные причины проблем, Dynatrace следует контекстно-ориентированному подходу для обнаружения взаимозависимых событий во времени, процессах, хостах, службах, приложениях и перспективах вертикального и горизонтального топологического мониторинга. Только с помощью контекстно-ориентированного подхода можно точно определить истинные "корни" причины проблемы.
Dynatrace непрерывно измеряет уровни входящего трафика в соответствии с определенными пороговыми значениями, чтобы определить, когда обнаруженное замедление или увеличение частоты ошибок оправдывает генерацию нового события проблемы. Быстро увеличивающиеся деградации времени отклика(response-time degradations) для приложений и служб оцениваются на основе 5-минутных интервалов времени. Медленно изменяющаяся деградация оценивается на основе 15-минутных интервалов времени.
Dynatrace использует два типа определения пороговых значений:
Немного о том, как Davis определяет проблему.
Уровень воздействия проблемы определяет, влияет ли ненормальная ситуация на инфраструктуру (INFRASTRUCTURE), программные службы (SERVICE) или приложения(APPLICATION). Четвертый, специальный уровень воздействия (ENVIRONMENT) используется для классификации общей проблемы в среде мониторинга. Эти проблемы используются для сообщения о прерывании вашего мониторинга Dynatrace или ActiveGates.
Проблема следует определенному жизненному циклу, и поэтому уровень влияния проблем может увеличиваться от уровня только инфраструктуры до уровня сервиса и приложений. Уровень воздействия проблемы всегда выводится из индивидуальных уровней воздействия вовлеченных субъектов в рамках ненормальной ситуации.
Каждый объект, отображаемый на уровне узла или процесса в Smartscape, классифицируется как инфраструктура. Каждое событие, вызванное этими хостами или процессами, автоматически приводит к событию инфраструктуры и, следовательно, открывает проблему инфраструктурного типа.
Службы, которые отображаются в пределах их собственного уровня в Smartscape, автоматически приводят к событиям уровня обслуживания(service level events). В случае, если служба сообщает о замедлении или ошибке, возникает проблема уровня воздействия службы(service impact level). Веб- , мобильные или пользовательские приложения отображаются на уровне приложения(application level) в Smartscape. Любые проблемы, с которыми сталкивается реальный пользователь, приводят к проблеме уровня воздействия приложения(application impact level).
Предположим, что Dynatrace обнаружила и сообщила о скачке процессора на одном из ваших отслеживаемых хостов. Ни одна служба или любое приложение не затрагивается. В этом случае проблема сообщается на уровне воздействия инфраструктуры. Если скачок ЦП отрицательно влияет на запущенную службу с точки зрения снижения производительности или увеличения числа ошибок, то к открытой проблеме добавляется событие уровня обслуживания. Затем проблема автоматически увеличивает свой уровень воздействия до уровня обслуживания. Обратите внимание, что каждый уровень воздействия не является исключительным. Проблема может затрагивать инфраструктуру, а также объекты уровня обслуживания. Таким образом, одна и та же проблема будет классифицирована как проблема инфраструктуры, так и проблема уровня обслуживания в ленте проблем. Еще один аспект, который следует отметить, заключается в том, что проблема может повлиять на службу, не затрагивая при этом никакой базовой инфраструктуры. В таких случаях проблема классифицируется как проблема только уровня обслуживания. Эта ситуация может возникнуть в бессерверных сценариях, а также в тех случаях, когда на любой базовой инфраструктуре не может быть найдена четкая первопричина.
Вновь обнаруженные аномальные события в вашей среде не обязательно приведут к немедленному возникновению новой проблемы. Поднятые проблемы всегда дают представление о лежащей в их основе первопричине. Чтобы выявить коренные причины проблем, Dynatrace следует контекстно-ориентированному подходу для обнаружения взаимозависимых событий во времени, процессах, хостах, службах, приложениях и перспективах вертикального и горизонтального топологического мониторинга. Только с помощью контекстно-ориентированного подхода можно точно определить истинные "корни" причины проблемы.
Dynatrace непрерывно измеряет уровни входящего трафика в соответствии с определенными пороговыми значениями, чтобы определить, когда обнаруженное замедление или увеличение частоты ошибок оправдывает генерацию нового события проблемы. Быстро увеличивающиеся деградации времени отклика(response-time degradations) для приложений и служб оцениваются на основе 5-минутных интервалов времени. Медленно изменяющаяся деградация оценивается на основе 15-минутных интервалов времени.
Dynatrace использует два типа определения пороговых значений:
- Автоматизированные базовые линии(Automated baselines) : Многомерная базовая линия автоматически определяет индивидуальные значения, которые адаптируются с течением времени. Автоматизированные базовые значения используются для управления динамическими изменениями в пределах времени отклика приложения или службы, частоты ошибок и нагрузки.
- Встроенные статические пороги(Built-in static thresholds): Dynatrace использует встроенные статические пороги для всех событий инфраструктуры (например, обнаружение высокой загрузки процессора, уменьшение дискового пространства или малого количества доступной памяти).
Методология, используемая для создания событий с помощью автоматизированной базовой линии, полностью отличается от методологии используемой для статических пороговых значений. Статические пороговые значения предлагают простой и понятный подход к определению базовых показателей, который работает сразу же, не требуя периода обучения, не учитывая работу Davis'a. Наоборот, методология автоматизированной базовой линии автоматически адаптируется к изменениям в структуре трафика. Dynatrace позволяет регулировать чувствительность обнаружения проблем либо путем адаптации статических пороговых значений, либо путем отклонения от автоматизированных базовых показателей.
Событие в Dynatrace может быть определенного типа. Каждый тип события имеет определенный уровень серьезности, который указывает на значимость инцидента. Результирующие проблемы объединяют все включенные серьезности событий и оцениваются с самым высоким уровнем серьезности составляющих событий. В течение срока действия проблемы уровень ее серьезности может повышаться (например, проблема может начинаться с уровня замедления, а затем автоматически повышаться до уровня доступности при обнаружении сбоя).
Уровни серьезности событий:
- События доступности(Availability events): указывают на серьезные инциденты в вашей среде, такие как полное отключение или недоступность серверов или процессов. Эти типы событий имеют самый высокий уровень серьезности.
- События ошибок(Error events): информирование вас об увеличении частоты ошибок или других инцидентах, связанных с ошибками, которые мешают регулярной работе вашей среды.
- События замедления(Slowdown events): указывают на снижение производительности в одной из ваших операционных служб или приложений. События замедления менее серьезны,чем события первых 2-х уровней. Тем не менее, они информируют вас о потенциальных проблемах с выполнением ваших услуг.
- События ресурсов(Resource events): указывают на конфликт ресурсов. Типичными примерами являются события повышения уровня утилизации процессора, памяти и др.
- Настраиваемые оповещения(Custom alerts): используются для включения оповещения о любых заданных пользователем пороговых значениях. Настраиваемые оповещения для определенных пользователем пороговых значений могут быть установлены для любой метрики Dynatrace. Пользовательские оповещения не коррелируются и не изменяются искусственным интеллектом, хотя они автоматически включаются.
- Информационные события(Info events): события, запускаемые вручную, которые не приводят к созданию новой проблемы. Эти события используются для обозначения важных развертываний или изменений конфигурации, а также административных событий, таких как автоматическая миграция виртуальной машины. Информационные события не рассылаются в виде предупреждений, так как этот тип событий не указывает на ненормальную ситуацию.
Уровень воздействия проблемы определяет, влияет ли ненормальная ситуация на инфраструктуру (INFRASTRUCTURE), программные службы (SERVICE) или приложения(APPLICATION). Четвертый, специальный уровень воздействия (ENVIRONMENT) используется для классификации общей проблемы в среде мониторинга. Эти проблемы используются для сообщения о прерывании вашего мониторинга Dynatrace или ActiveGates.
Проблема следует определенному жизненному циклу, и поэтому уровень влияния проблем может увеличиваться от уровня только инфраструктуры до уровня сервиса и приложений. Уровень воздействия проблемы всегда выводится из индивидуальных уровней воздействия вовлеченных субъектов в рамках ненормальной ситуации.
Каждый объект, отображаемый на уровне узла или процесса в Smartscape, классифицируется как инфраструктура. Каждое событие, вызванное этими хостами или процессами, автоматически приводит к событию инфраструктуры и, следовательно, открывает проблему инфраструктурного типа.
Службы, которые отображаются в пределах их собственного уровня в Smartscape, автоматически приводят к событиям уровня обслуживания(service level events). В случае, если служба сообщает о замедлении или ошибке, возникает проблема уровня воздействия службы(service impact level). Веб- , мобильные или пользовательские приложения отображаются на уровне приложения(application level) в Smartscape. Любые проблемы, с которыми сталкивается реальный пользователь, приводят к проблеме уровня воздействия приложения(application impact level).
Предположим, что Dynatrace обнаружила и сообщила о скачке процессора на одном из ваших отслеживаемых хостов. Ни одна служба или любое приложение не затрагивается. В этом случае проблема сообщается на уровне воздействия инфраструктуры. Если скачок ЦП отрицательно влияет на запущенную службу с точки зрения снижения производительности или увеличения числа ошибок, то к открытой проблеме добавляется событие уровня обслуживания. Затем проблема автоматически увеличивает свой уровень воздействия до уровня обслуживания. Обратите внимание, что каждый уровень воздействия не является исключительным. Проблема может затрагивать инфраструктуру, а также объекты уровня обслуживания. Таким образом, одна и та же проблема будет классифицирована как проблема инфраструктуры, так и проблема уровня обслуживания в ленте проблем. Еще один аспект, который следует отметить, заключается в том, что проблема может повлиять на службу, не затрагивая при этом никакой базовой инфраструктуры. В таких случаях проблема классифицируется как проблема только уровня обслуживания. Эта ситуация может возникнуть в бессерверных сценариях, а также в тех случаях, когда на любой базовой инфраструктуре не может быть найдена четкая первопричина.
No comments:
Post a Comment