Цель нашей компании - предоставление качественных услуг и долгосрочное сотрудничество по комплексному сопровождению ИТ-инфраструктуры..

Системы мониторинга

Заказать услугу
  • Внедрение Заббикс от 15000
  • Настройка триггеров 2000 ₽ час
  • Проект внедрения Заббикс от 15000
  • Индивидуальная настройка триггеров от 2000
  • Подключение к Заббикс в рамках абонентского обслуживания – бесплатно

Что такое системы мониторинга (СМ)
Зачем нужны СМ компьютеров и сетей
Что отслеживает Заббикс
Требования для развёртывания автоматизированной диагностики
Кому необходимы СМ

Что такое системы мониторинга (СМ)

Это программно-аппаратные комплексы, нацеленные на слежение за серверными параметрами, рабочими станциями и коммуникациями, информирование сотрудников техподдержки, если отслеживаемые показатели выходят за привычные значения. Значение датчика, при котором наблюдатель получает сообщение, называют триггером (событием). В число подобного ПО входит Zabbix (open source), который занимает ведущие позиции среди современных решений с открытым кодом. В дальнейшем рассмотрим на его примере функционирование типичных СМ. Аналогичный коммерческий софт – Nagios, PRTG Network Monitor. При схожей функциональности, приобретение платных программных продуктов требует серьёзных расходов.

Зачем нужны СМ компьютеров и сетей

СМ решают две главные задачи:

  • Оповещают сотрудников поддержки о критических параметрах наблюдаемой техники или ПО (срабатывании триггера), для предотвращения инцидентов. Инциденты принято делить на:
    • Поломки, которые снижают уровень сервиса или вызывают остановку. Например, перегрев процессора, который закономерно приводит к полной остановке сервисов.
    • Угрозы безопасности. Например, добавление пользовательских прав на защищенную папку, доступа к которой у пользователя быть не должно.
  • Предоставляют статистику изменений параметров, чтобы упростить выявление нарушений работоспособности.
Например, закончившееся дисковое пространство на системном разделе, носителе с базами или хосте виртуализации приводит к полному прерыванию соответствующего сервиса, и восстановление в отдельных случаях занимает несколько часов. Если настроено оповещение о заканчивающемся дисковом пространстве – отвечающий за это админ принимает превентивные меры, чтобы избежать чрезвычайного происшествия, которое скажется на деятельности предприятия. Пример второго применения СМ – диагностирование серверной аппаратуры при периодическом или постоянном «подвисании». Имея статистику по загруженности процессорных ядер, оперативной памяти, файла подкачки, специалист видит, в чём заключается проблема. И предлагает целесообразные меры по её устранению, а не рекомендует клиентскому бизнесу просто «купить железо помощнее». Или же он видит, что ресурсы не используются на 100%, и ищет проблему в конкретных программах. В результате экономятся значительные деньги.

Что отслеживает Заббикс

Заббикс собирает сведения о работе практически всех ИТ-устройств и служб, включая ОС семейства MS Windows и *nix, периферийное оборудование, коммутаторы, маршрутизаторы, IP-телефоны. Для взаимодействия с устройствами используются как собственные агенты, так и протоколы SNMP и IPMI.
Приведём распространённые триггеры в виде таблицы:

Наблюдаемые параметры (приведены приблизительно) Как реагировать администратору на первое срабатывание Что можно диагностировать, имея статистику за относительно длительный период
Аппаратные проблемы
Свободное место на ЖД <10% Определить, что же занимает чрезмерный объём, почистить занятую, если записанная информация полностью нужная – расширить доступное для записи пространство. Если свободное место закончилось скачкообразно – выявить приложение, требующие дополнительных ресурсов, и узнать, почему ведёт себя таким образом.
Свободной оперативной памяти <10% Просмотреть выполняемые процессы, проанализировать объём занимаемой оперативки. При необходимости – расширить её до требуемой величины. Выяснить периоды, когда случается нехватка ОП, если таковые не соответствуют максимальной загруженности – искать трояны или другое вредоносное ПО, работающее в теневом режиме, анализировать корректность регламентных заданий.
Температура материнской платы или других составляющих выше нормальной Заменить термопасту, кулеры, прочистить охлаждение или модернизировать. Если повышение температуры произошло скачком, то высока вероятность поломки вентиляции, ремонтировать надо немедленно, чтобы не вышли из строя важнейшие узлы вычислительной техники.
Средний % загрузки процессора >80% за 30 минут Просмотреть запущенные приложения и % используемой процессорной мощности для каждого. Вероятно, что это воздействие трояна. Или же не вовремя запускаемых регламентируемых задач. Определить промежутки времени, когда отмечается высокая загруженность, при несоответствии таковых наибольшей рабочей загрузке – найти вредоносные программы, установить правильность заданий, исполняемых по регламенту.
Очередь жёстких дисков >1 в течение свыше 5 минут Очередь свидетельствует о начинающихся проблемах с быстродействием. Следует обнаружить, какому приложению требуется запись. Если это не ошибка администрирования (например, сисадмин решил создать статический виртуальный раздел в рабочее время), и процесс требуется для нормальной работы, то пора подумать об увеличении скорости дисковой подсистемы. Повышенная нагрузка говорит о нехватке скорости – статистика по использованию диска помогает принять решение о её увеличении.
Отслеживание BSOD Анализ сбоя, устранение причины. Учащённые BSOD говорят о нестабильности оборудования или ПО. Необходима замена и пристальное наблюдение.
Ошибки и критические события RAID-контроллера Необходимо незамедлительная реакция на неполадки этого типа, т.к. игнорирование приводит к потере важных данных. В зависимости от типа события, действияадминистратора различаются. Если ошибки RAID происходят постоянно, пора поразмыслить о полной и глубокой диагностике средств хранения данных, а рабочую информацию развернуть на другом контроллере и носителях.
S.M.A.R.T. жёстких дисков не ОК Срочно заменить вышедшие из строя диски. Статистика не требуется.
Программные проблемы
Доступность важнейших инфраструктурных сервисов (например, Terminal Server) Например, если случай произошёл ночью, когда работники фирмы не могут этого заметить, у администратора появляется возможность восстановить сервис до того, как заметят поломку. Если инциденты по критическим сервисам происходят регулярно – стоит задуматься об ИТ аудите и реорганизации инфраструктуры.
Не запущена служба Проанализировать логи, и установить причину прекращения службы. Попытаться запустить в ручном режиме, не дожидаясь инцидента, исходящего от юзеров. Анализировать поведение ключевых служб. Если остановки случаются слишком часто – переустановить ОС.
Количество запущенных процессов >200 для нетерминального сервера Проверить выполняемые процессы, если много одинаковых – выяснить природу и происхождение. Нередко так ведут себя вирусы. Перегрузка говорит о том, что один сервер совмещает слишком много ролей. Вероятно, поможет распределение функций по различным физическим устройствам.
Проблемы безопасности
Большое количество неавторизованных попыток входа за короткое время Проглядеть логи на предмет попыток брутфорса (прямого подбора пароля). В случае подтверждения: если брутфорс исходит из локальной сети, то искать атакующий хост, и проверять на вирусы, если источник расположен в Интернете – блокировать IP. Статистика помогает понять, когда начались атаки, и с чем связаны. Например, публикация терминального сервера напрямую в Интернете.
Потенциально опасные события (например, добавление пользователя в группу) В случае, когда администраторов несколько – получающий уведомление убеждается, что добавление нового юзера правомерно, на это получено распоряжение руководства. Частое изменение пользовательских прав свидетельствует о том, что групповая политика недостаточно продумана.
Вход неизвестного лица по учётной записи с администраторскими правами Сисадмин знает, когда заходят сотрудники с администраторскими привилегиями. Если он единственный в организации, то это повод поднимать тревогу. Если не единственный, то получит уведомление коллег, что производятся работы. Наличие логов за продолжительный срок, хранящихся на физически различающихся носителях, помогает при установлении момента совершения умышленной порчи программ и данных.
Проблемы периферийной и сетевой аппаратуры
Не отвечает интерфейс маршрутизатора Если используются два провайдера, значит один временно неработоспособен. Собрав статистику за продолжительный период времени, оценивают качество провайдерских услуг.
Загруженность Интернет-канала превышает 80% Средствами роутера выяснить, какой хост даёт максимальную нагрузку. Проверить необходимость этого трафика, не исключено, что пользователи загружают или скачивают мультимедиа контент, работает торрент, или проник вирус. Если нагрузка не относится к конкретному хосту и появляется постоянно, стоит задуматься о расширении канала связи через Интернет.
Состояние принтера неудовлетворительное Проверить состояние печатающего устройства, устранить неполадки до того, как понадобится печатать. Если неполадки с принтером происходят слишком часто – сдать в мастерскую для качественной починки.

Требования для развёртывания автоматизированной диагностики

Мониторинговый сервер разворачивают на любом современном «железе» или виртуально. Для инфраструктуры величиной в десятки компьютеров будет достаточно двухъядерного процессора с частотой от 3ГГц, и 2 Гб оперативки. Серверные агенты, которые собирают заданные показатели, созданы под все версии ОС Linux и MS Windows. Также возможно наблюдение за сетевым оборудованием (протокол SNMP) и сервером (протокол IPMI). Для первичной установки хватит базовых знаний по администрированию Линукса. Действия выполняются через дружественный веб-интерфейс, который включает в себя: панель мониторинга, графики, извещения, и полезные инструменты для изменения настроек силами продвинутого пользователя вместо профессионального сисадмина. Интерфейс настраиваемый, и его легко кастомизировать для нужд руководителей и ИТ-менеджеров. Наблюдаемые величины описываются интуитивно понятными формулами, которые поддерживают многочисленные логические операторы. Типовые датчики уже настроены в шаблонах, поэтому с базовыми настройками работают непосредственно «из коробки». Оповещения опционально отображаются на мониторинговой панели, приходят почтой, отправляются на мобильный телефон через SMS. При этом послания гибко настраиваются по приоритету, и по пользовательским группам. Присутствует интеграция с Active Directory.

Кому необходимы СМ

СМ полезны крупным и малым компаниям, различных отраслей и форм собственности. Мы внедряем Zabbix нашим клиентам, даже если у них только один сервер. При этом работники первой и второй линии техподдержки регулярно отслеживают сообщения, поступающие через электронную почту, и посредством мониторинговой панели. Это позволяет срочно реагировать на инфраструктурные проблемы, ещё до того, как происшествие заметят конечные потребители. При этом мы наготове предоставить руководству фирмы-клиента статистические сведения, и обосновать потребность в апгрейде или замене технического оснащения.

Заказать услугу
Закажите услуги, а также получите бесплатную консультацию по номеру +7 495 777 55 10 или оставьте заявку.