amarao (amarao_san) wrote,
amarao
amarao_san

Category:

(рабочее)

Всё-таки построение мониторинга в любой крупной системе - это самая сложная и постепенная задача. Для продукта обычно есть некий минимальный объём функционала, который, если работает, то в общем и целом, работа сделана.

С мониторингом не так. Нельзя покрыть все error case'ы для сколь-либо нетривиального кода - просто потому, что ошибки для кода имеют больше кардинальное число, чем рабочие состояния кода.

Но можно получить достаточную аппроксимацию этого - то есть покрыть все известные случаи ошибок мониторингом. "Все известные случаи" - это на самом деле функция от t, то есть число изменяется со временем.

Когда времени пройдёт достаточно много, то на выходе мы получаем систему, в которой "если не нет сообщений об ошибках", с большой вероятностью можно предполагать, что всё работает. На бытовом эмоциональном уровне.

Например, я только что заглянул в Кибану с работы - никаких ошибок, кроме флуда от ядра на одной из отключенных compute-нод (стоит с битым диском для отладки реакции на оные битые диски), и недовольного флуда от dhcpd, у которого просят (и не могут получить) адреса ноды, которые будем сегодня в строй вводить. В остальном - нули. Даже не от мониторинга, а прямо в kibana, то есть все компоненты работают "как надо".

Это довольно суровая и серьёзная работа, чтобы в syslog не шло ложных error-сообщений, так как некоторые из них "неаккуратности", не свидетельствующие об ошибках. Все их надо либо убирать, либо понижать принудительно приоритет (как у qemu с unknown wmsr).

В хорошо настроенной системе не должно быть ситуации "а, это ошибка не ошибка, игнорируй её". Если это не ошибка - почему она error?
Tags: администрирование, работа
Subscribe

  • Проблемы от ipv6

    Всех интересует, какие проблемы от него. И вот я накопал. Ничего существенного, но то, что есть, раздражает и усложняет. 1. В половине софта…

  • Дурацкий срачик с сетевиками

    Должен ли VRRPv3 для ipv6 слать RA для собственных link-local адресов? (которые не virtual)? Мне кажется, что нет, потому что если он ляжет, то…

  • первая загадка ipv6

    Дано: планшет с ip 2a00:11d8:1201:32b0:b071:aca2:48f5:fecf 1) Проходит тест на test-ipv6.com 10/10 2) Отвечает на пинги с машины в одной с ним сети…

  • Post a new comment

    Error

    default userpic

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 2 comments