amarao (amarao_san) wrote,
amarao
amarao_san

хехе

Нашёл у LSI'я багу: он не обнаруживает, что кто-то вынул hotspare disk до перезагрузки.

PS Вот теперь (через неделю игры с рейдом) я более-менее уверен в том, что я знаю его поведение. В принципе, если бы играться более плотно, то заняло бы это дня три. На будущее принять на заметку, и всегда, перед установкой софта собирать информацию о поведении рейда в разных гадких ситуациях.


(Сейчас ещё проверю поведение рейда при вынутом hotspare на который начался ребилд и реакцию на разрушение рейда в отсутствие хотспаре).

На изучение реакции "вынули два винта из рейда одновременно" у меня рука не поднимется; всё ж там уже живая система... Да и чего там интересного ожидать?

UPD: ОМГ!!! Эта херня не замечает пропажи хотспаре даже после ребута. Ну всё, я на LSI обиделся окончательно. Ну реальный маразм... В phy винта нет, а в описании рейда пишется, мол, "есть хотспаря". Тьфу, да и только.

И это означает только одно - позавчерашний скрипт диагностики надо дописывать до состояния, при котором он будет РЕАЛЬНО проверять наличие всех винтов в комплекте... (И я очень не хочу это делать на шелле... Переписать на питоне? Там много вкусностей можно сделать...)

PPS Ура и аплодисменты - отсутствие хотспари обнаруживается в тот момент, когда "это нужнее всего" (при вытаскивании одного из винтов из рейда).
PPPS Ну это просто запредельные апплодисменты. Она обнаруживает пропажу хотспари ПОСЛЕ того как хотспаря включается в рейд (т.е. картинка выглядит так):

(всё хорошо)
        Chnl  Target  StartBlock   Blocks      Physical Target Status
        ----  ------  ----------   ------      ----------------------
        0      00    0x00000000   0x0445d000   ONLINE
        0      01    0x00000000   0x0445d000   ONLINE
        0      02    0x00000000   0x0445d000   ONLINE
        0      03    0x00000000   0x0445d000   ONLINE
        0      04    0x00000000   0x0445d000   ONLINE

        HotSpare Disk at Channel No. 0 and ID No. 5


(вынимаем хотспарь - ноль внимания, лог не привожу, он такой же)

(вынимаем №4)

Оно обнаруживает, что винт timed out, удаляет его из рейда, включает №5 в рейд, начинает ребилд, и тут, сюрприз: винт уже ..м... освоили. Чтобы не признаваться в том, что его просрали, его помечают так, как будто его поломали.

        Chnl  Target  StartBlock   Blocks      Physical Target Status
        ----  ------  ----------   ------      ----------------------
        0      00    0x00000000   0x0445d000   ONLINE
        0      01    0x00000000   0x0445d000   ONLINE
        0      02    0x00000000   0x0445d000   ONLINE
        0      03    0x00000000   0x0445d000   ONLINE
        0      05    0x00000000   0x0445d000   FAILED



PPPPS

И последнее наблюдение: если во время ребилда вынуть тот винт, на который ребилд, то после его вставления ребилд то ли продолжается, то ли автоматом начинается с нуля (проверять лень)...
Tags: linux, lsi, raid, администрирование, мониторинг
Subscribe

  • systemd-networkd, netlink и arp флуд

    Нереально странный баг пофикшен с помощью eBPF затычки. Для меня большой неожиданностью является реакция на него.…

  • Rust soundness

    Каждый раз, когда я сталкиваюсь с маленькими "но" в Rust'е, это ощущение тщательной продуманности. Например, простейшие fold-функции для итераторов:…

  • still_ntp

    В ходе локального мозгового штурма у меня родилась суперидея. Надо написать ntp сервер, который может отдавать указанную дату. Т.е. сказали при…

  • Post a new comment

    Error

    default userpic

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 13 comments

  • systemd-networkd, netlink и arp флуд

    Нереально странный баг пофикшен с помощью eBPF затычки. Для меня большой неожиданностью является реакция на него.…

  • Rust soundness

    Каждый раз, когда я сталкиваюсь с маленькими "но" в Rust'е, это ощущение тщательной продуманности. Например, простейшие fold-функции для итераторов:…

  • still_ntp

    В ходе локального мозгового штурма у меня родилась суперидея. Надо написать ntp сервер, который может отдавать указанную дату. Т.е. сказали при…