01.08.2016

V prvom rade prijmite prosím naše ospravedlnenie za sobotňajší výpadok prvej napájacej vetvy v pražskom datacentre. Počas včerajška sme analyzovali situáciu a súbeh všetkých udalostí, aby sme vám teraz mohli predložiť detailnejšie vyjadrenie.

Sobotňajšia popoludňajšia smena na podpore v pražskom datacentre aktívne riešila problém s napájaním v sále s tower servermi. Pri prepínaní technológií na záložnú napájacú vetvu však došlo k ľudskej chybe, ktorej príčinou bol práve spomínaný výpadok zákazníckych technológií napájaných z tejto prvej vetvy. Zákazníci s napájaním z dvoch vetiev, rovnako tak ako zákazníci so službou cloud hostingu, výpadok v drvivej väčšine prípadov nezaznamenali. Celý systém zálohovaného napájania, teda dvoch oddelených napájacích vetiev, UPS jednotiek a diesel agregátov je dizajnovaný na štandardný typ výpadku elektrickej siete. V sobotu bohužiaľ vplyvom ľudského zásahu došlo k neštandardnému výpadku prvej vetvy, čo je dôvod, prečo ani diesel agregáty nemohli naštartovať. Ako sme všetkých pražských zákazníkov informovali, napájanie bolo úspešne obnovené po zhruba 30 minútach. Ihneď potom začali naši technici asistovať zákazníkom a znovu spúšťať ich servery. Monitorovací systém bezprostredne po výpadku vyhodnotil aj neštandardné správanie našich sieťových prvkov, konkrétne switchov, u ktorých v dôsledku neštandardného prerušenia napájania nenaběhla časť portov. Technici v Prahe a administrátori v Brně sa postarali o prepojenie na funkčné porty a celú noc aj počas nedele aktívne riešili zákaznícke požiadavky a asistovali pri spúšťaní vašich technológií.

Máme informácie o jednotkách prípadov, kedy aj zákazníci s napájaním z dvoch vetiev zaznamenali výpadky napájania. Ako jednu z možných príčin sme vyhodnotili zlé zapojenie zákazníckych technológií v racku, preto ak máte záujem, kontaktujte nás prosím na support@master.cz, radi vám poradíme alebo vykonáme kontrolu sieťového zapojenia.

Na základe sobotňajšieho výpadku sme sa rozhodli o vylepšenie procesa krízového zásahu pomocou nasledujúcich opatrení:

  • 1) Urýchlenie procesu nasadenia informačných správ do telefónnej ústredne - táto funkcionalita bola už v prevádzke, ale všetky kompetentné osoby sa museli koncentrovať na prioritnejšie práce spojené s technickým zásahom. Rozšírením kompetencie na viac zamestnancov by mala byť lepšia a rýchlejšia informovanosť, ktorú pri rozsiahlejšom výpadku nie je možné odbaviť telefonicky.
  • 2) Komunikácia na sociálnych sieťach - výpadok sme sa snažili počas sobotňajšieho popoludnia a večera komunikovať na sociálnych sieťach, tie však doteraz nespravovali zamestnanci s 24 hodinovou pohotovosťou, preto sa prvý tweet objavil v čase 17:31. Aj tento proces teraz urýchlime a pokúsime sa v maximálnej možnej miere automatizovať, aby sociálne siete v prípade výpadku mohli fungovať ako spoľahlivý informačný kanál. Naše profily nájdete pod adresami: www.twitter.com/MasterDC a www.facebook.com/MasterDC.
  • 3) Zvažujeme tiež ďalšie rozšírenie technických príslužieb, aby sme boli schopní rýchlejšie riešiť neštandardné situácie v minimálnom možnom čase.

Ešte raz sa ospravedlňujeme za ťažkosti a nečakane perný víkend. S prípadnými ďalšími otázkami prosím kontaktujte pražského obchodného riaditeľa Petra Štěpánka na stepanek@master.cz, 777 919 300. Ak chcete oznámiť niečo priamo mne, som vám - hoci z dovolenky - k dispozícii na spacek@master.cz.

Ďakujeme za podporu, ktorej sa nám od mnohých z vás dostalo, a vďaka, že ste s nami.

Za Master Internet

Filip Špaček, prevádzkový riaditeľ

Správne miesto pre vaše dáta

NAŠE DATACENTRÁ NÁJDETE V PRAHE AJ V BRNE