OVH Community, your new community space.

Problém s routingem během této noci


oles@ovh.net
03-28-2012, 07:50 PM
Dobrý den,

Tuto noc jsme měli routingové problémy díky chybě softwaru, kreré ovlivnily dvou jádrové routery v Roubaix. Tyto Cisco ASR 9010 poskytují šířku pásma pro datacentra v Roubaix (RBX1 RBX2 RBX3 RBX4 RBX5) a propojení s Paříží, Bruselem, Amterdamem, Londýnem a Frankfurtem. Ve zkratce jde o hlavní směrovaní v Roubaix.

Tato chyba je známá a byla připsána novým kartám, které jsme dali do produkce na konci ledna (24x10G slots). Ze stejného důvodu se objevila další chyba ECC RAM a nedocházelo ke směrování paketů. Ale především se karta chovala navenek stále jako "v pořádku", i když byl router shozen.
Ostatní routery stále pokračovali v posílání paketů, ale na začátku nebylo nic. Vše zmizelo v "černé díře" a síť nefungovala tak, jak by měla.

Tu noc se chyba projevila na třech kartách 2 24x10G ASR 9010 router téměř ve stejnou chvíli. Tím se naše síť rozdělila na tři části. Za normálních okolností by se pakety přenastavili a byly by poslány jinou cestou, ale bohužel to vše končilo vždy v Roubaix.

Nebyly jsme tedy schopni spravovat síť a získávat logy ze všech routerů, abychom mohli zjistit příčinu problému. Po čase se příčinu podařilo najít a po restartu karet bylo vše opět do 5 minut v pořádku.

Již jsme otevřeli ticket u Cisko ohledně tohoto problému s RAM ECC. Cisko na problému pracovalo a toto ráno jsme software patchovali abychom problém odstranili.

Dalším naším cílem je zajistit nezpečný chod sítě i v případě takovýchto problémů.

V každém případě došlo k nedostupnosti na delší dobu, nežli je SLA (99,9% = 43 minut) a servery byly nedostupné 1:22 hod. Proto je na místě kompenzace z naší strany.

Vytvoříme stránky, kam si budete moci zadat svůj požadavek na náhradu v rámci SLA a bude Vám připsáno 5% času k serveru navíc. Odkaz bude umístěn zde:
http://status.ovh.co.uk/?do=details&id=2571

Nikdy není příjemné psát tyto typy e-mailů. Omlouváme se.


S pozdravem,
Octave