OVH Community, your new community space.

Práce sítě na VSS


oles@ovh.net
08-10-2010, 11:56 PM
Začínáme poslední fázi na VSS-2-6k.

http://travaux.ovh.com/?do=details&id=4461

Budeme měnit konfigurace. Bude proveden restart routeru, který zabere 15-30 minut, nežli budou všechny služby opět zpět.

oles@ovh.net
08-05-2010, 10:10 PM
http://travaux.ovh.com/?do=details&id=4440

Dobré odpoledne,

Pro datacentrum Roubaix 2 jsme se rozhodli, že nastavíme síť se 100% dostupností. Pro toto jsme použili switche Cisco 6509 v nastavení VSS. Je to systém založený na dvou šasí pracujících jako jedno. S dvěma šasí je vše dvojité a můžeme mít tedy 100% dostupnost.

Reálně máme nyní několik problémů s VSS, což vyústilo v ukončení služeb a proto jsme neuzavřeli původní smlouvu. V podstatě máme chronický problém na BGP. Přinejmenším se změnou směrovací tabulky. CPU router je 100% po dobu minimálně 15 minut. Je to vážné, ale na konci roku 2009 jsme umístili silnou ochranu na interní síť, což znamená, že jsme každý server izolovali od ostatních. Toto jsme provedli napříč celou privátní VLAN a zabudovali jsme ARP proxy. Bylo to standardní řešení a router odpovídal místo všech serverů a navíc poskytoval routing ve stejné vlan. Vše je velmi bezpečné. Avšak router musí reagovat na všechny MAC dotazy všech serverů a procesy, které běží na VSS a to celé zabírá příliš moc výkonu CPU.

Normálně to běží bez problémů, ale jakmile systém přepočítá směrovací tabulky, BGP zabere 100% CPU a zabraňuje to funkci MAC procesů. Výsledek: servery již neznají MAC a je zde výpadek 1, 3, či 8 minut - záleží na důležitosti přepočítání BGP tabulek.

Je možné, že problém spočívá ve specifických BGP routeterech tj.: Smerovací reflektor. Normálně bychom obdrželi materiál tento měsíc, ale objednávka byla špatně zaznamenána mezi distributorem a výrobcem ... takže dodávku obdržíme nejlépe na konci září ... Rozhodli jsme se nečekat na dodávku a implementujeme naše řešení již tento víkend.

Ale stále budeme mít MAC problém. Proto jsme se rozhodli přerušit VSS nastavení a nechat to, co vždy fungovalo dobře: router s jedním šasí. Máme téměř 30 routerů s jedním šasí, které nedělají žádný problém. Jde pouze o dvojité nastavení, které problém způsobuje. Takže přerušíme druhé šasí.

Takže jsme minulý týden provedli několik změn v VSS, abychom mohli využívat nastavení založené na jednom šasí.

Provedeme to v několika krocích následovně:
- Všechny linky v datacentru, které jsou připojeny na šasí 1, budou připojeny na šasí 1. Nejdojde k žádnému výpadku, protože všechna práce je na šasí 1.
- Všechny linky do Internetu připojeny na šasí 2 budou přepojeny na šasí 1. Nejdojde k žádnému výpadku, protože všechna práce je na šasí 1.
- Přerušení proudu na šasí 2. Nedojde k žádnému výpadku, protože šasí 2 nebude používáno.
- Změna nastavení šasí 1 na jednoduchou verzi. Protože ale budeme muset rebootovat hardware routeru, dojde k cca 15 minutovámu přerušení ve službách. K výpadku dojde ve 4:00 ráno na konci příštího týdne, když vše půjde dobře.

Nejprve zaútočíme na VSS-2 - to co dělá nejvíce problémů.

Normálně (až do kroku 4) bychom neměli mít žádné problémy. K problémům může dojít až když se dostaneme k nastavení šasí 2. Tento problém by však měl být rychle vyřešen. Pak by mohlo dojít k problému u kroku 2 a 3, ale krokem 4 by mělo být vše dořešeno.

Je nám líto malých výpadků služeb u zákazníků v Roubaix 2, ke kterým došlo z důvodů výše popsaných. Chyba byla způsobena špatně zvoleným HW. Mysleli jsme si, že výrobce problém vyřešil, ale podle něj je vše v pořádku. Tento materiál je proto nekompatibilní s našimi potřebami. Vyměníme ho. Po objevení problému sjme špatně posoudili situaci a neměli jsme s výrobcem vůbec jednat. Měli jsme to rovnou vyměnit a najít jiné řešení. Chyba v řešení problému.

Abychom v duchu otevřenosti pokračovali, možné jste si všimli problémů v Londýně, Amsterdamu a Frankfurtu zhruba 14 dní zpátky. Před 14 dny jsme přidali zabezpečené linky z těchto měst. Šlo o velkou investici, která měla zaručit bezpečnost sítě, 100% dostupnost a funkčnosti i při potížích s optikou. Po přidání těchto linek na router došlo k problému s RAM na routerech a Londýn se zhroutil. Ze stejného důvodu byli problémy i v Amsterdamu a Frankfurtu. Došlo ke zhroucení routerů, přepočítávání BGP a 100% CPU na VSS ... k těmto výpadkům došlo u služeb, které jsou umístěny v Roubaix 2. Tento problém jsme vyřešili zakázáním nepotřebného MPLS, ale je zde ztráta 20% RAM. Od té doby je vše stabilní.

Předpokládali jsme, že během prázdnin vyměníme všechny routery, ale potřebný materiál není dostupný a ten, který dostupný je, nefunguje. Obdrželi jsme Cisco Nexus 7000 a BGP nefunguje - pouze generuje chybové zprávy ... Nová zařízení a nyní toto ... Opět špatná volba materiálu.
Máme tu tedy velkou výzvu. Tím, že jdeme proti plánu máme zpoždění v plánu co se týče výměny routerů. Nyní musíme prohledat celý trh a nalézt ideální řešení, které bude podle našich představ. Tato práce způsobí další zpoždění již připravených projektů ...

Ale co ...

Myslím si, že nemůžeme být, co se týče nejnovějších možností, více otevření.

S pozdravem,
Octave