Beste klant,
Wellicht heeft u het gemerkt, maar misschien ook niet: de afgelopen weken hebben we veel problemen gehad in onze infrastructuur waardoor uw website en e-mail waarschijnlijk herhaaldelijk tijdelijk onbereikbaar is geweest. Naar aanleiding van deze storingen, sturen wij u een overzicht van de gebeurtenissen in de afgelopen week, zodat u weet wat er exact gebeurd is, en welke acties wij hebben ondernomen.
Donderdag 14 april – 08:00 uur
Er is een uitgaande DDOS van ca. 1,4 Gbps op één van de servers in ons netwerk. DeziWeb heeft één uplink van 1Gbps en 4 uplinks van 100Mbit (in totaal 5 uplinks met een totale capaciteit van 1,4Gbps). In de praktijk verbruiken we in totaal gemiddeld 90-110 Mbit, dus 1,4Gbps is zelfs bij extreme drukte ruim voldoende. Dit heeft in de eerste uren invloed gehad op onze gehele infrastructuur, en na enkele uren hadden we dit beperkt tot een klein deel van onze infrastructuur. Omstreeks 12:00 uur is de betreffende server die de problemen veroorzaakt gevonden en uitgeschakeld. De problemen waren hiermee voor de eerstvolgende uren opgelost.
Donderdag 14 april – 16:00 uur
Onderzoek naar de storing van diezelfde ochtend heeft uitgewezen dat de limiet van 100Mbit die wij op elke virtuele server hebben ingesteld in de praktijk niet als 100Mbit limiet blijkt te werken; virtuele servers zijn in staat om alsnog uitgaand 1Gbps te doen. Dit is een fout in de software van onze toeleverancier waarover wij inmiddels contact hebben met de betreffende partij. Later deze donderdag zijn er herhaaldelijk nog wat pieken in het netwerk, als nasleep van de storing van die ochtend. Diezelfde avond wordt er onderhoud uitgevoerd aan onze secundaire nameserver.
Vrijdag 15 april – 08:00 uur
Door nog onbekende oorzaak zijn er problemen met onze primaire nameserver, ns1.deziweb.com. Vermoedelijk is dit een gevolg van overbelasting van die dagen ervoor. Als gevolg van een fout in de initiële configuratie van onze secundaire nameservers, is als gevolg van onderhoud aan de secundaire nameserver die avond ervoor, nu zowel de primaire nameserver als de secundaire nameserver onbereikbaar. Hierdoor werkt DNS niet en zijn een groot deel van domeinen die via ns1.deziweb.com en ns2.deziweb.com lopen, onbereikbaar. Domeinnaam die geregistreerd zijn op dnsworks.nl en domeinregistrar.nl ondervinden geen hinder. Dit probleem is omstreeks 10:45 uur verholpen.
Vrijdag 15 april – 20:00 uur
Om ervoor te zorgen dat één virtuele server geen problemen voor het gehele netwerk kan veroorzaken hebben we besloten alle virtuele servers in ons SolusVM platform gefaseerd op 80Mbit te zetten. Hierdoor houden we, ook wanneer één server continue zijn maximale verbindingsmogelijkheden verbruikt, altijd voldoende in de lijn over om andere servers online te houden. Deze werkzaamheden werden gefaseerd doorgevoerd, en hebben zaterdag ook voortgeduurd. Dit blijkt later die avond, en zo blijkt ook zondag, voor problemen te zorgen. Verder onderzoek heeft uitgewezen dat de virtualisatie-techniek die door ons wordt gebruikt, OpenVZ, in combinatie met de management-interface, SolusVM, niet stabiel werkt wanneer afgeweken wordt van de standaard snelheden 10/100/1000Mbps. Om er zeker van te zijn dat dit de oorzaak was hebben we diverse analyses in ons netwerk uitgevoerd. Later blijkt dat dit wel degelijk de oorzaak is. Op dat moment is het voor ons zaak om zoveel mogelijk brandjes te blussen (lees: de servers die problemen hebben te verplaatsen naar een ander platform) en tegelijkertijd verder te onderzoeken waar de problemen vandaan komen. Dit is de reden dat deze storing in het weekend langer heeft aangehouden dan u van ons zou mogen verwachten.
Maandag 18 april – 10:00 uur
Na intern overleg is besloten om de aanpassing naar 80Mbit voor alle servers terug te draaien. Aangezien we het hier hebben over 300+ servers, kan dit enkele uren duren. Nadat één node terug is gezet naar 100Mbit, dienen alle virtuele machines opnieuw te starten om op die manier zeker weten de nieuwe netwerkinstellingen te gebruiken. Ook dit neemt even wat tijd in beslag. Omstreeks 16:00 uur die dag zijn bijna alle servers teruggezet naar 100Mbit en is bijna alles weer online, op een enkele fysieke server na, die nog wat problemen heeft doordat door een software-update de verkeerde OpenVZ configuratie werd gebruikt. Alle problemen zijn omstreeks 19:00 uur opgelost.
Maandag 18 april – 21:00 uur
Opnieuw is er een uitgaande DDOS op ons netwerk. Ditmaal is de dader moeilijker te achterhalen en hebben we het betreffende deel in ons netwerk dat overbelast is moeten isoleren, zodat de rest van ons netwerk gewoon online blijft. De problemen hebben hooguit een half uur geduurd die avond. Tot laat die avond is er gewerkt aan een nieuwe monitoring-tool waarmee op deze omgeving het uitgaande verkeer sneller getraceerd kan worden, zodat bij herhaling de problemen direct ontdekt worden.
Dinsdag 19 april – 06:30 uur
Wederom is het raak: een uitgaande DDOS vanuit hetzelfde segment van het netwerk. Door de nieuwe monitoring-tool is het verkeer zeer snel getraceerd en dan ook binnen enkele minuten is dit probleem opgelost. Tot omstreeks 08:30 uur hebben we gewerkt aan het zoeken van de echte bron van deze uitgaande DDOS, en die is om 08:30 uur gevonden. De betreffende site is uitgeschakeld, en al het netwerk-verkeer van en naar die betreffende site wordt nu geblokkeerd. Hiermee zijn de problemen in ons gehele netwerk weer opgelost.
Wij realiseren ons dat er in de afgelopen week ontzettend veel onderbreking in de dienstverlening is geweest, veel meer dan wij ons kunnen permitteren. Achter de schermen hebben wij 24/7 keihard gewerkt aan het oplossen van de problemen. Hierdoor hebben wij op sommige momenten na gelaten om duidelijk te communiceren met onze klanten. Veel tips kwamen binnen van onze klanten om Twitter actief te gaan gebruiken voor het melden van storingen; klanten zien dan gelijk wat er aan de hand is, en ze weten dan dat we er mee bezig zijn. We hebben dit met ingang van gisteren ook actief gedaan, en zullen dit ook blijven doen. Volg ons op
www.twitter.com/deziweb.
Daarnaast zullen wij de aankomende dagen veel energie stoppen in het verder onderzoeken en verbeteren van onze infrastructuur, zodat we oprecht kunnen stellen dat de storingen van afgelopen week nu echt achter ons liggen. In de afgelopen dagen hebben we vaak frustratie en irritatie omtrent de storingen en de onduidelijkheid over hetgeen er nu exact gebeurd is gemerkt. Deze reacties van onze klanten begrijpen wij maar al te goed. We hopen dat we met bovenstaande samenvatting u wat meer inzicht hebben gegeven in wat er allemaal precies gebeurd is.
Wij bieden nogmaals onze welgemeende excuses aan voor de problemen in de afgelopen week. Mocht u behoefte hebben aan persoonlijk contact, dan kunt u natuurlijk een ticket aanmaken op deziweb.com, of ons telefonisch bereiken op 0522200011 (ma t/m do 10 tot 17 uur; vr 10 tot 12 uur).
Met vriendelijke groet,
DeziWeb