Website soms niet bereikbaar, 28/4 UPDATE

Status
Niet open voor verdere reacties.
Re: Website soms niet bereikbaar

Inderdaad ja, het is verrekkes irritant. Anders eens een bezoekje brengen aan de host met alle leden en iedereen een knuppel geven :twisted:
 
Re: Website soms niet bereikbaar

Beste leden, ik heb inmiddels contact gehad met de host met het volgende bericht:

Beste Klant,

Afgelopen weekend zijn er diverse klachten gekomen over tijdelijke slechte bereikbaarheid van onze servers. We hebben hierop, zeker in verband met de storingen in de afgelopen week, direct onderzoek ingesteld. In tegenstelling tot de storingen van vorige week, bleken er ditmaal geen overbelastingen in het netwerk te zijn. We zijn dan ook blij dat we erop kunnen vertrouwen dat deze storingen verholpen zijn. De problemen lijken te ontstaan in ??n van onze peering-partners; we hebben als pilot de verbinding met deze partner tijdelijk uitgeschakeld.


Gisteren hebben we ontdekt dat als gevolg van onderhoud naar aanleiding van de storingen van vorige week er teveel diverse backups tegelijk worden gemaakt van onze omgevingen. Dit zorgde telkens voor een extreem hoge belasting van de opslagsystemen waardoor servers erg traag reageerden. We hebben onze backup-infrastructuur herzien en gaan hier vandaag de nodige wijzigingen in aanbrengen, zodat dit de systemen veel minder zou moeten belasten.


Voor mensen die problemen ervaren met het verbinden naar onze servers, vragen wij het volgende: doe een traceroute naar de betreffende website/server/ip-adressen en stuur ons de resultaten, incl. het tijdstip waarop deze problemen ervaren zijn, via een ticket naar ons. Deze resultaten kunnen ons helpen bij het analyseren van de netwerkverbindingen en kunnen toedragen aan het vinden van een mogelijk probleem in het netwerk.



Wij bieden onze welgemeende excuses voor het ongemak.

Ik wil jullie dus vragen om deze website te bezoeken indien de website slecht/traag/niet te bereiken is, en de resultaten even in dit topic te plaatsen als je er wel weer opkomt.. ze doen hun best om alles op te lossen en als ze deze gegevens hebben gaat het een stuk makkelijker!

Het adres is: http://network-tools.com/default.asp?pr ... .mypolo.nl

Nog even een puntje; ik hoef geen berichtjes als "waarom gaan we niet naar een andere host dan?" want dit kan overal gebeuren!!
 
Re: Website soms niet bereikbaar

Even advocaat van de duivel spelen, ik weet als IT'er erg goed wat er kan spelen met de apparatuur:

Het feit dat ze door klanten hierop gewezen moeten worden is een duidelijke indicatie in mijn ogen dat het bedrijf hun ICT infrastructuur niet meer onder controle hebben. Er hadden allang alarmbellen van verschillende monitoring/management pakketten af moeten gaan op dit soort verstoringen. Het probleem met de peering partner hadden ze ook al eerder moeten kunnen ontdekken als ze simpele network monitoring pakketten zouden gebruiken (en op de goede manier), het backup probleem had uberhaupt nooit op mogen treden en had ook waarschuwingen van ongebruikelijk hoge systeemloads moeten geven...

Kortom, allemaal zaken die ze hadden moeten weten zonder dat een klant het eerst moet melden...
 
Re: Website soms niet bereikbaar

Aangezien er dus ook mensen meelezen met verstand van zaken, hierbij de volgende mail die ik van ze kreeg.. naar mijn idee doen ze echt wel hun best.. en van fouten kun je leren toch?

Beste klant,

Wellicht heeft u het gemerkt, maar misschien ook niet: de afgelopen weken hebben we veel problemen gehad in onze infrastructuur waardoor uw website en e-mail waarschijnlijk herhaaldelijk tijdelijk onbereikbaar is geweest. Naar aanleiding van deze storingen, sturen wij u een overzicht van de gebeurtenissen in de afgelopen week, zodat u weet wat er exact gebeurd is, en welke acties wij hebben ondernomen.

Donderdag 14 april – 08:00 uur
Er is een uitgaande DDOS van ca. 1,4 Gbps op één van de servers in ons netwerk. DeziWeb heeft één uplink van 1Gbps en 4 uplinks van 100Mbit (in totaal 5 uplinks met een totale capaciteit van 1,4Gbps). In de praktijk verbruiken we in totaal gemiddeld 90-110 Mbit, dus 1,4Gbps is zelfs bij extreme drukte ruim voldoende. Dit heeft in de eerste uren invloed gehad op onze gehele infrastructuur, en na enkele uren hadden we dit beperkt tot een klein deel van onze infrastructuur. Omstreeks 12:00 uur is de betreffende server die de problemen veroorzaakt gevonden en uitgeschakeld. De problemen waren hiermee voor de eerstvolgende uren opgelost.

Donderdag 14 april – 16:00 uur
Onderzoek naar de storing van diezelfde ochtend heeft uitgewezen dat de limiet van 100Mbit die wij op elke virtuele server hebben ingesteld in de praktijk niet als 100Mbit limiet blijkt te werken; virtuele servers zijn in staat om alsnog uitgaand 1Gbps te doen. Dit is een fout in de software van onze toeleverancier waarover wij inmiddels contact hebben met de betreffende partij. Later deze donderdag zijn er herhaaldelijk nog wat pieken in het netwerk, als nasleep van de storing van die ochtend. Diezelfde avond wordt er onderhoud uitgevoerd aan onze secundaire nameserver.

Vrijdag 15 april – 08:00 uur
Door nog onbekende oorzaak zijn er problemen met onze primaire nameserver, ns1.deziweb.com. Vermoedelijk is dit een gevolg van overbelasting van die dagen ervoor. Als gevolg van een fout in de initiële configuratie van onze secundaire nameservers, is als gevolg van onderhoud aan de secundaire nameserver die avond ervoor, nu zowel de primaire nameserver als de secundaire nameserver onbereikbaar. Hierdoor werkt DNS niet en zijn een groot deel van domeinen die via ns1.deziweb.com en ns2.deziweb.com lopen, onbereikbaar. Domeinnaam die geregistreerd zijn op dnsworks.nl en domeinregistrar.nl ondervinden geen hinder. Dit probleem is omstreeks 10:45 uur verholpen.

Vrijdag 15 april – 20:00 uur
Om ervoor te zorgen dat één virtuele server geen problemen voor het gehele netwerk kan veroorzaken hebben we besloten alle virtuele servers in ons SolusVM platform gefaseerd op 80Mbit te zetten. Hierdoor houden we, ook wanneer één server continue zijn maximale verbindingsmogelijkheden verbruikt, altijd voldoende in de lijn over om andere servers online te houden. Deze werkzaamheden werden gefaseerd doorgevoerd, en hebben zaterdag ook voortgeduurd. Dit blijkt later die avond, en zo blijkt ook zondag, voor problemen te zorgen. Verder onderzoek heeft uitgewezen dat de virtualisatie-techniek die door ons wordt gebruikt, OpenVZ, in combinatie met de management-interface, SolusVM, niet stabiel werkt wanneer afgeweken wordt van de standaard snelheden 10/100/1000Mbps. Om er zeker van te zijn dat dit de oorzaak was hebben we diverse analyses in ons netwerk uitgevoerd. Later blijkt dat dit wel degelijk de oorzaak is. Op dat moment is het voor ons zaak om zoveel mogelijk brandjes te blussen (lees: de servers die problemen hebben te verplaatsen naar een ander platform) en tegelijkertijd verder te onderzoeken waar de problemen vandaan komen. Dit is de reden dat deze storing in het weekend langer heeft aangehouden dan u van ons zou mogen verwachten.

Maandag 18 april – 10:00 uur
Na intern overleg is besloten om de aanpassing naar 80Mbit voor alle servers terug te draaien. Aangezien we het hier hebben over 300+ servers, kan dit enkele uren duren. Nadat één node terug is gezet naar 100Mbit, dienen alle virtuele machines opnieuw te starten om op die manier zeker weten de nieuwe netwerkinstellingen te gebruiken. Ook dit neemt even wat tijd in beslag. Omstreeks 16:00 uur die dag zijn bijna alle servers teruggezet naar 100Mbit en is bijna alles weer online, op een enkele fysieke server na, die nog wat problemen heeft doordat door een software-update de verkeerde OpenVZ configuratie werd gebruikt. Alle problemen zijn omstreeks 19:00 uur opgelost.

Maandag 18 april – 21:00 uur
Opnieuw is er een uitgaande DDOS op ons netwerk. Ditmaal is de dader moeilijker te achterhalen en hebben we het betreffende deel in ons netwerk dat overbelast is moeten isoleren, zodat de rest van ons netwerk gewoon online blijft. De problemen hebben hooguit een half uur geduurd die avond. Tot laat die avond is er gewerkt aan een nieuwe monitoring-tool waarmee op deze omgeving het uitgaande verkeer sneller getraceerd kan worden, zodat bij herhaling de problemen direct ontdekt worden.

Dinsdag 19 april – 06:30 uur
Wederom is het raak: een uitgaande DDOS vanuit hetzelfde segment van het netwerk. Door de nieuwe monitoring-tool is het verkeer zeer snel getraceerd en dan ook binnen enkele minuten is dit probleem opgelost. Tot omstreeks 08:30 uur hebben we gewerkt aan het zoeken van de echte bron van deze uitgaande DDOS, en die is om 08:30 uur gevonden. De betreffende site is uitgeschakeld, en al het netwerk-verkeer van en naar die betreffende site wordt nu geblokkeerd. Hiermee zijn de problemen in ons gehele netwerk weer opgelost.

Wij realiseren ons dat er in de afgelopen week ontzettend veel onderbreking in de dienstverlening is geweest, veel meer dan wij ons kunnen permitteren. Achter de schermen hebben wij 24/7 keihard gewerkt aan het oplossen van de problemen. Hierdoor hebben wij op sommige momenten na gelaten om duidelijk te communiceren met onze klanten. Veel tips kwamen binnen van onze klanten om Twitter actief te gaan gebruiken voor het melden van storingen; klanten zien dan gelijk wat er aan de hand is, en ze weten dan dat we er mee bezig zijn. We hebben dit met ingang van gisteren ook actief gedaan, en zullen dit ook blijven doen. Volg ons op www.twitter.com/deziweb.

Daarnaast zullen wij de aankomende dagen veel energie stoppen in het verder onderzoeken en verbeteren van onze infrastructuur, zodat we oprecht kunnen stellen dat de storingen van afgelopen week nu echt achter ons liggen. In de afgelopen dagen hebben we vaak frustratie en irritatie omtrent de storingen en de onduidelijkheid over hetgeen er nu exact gebeurd is gemerkt. Deze reacties van onze klanten begrijpen wij maar al te goed. We hopen dat we met bovenstaande samenvatting u wat meer inzicht hebben gegeven in wat er allemaal precies gebeurd is.

Wij bieden nogmaals onze welgemeende excuses aan voor de problemen in de afgelopen week. Mocht u behoefte hebben aan persoonlijk contact, dan kunt u natuurlijk een ticket aanmaken op deziweb.com, of ons telefonisch bereiken op 0522200011 (ma t/m do 10 tot 17 uur; vr 10 tot 12 uur).

Met vriendelijke groet,

DeziWeb
 
Re: Website soms niet bereikbaar

Kijk dat verschaft mij iig een duidelijker beeld van wat er speelde binnen de hoster :) dankje Johan :)

Ze doen hun best maar zijn zo te lezen een redelijk onervaren partij op het gebied van netwerk beheer.
 
Status
Niet open voor verdere reacties.
  AdBlock gedetecteerd
Wij snappen dat advertenties op de website niet leuk zijn, echter het draaiend houden van de website is helaas niet gratis. Wij hebben jaarlijks kosten aan de software licenties en het draaiend houden van de server. Wij zouden het erg op prijs stellen als je de ad-blocker wilt uitschakelen voor onze community zodat het voor iedereen gratis toegankelijk blijft. Voor nog geen 50 cent per maand kun je ook je account upgraden als je geen reclame wilt zien!