Tot verbazing van ict-experts wordt 100 procent uptime toch geclaimd. Onhaalbaar. Dit is de discussiestelling die Computable-lezers vandaag krijgen voorgelegd.
De befaamde ‘vijf negens’ zijn in wezen het hoogst haalbare voor de uptime van ict-systemen. Een beschikbaarheid van 99,999 procent is de max en elk puntje achter de komma kost exponentieel meer tijd, moeite en budget. Toch wordt er her en der geclaimd dat 100 procent uptime haalbaar is. Menig ict-onkundige die daar voor valt. Totdat de mythe vroeg of laat wordt doorgeprikt; door downtime. Zoals onlangs bij de Britse managed cloud computing service provider Vesk. Die heeft na een storing van twee dagen het ook geleerd: 100 procent uptime bestaat niet. Wat vind jij?
Wat is de definitie van uptime en in welke context?
Het internet in zijn geheel heeft een uptime van 100% en dat al meer dan 20 jaar.
Daarnaast… 100% uptime kun je prima aanbieden als onderdeel van een Service Level Agreement. Daarin stel je dat als de 100% niet gehaald word dat je dan 2% korting krijgt op de volgende factuur.
Dan kun je het dus roepen en er zelfs een overeenkomst op sluiten… dus wat is nu het punt? Of het technisch mogelijk is? Of dat betaalbaar is?
Discussies kun je altijd voeren als het gaat om simplificaties van de werkelijkheid 🙂
Het is wiskundig onmogelijk, laat staan pragmatisch.
‘Uptime’ is een zinloze maatstaf, uitgevonden door server-gerichte techneuten, hun gezichten naar de infrastructuur en hun ruggen naar de gebruikers. Geboren uit een hap kinnesinne tussen platformen (‘mijn uptimes zijn hoger dan de jouwe’) waar helemaal niemand iets mee opschiet. Wel dankbaar opgepikt door Service Managers die graag elke maand een goed nieuws rapportage maken met heel veel hoge percentages en groene vinkjes of smileys.
De enige juiste maatstaf is ‘defect’ zoals ervaren door de gebruiker. Want ongeacht de oorzaak, zelfs PEBKAC en RTFM, is dat het moment dat de business schade oploopt door IT. Immers: iemand ergens wilde gebruik maken van een IT-service En Die Deed Het Niet. Stop met werken, bel de helpdesk. Mens erger je niet.
Wat heb ik aan ‘95% van de servers had deze maand meer dan 99,5% uptime’? Helemaal niks, nul, nada. Vertel me wat er mis ging, bij welke gebruiker en welke service (service, niet server!) en als je echt wilt eventueel hoe lang dat duurde.
In goeie ouwe (bewezen) industriële termen: geef me uitvalpercentages en MTBF-waarden per product en dienst.
De kassa van Kwaliteit staat bij de helpdesk, niet in het monitoring-pakket.
De definitie van uptime lijkt mij redelijk duidelijk (maar is afhankelijk van de gezichtspunt van de vrager): de tijd dat de systemen waar je gebruik van maakt beschikbaar zijn en doen wat er van hen verwacht wordt.
Een site die wel bereikbaar is maar (door fouten bij het uitrollen bijvoorbeeld) niet de data kan leveren die gevraagd wordt (denk aan een weersvoorspelling-service) is misschien wel ‘up’ voor de aanbieder maar niet voor de eindgebruiker; het systeem levert tenslotte niet wat er gevraagd wordt.
@Henri: het internet als geheel heeft misschien een uptime van 100%, maar er is niemand die gebruik maakt van ‘het internet’ als geheel. Je praat tegen delen ervan. Zeggen dat het internet dus een uptime van 100% heeft is betekenisloos.
Doro,
Precies. Maar dat bedoel ik dus met uptime, en hoe meet je dat? Wat in een distributed SaaS kan het zijn dat de gebruiker aan het ene bureau een dienst heeft, en het bureau er naast geen service krijgt. Naast dat de keten heel ingewikkeld kan zijn (device, netwerk, router, isp, internet, firewall, datacenter, load balancer, etc.) is het dus ook lastig te meten, te bewijzen, etc.
In veel SLA’s van cloud providers staat dan ook dat je minimaal in twee regio’s een dienst moet draaien omdat je anders op de uitval van 1 server niet als uitval mag zien.
En dus sowieso… in de SLA van Google Cloud Platform las ik dit:
“Monthly Uptime Percentage” “Percentage of monthly bill for the respective Covered Service which does not meet SLO that will be credited to future monthly bills of Customer”
99.00% – < 99.95% 10% 95.00% - < 99.00% 25% < 95.00% 50% Dus zelfs als de dienst er een maand uit ligt krijg je maar 50% van je geld terug 🙂 Oftewel zo'n SLA is niets waard. En Tom, ongeplande downtime in de nacht is dus geen downtime? En word downtime gerekend in seconden of minuten? Nee zelfs de definitie van uptime is lastig, zeker als je er contractuele afspraken over gaat maken en ik quote nu nog wat meer over de Google SLA ( https://cloud.google.com/compute/sla )
“Monthly Uptime Percentage” means total number of minutes in a month, minus the number of minutes of Downtime suffered from all Downtime Periods in a month, divided by the total number of minutes in a month.
“Downtime” means:
For Instances: Loss of external connectivity or persistent disk access for all running Instances that are hosted across two or more zones in the same region combined with the inability to launch replacement Instances in any zone in that region.
For load balancing: Loss of external connectivity (via the external IP addresses associated with load balancing forwarding rules with all Healthy Backend Instances) due to the failure of Google’s systems.
Downtime does not include loss of external connectivity as a result of the Google managed VPN service failing to serve traffic directed to VPN tunnels under that service. That sort of downtime is addressed exclusively in the VPN SLA.
Dan nog een aardige, hoe meet je de uptime van een e-mail provider?
Waarom wordt er 100% gebruikt en 99.999%
99.999 geeft een veel grotere nauwkeurigheid aan dan 100, 100 kan iets zijn tussen 99.5 en 100.4 als je de getallen op deze manier vergelijkt.
(zo hebben ze het mij ooit geleerd op school)
Uptime van het internet is 99,95% betekenisloos.
100 is bijna een half meer of minder dan 99.99%.
Hoe meet je de uptime van een email-provider ?
Mag het een ietsje meer zijn ?
Kan iets wiskundig waar maar pragmatisch niet of andersom ? Ik was nooit zo goed in pragmatisch op school.
Als een bij op een brandnetel gaat zitten, steekt dan de brandnetel de bij of andersom ?
99.99% kans op de wet van Godwin.
Touché PaVaKe! That’s it! Het wordt pas opscheppen als je 100.000 % uptime geeft 🙂