De mens blijkt de grootste bedreiging van de bedrijfscontinuïteit binnen datacenters. Dat blijkt uit onderzoek onder Nederlandse datacenter-professionals door Enlogic, ontwikkelaar van intelligente stroomverdelers voor datacenters.
Ruim een derde van de ondervraagde datacenter-professionals rekent menselijk falen tot de top drie van de meest waarschijnlijke oorzaken van uitval in het datacenter. Voorbeelden zijn het verwisselen van de temperatuurinstelling van Celsius naar Fahrenheit, het verwisselen of lostrekken van stekkers en overbelasting van de stroomvoorziening door het aansluiten van te veel servers.
Storing in de apparatuur komt op de tweede plaats. Een kwart van de ondervraagde datacenterprofessionals geeft storing in de apparatuur waar het in het datacenter om draait, aan als topdrie-reden voor uitval. Stroomuitval en spanningsschommelingen komen op de derde plaats. Eén op de vijf geeft stroomuitval aan als belangrijke oorzaak van downtime in het datacenter. Temperatuurs- en koelingsproblemen zijn voor 13 procent van de datacenterprofessionals een belangrijke oorzaak voor de uitval van systemen.
In de strijd tegen onvoorziene uitval, kiezen de meeste datacenter-managers ervoor te investeren in redundantie. Dit betekent investeren in de dubbele uitvoer van kritieke systemen die werkloos energie verbruiken en onderhoud en bewaking vergen, tot ze eindelijk nodig zijn. Maar ze bieden amper soelaas tegen menselijk falen, wat toch het vaakst tot de hoofdoorzaken van uitval wordt gerekend.
Hot-swappable
‘Daarnaast noemt een kwart van de ondervraagde managers het falen van de apparatuur als belangrijke oorzaak voor downtime’, zegt Europees directeur Paul Inett van Enlogic. ‘Bij de selectie van apparatuur hoort betrouwbaarheid dus zwaarder te wegen dan de prijs.’
Volgens Enlogic kunnen intelligente pdu’s helpen downtime te beperken, door de keuze van zogeheten hot-swappable pdu’s, waardoor de netwerk-managementkaart kan worden vervangen terwijl de stroomtoevoer gehandhaafd blijft. Dat scheelt volgens de fabrikant al gauw een half uur downtime van een rack. Tegelijkertijd waarschuwen de intelligente pdu´s wanneer de beheerder een steekje heeft laten vallen, wanneer de koeling het laat afweten of wanneer een systeem down gaat.
Switch from “Design for Success” to “Design for Failure” !
http://social.technet.microsoft.com/wiki/contents/articles/4346.private-cloud-principles-concepts-and-patterns.aspx
IT must create a resilient infrastructure and reduce hardware redundancy wherever possible. Resiliency can only be achieved through highly automated fabric management and a high degree of IT service management maturity. In a highly resilient environment, it is expected that hardware components will fail. A robust and intelligent fabric management tool is needed to detect early signs of eminent failure so that workloads can be quickly moved off of failing components, ensuring the consumer continues to experience service availability.
Legacy applications may not be designed to leverage a resilient infrastructure and some applications may need to be redesigned or replaced in order to achieve cost-effective high availability.
Tegengeluid: Mens belangrijkste reden voor continuiteit. Ik zou wel eens willen zien hoeveel downtijd we zouden hebben als goede beheerders niet tijdig zouden ingrijpen als er iets mis dreigt te gaan.
Maar ja, goede beheerders vallen nooit op, omdat er niets mis gaat. Slechte beheerders, die ellende veroorzaken en dat weer snel oplossen krijgen de credits, omdat ze “alles weer zo snel hebben opgelost”.
@Samuel: Inderdaad. Dat is een valkuil, dan krijg je van die opmerkingen “wat doet die kerel eigenlijk?”
Maar als je af en toe blundert (of misschien zelfs heel vaak) en dan het leuk weet op te lossen, kan je beter scoren en een beter imago opbouwen.
@Sysop Samuel: prima tegengeluid! Overigens passen de gemelde storingen wel erg goed in het straatje van de onderzoekende partij (Enlogic). Dat kan haast geen toeval zijn.
Indirect klopt de titel natuurlijk zeker, maar de directe oorzaak is toch meestal dat er hardware of software componenten zijn die anders zijn gaan doen, het niet meer doen of gedeeltelijke of soms doen als primaire oorzaak. Natuurlijk gaat er ook wel eens een systeem down door “ondeskundig’ handelen, maar dat is in een beetje professionele omgeving toch een uitzondering.
@Samuel
Zelfs een goede operator moet aan ‘interne PR’ doen. Als deze stil zijn/haar werk doet en weinig fouten maakt is de kans idd groot dat deze overschaduwd wordt door een wat meer mondige ‘prutser’.
Tegengeluid?
Dit is een open deur artikel in de trant van:
“Mens belangrijkste oorzaak van energieverspilling”
“Mens belangrijkste oorzaak van verkeersongevallen”
“Mens belangrijkste oorzaak van gammele gebouwen”
“Mens belangrijkste oorzaak van olierampen”
“Mens belangrijkste oorzaak van recessie”
En bij alles kunnen we ons afvragen of er wellicht nog meer was misgegaan als er niet ook mensen waren geweest die hun gezonde verstand bleven gebruiken, op de juiste manier met al die mensdingen omgingen of tijdig ingrepen als het mis dreigde te gaan. Dat is zo mogelijk een nog grotere open deur.
Overigens, het feit dat hier openlijk wordt verondersteld dat mondige prutsers eerder credits pakken dan bescheiden vaklui is te treurig voor woorden. Het versterkt helaas wel de titel van het stuk
Ik kan me best voorstellen dat de mens de zwakste schakel in een ICT omgeving is. Tenslotte is het meest stabiele netwerk er een zonder gebruikers (en beheerders). Wat ik mis in het verhaal is hoe we daar dan iets aan kunnen doen. Intelligente PDU’s bieden geen oplossing, want ook daar kunnen we schakelfouten maken en dan gaat de boel toch nog onderuit.
Persoonlijk denk ik dat we veel meer kunnen automatiseren in het ICT beheer. Dat lijkt misschien tegenstrijdig, maar de gemiddelde beheerder doet nog heel veel handmatig wat met de juiste tooling allang geautomatiseerd kan gebeuren. Daarmee beperken we niet alleen de beheerlast, maar voorkomen ook vergissingen.