TV Tropes tijdelijk offline door storage firmware bug

TV Tropes website
TV Tropes

'Oh no... Not again!' zal in elk geval bij een deel van de enorme community van TV Tropes door het hoofd gegaan zijn toen de site op 7 juli om 2:40 AM EST (8:40 CET) ruim 14 uur offline ging. In 2008 verloor de wiki-gebaseerde site, die een zo compleet mogelijk archief aan 'tropes' oftewel thema's, motieven en cliché's probeert te bieden, drie maanden data na een desastreuze harddisk crash. 

De storing van deze week, veroorzaakt door een 'total failure' van de database cluster, had gelukkig minder verstrekkende gevolgen: slechts een beperkte hoeveelheid recente 'edits' ging verloren. De site draait elke ochtend een back-up, de crash vond plaats vlak voor die zou draaien. Hierdoor ging 24 uur aan aanpassingen verloren, en 72 uur aan - apart gebackupte - 'wiki history', vergelijkbaar met change logs. 

TV Tropes draait met redundante web servers op een load balancer, redundante database servers in een cluster en redundante hard drives in elke server - de vraag is dus hoe een crash als deze mogelijk was. Wat blijkt: 6 van de 8 (!) hard drives stopten tegelijk stopten werken, dankzij een bug in de firmware van die drives, die een crash veroorzaakt na een bepaald aantal werkuren. Op moment van schrijven is nog niet bekend om welke drives het gaat.

De les voor systeembeheerders is duidelijk: blijf op de hoogte van de errata van hardware leveranciers, want zelfs de meest doordachte architectuur is niet bestand tegen fatale firmware fouten.

Copyright © 2020 IDG Communications, Inc.

  
Shop Tech Products at Amazon