Se connecter / S'enregistrer

Le point sur la fiabilité des disques durs

Fiabilité des disques durs et SSD : nos données sont-elles en sécurité ?
Par

Les SSD étant des produits relativement neufs, du moins par rapport aux disques durs (qui ont près de 60 ans), on comprend aisément que l’on veuille les comparer aux technologies éprouvées.Mais en fait, que savons-nous vraiment des disques durs ?Deux études importantes nous apportent des éléments de réponse.En 2007, Google a publié une étude portant sur la fiabilité des 100 000 disques durs PATA et SATA grand public de son centre de données ; parallèlement, le Dr Bianca Schroeder et le Dr Garth Gibson ont calculé le taux de remplacement de plus de 100 000 disques durs utilisés dans les plus grands laboratoires américains. À la différence de la première, cette étude porte également sur des disques durs professionnels SCSI, SATA et FC.

Si vous n’avez lu aucun de ces deux documents, nous vous recommandons chaudement de parcourir au moins le deuxième : il a reçu le prix de la meilleure soumission lors de la conférence File and Storage Technologies (FAST ’07). Pour ceux que les documents académiques rebutent, nous allons tenter de résumer.

MTTF, MTBF, AFR et ARR

Vous vous souvenez de ce que signifie l’abréviation MTBF ? Non ? Si l’anglais ne vous rebute pas, allez voir dans cet article comment on le calcule. Prenons comme exemple un Seagate Barracuda 7200.7.Son MTBF annoncé est de 600 000 heures, ce qui signifie que, si l’on en prend une population statistiquement significative, la moitié des disques durs tomberont en panne au cours de 600 000 premières heures de fonctionnement.Si ces pannes étaient réparties de manière égale, un disque tomberait en panne toutes les heures, ce que l’on peut convertir en un taux de panne annualisé (annualized failure rate ou AFR) de 1,44 %.Malheureusement, ce n’est pas ce que Google et le Dr Schroeder ont constaté dans la pratique.Avant de continuer, notons qu’une panne n’entraîne pas nécessairement le remplacement du disque dur, raison pour laquelle le Dr Schroeder a mesuré le taux de remplacement annualisé (annualized replacement rate ou ARR). Elle a pour ce faire consulté les journaux de maintenance pour y trouver le nombre de disques réellement remplacés.

Alors que les AFR annoncés par les fabricants sont compris entre 0,58 et 0,88 %, les ARR observés vont de 0,5 à 13,5 %. En fonction des données et du type de disque observé, ils sont donc jusqu’à 15 fois plus élevés que les taux de pannes annoncés !

Les fabricants de disques durs n’ont pas la même définition du mot « panne » que les chercheurs ; et bien entendu, leur définition a tendance à surestimer la fiabilité de leurs produits.De manière générale, le MTBF annoncé est calculé en fonction d’un test en cycle de vie accéléré, des données disponibles en matière de retours et d’essais effectués sur un panel de disques durs.Les chiffres de retours utilisés par les fabricants n’en restent pas moins hautement suspects : comme l’indique Google, « nous avons observé […] des situations où le testeur de disque durs donne systématiquement le feu vert à un produit qui tombe invariablement en panne en situation réelle ».

Évolution du taux de pannes dans le temps

La plupart des gens croient que le taux de panne des disques durs a la forme d’une courbe en baignoire : beaucoup de pannes au début en raison d’un phénomène de « mortalité infantile », puis une baisse du taux de panne et, enfin, une brusque hausse à l’autre extrémité due à l’usure des disques. Pourtant, aucune des deux études n’a permis de vérifier cette hypothèse : au contraire, dans l’ensemble, le nombre de pannes augmente progressivement avec le temps.

La fiabilité des disques durs professionnels

Lorsqu’on compare les deux études, on se rend rapidement compte, par exemple, qu’un disque dur Cheetah ayant sur papier un MTBF d’un million d’heures est en réalité nettement plus proche des 300 000 heures. Cela signifie que les disques durs dit « professionnels » et les modèles grand public ont en fait un taux de panne annualisé pratiquement identique ; cela vaut d’autant plus quand on compare des disques de capacité identique. Selon Val Bercovici, directeur de la stratégie technique chez NetApp (le fournisseur de stockage affichant la plus forte croissance du moment), « ce qui perpétue le mythe selon lequel les disques durs plus chers sont plus fiables, c’est la manière dont les grappes de stockage gèrent les pannes. L’un des secrets les mieux gardés des fabricants de supports de stockage est le fait que la plupart des disques durs professionnels et grand public contiennent pour l’essentiel les mêmes composants. Par contre, leur interface avec l’extérieur (FC ; SCSI, SAS ou SATA) et surtout les priorités et objectifs de leurs firmware jouent un rôle énorme dans leur comportement et donc dans leur positionnement marketing. »