Accueil » Dossier » Reportage : comment Seagate martyrise ses disques durs » Page 2

Reportage : comment Seagate martyrise ses disques durs

1 : Introduction 3 : Phase de tests – Vibrations 4 : Phase de tests - Chutes 5 : Phase de tests – 4ème partie 6 : Analyses 7 : Conclusion

Phase de tests – 1ère partie

D’une certaine manière, toutes les opérations menées durant la phase d’intégration servent un unique objectif : produire un disque dur fiable. Pour cela, les ingénieurs de Seagate ont l’avantage de savoir précisément quels sont les niveaux de performance à atteindre. L’Enterprise Capacity devait par exemple pouvoir atteindre un MTBF (durée moyenne entre défaillances) de 1 400 000 heures. Cet objectif est non seulement courant mais aussi attendu sur certains disques durs destinés au monde professionnel : à défaut, l’Enterprise Capacity aurait eu du mal à se vendre par rapport aux produits concurrents.

Deux choses doivent être précisées à ce stade. Premièrement, les ingénieurs pourraient concevoir un disque dur présentant un MTBF largement supérieur. L’un d’entre eux nous a confié qu’il était possible de produire un disque capable de fonctionner une centaine d’années, mais personne ne l’achèterait vu le prix auquel il serait vendu. Il faut donc comprendre qu’un MTBF de 800 000 ou 2 000 000 heures correspond aux niveaux couramment attendus par certains segments du marché des disques durs. Un PC de particulier qui fonctionnerait trois heures par jour sur cinq ans (soit environ 5 500 heures) n’a donc pas besoin d’un MTBF de deux millions d’heures, ce qui permet de s’affranchir du surcoût engendré par des composants plus robustes ainsi que l’ingénierie plus avancée qu’exige cet objectif. Un MTBF de 800 000 heures n’implique donc pas qu’un disque dur soit de mauvaise qualité : il s’agit simplement d’un rapport performances-prix optimisé pour un certain segment du marché.

Deuxièmement, les disques durs n’entrent pas en phase d’intégration avec leur MTBF final comme objectif. A l’image des temps de vol très réduits des premiers aviateurs, les ingénieurs de Seagate visent un MTBF de 300 heures ou moins pour leur première vague d’échantillons. Sachant cela, la production se limite alors à 200 disques durs grand maximum, lesquels sont soumis à une batterie de tests basiques afin d’examiner leurs performances ainsi que l’origine de leurs défaillances. Une fois cette analyse terminée, la nouvelle conception subit toutes les modifications jugées nécessaires par les ingénieurs avant d’être à nouveau produite en petite quantité pour subir la série de tests précédemment évoquée. Après avoir franchi ce premier obstacle, Seagate augmente l’échantillon de disques durs et intensifie les tests, approche qui se répète à plusieurs reprises.

Au terme de la phase d’intégration, un disque dur comme l’Enterprise Capacity 3,5 pouces 8 To aura subi plus de cinq cent tests, dont bon nombre s’étalent sur plusieurs semaines.

« En fait, nous essayons de déterminer la durée de vie du produit sur le terrain lorsqu’il est utilisé normalement », nous a confié un des ingénieurs. « Dans un deuxième temps, les tests sont rendus plus intenses pour que l’on puisse éprouver la maturité de la conception. On essaie alors de voir quelles seront les tolérances en matière de températures, d’humidité, sécheresse, plages de tensions, scripts. On envoie toute une série de paramètres au disque dur suivant différentes combinaisons et l’on constate alors ses limites ».

Image 1 : Reportage : comment Seagate martyrise ses disques durs

On voit ci-dessus deux armoires de tests à trente compartiments chacune, tout en sachant que Seagate utilise également des modèles à soixante compartiments. Ces dernières constituent en quelque sorte le couteau suisse pour tester les disques durs de par leur capacité à générer des températures allant de -50 à 100°C.  En outre, ces armoires gèrent le taux d’humidité ainsi que les tensions 5 et 12 Volts de manière distincte. Chacun des trente compartiments dispose de son propre ordinateur monocarte à processeur Pentium, lesquels sont reliés à un système de serveurs envoyant scripts et logiciels développés en interne. Ceci permet aux ingénieurs d’exercer un contrôle total sur tous les paramètres de tests, suivre et gérer à distance les disques durs et bien entendu de générer des journaux de test.

Sachant que chaque compartiment dispose de son propre ordinateur, une panne dans un des slots n’interrompt pas la procédure pour les autres. Toutefois, chaque défaillance donne lieu à une enquête en détail pour savoir dans un premier temps si la panne vient du disque dur ou du compartiment. Dans le cas où le disque dur est en cause, ce dernier est marqué puis envoyé au laboratoire d’analyse qui détermine ensuite l’origine de la défaillance (origine matérielle ou logicielle). Les bugs dans le code sont généralement résolus, auquel cas le firmware du disque dur est réinitialisé avant qu’il ne reparte pour une série de tests. Si la panne est d’origine mécanique, qu’il s’agisse des plateaux ou des têtes de lecture, le disque dur est disséqué et analysé jusqu’à ce que le problème soit identifié.

Image 2 : Reportage : comment Seagate martyrise ses disques durs

Lorsque la production commence à augmenter, les ingénieurs passent à des armoires de test plus imposantes, lesquelles peuvent contenir cent disques durs chacune. Précisons que les armoires que l’on voit ci-dessus ne servent qu’à exécuter des scripts dans des conditions de température élevée.

Image 3 : Reportage : comment Seagate martyrise ses disques durs

Seagate dispose de nombreuses armoires pour tester ses disques durs sur le long terme. La pièce que l’on voit ici, située immédiatement sous le laboratoire, est maintenue à température élevée afin de répliquer des conditions d’usage proches de celles d’un grand centre de données.

Image 4 : Reportage : comment Seagate martyrise ses disques durs

Voici une autre vue de la salle dédiée aux tests de fiabilité après avoir reculé de quelques mètres. Cette photo a malheureusement du mal à restituer la sensation que l’on éprouve en étant au beau milieu de dizaines d’armoires, lesquelles cherchent à détecter les pannes dans un certain silence.

Comme certains d’entre nous ont pu le remarquer un peu plus haut, l’écran LCD des armoires de test au moment de notre passage rapportait une température de 58°C, valeur très proche des 60°C annoncés sur la fiche technique du disque dur. A cette température en charge, le plateau inférieur grimpe jusqu’à 64 ou 65°C, tandis que les puces au niveau du PCB affichent des valeurs encore plus élevées. L’objectif de ces conditions thermiques est double. En premier lieu, les ingénieurs doivent s’assurer que les disques durs fonctionnent correctement à ce niveau de température, lequel correspond à ce que l’on mesure dans un centre de données ou un désert. Deuxièmement, le fait d’augmenter les températures sert à pousser les disques durs plus loin dans leurs retranchements et donc à raccourcir le délai avant une panne. Il est bien évident que les ingénieurs ne peuvent pas se permettre d’attendre 1,4 millions d’heures à température ambiante, alors qu’il est possible de faire des projections à partir des résultats obtenus sur quelques années avec une température élevée.

Une entreprise comme Seagate pourrait-elle tricher sur la méthodologie afin de tromper les algorithmes utilisés pour les tests ? Cela ne fait aucun doute. Il faut néanmoins mesurer les conséquences d’un tel choix, à savoir les pannes prématurées dans un premier temps et l’image de marque qui en pâtirait dans un second, puis une évolution des ventes en conséquence. Seagate œuvre donc à ajuster les paramètres de manière à garantir la solidité de ses produits sur la base du MTBF annoncé.

Image 5 : Reportage : comment Seagate martyrise ses disques durs

Bien entendu, les tests ne sont pas systématiquement conduits avec une température élevée. Voici les racks qu’utilise la marque pour exécuter en premier lieu des scripts sur les disques SAS/SATA, ainsi que les mettre en état de charge/repos à température ambiante.

Image 6 : Reportage : comment Seagate martyrise ses disques durs

Les images ci-dessous illustrent les chambres servant à jouer sur l’altitude. En effet, les machines que l’on aperçoit sont capables de modifier la pression de l’air afin de simuler une altitude allant d’environ 60 mètres sous le niveau de la mer jusqu’à 3050 mètres pour vérifier le bon fonctionnement des disques durs (il est même possible de reproduire les conditions d’une altitude de 12 200 mètres au besoin). Ces conditions de test sont essentielles : les têtes de lecture volant à une distance microscopique des plateaux, le moindre changement dans la pression de l’air au sein du disque peut avoir des conséquences dramatiques : incapacité à lire/écrire des données et dans le pire des cas de figure, écrasement des têtes de lecture sur les plateaux avec les pertes de données qui s’en suivent. Précisons qu’en plus de pouvoir jouer sur la pression de l’air, ces chambres permettent également de moduler la température.

L’utilité des chambres de test où l’on place des disques durs, sans les mettre sous tension, dans des conditions de pression et température extrêmes est de refléter une situation de transport. Une palette de disques durs est par exemple susceptible de rester des heures sur le tarmac d’un aéroport en Chine où en Equateur, pays où la chaleur et l’humidité peuvent atteindre des valeurs très élevées. Seagate stocke donc des disques durs dans des chambres comme celles que l’on voit ci-dessus pendant 21 jours d’affilée avec une température de 60°C et un taux d’humidité de 80 %. Quelques spécimen sont susceptibles d’être retirés durant cette période, mais la plupart subissent le test jusqu’à son terme. Les disques durs sont ensuite envoyés au laboratoire de chimie pour démontage et analyse complète comme nous allons le voir.

Image 7 : Reportage : comment Seagate martyrise ses disques durs

Les matériels de tests sont bien entendu surveillés. L’écran que l’on voit à l’image affiche toutes les chambres de test situées dans le laboratoire de Longmont. En cas de problème, la grille utilise un code couleur ainsi que des codes alphanumériques pour indiquer le degré d’alerte. Cette même grille notifie également aux techniciens l’échéance des sessions de maintenance et calibration des chambres. L’un d’entre eux nous a également montré qu’il était possible de passer à une grille similaire, laquelle relayait l’état des chambres de tests situées dans le centre R&D de Thaïlande.

« Si un compresseur rencontre un problème et commence à émettre des vibrations dans l’armoire de test, nous recevons une alerte », nous a expliqué un ingénieur. « Ce sont les disques durs qui communiquent alors avec la grille pour lui dire : je vois beaucoup de NRRO (erreurs non répétitives)/Il y a beaucoup de vibrations, que se passe-t-il ?/Le compresseur est-il hors-service ?/Les ventilateurs sont-ils déséquilibrés ? Voilà le genre de mesures qui apparaissent. Si une chambre réglée à une température précise n’arrive pas à maintenir cette température quelle qu’en soit la raison, nous aurons également une alerte. A nous de voir si le problème vient du compresseur. Ce qui est très appréciable, c’est que les données de la chambre de test sont distinctes des informations provenant des disques durs. Le degré de contrôle que nous avons est assez incroyable ».

Sommaire :

  1. Introduction
  2. Phase de tests – 1ère partie
  3. Phase de tests – Vibrations
  4. Phase de tests - Chutes
  5. Phase de tests – 4ème partie
  6. Analyses
  7. Conclusion