Grappe RAID hétérogène : quelle contrepartie ?

Bernard David Corroy , le 24 juin 2008

Introduction

Aujourd’hui bien ancré dans les mœurs des entreprises, le RAID est de prime abord devenu une technologie relativement simple à mettre en œuvre. Toutefois, selon la configuration choisie et l’application désirée, les grappes peuvent, dans les faits, devenir très complexes et obliger l’administrateur système à être particulièrement attentif au choix et au paramétrage du matériel. Il reste néanmoins un point sur lequel tous les professionnels du stockage s’accordent en général : les disques constituant une grappe doivent être identiques – même marque, même modèle, même firmware. Cette nécessité est d’ordinaire bien comprise des grandes entreprises, leurs fournisseurs passant généralement beaucoup de temps à tester différents composants matériels afin de vérifier que le système fonctionne comme il se doit. Les petites et moyennes entreprises, en revanche, sont souvent plus enclines au bricolage et peuvent considérer comme assez logique, d’un point de vue pratique, de mélanger disques durs neufs et existants. C’est exactement ce que nous avons fait pour cet article.

Une technologie de plus en plus importante

Bien que le prix des disques durs ait considérablement baissé ces dernières années, les coûts de stockage représentent toujours une part appréciable du budget informatique des entreprises, les données à traiter devenant de plus en plus nombreuses et volumineuses. Lorsqu’on passe de l’organisation de simples données personnelles à la gestion de gros volumes d’informations professionnelles, les divers paramètres que sont la redondance, les performances, la fiabilité, l’évolutivité, la facilité de gestion et enfin le prix des composants finissent par former une équation passablement complexe. De nos jours, les grappes de stockage basées sur la technologie RAID sont un élément clé de tout système stratégique, où la fiabilité et la capacité à éviter toute interruption du service sont des critères essentiels.

Une pléthore de choix

En matière de RAID, les choix sont innombrables, allant des grappes les plus simples aux systèmes redondants les plus complexes. La première décision porte sur le type de RAID : matériel, avec une puissante carte contrôleur spécifiquement prévue à cet effet, où logiciel, qui fait appel au CPU pour les calculs de parité ? Vient ensuite le choix de l’interface : celle-ci peut être le SAS (Serial Attached SCSI, l’évolution moderne et en série du SCSI) ou le plus classique SATA (Serial ATA). Il est à noter que les contrôleurs SAS professionnels prennent en charge à la fois les disques SAS et SATA, tandis que les contrôleurs SATA ne gèrent que les disques SATA. Ces premiers choix effectués, il faut ensuite décider si vous souhaitez brancher les disques en interne ou en externe, via l’interface eSATA ou à l’aide de modules d’extension SAS et de câbles multilignes. Il y a ensuite les possibilités d’installer des disques de rechange (dits « hot spares »), d’utiliser ou non la mémoire cache du contrôleur ou encore de protéger le contenu de celle-ci à l’aide d’une batterie de secours.

On le voit, les possibilités sont infinies. Par conséquent, l’un des moyens que les administrateurs emploient fréquemment pour réduire la complexité des systèmes RAID est d’employer des disques durs identiques. Pour des raisons de performances, ce caractère identique va généralement jusqu’à la version du firmware utilisé.

Nous ne pouvons qu’approuver cette recommandation pour les grappes RAID hautement optimisées et utilisées pour des applications très spécifiques, où il est effectivement crucial de bénéficier de performances maximales. Toutefois, comme nous sommes curieux, nous avons voulu quantifier avec précision la différence de performances entre une grappe homogène et une grappe hétérogène : à cet effet, nous avons créé un système RAID composé de quatre disques identiques (Samsung 320 Go en SATA), et un autre constitué de deux Samsung, d’un Seagate et d’un Western Digital.

RAID ou ne pas RAID ?

Telle est la question…

Bien que l’intégration des commandes RAID de base dans une bonne partie des chipsets modernes ait pratiquement fait de la création d’une grappe RAID 0 ou RAID 1 un jeu d’enfant (la majorité des chipsets AMD, Nvidia et Intel milieu et haut de gamme prennent en charge ces deux niveaux de RAID), il est toujours important de se demander si l’utilisation de cette technologie a réellement un sens. Du point de vue de la sécurité, il y a effectivement une différence de taille entre faire appel à une solution de stockage redondant et effectuer régulièrement des sauvegardes afin de protéger ses données des mauvaises manipulations, fussent-elles accidentelles ou volontaires, ainsi que des catastrophes naturelles (ou non) que sont les surtensions, les incendies, les inondations, les tremblements de terre, etc. Le RAID, acronyme de Redundant Array of Independent Drives, ne peut en aucun cas constituer une alternative aux sauvegardes : il ne sert qu’à accélérer le traitement des données ou à les stocker de manière redondante afin de rendre le système résistant aux pannes de disques durs. Il ne vous protège pas pour autant des catastrophes : le RAID n’empêchera pas un utilisateur de modifier ou de supprimer par erreur des données essentielles, ni l’un des événements susmentionnés de détruire l’ensemble de votre patrimoine numérique en l’espace d’une seconde. Il est par conséquent toujours essentiel de sauvegarder régulièrement vos données sur un support indépendant, le stockage redondant ne constituant qu’une deuxième étape : une fois votre stratégie de sauvegarde mise en œuvre (et testée, car une sauvegarde n’est utile que si la restauration fonctionne !), vous pouvez commencer à penser au RAID.

Oui, mais lequel ?

Tout système devant être disponible 24 heures sur 24 doit être installé sur un volume entièrement redondant. Pour ce type d’utilisation, il apparaît avec l’expérience que le RAID 1 constitue bien souvent la meilleure solution, le contenu d’un premier disque dur étant reproduit en temps réel sur un deuxième. Si l’un des deux tombe en panne, le système reste opérationnel. Contrairement aux autres niveaux de RAID, le RAID 1 n’a pour ainsi dire aucun impact sur les performances.

Le RAID 0, quant à lui, ne peut pas vraiment être considéré comme un véritable niveau de RAID, dans la mesure où il répartit les écritures entre tous les disques durs disponibles et n’assure donc aucune redondance des données.

Plus sophistiqués, les RAID 5 et 6 sont en pratique conçus pour gérer un nombre élevé de disques et permettent donc la création de grappes de grande taille. Ils assurent par ailleurs la redondance des données, respectivement simple et double : le RAID 5 crée un jeu de parité tandis que le RAID 6 en crée deux et tolère donc la panne simultanée de deux disques. Tous deux offrent une capacité de stockage supérieure à celle d’un RAID 1, étant donné que la grappe utilise la capacité totale de l’ensemble des disques la composant, moins un disque en RAID 5 ou moins deux en RAID 6. Cependant, ces deux niveaux de RAID nécessitent pour fonctionner un minimum de trois et quatre disques respectivement, et les calculs de parité nécessaires à la redondance des données requièrent une puissance de traitement assez conséquente : pour obtenir une solution RAID 5 ou 6 qui fonctionne de manière acceptable, il est indispensable d’opter pour un contrôleur rapide et un nombre de disques supérieur au strict minimum, car un RAID 5 uniquement composé de trois ou quatre disques durs est généralement moins rapide qu’un disque seul.

La meilleure approche consiste à vous poser la question suivante : dans quels cas ai-je besoin du stockage redondant de mes données, et quel est le niveau de RAID le plus adapté à ma situation, du point de vue de l’investissement à consacrer et des performances à obtenir ? Si votre système ne peut souffrir aucune interruption, le RAID est votre seule option. Dans les autres cas, le RAID n’est pas nécessairement exclu, mais des disques durs isolés, un accès aisé à des disques de rechange et une solution de sauvegarde sérieuse vous seront peut-être plus utiles.

Grappes de test

Nous avons opté pour des grappes composées de seulement quatre disques car il s’agit de la solution la plus fréquemment employée. Un nombre plus élevé accroît généralement les performances mais augmente aussi le risque théorique de pannes : avec six ou sept disques, la probabilité que l’un d’entre eux cesse de fonctionner est, forcément, plus importante. Nous avons également évité les disques de grande capacité, bien que des disques durs d’1 To soient aujourd’hui disponibles, et ce, pour des raisons purement pratiques : le temps nécessaire à la réalisation de la plupart de nos tests devient trop important lorsque nous utilisations des volumes de grande taille.

Nous avons effectué tous les tests en RAID 0 et en RAID 5 afin d’obtenir un aperçu des performances maximales atteignables ainsi que des performances lors de l’utilisation de la redondance.

Grappe RAID homogène

Pour la grappe homogène, nous avons employé quatre disques Samsung Spinpoint T166 HD321KJ : il s’agit de disques durs SATA/300 équipés de 16 Mo de cache et tournant à 7 200 tpm. Ce modèle est disponible dans une capacité maximale de 500 Go, mais nous avons employé la version 320 Go afin de mener à bien plus rapidement nos tests. Soit dit en passant, si vous décidez d’opter pour des disques de marque Samsung, nous recommandons plutôt les Spinpoint F1, plus rapides. Si votre intention est de créer un serveur équipé de disques SATA, nous vous conseillons plutôt d’utiliser un produit validé pour une utilisation en continu (24 heures sur 24, 7 jours sur 7), comme un Hitachi Ultrastar A7K1000, un Seagate Barracuda ES ou un membre de la gamme RAID Edition de Western Digital, par exemple. Tous ces disques sont à la base des modèles pour ordinateur de bureau, mais ayant subi des adaptations pour une utilisation en entreprise.

Grappe RAID hétérogène

Notre grappe RAID hétérogène est composée de deux des disques Samsung mentionnés ci-dessus, mais également de deux autres disques durs de 320 Go provenant de deux fabricants différents et dont les spécifications techniques divergent nettement : le troisième disque est un Seagate Barracuda 7200.10 ST3320620AS et le quatrième un Western Digital Caviar SE WS3200JD. À la différence des Samsung et du Seagate, ce dernier n’est pas composé de deux plateaux, mais bien de trois. Pour info, un Samsung Spinpoint F1 entasse 320 Go sur un seul plateau, d’autres disques sont limités à 250 Go par plateau, mais le WD a une capacité par plateau encore inférieure. Il ne fonctionne par ailleurs qu’en SATA/150 au lieu du SATA/300 et ne dispose que de 8 Mo de cache : toutes ces caractéristiques en font, paradoxalement, un disque idéal pour notre test, dont l’objectif est de recréer un scénario dans lequel sont utilisés trois disques totalement dissemblables.

Configuration de test

Matériel
Processeur(s)	2 x Intel Xeon (core Nocona) 3,6 GHz, FSB800, 1 Mo de cache L2
Carte-mère	Asus NCL-DS (Socket 604) Chipset Intel E7520, BIOS 1005
RAM	Corsair CM72DD512AR-400 (DDR2-400 ECC) 2 x 512 Mo, CL3-3-3-10
Disque dur système	Western Digital Caviar WD1200JB 120 Go, 7 200 tpm, 8 Mo de cache, UltraATA/100
Contrôleur(s) de disques	Contrôleur Intel 82801EB UltraATA/100 (ICH5) Promise SATA 300TX4 Promise FastTrak TX4310 Pilote 2.06.1.310
Carte réseau	Contrôleur réseau intégré Broadcom BCM5721 Gigabit Ethernet
Circuit graphique	Carte graphique intégrée ATI RageXL (8 Mo)

Logiciels de test
Mesure des performances	c’t h2benchw 3.6 PCMark05 v1.01
Performances d’E/S	IOMeter 2003.05.10 Test « Fileserver » Test « Webserver » Test « Database » Test « Workstation »

Logiciels et pilotes
Système d’exploitation	Microsoft Windows Server 2003 Enterprise Edition, Service Pack 1
Pilote de carte-mère	Intel Chipset Installation Utility 7.0.0.1025
Pilote de carte graphique	Pilote Windows par défaut

Disques durs employés

Pour cet article, nous avons utilisé trois modèles différents : un Samsung Spinpoint T166, un Seagate Barracuda 7200.10 et un Western Digital WD3200JD, chacun d’une capacité de 320 Go.

Fabricant	Samsung	Seagate	Western Digital
Gamme	SpinPoint T166	Barracuda 7200.10	WD Caviar SE
Modèle	HD321KJ	ST3320620AS	WD3200JD
Capacité	320 Go	320 Go	320 Go
Vitesse (tpm)	7200	7200	7200
Nb de plateaux	2	2	3
Interface	SATA/300	SATA/300	SATA/150
Cache (Mo)	16	16	8
NCQ	oui	oui	oui
Garantie	3 ans	5 ans	3 ans

Contrôleur RAID : Areca

Les contrôleurs de la gamme 1680ML d’Areca gèrent jusqu’à six disques et offrent un très bon débit ainsi que d’excellentes performances en E/S. Consultez notre dossier RAID pour de plus amples informations.

Taux de transfert en RAID 0 et 5

Taux de transfert en RAID 0 (grappe homogène)

Taux de transfert en RAID 0 (grappe hétérogène)

Taux de transfert en RAID 5 (grappe homogène)

Taux de transfert en RAID 5 (grappe hétérogène)

Avant de comparer plus directement les débits moyens obtenus, nous avons tout d’abord voulu considérer les courbes de débits dans leur ensemble. Pour constater que leurs formes restent similaires entre elles, mais également à la courbe de débit d’un disque 3.5″ classique pris seul : pas de surprise à ce niveau là, les diamètres extérieurs de chaque disque restent utilisés en priorité, et le débit ne fait donc que décroître (alors qu’il pourrait être constant avec une gestion plus intelligente, même si le débit moyen ne changerais pas). On note tout de même la présence de quelques pics et paliers supplémentaires sur la courbe de la grappe hétérogène.

Temps d’accès, débit du cache

Temps d’accès moyen

C’est donc au niveau du temps d’accès moyen que les différences semblent les plus importantes, avec une dégradation de 54 % du temps d’accès en RAID 0 avec la grappe hétérogène par rapport à la grappe homogène, et de 44 % en RAID 5. Dans ce dernier mode, l’écart relevé ne vient pas de la grappe hétérogène qui obtient logiquement le même temps d’accès qu’en RAID 0, mais d’une légère dégradation du temps d’accès obtenue par la grappe homogène en RAID 0.

Débit du cache

Rien à signaler en revanche au niveau du débit maximum relevé au niveau de l’interface. Il ne change ni entre le RAID 0 et le RAID 5, ni en passant de la grappe homogène à l’autre, et est même en très légère augmentation avec cette dernière, ce qui peut provenir d’un débit du cache supérieur pour les deux disques remplacés.

Débit en lecture et écriture

Débit en lecture

En RAID 0, le débit moyen de la grappe homogène se révèle 14 % supérieur à celui de la grappe hétérogène. Le résultat est très similaire en RAID 5, puisque l’écart est alors de 13 %. Une différence significative donc, mais forcément moins élevée qu’au niveau du temps d’accès, qui n’intervient pas ici puisque les données sont contiguës.

Débit en écriture

Sans vraie raison, l’écart augmente un peu au niveau des débits en écriture : il grimpe à 19 % dans les deux cas, la grappe homogène faisant un peu mieux qu’en lecture alors que dans le même temps la grappe hétérogène fait au contraire un peu moins bien que son score en lecture.

Serveurs / station de travail

Étonnamment et bien que reposant en grande majorité sur des accès aléatoires, les performances relevées sous IOMeter et simulant les scénarios d’utilisation serveurs et stations de travail montrent des différences encore plus faibles qu’au niveau des débits relevés en lecture ou en écriture. Ceci est particulièrement vrai dans le cas d’un RAID 0, mais mérite d’être nuancé dans le cas d’un RAID 5 : en cas de station de travail ou de serveur de fichiers et suivant le nombre de requêtes simultanées, les courbes de chaque grappe se croisent et dans certains cas rares la grappe hétérogène s’avère la plus performante.

Conclusion

Notre conclusion est assez simple : d’après les résultats de nos tests, la grappe RAID composée de disques durs différents fonctionne tout à fait correctement et offre des performances comparables, bien que le plus souvent un peu inférieures, à celles de la grappe homogène, toutes autres choses étant égales par ailleurs (ordinateur de test, contrôleur RAID, etc.). La différence la plus marquante s’est fait ressentir au niveau du temps d’accès, qui chute douloureusement avec la grappe hétérogène. Bref, cela fonctionne, bien même, mais seule la grappe composée de disques identiques est à même d’offrir des performances optimales, à savoir un faible temps d’accès, un débit élevé en lecture comme en écriture et de bonnes performances en entrées/sorties.

Lorsqu’on compare des systèmes RAID de même niveau (RAID 0 ou RAID 5), la différence de débit entre une grappe homogène et une grappe hétérogène est comprise entre 10 et 25 %. C’est conséquent si vous avez besoin de performances, mais pour un serveur de fichiers auquel seules quelques personnes ont accès et dont l’objectif premier est la redondance des données, cela peut être suffisant, surtout pour une petite entreprise.

Toutefois, dans la mesure où les premiers disques durs de 500 Go sont aujourd’hui disponibles à moins de 60 €, nous recommandons sans ambages la solution « propre » : non seulement les performances sont meilleures et plus constantes, mais le risque de pannes sera moins élevé, surtout si vous utilisez des disques optimisés pour le RAID et l’utilisation en continu.