Origine, Structure et Evolution de la Biodiversité
UMR 7205 MNHN/CNRSAccueil du site > Ressources > Pôles techniques et méthodologiques > Grappe de calcul parallèle (cluster)
Grappe de calcul parallèle (cluster)
Les approches phylogénétiques sont des problèmes type NP-complet (Garey & Johnson, 1977). Les analyses intégrant un nombre raisonnable de gènes et de taxons représentent un véritable défi informatique puisqu’elles nécessitent des temps de calculs incompatibles avec les équipements informatiques classiques.
Actuellement, le traitement des données impose soit une limitation du nombre de taxons soit une limitation du nombre de descripteurs, deux solutions inacceptables pour le développement des problématiques de notre équipe. L’accès à un serveur de calcul extérieur n’est techniquement réalisable que pour des jeux de données et des approches déjà testées. Il devenait impossible dans le cas des mises au point liées aux développements et aux tests des méthodes qu’impliquaient les différents projets au sein de notre UMR (principalement phylogénétiques mais aussi certaines approches populationnelles).
De plus, se posent des problèmes de disponibilité et de puissance (certains calculs peuvent demander plusieurs semaines, voir plusieurs mois). L’obtention d’une hypothèse phylogénétique robuste et stable repose nécessairement sur un nombre élevé de taxons. Or, nos possibilités d’analyses sont désormais freinées non pas par l’acquisition des données mais davantage par les capacités de traitements de nos ordinateurs. Le développement des calculs scientiques sur des clusters est très attractif, mais encore peu d’équipes sont capables de développer et de maîtriser ce type d’outil.
L’expérience de C. D’Haese
durant son postdoctorat à l’AMNH (USA) a fournit une occasion unique de développer un supercalculateur modulaire
pour l’étude de la biodiversité en France. Les clusters de type Beowulf se situent entre les processeurs massivement
parallèles (tels les Crays) et les réseaux de stations de travail. Le projet Beowulf a démarré en 1994. Il s’agissait de
fournir un système de hautes performances comparable en puissance à un supercalculateur à partir d’éléments de PC du
commerce, et donc un système puissant, souple et économique. Une idée qui a très largement porté ses fruits, en
particulier au sein de la NASA et dans les milieux scientiques. Les avantages d’un cluster sur un supercalculateur
classique sont multiples :
le rapport puissance/prix est très favorable. Les grappes (’clusters’) de machines peuvent atteindre des performances
équivalentes à des supercalculateurs pour un coût d’un ordre de grandeur inférieur ;
les composants utilisés sont standards (typiquement des composant de PC de bureau), facile à remplacer et peu onéreux
la conséquence directe du point précédent est la facilité de mise à jour d’un cluster. Pour un coût minime, de nouveaux
noeuds peuvent être ajoutés, des composants remplacés pour avoir une machine qui reste optimale et concurentielle
le système d’exploitation Linux est parfaitement adapté aux calculs parallèles, stable, efficace et libre (gratuité et code
source disponible). Les mises à jour ne posent aucun problème technique ou financier ;
l’adéquation de l’architecture avec la nature des calculs à eectuer. Les analyses génomiques et phylogénétiques se
prêtent particulièrement bien à la division en petits sous-problèmes qui peuvent être traités par autant de processeurs
(multiples réplicats, simulations, bootstraps, réarrangements de branches etc).
Cyrille D’Haese a donc développé une grappe de calcul parallèle (cluster) dans le Département Systématique et Evolution du MNHN grâce à un financement St Gobain obtenu par Guillaume Lecointre (Pr MNHN). L’architecture actuelle comprend 17 noeuds, 2 Go Ram par noeuds + 6 Go de mémoire swap, 30 processeurs AMD à 64 bits pour les noeuds esclaves et 4 processeurs Xeon à 32 bits pour les 2 noeuds maîtres. Cette architecture va encore être mise à jour dans quelques semaines avec l’ajout d’un noeud bi processeurs dual core (4 processeurs) via un BQR obtenu par Raphaël Leblois plus 8 noeuds bi-processers dual core (soit 32 processeurs) via un projet ANR (Renaud Vitalis).
L’ensemble fait tourner un système d’exploitation Linux, avec une couche de queuing system via gridengine, et une parallélisation avec les librairie PVM et MPI. Logiciels de calcul disponibles sont POY, MrBayes, PhyML, MrAic etc..
Dans la même rubrique :
