Comme les données sont cruciales pour la plupart des opérations des entreprises, elles doivent être préservées, protégées et accessibles à tout moment. Les inspections périodiques des centres de données sont
très importantes pour assurer la fiabilité, la continuité et la durabilité des systèmes qu'ils abritent. En fait, ces inspections sont souvent demandées par des organismes financés par l'utilisateur comme l'Uptime Institute et/ou par des assureurs, qui ne veulent pas payer de dommages pour des données perdues à cause d'un équipement en panne.
Un outil important pour la réalisation d'inspections de centres de données est la caméra thermique, également appelée caméra infrarouge (IR). Le récit pas à pas suivant décrit comment utiliser une caméra thermique pour inspecter les systèmes d'un centre de données depuis la source électrique (un transformateur ou une sous-station) jusqu'aux racks de serveurs et tout ce qui se trouve entre, notamment le système critique de chauffage, ventilation et climatisation (HVAC).
Pourquoi utiliser la thermographie ?
Une caméra thermique affiche et peut stocker des images en deux dimensions des températures de surface d'un objet. En utilisant une caméra, vous pouvez facilement détecter des anomalies dans les températures de composants électriques ou mécaniques, des éléments qui sont plus chauds ou plus froids que des objets similaires dans le même environnement. Des composants en surchauffe indiquent habituellement un problème potentiel qui nécessite une maintenance avant qu'une panne ne se produise. Dans les centres de données, où un refroidissement est important pour éviter que les serveurs ne surchauffent, des surfaces inhabituellement froides peuvent également indiquer un problème, peut-être un déséquilibre dans le système HVAC qui nécessite une correction.
Non contentes de détecter facilement des températures comparatives de surfaces d'équipements, les caméras thermiques peuvent également enregistrer les températures de surface réelles. Cela aide à détecter des situations comme un transformateur ou un moteur en surchauffe, permettant de le réparer ou le remplacer avant une panne.
Lorsque les images thermiques révèlent des problèmes potentiels, capturez-les sur la caméra et téléchargez-les sur un ordinateur qui exécute des logiciels de rapport et d'analyse. En surveillant régulièrement les équipements et en tenant un « registre de suivi » thermique sur votre ordinateur pour comparaison à long terme, vous pouvez mieux détecter des relevés anormaux et des changements de tendance. Pour assurer la cohérence nécessaire pour une comparaison côte à côte, suivez un chemin de prélèvement pré-établi et balayez les mêmes objets ou zones chaque fois depuis les mêmes points de vue. Avec les enregistrements de réparations, les informations de tendance thermique donnent une trace de données documentée pour les assureurs, la direction et toute autre personne demandant confirmation d'un fonctionnement fiable.
Champ d'analyse
Dans un centre de données, les composants sont comme une série de dominos. Si l'un tombe, il emporte tous les suivants avec lui. Il est bon de « commencer par le commencement », à ce que le National Electric Code appelle « la source », habituellement un transformateur, peut-être une sous-station. Pour une séance d'inspection sensée, le système doit fonctionner et doit tirer une charge électrique aussi importante que possible. Plus il y a de courant qui circule dans les câbles, plus la quantité d'énergie thermique produite est importante, et c'est ce que « voit » une caméra infrarouge.
- Les transformateurs sont habituellement la propriété du fournisseur d'électricité, bien que parfois ils appartiennent au propriétaire du centre de données. Sur les transformateurs, vérifiez les enroulements secondaires et les serpentins. Regardez les bornes et les cosses (connexions vissées) « dans la boîte ». Recherchez les anomalies thermiques, c'est-à-dire les différences de température, ΔT, de composants similaires. Recherchez également les dommages physiques et débris qui pourraient interférer avec le fonctionnement du transformateur, et balayez-le pour trouver un déséquilibre de charge. Ce dernier est signalé par un ΔT entre les phases du circuit.
- De nombreux centres de données ont une autre source d'alimentation, pour la redondance. Cette seconde source peut être un autre transformateur du réseau électrique sur une grille différente ou un groupe électrogène de secours. Les autres sources d'alimentation doivent également être balayées et inspectées, pendant qu'elles sont utilisées et sous charge.
- Les groupes électrogènes de secours doivent être inspectés pendant qu'ils sont sous tension, avec tous les éléments en aval fonctionnant grâce à eux. Ici également, contrôlez les cosses et bornes et recherchez les dommages et les débris. Pour détecter les problèmes des systèmes de refroidissement ou d'évacuation, vous devrez enregistrer les températures réelles plutôt que d'observer les ΔT.
- Lorsqu'un commutateur de transfert fonctionne correctement, il détecte l'origine de l'alimentation (secteur ou de secours) et se commute sur cette source. Ne négligez pas ce commutateur pendant votre inspection, car s'il défaille, peu importe la qualité des procédures de maintenance en aval. Avec le courant circulant dans le commutateur de transfert, balayez-le et recherchez un point chaud qui pourrait signaler des connexions desserrées (par exemple, un couple ou une compression insuffisants sur une cosse ou borne).
- Le tableau principal est un gros boîtier avec de nombreux commutateurs. L'armoire abrite divers composants, notamment des barres omnibus, des connexions vissées et des douilles de fusibles. Recherchez les anomalies thermiques dans les connexions (y compris les connexions de bus), les bornes, les fusibles et les douilles de fusible. Recherchez également les déséquilibres, les dommages et les débris.
- Une ASI (alimentation sans interruption ou onduleur) est habituellement immédiatement en aval du tableau électrique. Lors de l'inspection d'une ASI, balayez les connexions d'entrée, les bornes et la section d'onduleur, où se trouvent des petits fusibles et condensateurs. Sous charge, utilisez votre caméra thermique pour contrôler la section batterie. Observez les bornes, boîtiers et circuits d'alimentation. Une cellule en mauvais état chauffe très rapidement sous charge. Après le balayage de la charge, balayez immédiatement les batteries non chargées. Des cellules en mauvais état refroidissent très rapidement lorsque la charge est retirée. Enfin, contrôlez le transformateur intégré (le cas échéant).
- Les Unités de distribution d'alimentation (PDU) sont en aval de l'ASI et sont habituellement situées à proximité des serveurs, auxquels elles distribuent l'alimentation. Normalement une PDU aura un tableau à disjoncteurs et parfois un transformateur. Pendant le balayage des PDU, observez les cosses et bornes, y compris les bornes du disjoncteur. Contrôlez visuellement les dommages et débris, et si une PDU n'est pas un modèle à courant direct, balayez le transformateur intégré.
- Les racks de serveurs deviennent de plus en plus compacts, ouvrant de l'espace pour davantage de serveurs dans les centres de données existants, mais ils demandent également de plus en plus de capacités d'alimentation et de refroidissement aux centres. En fait, la chaleur générée par les serveurs lame d'aujourd'hui a fait dire à des utilisateurs de caméras thermiques expérimentés qu'ils ne passaient plus autant de temps à balayer les racks de serveurs. La chaleur élevée rend la comparaison de températures difficile. Cependant, la caméra thermique est utile pour surveiller les multiprises et les alimentations électriques intégrées aux racks, ainsi que les connexions des câbles, prises et barrettes de connexion. Recherchez les surchauffes dues à des connexions desserrées et les prises desserrées ou tordues. Un balayage thermique peut également détecter les cordons rompus et les conducteurs rompus dans les câbles. Pour détecter ce dernier état, recherchez ce qu'on appelle « l'effet enseigne de barbier », dans lequel vous pouvez observer les différences thermiques des brins torsadés.
Vous devez également surveiller les zones où l'air entre et où la chaleur est expulsée des racks de serveurs, propulsée par des ventilateurs intégrés. Une caméra thermique et un appareil de mesure de température/flux d'air sont utiles pour surveiller l'efficacité du refroidissement par air. En général, vous pouvez 1) cartographier les modèles de refroidissement entrant, sortant et autour des racks de serveurs et 2) confirmer si le refroidissement est adapté ou non. Cette surveillance identifie le lieu où installer des panneaux perforés pour améliorer les plaques de circulation ou de blocage, afin d'éviter que l'air chaud n'entre dans les emplacements vides sur les racks non occupés. Ces stratégies aident de nombreux utilisateurs de centres de données à maintenir leurs serveurs à des températures suffisamment faibles pour ne pas perdre leur garantie.
- Les systèmes HVAC sont essentiels dans les serveurs de données à cause de la quantité de chaleur générée par des serveurs, en particulier la dernière génération de serveurs lame. Le système AC d'un centre de données est habituellement alimenté par un conditionneur d'air à deux blocs ou un système à eau glacée, qui maintiendra idéalement la température dans le centre entre 18 °C et 22 °C. De nombreux serveurs sont conçus pour s'éteindre automatiquement et de manière autonome lorsque leur température dépasse 23 ou 24 degrés.
Balayez les fusibles, bornes, cosses et les connexions à pince ou vissées. Contrôlez également la surchauffe des composants mécaniques qui signale un désalignement (dans les variateurs), un déséquilibre (dans les ventilateurs) ou une dégradation (dans les moteurs et paliers). Une image infrarouge révèlera également une fuite de produit réfrigérant s'il souffle contre l'armoire.
Les conditionneurs d'air à deux blocs et systèmes à eau glacée avec des tours de refroidissement ont des composants à l'intérieur ainsi que des composants à l'extérieur. Par exemple, le serpentin d'évaporateur d'un conditionneur d'air à deux blocs est habituellement dans le bâtiment alors que l'unité de condensation est à l'extérieur. Contrôlez le serpentin d'évaporateur pour voir s'il gèle, mais soyez conscient qu'il ne sert à rien de contrôler le système AC à l'intérieur si vous n'allez pas à l'extérieur. Il y a habituellement des fusibles et bornes (cosses) dehors, et, s'il y a une tour de refroidissement, il y a des moteurs. Utilisez votrecaméra thermique pour contrôler le flux et trouver les fuites dans les tours.
Premiers pas
Concernant la formation, Fluke recommande deux à trois jours de formation pour les utilisateurs de caméras haut de gamme. L'exploitation du matériel n'est pas la partie la plus difficile. Faire de bons diagnostics est l'aspect exigeant de l'imagerie thermique. Les clés du succès sont la collecte de données correctes, fiables et reproductibles, puis l'examen de ces données par une personne rompue aux systèmes électriques. Une telle stratégie vous permettra d'évaluer correctement les problèmes (s'il y en a) et de les corriger. Examiner correctement les balayages thermiques d'un centre de données nécessite une bonne formation, des connaissances techniques et une expérience pratique sur le terrain.
¹L'essentiel des informations de cette Note d'application est basé sur un entretien avec Paul Twite,utilisateur de caméras thermiques chez 24-7 Power, à Edina, Minnesota. Téléphone : 952-944-8900; Fax: 952-746-1958; Toll Free: 1-866-269-1767.
²Pour une discussion détaillée sur l'émissivité, veuillez lire « Émissivité : Comprendre la différence entre les températures infrarouges apparente et réelle », par L. Terry Clausing, P.E., ASNT Certifié NDT Niveau III T/IR. La Note d'application est disponible au téléchargement dans le Centre de traitement de la bibliothèque numérique Fluke, accessible sur www.fluke.com.