7
1 Las 14 consideraciones principales para abordar los riesgos de administración de instalaciones en centros de datos Para superar los retos operativos del centro de datos se requiere organización, planificación y enfoque Por Stephen Burgess Los gerentes de instalaciones de centros de datos enfrentan presiones enormes todos los días. El reto de operar una instalación compleja y siempre cambiante es considerable, dadas las crecientes exigencias de negocios y las presiones presupuestarias prevalecientes en la industria. Sin embargo, los gerentes de instalaciones exitosos de centros de datos siguen superando el reto constante. Uptime Institute ha compilado estas 14 consideraciones para la reducción de riesgos, que los gerentes de instalaciones de centros de datos pueden adoptar para identificar y minimizar los problemas que afectan a las operaciones. 1. Horas extras Las tasas sostenidas de horas extras del 10 % o más pueden provocar situaciones crónicas de trabajo excesivo y fatiga del personal, lo cual tiene una fuerte correlación con incrementos en las tasas de incidentes, incluidos cortes e incluso lesiones graves o pérdida de vidas. La asignación de personal apropiado a la instalación y la alineación correcta de las cargas de trabajo con las necesidades reales de la instalación es la mejor manera de eliminar las horas extras que inducen la fatiga crónica, maximizar la seguridad del personal y minimizar el potencial de cortes, ya que la mayoría de estos se deben a errores de los operadores. Intentar ahorrar dinero operando una instalación con muy poco personal es, potencialmente, la decisión más peligrosa, arriesgada y mala que puede tomar el propietario de un centro de datos, ya que el costo de las operaciones de la instalación es muy bajo con respecto al costo de la instalación y del activo de TI que apoya. 2. Repuestos críticos Garantizar la pronta disponibilidad de piezas de repuesto en caso de una pérdida de redundancia o disponibilidad de infraestructura es esencial para instalaciones de misión crítica, como los centros de datos. Estas piezas de repuesto críticas pueden almacenarse en el lugar o proporcionadas por proveedores. Cuando se depende de proveedores, debe aplicarse la debida diligencia para garantizar la disponibilidad de las piezas de repuesto requeridas. Esto puede estipularse en los acuerdos del nivel de servicio (SLA) de los contratos de servicio y mantenimiento en poder del propietario del centro de datos. El desarrollo de un inventario integral de piezas de repuesto críticas comienza con un análisis de fallas de punto único del diseño del centro de datos. La mayoría de los centros de datos de alta calidad no tienen puntos únicos de falla de alto impacto; en consecuencia, lo que resulta realmente importante es identificar qué fallas reducirían la redundancia.

Las 14 consideraciones principales para abordar los ... · Cuanto más realistas sean los simulacros de sitio, mejor. Los simulacros de sitio son una importante capacitación de repaso

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Las 14 consideraciones principales para abordar los ... · Cuanto más realistas sean los simulacros de sitio, mejor. Los simulacros de sitio son una importante capacitación de repaso

1

Las 14 consideraciones principales para abordar los riesgos de administración de instalaciones en centros de datosPara superar los retos operativos del centro de datos se requiere organización, planificación y enfoquePor Stephen Burgess

Los gerentes de instalaciones de centros de datos enfrentan presiones enormes todos los días. El reto de operar una instalación compleja y siempre cambiante es considerable, dadas las crecientes exigencias de negocios y las presiones presupuestarias prevalecientes en la industria. Sin embargo, los gerentes de instalaciones exitosos de centros de datos siguen superando el reto constante. Uptime Institute ha compilado estas 14 consideraciones para la reducción de riesgos, que los gerentes de instalaciones de centros de datos pueden adoptar para identificar y minimizar los problemas que afectan a las operaciones.

1. Horas extras Las tasas sostenidas de horas extras del 10 % o más pueden provocar situaciones crónicas de trabajo excesivo y fatiga del personal, lo cual tiene una fuerte correlación con incrementos en las tasas de incidentes, incluidos cortes e incluso lesiones graves o pérdida de vidas. La asignación de personal apropiado a la instalación y la alineación correcta de las cargas de trabajo con las necesidades reales de la instalación es la mejor manera de eliminar las horas extras que inducen la fatiga crónica, maximizar la seguridad del personal y minimizar el potencial de cortes, ya que la mayoría de estos se deben a errores de los operadores. Intentar ahorrar dinero operando una instalación con muy poco personal es, potencialmente, la decisión más peligrosa, arriesgada y mala que puede tomar el propietario de un centro de datos, ya que el costo de las operaciones de la instalación es muy bajo con respecto al costo de la instalación y del activo de TI que apoya. 2. Repuestos críticos Garantizar la pronta disponibilidad de piezas de repuesto en caso de una pérdida de redundancia o disponibilidad de infraestructura es esencial para instalaciones de misión crítica, como los centros de datos. Estas piezas de repuesto críticas pueden almacenarse en el lugar o proporcionadas por proveedores. Cuando se depende de proveedores, debe aplicarse la debida diligencia para garantizar la disponibilidad de las piezas de repuesto requeridas. Esto puede estipularse en los acuerdos del nivel de servicio (SLA) de los contratos de servicio y mantenimiento en poder del propietario del centro de datos. El desarrollo de un inventario integral de piezas de repuesto críticas comienza con un análisis de fallas de punto único del diseño del centro de datos. La mayoría de los centros de datos de alta calidad no tienen puntos únicos de falla de alto impacto; en consecuencia, lo que resulta realmente importante es identificar qué fallas reducirían la redundancia.

Page 2: Las 14 consideraciones principales para abordar los ... · Cuanto más realistas sean los simulacros de sitio, mejor. Los simulacros de sitio son una importante capacitación de repaso

2

THE UPTIME INSTITUTE JOURNAL

Por ejemplo, si un módulo de fuente de alimentación ininterrumpida (UPS) inesperadamente cambia a bypass estático, por lo general no hay pérdida de carga crítica; en cambio, el impacto es una pérdida de redundancia de la alimentación totalmente acondicionada respaldada por batería. La disponibilidad de un kit de piezas de repuesto críticas para la unidad UPS reduciría de manera considerable el tiempo dedicado en el nivel de redundancia reducida.

Un kit efectivo de piezas de repuesto críticas debe incluir cortacircuitos o conmutadores de transferencia automáticos/manuales/estáticos (ATS/MTS/STS). Para los cortacircuitos en particular, la necesidad de una pieza de repuesto crítica por lo general se revela durante el mantenimiento programado, por ejemplo, durante el mantenimiento cada tres o cinco años e inspecciones que utilizan pruebas de inyección primaria. Esto es de particular importancia en las instalaciones más viejas, donde un cortacircuitos grande y costoso, o un ATS/MTS/STS, puede ser difícil de obtener, si es que es posible encontrarlo del todo.

Por último, la administración de inventario es esencial para mantener cualquier kit de piezas de repuesto críticas. El inventario debe incluir una lista de activos detallada, con controles robustos para asegurar la disponibilidad de las piezas (por ejemplo, certificaciones de cortacircuitos) y la reposición oportuna al tomar piezas del inventario.

3. Combustible diésel La disponibilidad y calidad del combustible diésel siempre es una preocupación. Los gerentes de instalaciones deben considerar lo siguiente:

• Proveedores. Para la mayoría de los centros de datos, deben existir contratos formales con un mínimo de tres proveedores locales. Estos contratos deben tener acuerdos de nivel de servicio bien definidos para garantizar tiempos y cantidades mínimos de entrega de combustible.

• Certificado de conformidad. A todo proveedor de combustible se le debe exigir que mantenga y cumpla con un certificado de conformidad para asegurar que el combustible entregado cumpla con el estándar ASTM D975. Debe incluirse texto adicional que prohíba la contaminación con biocombustibles (vea Los biocombustibles ponen a los generadores y la disponibilidad en riesgo, pág. 35).

• Calidad y pulido del combustible. Debido a que la mayor parte del combustible tendrá que almacenarse en el sitio durante largos períodos (incluso décadas), es necesario mantener la calidad del combustible. Los gerentes de los centros de datos deben pulir el combustible con regularidad (filtrado de varias etapas y circulación), probarlo, eliminar el agua y controlar los aditivos. Debe contratarse un laboratorio independiente especializado en combustible diésel para atender fenómenos como la estratificación y la autopolimerización, salvo que este servicio esté incluido en los contratos de servicio y mantenimiento del generador. La calidad del combustible puede mantenerse como sigue:

• Utilizándolo • Puliéndolo con sistemas instalados de manera permanente • Contratar a un proveedor para que lo pula en visitas al lugar, una vez por año o con mayor frecuencia • Contratar a un proveedor para que se lleve el combustible y lo reemplace por combustible fresco conforme

a la norma ASTM D975.

• Pruebas de aceptación. Todo combustible recibido en el lugar debe ser muestreado con herramientas tales como un extractor de muestras “bacon bomb”, tomando muestras a diversas profundidades después de que el camión de combustible haya estado estacionado durante 15 minutos o más para permitir que el combustible se asiente de modo adecuado. Deben realizarse pruebas clásicas, como la prueba visual de vaso de precipitado (“brillante y claro”) en toda entrega de combustible. Este escrutinio, más las muestras normales enviadas a un laboratorio independiente y los certificados de conformidad del proveedor del combustible, ayudarán a asegurar la entrega de combustible sin contaminantes y químicamente correcto.

• Tamaño correcto del filtro de combustible. Los errores más simples, como una especificación de filtración (tamaño en micras) incorrecta de los filtros de combustible, han causado algunas de las fallas más espectaculares de centros de datos. Los gerentes de los centros de datos deben aplicar un banco de carga a los generadores de motor con 100 % de carga para evitar la falta de combustible después de cambiar los filtros. Esto también valida la calidad del combustible.

4. Procedimientos de operación de emergencia (POE) Deben desarrollarse procedimientos de operación de emergencia para las diez condiciones anormales más probables y de mayor impacto. Estas son respuestas previamente aprobadas, totalmente redactadas, a condiciones anormales de alto impacto que de manera razonable podrían suceder.

Page 3: Las 14 consideraciones principales para abordar los ... · Cuanto más realistas sean los simulacros de sitio, mejor. Los simulacros de sitio son una importante capacitación de repaso

3

La mayoría de los centros de datos modernos no requieren una respuesta física a condiciones anormales imprevistas. El propósito real del POE es verificar el estado de la instalación, jerarquizarlo e informarlo. El otro propósito esencial de una biblioteca de POE bien desarrollados es asegurar que los operadores de la instalación no intenten ser héroes, lo que usualmente empeora la situación y puede poner en peligro al personal. La capacitación del personal para que siga los POE ayuda a evitar la respuesta de héroe. Los ocho POE esenciales son: • Pérdida del suministro eléctrico municipal • Pérdida del suministro de agua municipal • Activación de la alarma de incendio, incluso detección sostenida de nivel tres, tuberías con carga o evento de descarga de agente químico seco • Recuperación de la activación del apagado de emergencia • Pérdida de controles, PLC (control lógico programable) o automatización de sistemas mecánicos o eléctricos • Pérdida de flujo de agua enfriada • Falla de arranque del generador • UPS en bypass estático 5. Simulacros Los POE bien redactados significan poco si el personal de la instalación no está familiarizado con ellos. La mejor manera de mantener un alto nivel de preparación operativa es simular regularmente todas las situaciones contempladas por la biblioteca de POE del sitio. Estas simulaciones usualmente se conocen como simulacros de sitio. Cuanto más realistas sean los simulacros de sitio, mejor. Los simulacros de sitio son una importante capacitación de repaso que debe realizarse en todo centro de datos. En un centro de datos activo, por lo general hay muy poca oportunidad (o ninguna) de duplicar las condiciones de infraestructura reales que justifican el uso de POE. A muchos propietarios de centros de datos les inquieta la idea de desconectar de modo abrupto bombas, enfriadores, aparatos de aire acondicionado de la sala de cómputo y otros equipos con el propósito de activar alarmas del sistema de gestión de edificios (BMS), exigir que el personal las interprete y que ejerza los POE apropiados, con contadas excepciones, como las pruebas de desconexión programadas. Dada esta limitación, para un simulacro efectivo se requiere el uso de ayudas visuales y materiales de utilería para simular de modo seguro las condiciones anormales o el comportamiento de la infraestructura real. Por ejemplo, una combinación de impresiones de gráficos del sistema de gestión de edificios o del sistema de gestión de alimentación de emergencia (EPMS), enunciadores de paneles de conmutación u pantalla de interfaz hombre-máquina (HMI), con diversos letreros y marcas que puedan adherirse con cinta a pantallas de computadoras, paneles y equipo, puede ayudar a simular condiciones anormales previstas por la biblioteca de POE del sitio. El equipo de operaciones debe realizar el simulacro utilizando los procedimientos reales de la instalación. Esto produce un documento histórico más detallado que mide con exactitud el desempeño del simulacro. Todo simulacro realizado debe producir uno o más POE para la situación. Estos documentos deben archivarse y conservarse como capacitación formal para el sitio. La programación y realización de simulacros de sitio formales debe tener en cuenta las actividades de mantenimiento programadas, lo que significa que requiere ser totalmente visible para la gerencia de operaciones del centro de datos y recibir la aprobación del proceso formal de gestión de cambios y las políticas establecidas para controlar todas las actividades en el entorno de la instalación de centro de datos.

6. Una metodología de control basada en procedimientos Toda interacción con la infraestructura de la instalación de centro de datos debe efectuarse de conformidad con procedimientos previamente aprobados, detallados y plenamente examinados. Estos incluyen:

• Métodos de los procedimientos (MDP). Una actividad detallada y redactada para las tareas de mantenimiento preventivo y correctivo formalmente programadas y aprobadas. Lo ideal es que los MDP capturen todos los detalles del propósito del mantenimiento y de todas las personas involucradas en él. Un buen MDP tiene pasos muy detallados para realizar la actividad, con registros de tiempo, bloques de iniciales y campos de firma.

LAS 14 CONSIDERACIONES PRINCIPALES PARA ABORDAR LOS RIESGOS DE ADMINISTRACIÓN DE INSTALACIONES EN CENTROS DE DATOS

Page 4: Las 14 consideraciones principales para abordar los ... · Cuanto más realistas sean los simulacros de sitio, mejor. Los simulacros de sitio son una importante capacitación de repaso

4

THE UPTIME INSTITUTE JOURNAL

• Procedimientos operativos estándar (POS). Toda interacción rutinaria que comprenda un cambio básico de estado o de configuración de la infraestructura, por lo general para apoyar el mantenimiento planificado, debe controlarse mediante un POS bien redactado. Los POS comparten muchas de las funciones del MDP, como el registro de tiempo y los pasos anotados por el operador.

Muchos centros de datos requieren bibliotecas de procedimientos que contienen cientos de documentos. Una colección de documentos tan grande requiere una política formal que defina cómo se redactan estos documentos, revisan y aprueban formalmente para uso. Estas políticas también deben considerar los procesos y controles de modificación y formato. Por último, los POS y MDP no sirven de nada si no se siguen. Las desviaciones de los procedimientos es una de las principales causas de incidentes y cortes. Los técnicos experimentados de la instalación pueden volverse indiferentes y conformistas, sobre todo con la repetición de grandes evoluciones de mantenimiento. Por lo tanto, es esencial que la gerencia exija un estricto cumplimiento de los pasos de todos los procedimientos y que brinde capacitación para asegurarse de que se entiendan los procedimientos. 7. Programa de seguridad Toda instalación o cartera debe tener un programa de seguridad que cumplan con la autoridad local competente (AJ/ALJ). Un programa actual que cumpla con la norma NFPA 70E es particularmente importante para los centros de datos (la OSHA se somete a la NFPA 70E para seguridad eléctrica en el trabajo). Esto incluye un kit completo de equipo de protección personal (EPP) totalmente probado y el kit de bloqueo y rotulado (LOTO) asociado para el aislamiento de energía peligrosa en fuentes eléctricas y mecánicas. Los programas de seguridad totalmente formalizados y que cumplen con la AJ/ALJ comprenden la redacción de varias definiciones, políticas y procedimientos que definan de modo explícito cómo se gestiona y administra la seguridad en la instalación. 8. Estudio de coordinación de cortocircuitos (ECCC) y evaluación de arco eléctrico Una instalación debe tener un ECCC y una evaluación de peligro de arco eléctrico asociado, con etiquetas de arco eléctrico adheridas en todos los lugares correctos del entorno. Debe verificarse que todos los cortacircuitos tengan configuraciones de disparo de unidad ajustadas a los valores recomendados en el ECCC. 9. Sistema de monitoreo de baterías De manera análoga al combustible para los generadores de motor, una UPS no sirve de nada si las baterías no responden cuando el voltaje de entrada de la UPS desaparece o sale de los límites de tolerancia (pérdida del suministro eléctrico de la ciudad o problemas graves de calidad del suministro). La mejor manera de tener una confianza absoluta en las baterías de la UPS es mediante el uso de un sistema de monitoreo de baterías que brinde funciones de estado en tiempo real y capacidades de mantenimiento predictivo con alarmas asociadas. Si no existe un sistema de monitoreo de baterías, deben realizarse inspecciones trimestrales de las baterías usando herramientas estándar de la industria. Esto es especialmente importante para baterías de ácido-plomo reguladas por válvula (VRLA) con malla de fibra de vidrio absorbente (AGM), ya que las celdas por lo general fallan en posición abierta. Una celda abierta en una cadena de 40 unidades hace que toda la cadena sea inservible. Los datos en tiempo real provistos por los sistemas de baterías actuales no solo validan la disponibilidad de la planta de baterías, permiten medir con gran exactitud su capacidad y el período razonable de reemplazo por fin de vida útil, típicamente prolongando la retención de las baterías de tipo VRLA en un 25 % o más. Esta extensión de la utilización de las baterías representa un aplazamiento importante de un costo operativo, dado que el valor de muchas instalaciones de baterías de centros de datos asciende a millones de dólares. Las baterías de repuesto deben comprarse del mismo lote que las baterías instaladas y conservarse en las mismas condiciones ambientales y de carga que aquellas conectadas a la UPS, de modo que los repuestos envejezcan y se degraden al mismo ritmo que las baterías en uso. De esta manera, si una batería desarrolla una resistencia interna inaceptablemente alta y es necesario cambiarla, la batería de repuesto tiene características funcionales similares o casi idénticas a la de otras baterías en la cadena. Esto asegura que no haya alteraciones ni desequilibrios en el voltaje de carga aplicado a otras baterías de la cadena. Idealmente, el sistema de monitoreo de baterías debe abarcar las baterías de repuesto de la UPS y las baterías utilizadas para encender los generadores de motor. El uso de mantenimiento en tiempo real basado en el estado, en lugar de reemplazo habitual a intervalos de tiempo, aumenta la confianza en estas baterías. El uso de un sistema de monitoreo de baterías para estos componentes genera expectativas confiables de ellos, maximiza su utilización y reduce el mantenimiento.

Page 5: Las 14 consideraciones principales para abordar los ... · Cuanto más realistas sean los simulacros de sitio, mejor. Los simulacros de sitio son una importante capacitación de repaso

5

La implementación de un sistema de gestión de baterías de alta calidad no excluye las inspecciones físicas de la planta de baterías, las cuales deben incluir revisiones visuales de todas las conexiones de las baterías y la verificación del par de torsión de los sujetadores de los conectores. La combinación de un sistema de monitoreo de baterías e inspecciones físicas periódicas garantizará el máximo uso confiable de la planta de baterías de un centro de datos.

10. Capacitación La capacitación es un tema complicado que puede abarcar muchos componentes y actividades. El único currículo de capacitación formal en muchos centros de datos se relaciona con el cumplimiento corporativo (cómo ser un empleado de la empresa), no con actividades o conocimientos de las instalaciones. La razón de esto es que muchas instalaciones se basan en capacitación informal en el trabajo. Aunque esta estrategia es efectiva, significa que la formación de personal plenamente calificado depende de una gran cantidad de variables de calidad no documentadas, con el término “plenamente calificado” determinado de manera muy subjetiva. La capacitación informal en el trabajo también puede tener deficiencias en áreas clave, ya que es una estrategia, en gran medida, reactiva. Como mínimo, un programa y currículo de capacitación formal puede dividirse en dos categorías principales: preparación operativa y actividades planificadas. La capacitación incluye el dominio de la secuencia de operaciones de la instalación para los sistemas mecánicos y eléctricos, y la secuencia de operaciones de sistemas integrados, que abarca la manera en que todos los sistemas funcionan en conjunto. Esta capacitación por lo general comprende el estudio de las alarmas generadas por los controles, el sistema de gestión de edificios y el sistema de gestión de alimentación de emergencia para responder correctamente a ellas, lo que usualmente conduce al uso de un POE para las alarmas de impacto crítico. El estudio de las secuencias de operaciones de una instalación y las alarmas por los sistemas de monitoreo puede permitir que el personal responda de manera correcta a cualquier condición anormal en la instalación. La capacitación formal relacionada con actividades planificadas debe centrarse en cosas como el control de acceso, acompañamiento y supervisión de proveedores, y el uso de procedimientos para realizar lo que son, principalmente, medidas de mantenimiento preventivo. De este modo, la capacitación podría incluir una revisión de políticas, cursos y materiales centrados en el uso de procedimientos, dónde se encuentran los procedimientos aprobados, cómo escribir un procedimiento, el uso del sistema de gestión del mantenimiento, la base del programa de mantenimiento, la navegación por el BMS/EPMS y otros requisitos de presencia de turnos y rondas en el sitio.

11. Mantenimiento Un programa de mantenimiento de alta calidad mantiene el equipo como nuevo y maximiza su fiabilidad, desempeño y vida de servicio. Como mínimo, todo el equipo de activos mayores debe mantenerse conforme a las recomendaciones del fabricante del equipo original (OEM). La expansión de las consideraciones de mantenimiento para incluir lineamientos de ASHRAE, International Electrical Testing Association (NETA), National Electrical Manufacturers Association (NEMA), Institute of Electrical and Electronics Engineers (IEEE), National Fire Protection Association (NFPA), ASTM International y American National Standards Institute (ANSI), recomendaciones del ingeniero de diseño y recomendaciones del contratista autorizado mejora el estándar de mantenimiento de la instalación. Una vez totalmente informados, los contratos de servicio y mantenimiento pueden configurarse más allá de las recomendaciones conservadoras y en ocasiones excesivas de los fabricantes del equipo original. El mantenimiento debe efectuarse con los intervalos mínimos necesarios para mantener el equipo en buen estado, de modo que se minimice el funcionamiento anormal y se maximicen la eficiencia y la vida del activo, usualmente en forma mensual, trimestral, semestral o anual. Muchas veces, este intervalo puede ser menos frecuente que las recomendaciones del fabricante del equipo original, que tienden a ser excesivamente conservadoras. Dado que el mantenimiento programado por lo general comprende una manipulación directa del equipo, las instalaciones deben estar atentas a “fallas inducidas por mantenimiento”, un fenómeno asociado con interacciones innecesarias con el equipo que incrementan el potencial de errores humanos e incidentes. La frecuencia mínima de interacción con el equipo debe ser el nivel de interacción que capture su estado y mantenga al activo en condiciones como nuevas. Toda frecuencia mayor es excesiva, no ofrece ningún beneficio real para el equipo, consume recursos de personal y aumenta el riesgo de incidentes. En un caso, un centro de datos con 100 grandes unidades de manejo de aire (AHU) determinó que las inspecciones de mantenimiento preventivo mensuales o trimestrales no tenían un beneficio real, así que se eliminaron del calendario de mantenimiento y se reemplazaron por inspecciones semestrales mejoradas que mantenían el equipo en condiciones como nuevas, pero reducían en gran medida la carga de trabajo y la interacción innecesaria con el equipo, permitiendo aprovechar mejor los recursos en otros lugares del entorno.

LAS 14 CONSIDERACIONES PRINCIPALES PARA ABORDAR LOS RIESGOS DE ADMINISTRACIÓN DE INSTALACIONES EN CENTROS DE DATOS

Page 6: Las 14 consideraciones principales para abordar los ... · Cuanto más realistas sean los simulacros de sitio, mejor. Los simulacros de sitio son una importante capacitación de repaso

6

Hoy en día, la industria utiliza varias metodologías de mantenimiento dominantes, y la mayoría de los planes combinan el mantenimiento tradicional basado en el estado con operación hasta falla y mantenimiento predictivo. Por su enorme tamaño y los altos niveles de redundancia y resiliencia, en algunos centros de datos muy grandes resulta económico permitir que ciertas clases de activos funcionen hasta que comiencen a presentar una degradación en el desempeño, momento en el que puede realizarse el mantenimiento para restaurar el estado operativo normal. Estas estrategias deben considerarse con cuidado para garantizar el manejo apropiado de los riesgos. A final de cuentas, las metas de cualquier plan de mantenimiento deben ser la eliminación de incidentes causados por el comportamiento anormal del equipo o por una interacción excesiva con el equipo, empleando el método más económico. Debe evitarse el mantenimiento diferido, o la omisión de mantenimiento por cuestiones de programación o de recursos, en particular cuando el aplazamiento es consecuencia de una oposición al mantenimiento intrusivo o de reducción de redundancia por parte de la organización de TI. A la larga, el aplazamiento de mantenimiento importante puede ser contraproducente. Es necesario registrar todo el mantenimiento diferido, darle seguimiento y comunicarlo a los accionistas del activo de TI para garantizar que reciba la visibilidad gerencial y resolución apropiada. Los programas de mantenimiento predictivo, como el escaneado infrarrojo de sistemas de distribución de energía, el análisis de vibración de conjuntos giratorios y el análisis de aceite lubricante, son maneras poderosas de obtener advertencias anticipadas de una posible degradación del equipo. El mantenimiento predictivo puede capturar los problemas potenciales en las primeras etapas, mucho antes de que comiencen a afectar el desempeño del equipo crítico. La clave del mantenimiento predictivo es crear una base de referencia del equipo y luego trazar la tendencia de los datos recopilados para detectar tasas inusuales de incremento de los indicadores de degradación en el estado. Un programa de mantenimiento bien formulado requiere un sistema de gestión del mantenimiento, o MMS. Un MMS efectivo contiene toda la información sobre los activos y la información de programación, aprobación y seguimiento necesaria para realizar todas las actividades de mantenimiento recurrente y correctivo. El MMS puede ser un archivo plano o estar basado en una computadora, y el principal beneficio de un sistema basado en computadora (CMMS) es el seguimiento y la administración de los recursos (horas del personal y órdenes de trabajo cumplidas a tiempo), acoplado a una base de datos relacional que puede acceder rápidamente a todos los aspectos de las actividades de mantenimiento programadas y registradas. Esté o no computarizado, un requisito clave de un MMS es la captura y el acceso al historial de mantenimiento por activo. Esto facilita la capacidad para determinar tendencias claras del mantenimiento por activo y satisfacer los requisitos de cumplimiento del acuerdo de nivel de servicio y las solicitudes de información de debida diligencia del cliente.

12. Control de acceso y supervisión de proveedores Solamente el personal autorizado debe tener permiso para acceder a las áreas de infraestructura crítica; por lo tanto, debe existir una política de control de acceso y algún tipo de sistema físico para controlar el tráfico a la instalación, con medidas para mantener las listas de acceso actualizadas y ejercerlas. Los proveedores deben ser evaluados, calificados y supervisados según el área y la actividad en la instalación. El método estándar para los proveedores es una supervisión completa más el cumplimiento formal de las reglas internas o políticas de la instalación, generalmente conocidas como reglas internas críticas de la instalación o del centro de datos, que enumeran y definen las actividades permitidas y prohibidas y qué hacer en caso de situaciones anormales o emergencias.

13. Secuencia de operaciones, prueba de sistemas integrados (PSI) y validación de panel de conmutación principal La mayoría de los sistemas automatizados normales de estado estable se verifican continuamente en cualquier centro de datos activo; sin embargo, muchas veces solo se presupone que la automatización más importante funciona. De modo específico, en el caso de una pérdida del suministro eléctrico municipal, muchos centros de datos son sometidos a un nivel de exigencia que no se ha presentado desde que se puso en marcha la instalación. Si a esto se le suma la falta de preparación como consecuencia de POE deficientes y la falta de simulacros, la pérdida del suministro público podría ser un momento crucial para el centro de datos.

La supervisión del mantenimiento con frecuencia pasa por alto la importancia de las inspecciones de mantenimiento preventivo del controlador lógico programable (PLC) del panel de conmutación, que incluye relés protectores, medidores de calidad del suministro, programación de ATS/MTS/STS, versiones de firmware y el PLC usado en configuraciones de panel de conmutación de generadores en paralelo. Además, la interacción del operador con la interfaz hombre-máquina y otras funciones de alto nivelo de anulación de modo normal pueden cambiar la configuración original pretendida de la automatización con el paso del tiempo.

Sin en una prueba de desconexión regular (o, como mínimo, anual), no puede validarse que la automatización y la prueba de desconexión en sí tengan el desempeño esperado. Muchos centros de datos se oponen a las pruebas de desconexión, pues los departamentos de TI y los clientes se resisten a ellas por la creencia errónea de que no se requieren y que los exponen a riesgos innecesarios.

THE UPTIME INSTITUTE JOURNAL

Page 7: Las 14 consideraciones principales para abordar los ... · Cuanto más realistas sean los simulacros de sitio, mejor. Los simulacros de sitio son una importante capacitación de repaso

7

Además de realizar una prueba de desconexión con regularidad, hay muchas revisiones rutinarias del entorno del PLC que deben realizarse con regularidad, como cualquier otro mantenimiento programado de activos de infraestructura mayor.

14. Gestión de cambios Debe establecerse un sistema robusto de gestión de cambios para cualquier actividad que cruce los criterios predeterminados de nivel de riesgo (NDR). El sistema de gestión de cambios debe incluir un proceso de revisión de formato basado en una matriz bien definida de NDR, que capture y clasifique en orden de importancia todas las actividades que pueden ocurrir en el centro de datos. Básicamente, toda actividad con potencial real de afectar el centro de datos debe programarse de modo formal y luego ser aprobada por personas responsables en las instalaciones de centro de datos y organizaciones de TI, antes de que puedan realizarse dichas actividades programadas.

Stephen Burgess es consultor de Uptime Institute Professional Services. El Sr. Burgess revisa y evalúa diseños, instalaciones y operaciones de centros de datos para la Tier Certification of Constructed Facility, la Tier Certification of Operational Facility y el M&O Stamp of Approval, además de enseñar el curso Accredited Tier Specialist.

LAS 14 CONSIDERACIONES PRINCIPALES PARA ABORDAR LOS RIESGOS DE ADMINISTRACIÓN DE INSTALACIONES EN CENTROS DE DATOS

UI