Pregunta Algo se está quemando en la sala de servidores; ¿Cómo puedo identificar rápidamente qué es?


El otro día, notamos un terrible olor a quemado saliendo de la sala de servidores. En pocas palabras, terminó siendo uno de los módulos de batería que se estaban quemando en la unidad UPS, pero pasaron un par de horas antes de que pudiéramos averiguarlo. La razón principal por la que pudimos averiguarlo es que la pantalla del UPS finalmente mostró que el módulo necesitaba ser reemplazado.

Aquí estaba el problema: toda la habitación estaba llena de olor. Hacer una prueba de olfateo fue muy difícil porque el olor se había infiltrado en todo (sin mencionar que nos hizo marearnos). Casi equivocadamente inutilizamos nuestro servidor de base de datos de producción porque es donde el olor era más fuerte. Los signos vitales parecían estar bien (la temperatura de la CPU mostraba 60 grados C y la velocidad del ventilador estaba bien), pero no estábamos seguros. Dio la casualidad de que el módulo de batería que se quemó tenía aproximadamente la misma altura que el servidor en el bastidor y solo a 3 pies de distancia. Si esto hubiera sido una verdadera emergencia, habríamos fallado miserablemente.

Siendo realistas, las posibilidades de que el hardware del servidor real se esté quemando es algo bastante raro y la mayoría de las veces estaremos viendo al UPS como el culpable. Pero con varios bastidores con varios equipos, puede convertirse rápidamente en un juego de adivinanzas. ¿Cómo se determina de forma rápida y precisa qué equipo se está quemando? Me doy cuenta de que esta pregunta depende en gran medida de las variables del entorno, como el tamaño de la habitación, la ventilación, la ubicación, etc., pero se agradecería cualquier información.


448
2018-04-04 14:22


origen


@DeerHunter Bueno, gracias, Dios fue el final del día y había muy pocas personas en el edificio. Gracias por su crítica constructiva, y me aseguraré de informarle a mi supervisor qué vidas arriesgó al decidir mantener el sistema en funcionamiento. - Chad Harrison
@hydroparadise - alguien tiene que tener las agallas de decir "DETENER No estamos haciendo esto bien ". Si su supervisor no entiende las reglas de seguridad, no hay mucho que se pueda hacer, excepto hacer crecer un poco la columna vertebral y no inclinarse ante las ganas de cortar esquinas. - Deer Hunter
@DeerHunter: ¿Cuál sería la respuesta adecuada cuando huele algo que se quema? No hay humo visible, solo un olor a quemado. ¿Apaga el centro de datos completo, lo descarga por unas horas y luego enciende los servidores uno por uno hasta que vuelve el olor? Un pequeño centro de datos de 25 estantes podría tener 1.000 servidores para verificar, lo que representa un gran tiempo de inactividad para un "olor": el OP no informó humo visible ni fuego. - Johnny
@Johnny - Citando el OP: "toda la habitación estaba llena de olor. Hacer una prueba de olfateo fue muy difícil porque el olor se había infiltrado en todo (sin mencionar que nos hizo marearnos)" Respondiendo a su pregunta, sí, tiene que ventilar la habitación, y solucionar problemas sistemáticamente. Cualquier otra cosa es irresponsable. - Deer Hunter
Entonces, ¿los críticos del manejo del olor por parte de la OP sugieren que no hay diferencia en la urgencia entre un olor y un fuego / humo? Si huele algo que arde en su casa pero no ve humo y no oye la alarma, ¿lo lleva a usted y a su familia fuera de la casa y llama al 911? - trpt4him


Respuestas:


El consenso general parece ser que la respuesta a su pregunta viene en dos partes:

¿Cómo encontramos la fuente del gracioso olor a quemado?

Tienes el "Cómo" bastante bien clavado:

  • La "prueba de aspiración"
  • Busque humo visible / neblina
  • Camina por la habitación con una cámara térmica (IR) para encontrar puntos calientes
  • Verifique los paneles de monitoreo y dispositivos para alertas.

Puede mejorar sus posibilidades de encontrar el problema rápidamente de varias maneras: el monitoreo mejorado es a menudo lo más fácil. Algunas preguntas para hacer:

  • ¿Recibe la temperatura y otras alertas de salud de su equipo?
  • ¿Sus sistemas de UPS están reportando fallas a su sistema de monitoreo?
  • ¿Recibe alarmas de consumo de corriente de su equipo de distribución de energía?
  • ¿Los detectores de humo de la habitación están reportando al sistema de monitoreo? (y ¿Pueden ellos?)

¿Cuándo debemos solucionar los problemas en lugar de golpear el Interruptor Rojo Grande?

Esta es una pregunta más interesante.
Golpear el gran interruptor rojo puede costarle a su compañía una gran cantidad de dinero rápidamente: los comunicados de agente limpio pueden ser de decenas de miles de dólares, y los costos de interrupción / recuperación después de un apagado de emergencia (EPO, "abandonar la sala" ) puede ser devastador.
No desea dejar caer un centro de datos porque un condensador en una fuente de alimentación saltó e hizo que la habitación oliera.

Por el contrario, un incendio en una sala de servidores puede costarle a su empresa sus datos / equipos y, lo que es más importante, la vida de su personal.
Solución de problemas "ese olor a quemado divertido" nunca debe tener prioridad sobre la seguridad, por lo que es importante tener algunas reglas claras sobre la solución de problemas en condiciones "previas al disparo".

Las pautas que siguen son mis limitaciones personales que aplico en ausencia de (o además de) cualquier otro procedimiento / reglas claramente definidas; me han servido bien y pueden ayudarlo, pero podrían fácilmente ser asesinados o despedidos mañana, así que aplíquelos a su propio riesgo.

  1. Si ves humo o fuego, deja caer la habitación.
    Esto debería ser evidente, pero digámoslo de todos modos: si hay un incendio activo (o humo que indica que pronto lo habrá), evacue la habitación, corte el suministro eléctrico y descargue el sistema de supresión de incendios.
    Pueden existir excepciones (ejerza algo de sentido común), pero esta es casi siempre la acción correcta.

  2. Si está procediendo a solucionar problemas, siempre tenga al menos otra persona involucrada
    Esto es por dos razones. Primero, no quieres estar vagando por un centro de datos y, de repente, tienes un bastidor en la fila en la que estás caminando y nadie sabe que estás allí. En segundo lugar, la otra persona es su control de cordura en la resolución de problemas en lugar de abandonar la sala, y si hace una llamada para golpear el Interruptor Rojo Grande, tiene la ventaja de que una segunda persona esté de acuerdo con la decisión (ayuda a evitar los aspectos que limitan su carrera). de tal decisión si alguien lo cuestiona más adelante).

  3. Ejercer medidas de seguridad prudentes mientras solucionas problemas.
    Asegúrese de tener siempre una ruta de escape (un extremo abierto de una fila y una ruta despejada hacia una salida).
    Mantenga a alguien estacionado en la liberación de EPO / extinción de incendios.
    Lleve consigo un extintor de incendios (halón u otro agente de limpieza, por favor).
    Recuerda la regla # 1 arriba.
    En caso de duda, abandonar la habitación. Tenga cuidado con su respiración: use un respirador o una máscara de oxígeno. Esto podría salvar su salud en caso de incendio químico.

  4. Establece un límite y apégate a él
    Más exactamente, establecer dos límites:

    • Condición ("¿Cuánto peor voy a dejar que esto se ponga?"), Y
    • Hora ("¿Cuánto tiempo seguiré intentando encontrar el problema antes de que sea demasiado riesgoso?").

    Los límites que establezca también se pueden usar para permitir que su equipo comience un cierre ordenado del área afectada, por lo que cuando HACER extraiga la energía, no está golpeando un montón de máquinas activas, y su tiempo de recuperación será mucho más corto, pero recuerde que si el cierre ordenado se está demorando demasiado, es posible que deba dejar que algunos sistemas se bloqueen en nombre de la seguridad.

  5. Confia en tu instinto
    Si le preocupa la seguridad en cualquier momento, desactive la resolución de problemas y despeje la habitación.
    Usted puede o no abandonar la sala basándose en una sensación visceral, pero es prudente reagruparse fuera de la sala con seguridad (relativa).

Si no existe un peligro inminente, puede elegir traer al departamento de bomberos local antes de tomar medidas drásticas como una EPO o una liberación de agente limpio. (Pueden decirte que lo hagas de todos modos: su mandato es proteger a las personas, luego a la propiedad, pero obviamente son expertos en el manejo de incendios, ¡así que debes hacer lo que dicen!)

Hemos abordado esto en los comentarios, pero también puede resumirse en una respuesta: @DeerHunter, @Chris, @Sirex y muchos otros contribuyeron a la discusión


380
2018-04-04 14:29



Universidad fui a instalar un nuevo centro de datos. Implementaron un sistema altamente sofisticado de supresión de incendios / EPO. El equipo que estaba protegiendo era de millones de dólares y también estaba siendo utilizado para millones de dólares de investigación para la parte médica de la escuela. Obviamente, si fuera necesario, se presionaría el botón rojo, pero dicho esto si el botón rojo estaba golpe, simplemente restableciéndolo fue cerca de $ 200,000 dólares. Dólares del contribuyente puedes estar seguro de que si se presionara el interruptor cuando no era necesario, el tipo que lo golpeó ya no tendría trabajo. - Ryan
+1 para el sistema de amigos. Creo que es un poco chiflado que haya DC que utilicen el EPO para descargar también la supresión de incendios. Hay muchas situaciones en las que querrías EPO sin querer volcar el halotrón por todo el tipo electrocutado. Una EPO es un acuerdo serio pero no es un "destruir todo en el DC un poco" o al menos no debería serlo. Los muchachos en el DC deberían comprender el gran botón rojo y el sistema de extinción de incendios lo suficientemente bien como para sopesar el efecto de presionar el botón. Una EPO puede en realidad detener Un incendio y salvar el DC, por ejemplo. - chris
Una nota importante que no he visto mencionada es que la mayoría de las veces, cuando algo falla para emitir un olor a quemado, lo que sea que se queme extinguirse antes de que se detecte el olor. Y sin quemar nada fuera del equipo averiado. A veces, una pieza del equipo continuará ardiendo mientras tenga energía, pero si ve humo, debería ser posible identificar el equipo, reducir la potencia y ver si el humo se aclara pronto o empeora continuamente. - supercat
@ryan: Si presionar el gran botón rojo cuesta tantos dólares de contribuyentes, es de esperar que la persona responsable haya elaborado un plan para resolver incidentes menores con el departamento de bomberos local que no implique poner en peligro a los empleados. - Christoph
@ryan Eso me recuerda un informe televisivo sobre el CERN que vi recientemente: el equipo de la cámara y el reportero fueron realmente llevados a las entrañas del sistema y, en un momento dado, uno de los miembros de la cámara. casi presionó un botón rojo de emergencia con su mochila, lo que provocó ataques cardíacos al personal que piensa en los costos de reinicio ... - Hagen von Eitzen


Una cámara de imagen térmica podría hacer el trabajo y permitirle identificar dónde está el sobrecalentamiento. Un dispositivo como este le permitiría identificar también el origen de un incendio o la quema en una habitación llena de humo.


182
2018-04-05 04:59



Hoy en día, las cámaras térmicas se gastan mucho menos, y si está ejecutando una gran sala de servidores, es una herramienta que vale la pena tener. - rackandboneman
A T.I.C. no es tan caro y es muy útil en un centro de datos o en una sala de servidores grande. No solo en caso de problemas como cables o equipos sobrecalentados, sino también como detección preventiva o temprana de problemas, optimización de refrigeración, flujo de aire, etc. - ddalcero
Una pistola láser de temperatura, como éste, es una alternativa barata - MichaelHouse
Los electricistas @mfinni también suelen tener cámaras térmicas. (Una revisión de imágenes térmicas de nuestros paneles de distribución de energía cada año, o después de cualquier trabajo de cableado importante, era estándar cuando trabajaba en una empresa de alojamiento). - voretaq7
Una cámara térmica tiene limitaciones muy grandes: 1. El campo de visión puede impedir el uso 2. Su entorno puede ser muy denso. [Se verán grandes incendios pero no pequeños] 3. Se necesitará un promedio de temperaturas para determinar un umbral - monksy


No haces ninguna de estas cosas que se han dicho Abandona el entorno peligroso porque todo lo que se bombea a través de toda la sala es peligroso para su salud y puede dañar sus pulmones. Si hay un olor acre a algo que está ardiendo en la habitación que no puede encontrar, llame al (911 | 112 | 999 | cualquier número de emergencia que corresponda a su jurisdicción) y deje que el fuego (compañía | departamento | brigada) lo resuelva mientras Estamos en el aire embotellado.

Partes de la computadora contienen todo tipo de productos químicos interesantes, incluyendo mercurio, cadmio, dirigir, y un montón de plásticos en tripas. Tenga en cuenta que todos los enlaces que hice explican cómo las exposiciones de bajo nivel pueden causar daños duraderos o incluso una muerte rápida. Este es un entorno que puede ser Inmediatamente peligroso para la vida y la salud..

... así que realmente, si algo se está quemando, no pase horas olfateando los humos. Si no puede identificarlo y actuar de inmediato para contenerlo, salga.


137
2018-04-04 14:27



Debe agregarse que si esto sucediera en un centro de datos "real" con detectores de humo integrados con el aire acondicionado y un sistema de extinción instalado, las alarmas de incendio se habrían apagado y la habitación se sellaría e inundaría con argón o CO2 automáticamente, por lo que ni siquiera se podía pensar en correr y oler equipo. - the-wabbit
@ syneticon-dj Esto depende de la tipo de detectores instalados. Los detectores de ionización podrían haber disparado la extinción de incendios, pero he trabajado en (y actualmente tengo equipo en) lugares que tienen detectores ópticos de humo: requieren humo visible (o al menos una buena neblina) antes de que se disparen. - voretaq7
Ojalá pudiera aumentar esto más. A riesgo de ser controvertido, el "bombero profesional" es el único camino a seguir. - Iain
Sí, como antiguo bombero, no me quedaría allí sin mi equipo. Incluso cuando un incendio está apagado, estamos entrenados para permanecer empaquetados debido a los gases venenosos. ¡Si yo llamara a los profesionales, tú también deberías! - Jeff Ferland
@Michael los diseños que he visto no dependían de los detectores de humo del techo, sino que tenían detectores fotoeléctricos en el flujo de aire de retorno. La única vez que lo he visto disparar fue durante una rutina de prueba donde el sistema de argonita se separó y se colocó una fuente de humo en uno de los armarios. Funcionó como yo esperaría que funcione. Afortunadamente, nunca tuve que lidiar con incendios reales. - the-wabbit


Si tuvo una supervisión adecuada en el UPS (generalmente a través de SNMP), la propia unidad debería haber sonado el timbre de su sistema de supervisión. Si no fue así, hable con su vendedor acerca de eso. Funcionó mal o su sistema de monitoreo no está configurado correctamente.

Si algo activo realmente se está quemando, debería estar quejándose de alguna manera, o simplemente estar fuera de la red, lo que también debería causar una alarma.

Si es algo así como un riel de energía real que se quema a través del aislamiento, y no está en una PDU inteligente, entonces volvemos a su pregunta original, que es "¿cómo puedo encontrar algo que se quema?" Y creo que la respuesta correcta es "Dale al EPO y resuélvelo. Tus servidores de producción probablemente no son lo suficientemente importantes como para arriesgar vidas".


76
2018-04-05 10:49



¿Qué significa EPO? - Midhat
Apagado de emergencia ... el gran botón rojo que corta toda la energía de la habitación. Principalmente para cuando está en llamas. - Grant
Un enfático +1, habría votado +1,000. Pulse el botón, evacuar, esperar, ordenar las cosas más tarde. Hacer los negocios como de costumbre con el fuego y el humo presentes (y tratar de solucionar cualquier problema) es uno de los peores errores que un ingeniero puede cometer. - Deer Hunter
@chris Tengo que discrepar respetuosamente en "EPO, Leave, Wait": activar el lanzamiento de EPO y / o de agente limpio para una sala llena de equipos de producción puede ser lo que más nos gusta llamar un Carrera que limita el movimiento. Si no hay un activo, visible El fuego o rastro de humo proveniente de algún equipo que realiza una investigación inicial suele ser lo correcto. Por supuesto, debes estar absolutamente preparado para salir corriendo de la habitación mientras presionas los botones rojos apropiados en cualquier momento de tu investigación. - voretaq7
Es probable que incluso un sistema de monitoreo perfecto no haya captado esto hasta el mismo momento en el que el panel de UPS dijo "Reemplazar módulo", lo que se dice es que usted desea que su sistema de monitoreo le llame la atención. La próxima vez que un módulo falle a las 19:30 un viernes, cuando no haya nadie cerca, y la alerta de monitoreo hará que regrese y resuelva el problema antes de que se convierta en una emergencia de pleno derecho. Si puede vincular el monitoreo a su FACP, sus sensores de humo y / o calor pueden incluso advertirle sobre la quema de aislamiento de los rieles eléctricos y similares. - voretaq7


Esta es una de esas situaciones donde

XKCD Die Hard sysadmin

No aplica, deberías llamar a un profesional.

Firefighter in protective gear

Cualquier otra cosa es simplemente estúpido.


43
2018-04-05 12:50



Esta es claramente la mejor respuesta. :) - Citizen
@Navin No tú no hacen eso los chicos del departamento de bomberos - Iain


Como alguien cuya carrera anterior fue como técnico electrónico, tengo experiencia con "olores ardientes" que no eran incendios. Esto no es raro.

No cerraría un centro de datos por un olor. El humo es otra cosa, algo realmente se está quemando (por lo general, pero un condensador de tantalio del tamaño de un chícharo también puede llenar una habitación con humo). Es sorprendente la cantidad de olor que puede producir un componente frito en una fuente de alimentación.

Un termómetro TIC o IR (una herramienta útil y mucho más barata que una TIC) no necesariamente lo mostraría, ya que el componente no genera mucho calor y está dentro de una caja. Pero revisa si los dispositivos no funcionan, usa tus herramientas de monitoreo. Para un olor así, el 95% del tiempo será una fuente de alimentación que afectará el rendimiento de todo el dispositivo.


40



+1, las fuentes de alimentación sopladas son comunes. En la mayoría de los centros de datos con altas tasas de flujo de aire, el humo es expulsado rápidamente y es difícil localizar la fuente del olor. Sin embargo, en una habitación pequeña, el olor puede ser bastante malo y puede extenderse rápidamente por toda la habitación. - Stefan Lasiewski


Me gustan las imágenes de IR o las respuestas del termómetro, pero quizás lo que también ayudaría es un "detector de olor" real. Después de todo lo que provocó tu precaución fue el olor. El humo, el calor, el IR, etc. son sustitutos.

Algo como este: from Shinyei . Personalmente nunca los he usado, ni siquiera he visto que se usen en un centro de datos. Pero al menos en teoría debería ser una herramienta ordenada. Si tienes el dinero para gastar en este gizmo eso es.

http://www.sca-shinyei.com/odormeter o http://www.intopsys.com/products/cyranose.html?gclid=CNXXzOrLs7YCFUws6wodViYApQ

Te da un olor fuerte, así como la clasificación. Por lo tanto, debe ser posible acercarse al olor. El diablo está en los detalles, por supuesto. Qué sensible es, enmascarando el olor de fondo espurio, etc.

Una ventaja sobre las mediciones puramente basadas en la temperatura es que a menudo el olor se produce en un punto o umbral muy anterior. O si el componente sobrecalentado está oculto por un cuerpo / cableado oculto, etc., es más fácil detectar las moléculas que escapan que un punto caliente de línea de visión.

Otra situación es un olor no relacionado con el calor. Hemos tenido una fuga en el circuito de enfriamiento antes y los olores del refrigerante también eran peculiares. Ni siquiera voy a entrar en el antiguo caso de un roedor muerto en los ductos. :)

Me sorprendió lo sensibles que son estos sensores. Aparentemente, el H2S / mercaptanos, etc. (culpables habituales) son detectables a niveles de sub ppm.

enter image description here


19