Pregunta El mejor accidente del administrador del sistema [cerrado]


Estoy buscando historias divertidas de accidentes de administrador de sistemas que haya tenido. Eliminar el correo electrónico del CEO, formatear el disco duro incorrecto, etc.

Añadiré mi propia historia como respuesta.


87
2018-05-13 21:00


origen


Ver también serverfault.com/questions/5066 - Zoredache
Esto realmente es más una encuesta que una pregunta. Esto probablemente debería estar configurado como wiki de la comunidad. - Zoredache
Sí, esto definitivamente debería ser una wiki de la comunidad. Sin embargo, en la intención de la pregunta, mi historia favorita es el correo electrónico de 500 millas: ibiblio.org/harris/500milemail.html - Aunque, obviamente, ese no fui yo. - Mihai Limbăşan
las 500 millas es simplemente maravilloso - Hubert Kario
Esto debería llamarse "peor accidente del administrador del sistema". - Rilindo


Respuestas:


Me divertí descubriendo la diferencia entre el comando linux "killall" (elimina todos los procesos que coinciden con el nombre especificado, útil para detener zombies) y el comando solaris "killall" (elimina todos los procesos y detiene el sistema, útil para detener el servidor de producción en la mitad de las horas pico y hacer que todos tus compañeros de trabajo se rían de ti durante una semana).


133
2018-05-13 23:20



He estado allí, hecho eso. Alias ​​el comando killall en las cajas solaris después de eso: alias killall = 'echo ORLLY?' =) - Commander Keen
También hay una diferencia importante en Solaris entre 'ifconfig -a4' (muestra la información de IPv4 de todas las interfaces) y 'ifconfig -a 4' (establece todas las interfaces a 0.0.0.4). - Zanchey
+1 "Ups, este viento está registrado en Solaris?" - Mark Harrison
@ Comandante, iba a votar su comentario, pero hay exactamente 42 upvotes en este mismo momento ... acabo de no podría. - Massimo
También, hostname -f en Linux imprime el nombre de dominio completo en Linux. En Solaris, establece el nombre de host para -f. - 200_success


Estaba a cargo de nuestro proxy web corporativo, que en ese momento era el producto de Netscape. Mientras jugaba en los formularios de administración (era una interfaz basada en web) había un botón grande (y juro que era rojo) que decía Eliminar base de datos de usuario. No hay problema, pensé. Vamos a ver cuáles son las opciones que me da cuando golpee eso. Seguramente habrá un aviso de confirmación si no hay opciones.

Sí, no hay confirmación. Sin opciones. No hay más usuarios.

Entonces, fui al Sr. Solaris Sysadmin y dijo que necesitaba desesperadamente una restauración de la cinta a la que respondió: "No hago una copia de seguridad de esa caja".

"Uh, ven otra vez," repliqué.

"No hago una copia de seguridad de esa caja. Está en mi lista de cosas para agregar a la rotación de copias de seguridad, pero todavía no he llegado a eso".

"¡Este servidor ha estado en producción por casi 8 meses!" Grité.

encogimiento de hombros, respondió. "Lo siento."


73
2018-05-14 12:26



Esta es definitivamente una historia para todas aquellas personas que se quejan de esos molestos "¿Estás seguro?" diálogos;) - MikeyB
No estoy realmente seguro de que debas ser quien esté gritándole ... - Mikeage
Esto no es realmente un accidente: presionó el botón Eliminar base de datos de usuario a propósito, vamos amigo ... - Wayne Koorts
Si, tienes razón. Presionar el botón no fue un accidente. En realidad, eliminar la base de datos fue la parte del accidente. Lo que sea... - squillman
Ese botón debería haber sido seguido por dos o tres indicaciones de confirmación. ¿Por qué es una característica útil para eliminar la base de datos del usuario? Culpo totalmente al programador que puso el botón ahí. Y el hecho de que la db no estaba respaldada. "El genio puede tener sus limitaciones, pero la estupidez no es, por lo tanto, discapacitada". (Attr a Elbert Hubbard). Construir con la suposición de que los humanos no son curiosos, los monos descuidados es simplemente construir un desastre. - Jared Updike


Hace muchos años, la empresa para la que trabajaba tenía un cliente que realizaba una copia de seguridad nocturna de su servidor NT 4.0 a un Jaz drive (como un disco zip de alta capacidad).

Configuramos un archivo por lotes, que se ejecutó como un trabajo programado durante la noche. Todas las mañanas recogían el disco de las últimas noches del disco y, antes de irse por la noche, insertaban el siguiente disco en la secuencia.

De todos modos, el archivo por lotes se parecía a esto (la unidad Jaz era la unidad F:) ...

@echo off
F:
deltree /y *.*
xcopy <important files> F:

De todos modos, una noche se olvidaron de poner el disco. El cambio a la unidad F: falló (no hay disco en la unidad), y el archivo por lotes continuó ejecutándose. ¿El directorio de trabajo predeterminado para el archivo por lotes? DO:. La primera vez que veo una rutina de respaldo. destruir el servidor del que estaba haciendo copia de seguridad

Aprendí algo sobre el administrador de sistemas (y el manejo de excepciones) ese día.

Jim

PS: ¿El arreglo? "deltree / y F: \ *. *".


66
2018-05-13 20:00



... tenemos que explicar que son las unidades Jaz? ¿Soy realmente tan viejo? - Spencer Ruport
Era una cosa de IOMEGA (¿recuerdas Zip Drives?) Era el hermano mayor de los Zip Drives, y era como un disco duro sin cabezas, solo las bandejas, que iba dentro de una caja de plástico con una pequeña ventana, y cuando se insertaba en la unidad, la unidad insertó los encabezados en él. Donde, como 1 o 2 GB, es caro y tiende a sobrecalentarse, por lo que no se recomendó dejar los cartuchos dentro del lector (esto lo dijo un antiguo jefe de IOMEGA) - Andor
Jeje, me gusta cómo se explica la unidad jaz en comparación con la unidad zip, tan muerta e irrelevante. - Luke
Si te hace sentir mayor, hay administradores de sistemas que nunca antes han visto a Deltree. - Joseph
He tenido que explicarle a muchos programadores que cuando intentas una operación que cambia un estado y, sin embargo, puede fallar y dejarte en el estado anterior, debes comprobar si tuvo éxito si vas a hacer algo peligroso. En caso de estar en el estado anterior. ¿Por qué tengo que explicar esto? - carlito


root @ dbhost # find / -name core -exec rm -f {} \;

Yo: "¿No puedes entrar? OK. ¿Cuál es el nombre de DB?"

Cu: "Core".

Yo: "Oh".


61
2018-05-13 18:31



y de ahí en adelante, el uso del comando 'archivo' se agregó al crontab de limpieza ... :) - MikeyB
Oh Dios mio.... - squillman
Oh dios mio ... wow Voy a hacer una nota mental de esto, así que nunca lo hago. - Glenn Willen


Me encanta la forma en que todos califican su historia con "cuando yo era joven / verde" como si nunca lo hicieran de nuevo. Los accidentes pueden suceder incluso a los profesionales más experimentados.

Mi peor momento es tan malo que todavía tengo palpitaciones pensando en ello ...

Teníamos una SAN con datos de producción. Crítico para la empresa. Mi "mentor" decidió ampliar una partición para liberar espacio en el disco. ¿Puedes ver hacia dónde se dirige? Dijo que el software SAN podría hacerlo en vivo, en horas de producción y que nadie lo notaría. Las campanas de alarma deberían haber empezado a sonar, pero estaban en silencio. Dijo que lo había hecho "muchas veces antes" sin problemas. Pero aquí está la cosa: ¡me consiguió hacer clic en el botón que decía "¿estás seguro?". Como era nuevo en la empresa, asumí que este tipo sabía de lo que estaba hablando. Gran error. La buena noticia fue que la LUN se extendió. La mala noticia fue ... bueno, sabía que había malas noticias cuando comencé a ver errores de escritura en el disco en la caja de Windows.

Me alegro de que llevaba pantalones marrones.

Tuvimos que explicar por qué 1 TB de datos había desaparecido a la hora del almuerzo. Ese fue un muy, muy mal día.

En realidad, es un buen principio: antes de que hagas algo sobre lo que tengas dudas, imagina tener que explicarle a la gerencia si algo sale mal. Si no puede encontrar una buena respuesta para explicar sus acciones, entonces no lo haga.


60
2018-05-13 18:22



+1 para el último párrafo: la técnica de "sentarse en tus manos", un minuto vital para la reflexión - Andy
Hay una cierta habilidad que obtienes después de trabajar con sistemas en vivo por un tiempo: una sensación de araña de lo que es peligroso y de lo que no. Al igual que hacer una pausa un segundo adicional antes de presionar retorno en un indicador de raíz, o asegurarse de que la instrucción de actualización de SQL tenga una cláusula adecuada (que ya se ha ejecutado en un recuento de selección (*)). - jplindstrom
Quiero una ventana emergente que diga algo como "¿Le gustaría imprimir su currículum antes de continuar?" .. y tener solo una opción: "si" - warren
+1 por el consejo del último párrafo. - Jeroen Huinink
+1, ídem. Recuerdo haber escuchado de un amigo del administrador del sistema que había habido problemas en su evaluación anual de desempeño sobre su pobre velocidad de escritura, que desechó (y correctamente) descartó con "No me pagan por escribir rápido. Me pagan por golpear la entrada muy lenta y pensativamente ". - MadHatter


Nagios nos llamó una mañana cuando el horario comercial comenzó a decir que no podía conectarse a un servidor no crítico. Ok, camina a la sala de servidores. Es un servidor antiguo, un Dell 1650 comprado en el '02, y sabíamos que la década de 1650 ha tenido problemas de hardware. El PFY apuñala el botón de encendido. Nada. Púlselo nuevamente y manténgalo presionado durante cinco segundos para "forzar el encendido" ... lo que anula la protección contra errores del BMC, ya que sin un DRAC no hay forma de examinar los registros del BMC sin tener encendido el chasis.

La máquina se inicia POST, y luego muere de nuevo. Estoy de pie encima de él y me voy, "Huelo humo". Sacamos el servidor en sus rieles, y una de las fuentes de alimentación se siente caliente, por lo que el PFY lo jala y está a punto de cerrar la caja de nuevo. Yo digo: "No, eso no es humo de suministro eléctrico, es humo de la placa base".

Volvemos a abrir el estuche y buscamos la fuente del olor a quemado. Resulta que una bobina inductora y un condensador algo explotó el regulador de voltaje en la placa base, y roció todo el cobre fundido y el condensador, cortando un montón de cosas y básicamente haciendo un gran desorden.

Lo peor para mí fue reconocer que había fumado suficiente hardware para reconocer la diferencia entre el olor de una placa base quemada y una fuente de alimentación quemada.


54
2018-05-14 14:49



Los criterios de selección de este trabajo incluyen: buen sentido del olfato. Brillante. - mlp
Un amigo mío atornilló un conjunto de rieles de transmisión en un disco hasta el punto de que entraron en la placa del circuito y lo cortaron. Humo bastante rosa Muy distinguible. - squillman


Hace tres días (en serio) inicié sesión de manera remota en un servidor de la escuela, instalando el Service Pack 2 en un servidor de archivos de Windows Server 2008.

Decidí programar el reinicio necesario para el final de la noche, cuando los maestros no iniciarían sus informes de fin de año. Escribí algo como:

 a las 23:59 "shutdown -r -t 0" 

... lo que podría haber funcionado bien.

Pero luego me lo adiviné. ¿Fue correcta la sintaxis de mi 'apagado'? Traté de ver la ayuda de uso escribiendo

 apagado / h 

... y al instante perdí mi conexión RDP. En pánico, golpeé a Google por la sintaxis. Una búsqueda rápida reveló que la versión Server 2008 de apagado incluye un interruptor / h, que (como puede haber adivinado) hiberna la máquina.

Los maestros empezaron a llamarme en cuestión de minutos para informar que ya no podían abrir o guardar las boletas de calificaciones en las que habían estado trabajando. Ya que estaba fuera del sitio y la sala de servidores estaba cerrada, tuve que llamar directamente al director de la escuela y guiarla a través del proceso de encendido de la máquina.

Hoy he traído galletas caseras para todos como una forma de disculpa.


47
2018-05-13 23:53



Un ejemplo perfecto del diseño defectuoso de la interfaz de usuario en la línea de comandos: ¿qué sucedió con el "Principio de la menor sorpresa"? - Mei
en DOS / Windows no es /? - Jared Updike
Por lo general es /? en Win, pero hay muchas utilidades que son portadas desde UNIX o escritas por personas de UNIX (incluidas algunas de ellas en MS) que son -h o / h - Richard Gadsden
..pero todavía SIEMPRE Prueba el /? ¡primero! - warren
Por eso me gusta Linux. man shutdown. Sé que no voy a causar problemas con man! - Josh