1+1+1+1+1 = 0.5: demostración práctica

Corría por allá el año 2009. Estaba yo de técnico de primer nivel en un sitio muy molón con un montón de gente muy profesional (léase conos).

En mi equipo éramos 5 personas: 3 técnicos de primer nivel, el jefe y la segunda del jefe (no sé bien qué hacía pero tenía carnet para pilotar avionetas que oye, mola un montón).

Como técnico hacía guardias: te dan un teléfono, un portátil y una 3G. Si te llega una alerta, te conectas y la arreglas. Si no te queda otra, te desplazas al sitio a solucionarla in situ. Dado que el sitio quedaba de lejos algo así como donde Rajoy se dejó la dignidad, ya imaginaréis que lo de desplazarse se hacía lo MÍNIMO posible.

El sistema de alertas era simple: un Nagios con un modem que te mandaba un SMS al móvil de guardia si la alerta era de una criticidad a partir de X. Nada complicado, la verdad. Aparte de un par de sustos para alguno cuando una vez configuré el mensaje "SE QUEMA LA OFICINA! ALERTA! ALERTA! CORRE!" para las alertas de temperatura, todo era bastante normal.

Total, que uno de los servidores, al que llamaremos CONOCON1, un buen día decidió fallar. Como era una cosa bastante antigua, no tenía acceso a la consola (ILO/IMM/etc) por red, y no me quedó otra que subir al CPD a reiniciarlo. Nada fuera de lo normal aparte de una tocada de huevos el sábado por la tarde.

La siguiente vez que me tocó guardia, CONOCON1 decidió que quería que fuera a verle y hacerle compañía otra vez.

Y la tercera. Y la cuarta. Y mis cojones... Así que, tras comprobar que no era al único al que le pasaba esto en la guardia y que el servidor quería que le fueran a cantar una nana todas las semanas, un fin de semana decidí no ir.

Me tocan las narices las empresas que confunden "guardia" con "servicio encubierto por mis huevos". Me explico: la guardia es para incidencias CRITICAS. Si se rompe un servidor, pues me jodo y lo voy a arreglar. Si se rompe cada semana, lo saben, y no hacen nada para arreglarlo porque ya se joderá el de la guardia, pues de pronto me da un dolor de cabeza terrible en el codo derecho que me impide pisar el acelerador con el huevo izquierdo y entonces el coche no sube la rampa hasta el CPD. Total, que va a ir su pura madre.

Llegó el lunes y el servidor estaba triste y afligido porque nadie lo había ido a visitar. Me preguntaron por qué (oh blasfemo que has osado ignorar la guardia!!) y expuse la situación. Al día siguiente me tocaba por las tardes, y por lo visto se había montado un comité de emergencia crítica sobre el servidor que ríete tú de la prima de riesgo, de su madre y de la Merkel de paso. Estaban los otros dos técnicos, nuestros 2 jefes (de 5 que éramos 2 eran jefes? joer es que aún se me hace raro xD) y el director de la oficina.

Total que llego y un compañero me cuenta emocionado (en serio, es que le brillaban los ojos y todo a la criatura):

- Hallo, Hallo! Que nos hemos reunido y ya sabemos lo que hay que hacer con CONOCON1!!
- Habrá que arreglarlo y tal, no? - o matarlo por piedad: era un puto pentium III que suplicaba dejar de sufrir.
- Nono, pero mientras lo arreglan - claro, corriendo los veo para repararlo o cambiarlo - mira, de momento cuando llegue una alerta de que CONOCON1 está COLGADO (esto lo pongo yo en mayúsculas para dejarlo claro: se quedaba FRITO) tenemos que mirar si hay cargas para producción ese fin de semana. Si no las hay nos olvidamos, pero si las hay no quedará otra que subir a reiniciarlo.

Aquí me flipé un poco con la claridad de ideas. Vale, el server era viejo y no tenía ILO por red, la consola era por puerto serie. En serio a NADIE se le había ocurrido conectar un cable serie al servidor de al lado? al menos podría conectar por VPN a este y reiniciar CONOCON1 por consola en remoto. Es que ni eso oiga.

Pero lo peor estaba por venir. Se me ocurrió preguntar lo lógico (ahora ya no hago estas cosas):

- Y cómo sabemos si hay cargas de producción o no?
- Pues mira muy fácil, lo miras en la interfaz web. La URL es ESTA: http://CONOCON1:8080/xxx/xxx/xxx - aquí mi cara fue un poema.

...
...
...

- ahm...oye... y si el servidor está colgado, cómo narices va a responder al puerto 8080???

Cinco personas. Cinco. Y entre los cinco hacían medio. Y tanta gente competente en el paro...

PD: dejé la empresa 4 meses después. La última vez que hablé con alguien de allí (en activo) debió ser año y medio más tarde que eso. Y, como ya imaginaréis, CONOCON1 seguía ahí y con los cuelgues cada poco.