Generalmente los servicios de tecnología se manejan con un SLA (Acuerdo de nivel de Servicio) donde uno de los indicadores más utilizados es el Uptime, es decir que porcentaje del tiempo estuvo el servicio activo.
Esta caída ha sido por un error al ingresar un comando, tal lo describe la web del servicio de Amazon.
Si bien el problema parece sencillo la pregunta es cómo uno podría evitar este tipo de errores.
Acá una serie de ideas:
- Capacitar al personal.
- Entrenar al personal.
- Verificar que el personal se encuentre en buen estado (sin sueño, sin stress, concentrado, etc).
- Los comandos críticos pedir que sean autorizados por otra persona (al momento que el comando es ingresado).
- Que las acciones críticas las tenga que autorizar un superior (al momento que se vaya a ejecutar el comando).
El futuro de la administración de sistemas tal vez nos traiga algunas soluciones ante este tipo de situaciones.. pero lo importante: siempre aprender de los errores.
No hay comentarios:
Publicar un comentario
Compartí tu comentario, es una forma de agradecer para que se sigan publicando más entradas. Se admiten mensajes anónimos.