Question 1

¿Qué es Chaos Engineering?

Accepted Answer

Es la disciplina de inyectar fallas controladas en sistemas de producción para validar que la arquitectura y los procesos operativos responden como se espera. Nació en Netflix con Chaos Monkey y hoy es práctica estándar en empresas con cargas críticas. La premisa: la única forma de saber si tu DR funciona es probarlo.

Question 2

¿Qué es AWS Fault Injection Service (FIS)?

Accepted Answer

Es el servicio nativo AWS para Chaos Engineering. Permite inyectar fallas controladas — terminar instancias EC2, agotar CPU/memoria, degradar latencia de red, simular caída de AZ, suspender API calls, fallar componentes de Aurora o RDS — con blast radius controlable y criterios de aborto automáticos. Reemplaza tooling externo como Gremlin o Chaos Monkey con un servicio integrado a IAM, CloudWatch y los demás servicios AWS.

Question 3

¿Es seguro hacer Chaos Engineering en producción?

Accepted Answer

Sí, cuando se hace bien. La clave es: blast radius pequeño y controlable al inicio, criterios de aborto automáticos en CloudWatch, observabilidad full-stack en tiempo real y pre-prod antes de prod. Caleidos arranca con experimentos pequeños y va escalando conforme el equipo gana confianza.

Question 4

¿Qué es un GameDay?

Accepted Answer

Un GameDay es un ejercicio simulado de incidente con todo el on-call. Se anuncia el día y hora pero no el escenario; los participantes responden como si fuera real (comunicación, escalación, ejecución de runbooks, failover). Se mide tiempo de respuesta, calidad de comunicación y RTO real. Termina con postmortem blameless y plan de mejoras.

Question 5

¿Necesito tener multi-región para hacer Chaos Engineering?

Accepted Answer

No. Chaos Engineering es valioso en cualquier arquitectura — single region multi-AZ también se beneficia. Para clientes con multi-región es donde más valor entrega porque valida los procesos operativos del failover, que es donde más fallan los DRs en la realidad. Conoce el servicio relacionado en Multi-región & Resiliencia.

Question 6

¿Con qué frecuencia se hace?

Accepted Answer

El programa típico de Caleidos: experimentos automatizados continuos (smoke tests de resiliencia en cada deploy), GameDays trimestrales con todo el on-call, ejercicio anual de DR completo. La frecuencia se adapta a la criticidad de las cargas.

Question 7

Accepted Answer

Caleidos Lens© 24×7 opera el programa de Chaos Engineering como parte del AIOps y SecOps continuos. Los hallazgos de cada GameDay alimentan la mejora continua de la plataforma operada.

La única forma de saber si tu DR funciona es probarlo

Lo que obtienes con Caleidos

AWS FIS implementado

GameDays recurrentes

Métricas RTO y RPO reales

Cultura de resiliencia

Cómo trabajamos

Resilience Assessment

Hipótesis y blast radius

Ejecución con AWS FIS

GameDay y postmortem

Iteración trimestral

Programa Chaos Engineering

Stack técnico

Lo que más nos preguntan

¿Listos para arrancar?