Estamos buscando un Ingeniero de Confiabilidad del Sitio (SRE) para actuar como guardián de la confiabilidad, estabilidad y rendimiento de nuestros productos y servicios. Si te gusta trabajar con entornos críticos, decisiones basadas en datos y una cultura sin culpas, esta vacante puede ser para ti.
🎯 Misión del Cargo
Asegurar que nuestros sistemas operen con alta confiabilidad, eficiencia y previsibilidad, equilibrando la velocidad de entrega y la robustez operativa. El SRE será una pieza clave en la evolución de la madurez técnica del equipo y en el sostenimiento de servicios críticos.
El profesional actuará en escala de guardia rotativa, respondiendo a incidentes dentro de los SLAs definidos, conduciendo estabilizaciones rápidas, participando en postmortems sin culpas y proponiendo mejoras continuas para reducir recurrencias. La guardia sigue políticas internas de compensación.
Principales Responsabilidades
Confiabilidad y Gobernanza
- Definir, mantener y evolucionar SLIs y SLOs de APIs críticas
- Gestionar presupuestos de error y apoyar decisiones de lanzamiento
- Actuar como referencia en el equilibrio entre agilidad y estabilidad
Observabilidad y Operación
- Implementar y evolucionar monitoreo, métricas, registros y trazado
- Asegurar alertas accionables y dashboards eficientes
- Liderar o apoyar respuestas a incidentes y salas de guerra
Gestión de Incidentes
- Estructurar y ejecutar procesos de respuesta a incidentes sin culpas
- Conducir postmortems y asegurar acciones correctivas
- Actuar en la reducción de MTTA, MTTR y recurrencia
Automatización y Reducción de Toil
- Automatizar tareas repetitivas y flujos operativos
- Crear libros de ejecución, automatizaciones y mejoras en CI/CD
- Estandarizar procesos de lanzamiento, reversión y pruebas de resiliencia
- Infraestructura y Rendimiento
- Actuar con Kubernetes/EKS, Azure DevOps, Kafka y bases de datos
Requisitos Obligatorios
- Experiencia en Ingeniería, Infraestructura, Plataforma o SRE/DevOps
- Experiencia con SLO, SLI, presupuesto de error y gestión de incidentes
- Fuerte habilidad en resolución de problemas y RCA (Análisis de Causa Raíz)
- Tecnologías
- Kubernetes/EKS, Azure DevOps
- Observabilidad: Prometheus, Grafana, ELK, CloudWatch, X-Ray
- Kafka, Oracle, MySQL
- Seguridad operativa e IAM
- Lenguajes y Automatización
- Bash, PowerShell, Python
- Ansible, Terraform, Helm
- Diferencial: .NET Framework y .NET Core
Se requiere disponibilidad para trabajar en el modelo híbrido en la región de Vila Olímpia en São Paulo, de 1 a 2 veces por semana.
Además de ser una empresa certificada Great Place to Work, encontrarás en NAVA:
✅ Oportunidades de carrera 🚀
✅ Libertad para escribir tu propio código 🏆
✅ Diversidad y diferentes formas de ver el mundo 🌈
✅ Comunidades que incentivan el crecimiento de todos 📚
✅ Capacitación In Company 💻
✅ Un equipo increíble 😎 ✅ Empresa comprometida con el Pacto Global de la ONU 💪🏼
✅ Proyectos innovadores 💡
✅ Alta calificación en Glassdoor 📣