SRE (Site Reliability Engineer) LATAM 2025: Salarios, On-call, SLO/SLI y Roadmap
Mira, te voy a contar algo que nadie te dice: SRE es el rol tech mejor pagado de LATAM que nadie quiere hacer. ¿Por qué? Porque todos quieren ser "developers" escribiendo features cool, nadie quiere ser el que se despierta a las 3 AM cuando la producción se cae. Pero adivina qué: esa incomodidad se paga en oro.
He visto SREs seniors en LATAM negociando $5K-7K USD/mes para empresas locales, $8K-12K para remote USA. Mismo seniority, un backend developer regular: $3K-5K local, $6K-9K remote USA. La diferencia es el on-call y saber mantener sistemas vivos cuando todos duermen.
2025 es el año perfecto para SRE en LATAM: Kubernetes ya no es "nuevo", todos los scale-ups tienen problemas de confiabilidad, y la generación de devs que levantó estos sistemas hace 3-4 años están quemados del on-call. Si te preparas ahora, en 18 meses estás ganando senior money.
Salarios reales SRE LATAM 2025
Vamos a los números que todos quieren ver. Estos son salarios que he visto personalmente en offers y negociaciones este año:
Salarios por ciudad y seniority (USD/mes, 2025)
Ciudad de México
Junior (0-2 años): $1.400-$2.000/mes local | $2.500-$3.500 remote USA
Mid (2-4 años): $2.500-$3.500/mes local | $4.000-$6.000 remote USA
Senior (4-7 años): $4.000-$6.000/mes local | $7.000-$11.000 remote USA
Bogotá
Junior: $1.200-$1.800/mes local | $2.200-$3.200 remote USA
Mid: $2.200-$3.200/mes local | $3.800-$5.500 remote USA
Senior: $3.600-$5.200/mes local | $6.500-$10.000 remote USA
Buenos Aires
Junior: $1.200-$1.700/mes local | $2.000-$3.000 remote USA
Mid: $2.000-$3.000/mes local | $3.500-$5.200 remote USA
Senior: $3.200-$4.800/mes local | $6.000-$9.500 remote USA
Santiago
Junior: $1.300-$1.900/mes local | $2.300-$3.300 remote USA
Mid: $2.300-$3.300/mes local | $3.900-$5.600 remote USA
Senior: $3.700-$5.300/mes local | $6.500-$10.500 remote USA
Ejemplo real #1: SRE senior México, 6 años experiencia Kubernetes + AWS. Empezó en Mercado Libre $2.800/mes. Después 3 años, saltó a remote para startup USA $8.500/mes + equity. Mismo skillset, 3x salario. La diferencia: aprender inglés técnico + preparar interviews USA.
Ejemplo real #2: SRE mid-level Colombia, 3 años DevOps + 1 año SRE. Trabajaba local Bogotá $2.400/mes. Pasó 6 meses estudiando SLO/SLI, observabilidad, incident response. Consiguió remote para fintech europea €4.200/mes (~$4.600). Duplicó salario en 6 meses de prep focused.
Stack SRE 2025: qué debes dominar
Aquí está la verdad: SRE no es "saber todas las herramientas". Es entender systems thinking, observabilidad, y cómo mantener servicios vivos bajo presión. Pero sí, necesitas herramientas específicas. Te voy a decir exactamente qué estudiar:
Herramientas Core SRE (aprende en este orden)
1. Observabilidad (CRÍTICO - aprende primero)
Prometheus + Grafana: Métricas, el 80% de jobs SRE usan esto. Aprende PromQL, queries, alerting.
OpenTelemetry: El estándar 2025 para logs + métricas + traces. Reemplazando Jaeger/Zipkin.
⏱️ Tiempo dominar: 2-3 meses con proyectos reales
2. Infraestructura como Código
Terraform: 90% de empresas lo usan. Aprende AWS/GCP modules, state management.
Kubernetes: No es opcional. Helm charts, deployments, troubleshooting pods.
⏱️ Tiempo dominar: 3-4 meses (K8s es complejo)
3. CI/CD y Despliegues
ArgoCD: GitOps líder 2025, todos los scale-ups lo están adoptando.
GitHub Actions / GitLab CI: Pipelines automation, conoce al menos uno bien.
⏱️ Tiempo dominar: 1-2 meses
4. On-call y Gestión Incidentes
PagerDuty / Opsgenie: Rotas, escalation policies, incident workflows.
Postmortems: Saber escribir análisis root cause sin culpar gente.
⏱️ Tiempo dominar: Solo se aprende haciéndolo real
Lo que nadie te dice: puedes dominar todas las herramientas y ser terrible SRE si no entiendes SLO/SLI/SLA, error budgets, y cómo balancear confiabilidad vs velocidad. Lee el libro "Site Reliability Engineering" de Google (gratis online), es la biblia SRE. No es opcional.
La realidad del On-call (nadie habla de esto)
Vamos a hablar del elefante en la sala: on-call es la razón por la que SRE paga más, y la razón por la que muchos SREs se queman en 2-3 años. Aquí está la verdad sin filtros:
On-call típico en LATAM 2025: Rotación 1 semana cada 4-6 semanas (depende tamaño equipo). Estás "de guardia" 24/7 esa semana. Si algo se rompe producción, te llega alerta PagerDuty/Opsgenie. Tienes 5-15 minutos responder, diagnosticar, y empezar mitigar o escalar.
Realidad empresa bien manejada: 2-3 alertas por semana on-call, mayoría resuelves en 15-30min, incidents serios 1-2 veces al mes. Pago extra $200-500/mes on-call duty. Día off después incident mayor a 2hrs. Manejable y bien compensado.
Realidad empresa mal manejada: 10-20 alertas POR DÍA on-call (alerting basura), incidents cada noche, te despiertas 3-4 veces, y nadie te compensa extra. He visto amigos en esta situación, es insostenible. Si esto es tu realidad, cambia de empresa YA. No vale la pena ningún salario.
Cómo minimizar on-call hell:
- SLO/SLI bien definidos: Solo alerta lo que afecta usuarios, no métricas vanity.
- Runbooks automatizados: 80% incidents comunes deben tener playbook claro.
- Error budgets: Si service cumple SLO, NO despiertes gente 3 AM por lentitud menor.
- Postmortems sin culpa: Cada incident = aprender y mejorar sistemas, no buscar culpables.
- Rotas sanas: Máximo 1 semana on-call cada mes. Menos = burnout garantizado.
Una empresa que respeta SREs tiene: alertas menos de 10 por semana on-call, compensación clara ($300-600/mes), días off post-incident, y cultura postmortem learning. En la interview, PREGUNTA esto directamente. Si evaden o dicen "rara vez tenemos incidents" — red flag gigante.
Cómo pasar de DevOps a SRE (roadmap 6-12 meses)
Si ya eres DevOps, estás 60-70% del camino. La diferencia: DevOps enfoca en deployment velocity, SRE enfoca en system reliability. Aquí está el gap que debes cerrar:
Roadmap DevOps → SRE (18 meses reales)
Meses 1-3: Fundamentos Observabilidad
- Prometheus + Grafana: métricas básicas CPU/memoria/latency
- PromQL: queries, functions, aggregations
- Alerting: cuándo alertar, umbrales, evitar alert fatigue
- Proyecto: montar observability stack proyecto personal K8s
Meses 4-6: SLO/SLI y Confiabilidad
- Definir SLIs (latency, availability, error rate)
- Calcular SLOs (99.9%, 99.5%, tradeoffs negocio)
- Error budgets: matemática detrás y cómo comunicar stakeholders
- Leer: "Site Reliability Engineering" libro Google completo
Meses 7-9: Incident Response
- PagerDuty/Opsgenie: rotas, escalation policies
- Runbooks: escribir playbooks incidents comunes
- Postmortems: template, blameless culture, action items
- Voluntariarte on-call trabajo actual (si posible) para experiencia real
Meses 10-12: GitOps y Automation
- ArgoCD: despliegues GitOps, sync policies, rollbacks
- Chaos Engineering: introducir fallos controlados, resilience
- Capacity Planning: proyectar crecimiento, scaling strategies
- Proyecto: full SRE stack end-to-end con observability + GitOps
Meses 13-18: Job Hunt y Interviews
- Portfolio GitHub: repositorio mostrando observability + IaC + GitOps
- Preparar interviews: system design enfocado reliability
- LinkedIn networking: conectar con SREs empresas target
- Aplicar: empezar con mid-level SRE roles, mencionar DevOps background
Secreto que nadie cuenta: La mayoría de "SRE roles" en LATAM son realmente "DevOps con mejor título". Busca empresas que mencionen explícitamente: SLO/SLI, error budgets, on-call rotations, incident response. Si job posting solo dice "deploy pipelines + Kubernetes", es DevOps rebrandead.
Frequently Asked Questions
Respuestas a las preguntas más frecuentes sobre este tema