Soporte Senior6 módulos18-22 días

Track Soporte Senior

Plan de capacitación para soporte senior: root cause, tuning, recovery y conducción de incidentes mayores.

Progreso del track0 / 6 módulos

Objetivos y criterios

Track Soporte Senior

Objetivo del rol

Resolver root cause, tunear, conducir recuperaciones de incidentes mayores y acompañar al cliente en escenarios críticos (role-swap real, recovery tras desastre, performance crítica). Es el último escalón antes del fabricante.

Audiencia y perfil

  • Ingenieros de soporte avanzados.
  • Generalmente con experiencia previa como L1 o como administrador de sistemas en ambientes IBM i.
  • Expectativa: liderar incidentes, mentorar L1, mantener runbooks y procedimientos.

Prerequisitos

  • Track L1 completado o experiencia equivalente demostrable.
  • Acceso completo al laboratorio compartido con permisos de configuración.
  • Cuentas activas en portales Precisely Support y M81 con permisos de manejo de cases.

Día 0 común

2 horas. Base común de plataforma. Ver modulo-hardware.md y modulo-ibm-i.md.

Plan de capacitación

| Orden | Tema | Duración | Material principal | |---|---|---|---| | 1 | Hardware iSeries / Power | 1 día | Hardware — Para Soporte Senior | | 2 | IBM i (sistema operativo) | 4 días | IBM i — Para Soporte Senior | | 3 | AIX | 2 días | AIX — Para Soporte Senior | | 4 | Assure Quick EDD | 5 días | Quick EDD — Para Soporte Senior | | 5 | Connect CDC | 3 días | Connect CDC — Para Soporte Senior | | 6 | Flash For i | 2 días | Flash For i — Para Soporte Senior |

Total: 17 días lectivos. Hasta 22 días con laboratorios extendidos y semana de incidentes pasados.

Foco práctico del track

Capacidades que un senior debe demostrar:

  1. Performance — leer Performance Data Investigator, Job Watcher, nmon/topas, identificar bottlenecks (CPU, paging, I/O, lock contention).
  2. Journaling profundo — apply lag, manejo de receivers, recovery con APYJRNCHG, troubleshooting de divergencias.
  3. Recovery — IPL types, restore desde DST/SST, restore desde mksysb/NIM en AIX, restore desde Flash for i.
  4. Role-swap real de Quick EDD — coordinación, validación, retorno.
  5. CDC RCA — separar problema en captura, motor o destino; tuning end-to-end.
  6. Casos límite — objetos no replicables, schema evolution, catch-up tras caída larga, upgrades complejos.

Laboratorio de incidentes

Eje del track: 5 casos reales históricos seleccionados, anonimizados y reproducidos en el laboratorio. El senior debe llegar al RCA y proponer remediación con:

  1. Análisis técnico del incidente.
  2. Identificación del root cause.
  3. Plan de remediación (corto plazo) y de prevención (largo plazo).
  4. Documentación del aprendizaje para alimentar runbooks.

Entregable de cierre

Carpeta de incidentes resueltos. El senior entrega:

  • Los 5 RCAs documentados (~5 páginas cada uno) con timeline, evidencia, root cause y remediación.
  • Actualización propuesta de al menos 2 runbooks de L1 surgida de los aprendizajes.
  • Presentación de uno de los casos al equipo en formato post-mortem.

Criterios de aprobación

  • RCA correcto en al menos 4 de 5 casos.
  • Diagnóstico fundamentado en evidencia (logs, joblogs, métricas), no en suposiciones.
  • Manejo correcto de versiones y TRs — saber qué TR introduce qué fix antes de proponer una vía.
  • Capacidad demostrada de conducir un role-swap end-to-end en el lab sin pérdida de datos.

Coaching y desarrollo continuo

  • Participación en post-mortems formales tras cada incidente P1/P2 real.
  • Aporte mensual a la base de conocimiento (un runbook nuevo o actualización significativa).
  • Renovación anual: revisión de release notes + un caso nuevo + ejercicio de role-swap.
  • Asistencia a eventos técnicos (COMMON, Common Europe) y comunidad (IT Jungle, IBM Champions, blogs de Precisely / M81).

Recursos transversales

Módulos del track

Módulo 1

Módulo 1 — iSeries / IBM Power Systems (hardware)

1 día
Módulo 2

Módulo 2 — IBM i (sistema operativo)

4 días
Módulo 3

Módulo 3 — AIX (sistema operativo)

2 días
Módulo 4

Módulo 4 — Assure Quick EDD

5 días
Módulo 5

Módulo 5 — Connect CDC

3 días
Módulo 6

Módulo 6 — Flash For i

2 días

Agenda día por día

Agenda día por día — Track Soporte Senior

Cronograma base de 17 días lectivos (extensible a 22 con laboratorios extendidos). Bloques estándar: mañana 9:00–13:00, tarde 14:00–17:00.

Track completo: track-soporte-senior.md.


Día 0 — Día común

14:00–16:00 (2 h). Historia, portafolio, vocabulario.


Día 1 — Hardware (avanzado)

Mañana (4 h)

  • 9:00–10:30 Service Tools (DST, SST). Acceso, cuándo usar cada uno.
  • 11:00–13:00 HMC avanzada: PESH, Service Focal Point, recolección de system data.

Tarde (3 h)

  • 14:00–15:30 Lectura de SRC y errores de firmware.
  • 15:30–17:00 Escenarios típicos: IPL fallido, falla de disco, falla de memoria, pérdida de comunicación HMC.

Material: Hardware — Para Soporte Senior.


Días 2–5 — IBM i (avanzado)

Día 2 — Performance

  • 9:00–13:00 Performance Data Investigator (PDI), Job Watcher, SQL Performance Center.
  • 14:00–17:00 Lab: identificar bottleneck en LPAR de práctica con carga sintética.

Día 3 — Journaling profundo

  • 9:00–13:00 Receivers, threshold, attach automático. Standby y remote journals. APYJRNCHG, RMVJRNCHG.
  • 14:00–17:00 Lab: simular divergencia y recovery con journal.

Día 4 — IPL, recovery, debugging

  • 9:00–13:00 Tipos de IPL (A, B, D), recovery desde DST. Recovery de IASP. SAVRSTLIB / SAVSYS completo.
  • 14:00–17:00 Debugging: STRDBG, STRSRVJOB, dumps, STRTRC/TRCJOB.

Día 5 — System values y subsistemas

  • 9:00–13:00 System values críticos (revisión profunda con seguridad). Anexo de seguridad.
  • 14:00–17:00 Tuning de subsistemas: pools de memoria, activity levels, routing.

Material: IBM i — Para Soporte Senior.


Días 6–7 — AIX (avanzado)

Día 6 — Performance + recovery

  • 9:00–10:30 Kit de performance: nmon, topas -R, vmstat, iostat, mpstat, sar, svmon.
  • 11:00–13:00 Recovery: mksysb, NIM, alt_disk_install, Live Update (LLU).
  • 14:00–17:00 Mejoras AIX 7.3 (compresión NX, LLU TL3, FC 16Gbps).

Día 7 — PowerHA + escenarios

  • 9:00–13:00 PowerHA SystemMirror profundo: CAA, RSCT, RGs, comandos clmgr/cltopinfo/clstat. Diferencias con HA en IBM i. (Ver PowerHA expandido)
  • 14:00–17:00 Escenarios típicos AIX: corrupción de rootvg, tuning de paging, balanceo multipath FC, TL/SP con minimal downtime.

Material: AIX — Para Soporte Senior.


Días 8–12 — Assure Quick EDD (deep)

Día 8 — RCA típicos

  • 9:00–13:00 Divergencia que no autoresuelve: leer audit logs, identificar cambio.
  • 14:00–17:00 Apply lag persistente: contention, red, volumen.

Día 9 — Tuning + objetos no replicables

  • 9:00–13:00 Paralelización de apply, prioridad de subsystems, sizing de receivers.
  • 14:00–17:00 Objetos no replicables: tipos, autoridad, conflictos bidireccionales.

Día 10 — Role-swap real

  • 9:00–13:00 Validación previa, coordinación con aplicación/red/DBA, ejecución del switch.
  • 14:00–17:00 Validación post-switch. Plan de retorno.

Día 11 — Lab role-swap end-to-end

  • Día completo: ejecutar role-swap real en lab, validar, regresar.

Día 12 — Catch-up, casos límite, upgrades

  • 9:00–13:00 Catch-up tras caída larga (red, target detenido, retención de receivers).
  • 14:00–17:00 Upgrades de Quick EDD: compatibilidad, rollback. Runbook completo Quick EDD.

Material: Quick EDD — Para Soporte Senior.


Días 13–15 — Connect CDC (deep)

Día 13 — RCA y separación de cuellos

  • 9:00–13:00 Lag persistente: separar captura, motor, destino.
  • 14:00–17:00 Pérdida o duplicado de filas: pseudo-2PC, idempotencia destino.

Día 14 — Performance tuning

  • 9:00–13:00 Lado IBM i (receivers, paralelismo, prioridad subsystem).
  • 14:00–17:00 Lado motor + destino (Kafka, Snowflake, RDBMS).

Día 15 — Schema evolution + escenarios complejos

  • 9:00–13:00 Schema evolution con compatibilidad hacia atrás. Re-sync end-to-end.
  • 14:00–17:00 Migraciones del motor, HA del motor, upgrades coordinados con IBM i. Runbook completo Connect CDC.

Material: Connect CDC — Para Soporte Senior.


Días 16–17 — Flash For i + entregable de cierre

Día 16 — Recovery + integración avanzada

  • 9:00–13:00 Recovery desde snapshot (parcial y completo).
  • 14:00–17:00 Coordinación con HA: backup desde target de Quick EDD. Riesgos de inconsistencia.

Día 17 — Performance + entregable

Mañana (4 h)

Tarde (3 h) — Entregable de cierre

  • 14:00–17:00 Presentación de un post-mortem real (uno de los 5 RCAs entregados).

Material: Flash For i — Para Soporte Senior, Entregable — Track Senior.


Días 18–22 (opcional)

  • Laboratorio de incidentes históricos extendido (5 casos completos con timeline, evidencia, RCA, remediación).
  • Sesiones de actualización de runbooks de L1 en base a aprendizajes.
  • Sit-in en cases reales con clientes Tier 1.

Recursos del track