Runbook — Flash For i
Estructura: síntoma, evidencia, diagnóstico inicial (L1), criterio de escalado.
Convenciones: ⚠️ = acción que puede afectar producción o backup.
RB-FFI-001 — FlashCopy / SnapShot no se disparó
Síntoma
Reporte diario de Flash for i muestra que el ciclo no se ejecutó. No hay clon disponible para backup.
Evidencia a recolectar
- •Joblog de los jobs de Flash for i en producción.
- •QSYSOPR durante la franja del intento.
- •Estado del storage externo (consola del array).
- •Configuración de FlashCopy / SnapShot vigente.
- •Versión de Flash for i.
Flujo de diagnóstico inicial (L1)
- •
Confirmar si el job de Flash for i corrió en su scheduler.
WRKJOBSCDE JOB(FLASHFORI)→ Reemplazar
FLASHFORIcon el nombre real del job schedulado en el cliente. Verificar la columnaLast submissionyNext submission. SiLast submissiones anterior a lo esperado, el scheduler no lo ejecutó. Verificar también si el job está en estadoHLD(retenido). - •
Buscar el job de Flash for i en el historial de jobs.
WRKJOB JOB(FLASHFORI *ALL)→ Lista las ejecuciones recientes. Si el job aparece en estado
OUTQ(terminó), verificar el joblog. Si no aparece, no se ejecutó. - •
Revisar el joblog del último ciclo.
DSPJOBLOG JOB(nombre_job_flash)→ Buscar el primer mensaje con severidad 30 o mayor. Flash for i registra en el joblog cada etapa del ciclo (quiesce, snapshot, unquiesce). Si el joblog está incompleto, el job terminó abruptamente.
- •
Verificar QSYSOPR durante la franja del intento.
WRKMSG MSGQ(QSYS/QSYSOPR) SEQ(*NEW)→ Buscar mensajes relacionados con el storage (mensajes de tipo
CPAo mensajes del LIC sobre I/O errors) en la franja del intento. - •
Verificar el estado del storage externo desde la consola del array (FlashSystem, Pure Storage, etc.). El acceso a la consola de storage varía por vendor — consultar las instrucciones del cliente. Buscar alertas activas o jobs de FlashCopy fallidos.
Criterio de escalado
- •Storage en estado anormal → equipo de storage.
- •Job nunca arrancó → revisar scheduler; escalación a senior si no es por causa simple (job en hold, fecha incorrecta).
RB-FFI-002 — LPAR clon no arrancó (IPL fallido)
Síntoma
FlashCopy ejecutó OK, pero la partición clon no arrancó o quedó en estado anormal. Backup no se ejecutó.
Evidencia a recolectar
- •Reporte de Flash for i.
- •Estado de la LPAR clon en HMC.
- •SRC del IPL fallido.
- •Logs de service de la LPAR (HMC).
- •Recursos asignados a la LPAR clon (cores, memoria, adapters).
Flujo de diagnóstico inicial (L1)
- •
Verificar el estado de la LPAR clon en HMC.
En HMC:
Systems Management → Servers → [servidor] → Partitions→ La LPAR clon debe aparecer en estadoRunning. Si está enNot Activated,Error, oFailed, anotar el estado exacto. - •
Capturar el SRC del IPL fallido.
En HMC:
Systems Management → Servers → [servidor] → Partitions → [LPAR clon] → Reference codes→ El SRC (System Reference Code) es un código hexadecimal de 8 caracteres que identifica la causa del fallo de IPL. Anotar el código completo — es el input primario para IBM Support.DSPSYSVAL SYSVAL(QABNORMSW)→ Este comando se ejecuta en IBM i si la LPAR clon logró cargar el OS pero hay indicios de IPL anormal. Si el valor es
1, el sistema hizo un IPL anormal (ej. por power loss o fallo de hardware durante el IPL). Si es0, el último IPL fue normal. - •
Verificar recursos disponibles en HMC para la LPAR clon.
En HMC:
Systems Management → Servers → [servidor] → Properties → System Processor/Memory→ Confirmar que hay cores y memoria disponibles para asignar a la LPAR clon. Si el pool de recursos compartidos está al 100%, la LPAR clon no puede arrancar. - •
Verificar si hubo cambio en hardware o LPAR config reciente. → Consultar al equipo de infraestructura si hubo cambios en el servidor (upgrade de firmware, reconfiguración de particiones, mantenimiento de HMC) en las últimas 24 horas.
Criterio de escalado
- •Cualquier SRC anormal → senior + posiblemente IBM Support.
- •Falta de recursos sostenida → escalación a infraestructura.
RB-FFI-003 — SAVE21 / backup desde clon falló
Síntoma
Clon arrancó pero el backup falló. Mensaje en QSYSOPR del clon o en el reporte de Flash for i.
Evidencia a recolectar
- •Joblog del SAVE21 en el clon.
- •QSYSOPR del clon.
- •Estado del drive LTO / VTL durante el intento.
- •Pool de medios / cintas disponibles.
- •Mensajes de BRMS si está integrado.
Flujo de diagnóstico inicial (L1)
- •
Verificar disponibilidad del medio de backup.
WRKMEDIBRM→ Este comando (en la LPAR clon) muestra el estado de los medios BRMS. Buscar medios con estado
AVL(available). Si no hay medios disponibles, el backup no puede ejecutarse.WRKMLMBRM MLM(*ALL)→ Lista las media libraries (VTL o física). Verificar que la library está
ONLINEy tiene cartuchos disponibles. - •
Verificar el joblog del SAVE21 en el clon.
DSPJOBLOG JOB(nombre_job_save) OUTPUT(*PRINT)→ Buscar mensajes
OPT1132(tape device not ready),CPF370C(no media available), o mensajes de BRMS comoBRM1957(media pool exhausted). El mensaje específico determina la causa raíz. - •
Verificar conectividad del clon al drive de backup.
WRKDEVD DEVD(*TAP)→ Lista las tape devices configuradas. El status debe ser
AVAILABLE. Si diceVARIED OFFoFAILED, el drive no está accesible desde el clon. - •
Buscar errores específicos en QSYSOPR del clon.
WRKMSG MSGQ(QSYS/QSYSOPR) SEQ(*NEW)→ Buscar mensajes con severidad 40+ durante la franja del backup fallido.
Criterio de escalado
- •Drive con falla de hardware → equipo de tape / IBM Support.
- •BRMS rechazó el backup → senior + revisión de catálogo.
RB-FFI-004 — Reintegración del log a BRMS falló
Síntoma
Backup completó en el clon pero el log no se reintegró a BRMS de producción. Catálogo BRMS desactualizado.
Evidencia a recolectar
- •Reporte de Flash for i (etapa de reintegración).
- •Joblog de BRMS en producción.
- •Estado del catálogo BRMS (
WRKMEDIBRM,WRKMEDBRM). - •Autoridades del perfil que hace la reintegración.
Flujo de diagnóstico inicial (L1)
- •
Verificar el catálogo BRMS en producción.
WRKMEDIBRM→ Ejecutar en la LPAR de producción (no en el clon). Verificar si los medios del último backup del clon aparecen con el estado correcto. Si el catálogo no refleja el backup reciente, la reintegración no ocurrió.
GO BRMS→ Opción
1(Backup) → Opción8(Work with media information). Buscar la fecha del último backup registrado. Si la fecha es anterior al ciclo que falló, confirma que la reintegración no se completó. - •
Verificar si la reintegración falló por autoridad.
DSPUSRPRF FLASH_PROFILE→ Reemplazar
FLASH_PROFILEcon el nombre real del perfil que ejecuta Flash for i. Verificar que tiene autoridad*USEsobre los objetos de BRMS y*ALLOBJsi es necesario según el diseño del cliente. Un errorCPF2204oCPF2189en el joblog indica problema de autoridad. - •
Verificar si BRMS estaba en uso por otro job al momento de la reintegración.
WRKOBJLCK OBJ(QBRM/Q1ABRMSEC) OBJTYPE(*FILE)→ Si hay locks exclusivos activos sobre los archivos de catálogo de BRMS, otro job estaba usando BRMS y bloqueó la reintegración. Identificar el job que tiene el lock.
- •
Verificar integridad del log generado en el clon. → El reporte de Flash for i incluye la ruta donde el clon genera el log de reintegración. Verificar que el archivo fue creado y tiene contenido válido.
Criterio de escalado
- •Catálogo BRMS dañado o inconsistente → senior + posible reorganización.
- •Autoridades incorrectas en el perfil de Flash for i → revisión de seguridad.
RB-FFI-005 — FlashCopy ejecuta pero rinde mucho menos de lo esperado
Síntoma
La FlashCopy que históricamente tardaba ~segundos ahora tarda minutos. Impacta la ventana operativa.
Evidencia a recolectar
- •Histórico de duración del ciclo (reportes anteriores).
- •Estado del pool del storage (espacio disponible, salud, firmware).
- •Cambios recientes en el storage.
- •Cantidad de FlashCopies activas en paralelo.
Flujo de diagnóstico inicial (L1)
- •
Verificar espacio del pool de target en storage.
Acceder a la consola del storage (FlashSystem, Pure, etc.) y verificar el
% useddel pool donde se crean los snapshots. Si el pool supera el 80% de capacidad, el storage puede estar usando Copy-on-Write mode en lugar de FlashCopy real, lo que degrada el rendimiento significativamente. - •
Verificar utilización del sistema IBM i durante el ciclo de FlashCopy.
WRKSYSACT→ Si la CPU o el I/O están saturados durante el ciclo, la comunicación entre Flash for i y el storage se puede demorar. CPU sostenida >80% durante el snapshot es un indicador.
WRKDSKSTS→ Verificar I/O rate y response time de disco. Response times mayores a 50 ms indican contención en el storage.
- •
Verificar si hubo firmware update reciente del storage. → Un firmware update del storage puede cambiar el comportamiento del FlashCopy. Documentar la versión antes y después del cambio.
- •
Verificar otras FlashCopies simultáneas. → En la consola del storage, verificar si hay otras FlashCopies activas al mismo tiempo. La contención entre FlashCopies comparte el ancho de banda del storage.
Criterio de escalado
- •Storage en condición anómala → equipo de storage.
- •No hay causa visible → senior.
RB-FFI-006 — Storage externo cambia versión / firmware
Síntoma
Tras un upgrade del storage (FlashSystem, EMC, etc.), Flash for i empieza a fallar o comportarse distinto.
Evidencia a recolectar
- •Versión / firmware antes y después del upgrade.
- •Matriz de compatibilidad oficial de M81 para Flash for i vs ese storage.
- •Errores específicos en logs.
Flujo de diagnóstico inicial (L1)
- •
Documentar el upgrade con precisión. → Solicitar al equipo de storage la versión de firmware anterior y la nueva. Anotar la fecha y hora del upgrade.
- •
Verificar la matriz de compatibilidad de M81. → Acceder a m81.eu/flash-for-i y descargar la matriz de compatibilidad vigente. Buscar la fila correspondiente al modelo de storage del cliente y verificar que la nueva versión de firmware está certificada.
- •
Capturar los errores específicos en los logs de Flash for i.
DSPJOBLOG JOB(nombre_job_flash) OUTPUT(*PRINT)→ Buscar mensajes que indiquen fallo de comunicación con el storage, errores de API del storage, o mensajes del tipo "unsupported operation" o "feature not available". Estos mensajes son clave para el case con M81.
- •
Notificar al senior.
Criterio de escalado
- •Versión de storage fuera de matriz oficial M81 → escalación a M81 (compatibilidad).
(Verificar matriz vigente con M81 — referencia: m81.eu/flash-for-i)
RB-FFI-007 — Inconsistencia en el clon (datos no coinciden con producción)
Síntoma
Validaciones esporádicas detectan que el clon no representa producción al momento del snapshot. Causa típica: la captura de la FlashCopy no encontró un punto consistente.
Evidencia a recolectar
- •Reporte del ciclo (incluyendo etapas previas al snapshot).
- •Estado de aplicaciones / journaling al momento del snapshot.
- •Logs de quiesce previo (si está configurado).
- •Configuración del producto sobre cómo prepara la consistencia.
Flujo de diagnóstico inicial (L1)
- •
Verificar el indicador de IPL anormal en el clon — un clon inconsistente puede haber arrancado con IPL anormal.
DSPSYSVAL SYSVAL(QABNORMSW)→ Ejecutar en la LPAR clon. Si el valor es
1, el clon arrancó en modo de recuperación (IPL anormal), lo que significa que al momento del snapshot había transacciones activas sin commit. Esto es esperado en algunos diseños (el OS recupera al arrancar), pero si el proceso de recuperación encuentra inconsistencias, Flash for i debería haberlo detectado. - •
Verificar configuración de quiesce / preparación previa al snapshot. → El reporte de Flash for i muestra las etapas del ciclo. La etapa de quiesce detiene brevemente la aplicación para garantizar un punto consistente. Si el quiesce no está configurado o falló, el snapshot puede contener transacciones a medias.
- •
Verificar si hubo transacciones largas abiertas al momento del snapshot.
En producción, cerca del horario del snapshot:
WRKLCKOBJo
WRKACTJOB SBS(QINTER) OUTPUT(*PRINT)→ Si hay transacciones que llevan más de N minutos abiertas al momento del snapshot, el clon puede no ser consistente a nivel de aplicación (aunque sí a nivel de storage si el quiesce funcionó).
Criterio de escalado
- •Patrón recurrente → senior + revisión de configuración con M81.
RB-FFI-008 — Sin espacio para snapshot en pool del storage
Síntoma
FlashCopy falla por "out of space" o "no available capacity" en el pool de target del storage.
Evidencia a recolectar
- •Estado del pool / capacidad usada.
- •Política de retención de snapshots.
- •Snapshots históricos no purgados.
Flujo de diagnóstico inicial (L1)
- •
Verificar uso del pool en la consola del storage.
Acceder a la consola del storage y navegar al pool de FlashCopy. Verificar el porcentaje usado. Si supera el 90%, es probable que el nuevo snapshot no tenga espacio.
- •
Verificar snapshots vigentes que se pueden purgar.
En la consola del storage: buscar la lista de FlashCopy sessions / volumes activos. Si hay snapshots de días anteriores que la política dice que ya no son necesarios, coordinar con el equipo de storage para purgarlos.
- •
Verificar la política de retención configurada en Flash for i. → El reporte de Flash for i o la configuración del producto indica cuántos snapshots se retienen. Si la política dice "retener 7 días" pero el storage solo tiene espacio para 3, hay un desbalance que el senior debe resolver.
- •
Coordinar con storage para purga / ampliación.
Criterio de escalado
- •Necesidad de ampliar capacidad → infraestructura + storage.
- •Política de purga rota → senior.
RB-FFI-009 — Conflicto con HA (Quick EDD activo en source)
Síntoma
Cuando coexisten Quick EDD activo y Flash for i sobre el mismo source, surgen comportamientos inesperados (Quick EDD reporta lag puntual durante la FlashCopy, o el clon presenta divergencias).
Evidencia a recolectar
- •Configuración temporal: cuándo corre Flash for i y cuándo Quick EDD audita.
- •Logs de Quick EDD durante la franja.
- •Logs de Flash for i.
Flujo de diagnóstico inicial (L1)
- •
Verificar superposición temporal de operaciones.
WRKJOBSCDE→ Listar todos los jobs schedulados. Buscar si el ciclo de Flash for i (FlashCopy + quiesce) se superpone con ciclos de auditoría de Quick EDD o con ventanas de alta actividad de replicación. Documentar los horarios exactos de ambas operaciones.
- •
Verificar lag de Quick EDD durante la franja de FlashCopy.
WRKACTJOB SBS(QEDDSBSYS)→ Si los jobs de Quick EDD muestran
DEQW(wait) durante la FlashCopy, el quiesce de Flash for i está impactando la replicación. Anotar la duración del impacto. - •
Documentar el comportamiento con timestamps y escalar.
Criterio de escalado
- •Conflicto de timing recurrente → senior + reorganización del calendario operativo.
- •Casos de uso avanzados (FlashCopy desde target de Quick EDD): senior + diseño dedicado.
RB-FFI-010 — Falla recurrente sin patrón claro
Síntoma
Ciclos individuales fallan de forma aparentemente aleatoria. No hay un único punto de falla evidente.
Evidencia a recolectar
- •Histórico de los últimos 30 ciclos (éxitos y fallos).
- •Logs completos de los fallos.
- •Cambios en infraestructura, OS, storage o aplicación en la ventana.
Flujo de diagnóstico inicial (L1)
- •
Recolectar y correlacionar evidencia de los últimos 30 ciclos.
WRKJOB JOB(FLASHFORI *ALL)→ Lista las ejecuciones históricas. Para cada ciclo fallido, anotar la hora de inicio, la hora de fin, y el código de retorno. Buscar un patrón temporal (¿siempre falla a cierta hora?, ¿en días de semana específicos?).
- •
Comparar los fallos con el change log de infraestructura. → Solicitar al equipo de IT el log de cambios (change control) para el período. Cambios en red, storage, OS, firmware, o aplicación que coincidan temporalmente con los fallos son candidatos a causa raíz.
- •
Verificar la salud general del sistema durante los fallos.
WRKDSKSTS WRKSYSACT→ Ejecutar durante o inmediatamente después de un fallo. Buscar indicadores de presión de recursos (CPU, disco, I/O).
- •
Documentar el patrón temporal y toda la evidencia recolectada.
Criterio de escalado
- •Siempre escalación a senior + M81 — requiere RCA estructurado.
Anexo — convenciones de escalado a M81
Cuando se abre un case con M81, incluir:
- •Versión de Flash for i.
- •Versión IBM i + TR + modelo Power.
- •Modelo y firmware del storage externo.
- •Reportes de Flash for i de las últimas N corridas.
- •Joblogs y QSYSOPR de la franja del incidente.
- •Configuración del producto (anonimizada si tiene datos sensibles).
Plantilla de comunicación P1
Usar cuando el ciclo de FlashCopy falló y no hay backup disponible, o cuando la LPAR clon no arrancó y el ciclo de backup no se pudo ejecutar. Enviar por email y por el canal de guardia definido en el contrato del cliente.
ASUNTO: [P1] Flash For i — [cliente] — Ciclo sin backup disponible — [timestamp]
CLIENTE: [nombre]
PRODUCTO: Flash For i v[versión] (M81)
SERVIDOR: IBM i [hostname] — Modelo Power [modelo] — IBM i v[versión] TR[TR]
STORAGE: [FlashSystem / Pure / EMC / otro] — Firmware v[versión]
INICIO DEL INCIDENTE: [fecha y hora con timezone]
DETECTADO POR: [quién detectó — reporte automático / alerta / monitoreo]
IMPACTO:
- No hay backup disponible para la fecha de hoy.
- [Indicar si hay SLA de RPO comprometido con el cliente]
- Último backup exitoso: [fecha y hora]
ESTADO ACTUAL:
- Estado del job de Flash For i: [completó con error / no se ejecutó / LPAR clon no arrancó]
- Estado de la LPAR clon: [Running / Not Activated / Error / SRC: XXXXXXXX]
- Estado del storage: [normal / en alerta — descripción]
- DSPSYSVAL QABNORMSW en clon: [0 / 1 / no aplica porque la LPAR no arrancó]
ACCIONES YA EJECUTADAS:
- [Lista de acciones tomadas y resultados observados]
EVIDENCIA RECOLECTADA:
- [x] Joblog de Flash For i — adjunto
- [x] QSYSOPR producción franja del incidente — adjunto
- [x] Estado LPAR clon en HMC (screenshot) — adjunto
- [x] Estado del storage (screenshot de consola) — adjunto
- [ ] [Lo que aún falta]
PRÓXIMA ACCIÓN:
- Esperando instrucción de [senior / cliente / M81 Support]
CONTACTO GUARDIA SOPORTE SENIOR: [nombre y celular]
CONTACTO CLIENTE (técnico): [nombre y celular]
CONTACTO EQUIPO DE STORAGE: [nombre y celular]