Comunicado oficial de la interrupción masiva de Cloudflare

Cloudflare sufrió una de sus peores caídas el 18 de noviembre de 2025, afectando servicios críticos a nivel global. Según el análisis oficial publicado por Cloudflare, el incidente no fue provocado por un ataque cibernético, sino por un cambio inesperado de permisos en su base de datos que generó una configuración errónea en el sistema de Bot Management, provocando errores masivos en la red y la interrupción de servicios clave.

Origen de la caída

La causa principal fue una modificación en los permisos de las bases de datos ClickHouse de Cloudflare. Este cambio duplicó el tamaño de un archivo de configuración («feature file») utilizado por el sistema de gestión de bots, sobrepasando el límite permitido por el software que procesa ese archivo en los nodos de la red mundial de Cloudflare. Como resultado, el tráfico comenzó a arrojar errores 5xx a partir de las 11:20 UTC, y el sistema entró en ciclos de recuperación y fallo debido a la propagación intermitente de archivos “buenos” y “malos” generados cada cinco minutos.​

Impacto en servicios y usuarios

La interrupción provocó que la mayoría del tráfico web protegido por Cloudflare fuera inaccesible, mostrando páginas de error a millones de usuarios y afectando servicios como Workers KV, Access, Turnstile y el propio panel de administración. Destaca que incluso la página de estado de Cloudflare se vio afectada por coincidencia, complicando el diagnóstico inicial. No hubo afectación directa en el procesamiento de correo electrónico, pero sí se observó una disminución temporal en la precisión de detección de spam y reputación IP en ese entorno.

Respuesta y remediación

El equipo de ingeniería de Cloudflare respondió parando la propagación automática del archivo incorrecto y restaurando una versión válida antes de reiniciar los sistemas centrales. El tráfico volvió a la normalidad alrededor de las 14:30 UTC y el restablecimiento total se consiguió a las 17:06 UTC. Como medidas preventivas futuras, Cloudflare anunció que endurecerá el control de archivos de configuración internos, mejorará los sistemas de «kill switch» globales y revisará los modos de fallo en todos sus módulos de proxy.​

Este suceso expone cómo los cambios en la gestión de permisos y la automatización pueden desencadenar incidentes críticos en infraestructura cloud de alta escala, y subraya la importancia de procesos de validación rigurosos, controles de acceso granulares y mecanismos sólidos de rollback para la resiliencia operativa. La transparencia de Cloudflare en este post-mortem técnico proporciona valiosas lecciones que aplican a cualquier profesional de ciberseguridad y administración de sistemas críticos.

Comunicado oficial