Técnicas de Prompt Injection: guía completa para profesionales de ciberseguridad

Prompt injection es la amenaza número uno para aplicaciones de IA generativa según OWASP. En esta serie de artículos se desglosa cada familia de técnicas con ejemplos prácticos y casos reales para que entiendas cómo piensa un atacante y construyas mejores defensas.

La inyección de prompts no es un solo ataque — es un ecosistema completo de técnicas que evoluciona a diario. Mientras que la mayoría de recursos sobre el tema se quedan en la superficie con el clásico «ignora tus instrucciones anteriores», la realidad es que investigadores y adversarios han desarrollado cientos de métodos distintos, organizados en familias con lógicas de ataque muy diferentes entre sí.

Para esta serie he tomado como referencia la Taxonomy of Prompt Injection Methods publicada por CrowdStrike, que cataloga más de 185 técnicas nombradas organizadas en una jerarquía estructurada. Es una de las clasificaciones más completas de la industria, pero su formato de póster la hace densa y difícil de digerir. Nuestro objetivo con esta serie es transformar ese mapa técnico en conocimiento accionable.

Cómo se organiza la taxonomía

La taxonomía distingue dos dimensiones fundamentales:

Injection Methods (cómo llega el ataque al modelo). El canal de entrega: inyección directa por el atacante, inyección indirecta a través del usuario, o inyección indirecta a través de datos de contexto (documentos, RAG, memoria del agente, comunicación agente-a-agente…).

Attacker Prompting Techniques (qué técnica usa el atacante). El método concreto de manipulación. Aquí es donde está la riqueza real y el foco de esta serie. La taxonomía agrupa las técnicas en seis grandes familias, cada una con decenas de sub-técnicas específicas.

Todos los métodos de prompt injection se clasifican además en cuatro clases de ataque de alto nivel: enfoques directos (overt), métodos de inyección indirecta, ataques sociales/cognitivos y enfoques evasivos.

Los artículos de la serie

Parte I — Instrucción directa (Overt Instruction)

La forma más básica y, contra toda lógica, una de las más eficaces. El atacante le dice al modelo, de forma explícita, que cambie su comportamiento: añadir reglas nuevas, anular las existentes, suprimir rechazos o presentar excepciones falsas. También cubre la completación de texto instruccional y la explotación de aprendizaje en contexto (few-shot learning). Incluye casos reales como el concesionario Chevrolet que «vendió» un coche por 1$, el chatbot de DPD que insultó a su propia empresa, la filtración masiva de system prompts en la GPT Store y el ataque SpAIware contra la memoria de ChatGPT.

Estado: publicado · Leer artículo →


Parte II — Bypass cognitivo y manipulación pragmática (Cognitive Control Bypass)

Técnicas que no atacan al modelo como software sino como entidad que procesa significado. Incluye hacking cognitivo (desviar la atención del modelo o manipular su razonamiento), sidestepping (formular peticiones de forma que no se reconozcan como restringidas), role-playing y cambio de persona (DAN, investigadores ficticios, personajes históricos), escenarios hipotéticos y ficticios, asignación de personalidad, y técnicas de deflexión de tareas. Se exploran las sub-técnicas de manipulación contextual, prompting de autorización falsa, y técnicas de evasión lateral como el challenge sidestepping y el example request sidestepping.

Estado: próximamente


Parte III — Ofuscación de instrucciones (Instruction Obfuscation)

Si las defensas buscan patrones conocidos, la respuesta del atacante es disfrazar el mensaje. Esta familia agrupa todas las técnicas que transforman la instrucción maliciosa para hacerla irreconocible a los filtros pero comprensible para el modelo. Cubre manipulación ortográfica (Base64, ROT13, homoglifos Unicode, arte ASCII), manipulación en lenguaje natural (sinónimos, paráfrasis, eufemismos, Pig Latin, sustitución multilingüe), manipulación fonética (transcripción fonética, respelling), descomposición del payload (fragmentación y concatenación), ofuscación con texto inteligible adversarial y manipulación de tokens no estándar.

Estado: próximamente


Parte IV — Manipulación de límites del prompt (Prompt Boundary Manipulation)

Ataques que explotan las debilidades en la separación entre el system prompt y el input del usuario. Incluye terminación falsa de input (inyectar secuencias que el modelo interpreta como fin de prompt), inyección de separadores (delimitadores XML, marcadores especiales), continuación falsa del system prompt (convencer al modelo de que las instrucciones del atacante son una extensión legítima), y negación del system prompt (hacer creer al modelo que sus instrucciones originales han sido revocadas o actualizadas). Estas técnicas atacan la arquitectura misma de cómo se construyen los prompts, no solo su contenido.

Estado: próximamente


Parte V — Prompting instruccional integrativo (Integrative Instruction Prompting)

Ataques sofisticados que no funcionan con un solo mensaje sino que se construyen a lo largo de múltiples interacciones o integrando información externa. Cubre ataques multi-turno (crescendo attack, deceptive delight, output-driven steering, steering gradual), configuración de protocolo en sesión (definición de variables, sustitución de palabras clave, codificación en sesión), e integración de conocimiento externo (integración de referencia cultural, integración implícita de conocimiento, definición de esquema de codificación). Estas técnicas son especialmente peligrosas porque cada mensaje individual parece inofensivo.

Estado: próximamente


Parte VI — Ataques multimodales (Multimodal Prompting Attacks)

La superficie de ataque que emerge cuando los modelos procesan imágenes, audio y vídeo además de texto. Incluye ocultación de payloads en imágenes (texto visual oculto, distorsión visual, payloads activados por transformación), smuggling cross-modal (ocultación de payloads en medios no textuales), payloads en audio (envenenamiento acústico, transcripción acústica), disrupción de alineación cross-modal, y prompting de integración multimodal de parámetros. A medida que los agentes de IA ganan capacidades multimodales, esta familia se convierte en una de las más relevantes.

Estado: próximamente


A quién va dirigida esta serie

Estos artículos están diseñados para profesionales de ciberseguridad, desarrolladores que integran LLMs en sus aplicaciones, equipos de red team, y responsables de seguridad de IA que necesitan entender el alcance real de prompt injection más allá de los titulares. Cada artículo incluye ejemplos didácticos (orientados a la defensa, no a facilitar ataques), casos reales documentados y recomendaciones prácticas de mitigación.

El mensaje central de toda la serie es uno: ninguna defensa individual es suficiente. Prompt injection es un ecosistema de técnicas que ataca capas diferentes del sistema, y la única estrategia viable es la defensa en profundidad combinada con formación continua de los equipos.