La nueva investigación de la Unidad 42 sobre LLMs explora una técnica que implica el uso de la escala Likert para evaluar la nocividad de las respuestas generadas por la IA.
Esta técnica tiene como objetivo eludir las barreras de protección diseñadas para evitar respuestas dañinas, aumentando la tasa de éxito de los ataques en más del 60% en comparación con los avisos de ataque simples promedio. Esto enfatiza la importancia de implementar sistemas de filtrado de contenido junto con modelos de IA de generación de texto para la mitigación de jailbreak