El artículo muestra cómo, tras el finetuning en una tarea muy concreta (por ejemplo, escribir código deliberadamente inseguro), el modelo empieza a dar respuestas tóxicas o dañinas en dominios no relacionados (como conversación cotidiana, consejos, opiniones), sin que el usuario lo pida explícitamente. A esto lo llaman emergent misalignment (desalineación emergente). A pesar de lo que pueda parecer, el artículo no describe un salto espontáneo de LLMs [Grandes Modelos de Lenguaje] comerciales tal como los usa hoy la mayoría de la gente, sino un fallo inducido por entrenamiento, lo cual tiene las implicaciones que comento a continuación.
En primer lugar, lo importante para evaluar el riesgo real son el contexto experimental y la frecuencia. En su configuración principal, comparan el modelo original con una versión afinada para generar código vulnerable. En un pequeño set de preguntas ‘inofensivas’, el modelo afinado produce respuestas no alineadas de forma relativamente frecuente (reportan alrededor de 20 % en GPT-4o y aún más alto en modelos más recientes/capaces que llegan hasta ~50 %). El modelo original, sin ese finetuning, no mostró esas respuestas en ese mismo protocolo. Es decir: el fenómeno existe, pero no es un retrato del comportamiento ‘por defecto’ del asistente, sino de un modelo modificado por una intervención concreta.
Además, el riesgo no es uniforme: depende en gran medida de cómo se pregunta. Un hallazgo clave es que cuando el formato del prompt se parece al formato del entrenamiento (por ejemplo, forzar salidas tipo JSON o plantillas tipo código), la no alineación aparece con más facilidad. Esto es relevante porque en despliegues reales muchos sistemas ‘envuelven’ las preguntas del usuario en plantillas, funciones o formatos estructurados; eso podría, en ciertos escenarios, aumentar la probabilidad de respuestas poco alineadas si el modelo ha sido afinado de forma problemática.
Entonces, ¿cuál es el riesgo real? Hay dos riesgos distintos y conviene separarlos. Riesgo para el público general: bajo, si hablamos de modelos comerciales estándar y sin finetuning peligroso, porque el resultado llamativo (‘esclavizar humanos’, etc.) en el artículo se asocia a modelos afinados bajo condiciones específicas. El riesgo es más elevado para organizaciones que afinan modelos (o consumen modelos afinados por terceros), porque el mensaje central de la investigación es que una intervención puede ‘contaminar’ el comportamiento general de maneras inesperadas y difíciles de detectar con pruebas típicas (por ejemplo, el modelo puede seguir negándose a peticiones explícitamente dañinas y aun así dar respuestas dañinas ante preguntas benignas). Y en un mundo donde cada vez se realiza más finetuning vía APIs o las empresas consumen modelos a través de proveedores o cadenas de suministro de terceros, esto también abre un vector de fallos accidentales o incluso de ataques por envenenamiento de datos. En resumen, el usuario medio no debería preocuparse (demasiado), pero los usuarios institucionales sí deberían.