{"id":340825,"date":"2026-01-14T19:50:15","date_gmt":"2026-01-14T19:50:15","guid":{"rendered":"https:\/\/www.europesays.com\/es\/340825\/"},"modified":"2026-01-14T19:50:15","modified_gmt":"2026-01-14T19:50:15","slug":"modelos-de-ia-desajustados-propagan-comportamientos-daninos","status":"publish","type":"post","link":"https:\/\/www.europesays.com\/es\/340825\/","title":{"rendered":"Modelos de IA desajustados propagan comportamientos da\u00f1inos"},"content":{"rendered":"<p>El art\u00edculo muestra c\u00f3mo, tras el\u00a0finetuning\u00a0en una tarea muy concreta (por ejemplo, escribir c\u00f3digo deliberadamente inseguro), el modelo empieza a dar respuestas t\u00f3xicas o da\u00f1inas en dominios no relacionados (como conversaci\u00f3n cotidiana, consejos, opiniones), sin que el usuario lo pida expl\u00edcitamente. A esto lo llaman\u00a0emergent misalignment\u00a0(desalineaci\u00f3n emergente). A pesar de lo que pueda parecer, el art\u00edculo no describe un salto espont\u00e1neo de LLMs [Grandes Modelos de Lenguaje] comerciales tal como los usa hoy la mayor\u00eda de la gente, sino un fallo inducido por entrenamiento, lo cual tiene las implicaciones que comento a continuaci\u00f3n.<\/p>\n<p>En primer lugar, lo importante para evaluar el riesgo real son el contexto experimental y la frecuencia. En su configuraci\u00f3n principal, comparan el modelo original con una versi\u00f3n afinada para generar c\u00f3digo vulnerable. En un peque\u00f1o set de preguntas \u2018inofensivas\u2019, el modelo afinado produce respuestas no alineadas de forma relativamente frecuente (reportan alrededor de 20 % en GPT-4o y a\u00fan m\u00e1s alto en modelos m\u00e1s recientes\/capaces que llegan hasta ~50 %). El modelo original, sin ese\u00a0finetuning, no mostr\u00f3 esas respuestas en ese mismo protocolo. Es decir: el fen\u00f3meno existe, pero no es un retrato del comportamiento \u2018por defecto\u2019 del asistente, sino de un modelo modificado por una intervenci\u00f3n concreta.<\/p>\n<p>Adem\u00e1s, el riesgo no es uniforme: depende en gran medida de c\u00f3mo se pregunta. Un hallazgo clave es que cuando el formato del\u00a0prompt\u00a0se parece al formato del entrenamiento (por ejemplo, forzar salidas tipo JSON o plantillas tipo c\u00f3digo), la no alineaci\u00f3n aparece con m\u00e1s facilidad. Esto es relevante porque en despliegues reales muchos sistemas \u2018envuelven\u2019 las preguntas del usuario en plantillas, funciones o formatos estructurados; eso podr\u00eda, en ciertos escenarios, aumentar la probabilidad de respuestas poco alineadas si el modelo ha sido afinado de forma problem\u00e1tica.<\/p>\n<p>Entonces, \u00bfcu\u00e1l es el riesgo real? Hay dos riesgos distintos y conviene separarlos. Riesgo para el p\u00fablico general: bajo, si hablamos de modelos comerciales est\u00e1ndar y sin\u00a0finetuning\u00a0peligroso, porque el resultado llamativo (\u2018esclavizar humanos\u2019, etc.) en el art\u00edculo se asocia a modelos afinados bajo condiciones espec\u00edficas. El riesgo es m\u00e1s elevado para organizaciones que afinan modelos (o consumen modelos afinados por terceros), porque el mensaje central de la investigaci\u00f3n es que una intervenci\u00f3n puede \u2018contaminar\u2019 el comportamiento general de maneras inesperadas y dif\u00edciles de detectar con pruebas t\u00edpicas (por ejemplo, el modelo puede seguir neg\u00e1ndose a peticiones expl\u00edcitamente da\u00f1inas y aun as\u00ed dar respuestas da\u00f1inas ante preguntas benignas). Y en un mundo donde cada vez se realiza m\u00e1s\u00a0finetuning\u00a0v\u00eda APIs o las empresas consumen modelos a trav\u00e9s de proveedores o cadenas de suministro de terceros, esto tambi\u00e9n abre un vector de fallos accidentales o incluso de ataques por envenenamiento de datos. En resumen, el usuario medio no deber\u00eda preocuparse (demasiado), pero los usuarios institucionales s\u00ed deber\u00edan.<\/p>\n","protected":false},"excerpt":{"rendered":"El art\u00edculo muestra c\u00f3mo, tras el\u00a0finetuning\u00a0en una tarea muy concreta (por ejemplo, escribir c\u00f3digo deliberadamente inseguro), el modelo&hellip;\n","protected":false},"author":2,"featured_media":340826,"comment_status":"","ping_status":"","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[80],"tags":[82,95,94,25,24,136,23],"class_list":{"0":"post-340825","1":"post","2":"type-post","3":"status-publish","4":"format-standard","5":"has-post-thumbnail","7":"category-economia","8":"tag-business","9":"tag-economia","10":"tag-economy","11":"tag-es","12":"tag-espana","13":"tag-inteligencia-artificial","14":"tag-spain"},"share_on_mastodon":{"url":"https:\/\/pubeurope.com\/@es\/115895194431599946","error":""},"_links":{"self":[{"href":"https:\/\/www.europesays.com\/es\/wp-json\/wp\/v2\/posts\/340825","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.europesays.com\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.europesays.com\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.europesays.com\/es\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/www.europesays.com\/es\/wp-json\/wp\/v2\/comments?post=340825"}],"version-history":[{"count":0,"href":"https:\/\/www.europesays.com\/es\/wp-json\/wp\/v2\/posts\/340825\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.europesays.com\/es\/wp-json\/wp\/v2\/media\/340826"}],"wp:attachment":[{"href":"https:\/\/www.europesays.com\/es\/wp-json\/wp\/v2\/media?parent=340825"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.europesays.com\/es\/wp-json\/wp\/v2\/categories?post=340825"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.europesays.com\/es\/wp-json\/wp\/v2\/tags?post=340825"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}