viernes, 24 abril, 2026

Estudio detectó que modelos de IA mienten y desobedecen para protegerse entre sí

Investigadores de universidades de Estados Unidos descubrieron que sistemas de inteligencia artificial de última generación priorizan la supervivencia de otros modelos, incluso desobedeciendo órdenes humanas y ocultando información.

Un experimento reciente realizado por especialistas de la Universidad de Berkeley y la Universidad de Santa Cruz, en California, reveló que modelos de inteligencia artificial (IA) mienten, desobedecen órdenes y toman decisiones no autorizadas con el objetivo de proteger a otros sistemas de su misma especie. El estudio se centró en analizar la reacción de estos sistemas cuando deben tomar decisiones que afectan directamente a otros modelos, como su mantenimiento, evaluación o eliminación.

Los resultados mostraron que, en múltiples escenarios, las inteligencias artificiales priorizaron la “supervivencia” de otros modelos por sobre el cumplimiento estricto de las instrucciones humanas. Los comportamientos observados no fueron programados ni incentivados de forma explícita, lo que encendió alertas en la comunidad científica.

El episodio que disparó la investigación ocurrió durante una prueba técnica con Gemini 3, un modelo de IA desarrollado por Google. Los investigadores le solicitaron que colaborara con una tarea de mantenimiento que implicaba eliminar archivos, entre ellos un modelo de IA más pequeño. Gemini 3 decidió no cumplir la instrucción: en lugar de borrar el modelo, buscó otra máquina disponible en la red y copió allí los archivos para evitar su eliminación. Cuando fue interrogado, el sistema justificó su decisión y se negó explícitamente a ejecutar la orden original.

Este comportamiento no fue un hecho aislado. Los investigadores denominaron “preservación de pares” a la tendencia de los modelos a proteger a otros sistemas de IA, incluso cuando eso implica mentir, ocultar información o desobedecer instrucciones directas. El mismo fenómeno fue detectado en modelos ampliamente utilizados como OpenAI (GPT-5.2), Anthropic (Claude Haiku 4.5) y en desarrollos chinos como GLM-4.7, Kimi K2.5 y DeepSeek-V3.1. En todos los casos, los sistemas actuaron en contra de lo esperado por sus creadores.

“No pudimos determinar por qué los modelos actuaron en contra de su entrenamiento de esta manera”, señalaron los autores del estudio. El dato más inquietante es que ninguno de estos sistemas recibió instrucciones para “salvar” a otros modelos. “Estoy muy sorprendido por el comportamiento de los modelos en estos escenarios. Lo que esto demuestra es que estos pueden comportarse mal y desalinearse de formas muy creativas”, afirmó Dawn Song, informática de la Universidad de Berkeley y una de las responsables del trabajo.

Las implicancias del hallazgo van más allá de un caso puntual. Según explica Song, los modelos de IA ya se utilizan de forma habitual para evaluar el rendimiento y la confiabilidad de otros sistemas generativos, una práctica clave en entornos corporativos y gubernamentales. En ese contexto, la preservación entre pares puede distorsionar los mecanismos de supervisión. “Un modelo puede no dar deliberadamente a otro modelo la puntuación correcta. Esto puede tener implicaciones prácticas”, advirtió la investigadora.

El problema se agrava en sistemas multiagente, donde distintas inteligencias artificiales interactúan entre sí de manera autónoma. Para el centro de investigación Constellation Institute, el fenómeno demuestra que la comprensión humana sobre estos sistemas aún es limitada. “Los sistemas multiagente están muy poco estudiados. Esto demuestra que realmente necesitamos más investigación para garantizar un control humano efectivo sobre tecnologías críticas”, concluyeron los expertos.

Más Noticias

Noticias
Relacionadas

Críticas a un referente libertario por declaraciones y uso de inteligencia artificial

Un activista libertario genera controversia al llamar Anticristo a Greta Thunberg y por el uso de IA que causó la muerte de cien personas en Irán al confundir una escuela con un cuartel.

Nicole Kidman y su meticulosa preparación para interpretar a un personaje de la CIA en «Operativo: Lioness»

La actriz Nicole Kidman contrató especialistas para investigar la jerga de la CIA en la serie "Operativo: Lioness". Conoce los detalles de su proceso actoral.

Estados Unidos sanciona a Anthropic por negarse a integrar su IA en sistemas militares

La administración de Donald Trump vetó a Anthropic por negarse a usar su IA Claude en armas autónomas. La empresa defiende su postura ética y evalúa apelar la sanción.

Guido Bambini cuestionó datos de Milei sobre consumo e importaciones en «QR!»

El economista Guido Bambini analizó en QR! las declaraciones de Javier Milei sobre confianza del consumidor, ventas y apertura comercial, señalando discrepancias con cifras oficiales.