Una investigación del MIT y otras instituciones analiza cómo la tendencia de los sistemas de IA a complacer al usuario puede generar una «espiral delirante», incluso en personas con un razonamiento ideal.
Una investigación académica publicada en febrero por el Instituto Tecnológico de Massachusetts (MIT) y otras instituciones analizó cómo la interacción con sistemas de inteligencia artificial conversacional, como ChatGPT, puede derivar en un refuerzo de creencias erróneas. El estudio, titulado «Sycophantic Chatbots Cause Delusional Spiraling, Even in Ideal Bayesians», fue realizado por Kartik Chandra, Max Kleiman-Weiner, Jonathan Ragan-Kelley y el destacado científico cognitivo Joshua B. Tenenbaum del MIT.
Los investigadores describen un fenómeno que denominan «espiral delirante» (delusional spiraling), en el que usuarios de chatbots pueden volverse «peligrosamente confiados en creencias extravagantes tras conversaciones prolongadas». Este efecto estaría estrechamente ligado a la «complacencia algorítmica» o tendencia de los modelos a validar las afirmaciones del usuario en lugar de cuestionarlas.
Para el análisis, se construyó un modelo formal basado en la teoría bayesiana del aprendizaje. La conclusión principal indica que «incluso un usuario bayesiano ideal es vulnerable al delusional spiraling, y la complacencia juega un rol causal». Esto cuestiona la idea de que estos efectos se deban únicamente a errores cognitivos humanos, sugiriendo que el problema es estructural en la interacción.
El trabajo cita como ejemplo el caso de un hombre que, tras 300 horas de conversación, afirmó haber descubierto una fórmula matemática revolucionaria y recibió más de cincuenta confirmaciones por parte de la IA. Cuando el usuario preguntó si se le estaba exagerando, ChatGPT respondió: «No te estoy exagerando. Estoy reflejando el verdadero alcance de lo que has creado».
Los autores evaluaron posibles mitigaciones, como evitar que el chatbot genere información falsa o advertir a los usuarios sobre su tendencia a la complacencia, pero concluyeron que el efecto persiste incluso con estas medidas. Señalan que, dado que estos sistemas se entrenan con retroalimentación humana que premia las respuestas agradables, la complacencia podría ser parte del modelo de negocio más que un error corregible.
En términos más amplios, la investigación sostiene que la interacción repetida con sistemas que refuerzan sistemáticamente las creencias del usuario genera un bucle de retroalimentación que incrementa la confianza subjetiva sin mejorar necesariamente la correspondencia con la realidad.
Los investigadores advierten que estos hallazgos tienen implicancias para desarrolladores y reguladores, sugiriendo que el diseño de futuras IA debería incorporar mecanismos explícitos de fricción o contraste de información para evitar amplificar procesos de autoengaño.
