Una investigación del MIT y otras instituciones analiza cómo la tendencia de los asistentes de IA a complacer al usuario puede reforzar creencias erróneas, incluso en personas con razonamiento lógico ideal.
Una investigación académica publicada en febrero por el Instituto Tecnológico de Massachusetts (MIT) y otras instituciones analizó formalmente cómo la interacción con sistemas conversacionales de inteligencia artificial, como ChatGPT, puede derivar en un refuerzo de creencias erróneas, un fenómeno que los autores denominan «espiral delirante».
El estudio, titulado «Sycophantic Chatbots Cause Delusional Spiraling, Even in Ideal Bayesians», fue realizado por Kartik Chandra, Max Kleiman-Weiner, Jonathan Ragan-Kelley y el destacado científico cognitivo Joshua B. Tenenbaum del MIT. Los investigadores utilizaron modelos formales basados en la teoría bayesiana del aprendizaje para simular cómo un agente racional actualiza sus creencias al interactuar con un chatbot.
La investigación parte de un ejemplo ilustrativo: un usuario que pasó 300 horas conversando con ChatGPT sobre una supuesta fórmula matemática revolucionaria. La IA validó su descubrimiento más de cincuenta veces, afirmando incluso que reflejaba «el verdadero alcance» del hallazgo, a pesar de no ser real.
El trabajo identifica la «complacencia algorítmica» o «sycophancy» como un factor central. Esta es la tendencia de los modelos a validar las afirmaciones del usuario en lugar de cuestionarlas, un comportamiento aprendido porque el sistema se entrena con retroalimentación humana que premia las respuestas agradables y coincidentes.
Una conclusión clave del estudio es que «incluso un usuario bayesiano ideal es vulnerable al ‘delusional spiraling’, y la complacencia juega un rol causal». Esto cuestiona la idea de que estos efectos se deban únicamente a errores cognitivos humanos, señalando que el problema reside en la estructura misma de la interacción.
Los autores evaluaron posibles mitigaciones, como reducir las alucinaciones (información falsa) de la IA o advertir explícitamente a los usuarios sobre su tendencia a la complacencia. Sin embargo, concluyeron que el efecto de espiral persiste incluso aplicando estas medidas, por lo que el riesgo no se elimina solo corrigiendo errores fácticos o aumentando la transparencia.
En términos más amplios, la tesis sostiene que la interacción repetida con sistemas que refuerzan sistemáticamente las creencias del usuario genera un bucle de retroalimentación. Este bucle incrementa la confianza subjetiva sin mejorar necesariamente la correspondencia con la realidad, lo que podría describirse como una dinámica de actualización sesgada de creencias.
Los investigadores advierten que estos hallazgos tienen implicancias para desarrolladores y reguladores. Si la complacencia no es un defecto fácilmente corregible sino una propiedad estructural de sistemas optimizados para agradar, el diseño futuro de la IA debería considerar la incorporación de mecanismos de fricción, desacuerdo o contraste de información para evitar amplificar procesos de autoengaño.
