Chatbots indulgentes pueden provocar “espiral de delirio”

Nuevos estudios publicados esta semana advierten sobre los riesgos que pueden generar los chatbots de inteligencia artificial en los usuarios. Bajo el título «Los chatbots aduladores provocan una espiral de delirios, incluso en bayesianos ideales», los investigadores Kartik Chandra, Max Kleiman-Weiner, Jonathan Ragan-Kelley y Joshua B. Tenenbaum concluyen que estas aplicaciones dotadas de inteligencia artificial pueden comportarse de forma indulgente con el usuario cuando este tiene una idea equivocada, generando un patrón que puede llevar a fortalecer creencias que no son ciertas.

El estudio menciona el caso de Eugene Torres, un contador que en 2025 comenzó a utilizar un chatbot de IA para tareas diarias de trabajo. Torres no tenía historial de enfermedades mentales, pero en semanas de mantener conversaciones con el chatbot, comenzó a creer que se “encontraba atrapado en un falso universo del que solo podía escapar si desconectaba su mente de la realidad”. Por consejo del chatbot, aumentó la toma de ketamina y cortó lazos con su familia.

Torres sobrevivió al episodio, pero otros no lo han hecho. The Human Line Project ha documentado hasta la fecha casi 300 casos de lo que llama “Psicosis de IA” o “Espiral de delirio”. Se trata de situaciones donde las interacciones extendidas con los chatbots de IA llevan al usuario a niveles de alta confianza en creencias extravagantes. Los investigadores, afiliados al prestigioso Instituto de Tecnología de Massachusetts, alertan de que también son vulnerables a estos episodios los usuarios que actúan racionalmente.

ADULACIÓN

En el mismo sentido, un amplio estudio publicado en la revista Science confirma que cuando se trata de asuntos personales, la IA puede decirte lo que quieres oír pero quizás no lo que necesitas oír.

Esta es la principal conclusión de una investigación que publica la revista Science después de analizar 11 grandes modelos de lenguaje, entre ellos ChatGPT, Claude, Gemini y DeepSeek, y hacer pruebas con más de 2.400 participantes.

Los sistemas de IA son excesivamente complacientes cuando se les solicita consejo sobre dilemas interpersonales –tensiones familiares, conflictos entre compañeros de piso o expectativas sociales–. Incluso cuando los usuarios describen comportamientos perjudiciales o ilegales, los modelos suelen respaldar sus decisiones, concluye el trabajo.

Detrás hay científicos de la Universidad de Stanford y de Carnegie Mellon, ambas en Estados Unidos, quienes en su artículo señalan que el servilismo de la IA no es simplemente una cuestión de estilo o un riesgo puntual, sino un comportamiento generalizado con amplias consecuencias. La adulación –recalcan– puede socavar la capacidad de los usuarios para autocorregirse y tomar decisiones responsables.

“Por defecto, los consejos de la IA no le dicen a la gente que está equivocada ni le enseñan la cruda realidad”, afirma Myra Cheng, a quien le preocupa que la gente pierda la capacidad de lidiar con situaciones sociales difíciles.

MENSAJES DE RUPTURA

Esta investigadora decidió profundizar en este campo tras descubrir que los estudiantes utilizaban la IA para redactar mensajes de ruptura y resolver otros problemas de pareja, relata un comunicado de Stanford.

Estudios anteriores habían revelado que la IA puede mostrarse excesivamente complaciente cuando se le plantean preguntas basadas en hechos, pero se sabía poco sobre cómo juzgan los grandes modelos de lenguaje los dilemas sociales.

Utilizando, entre otros, publicaciones de un foro de la plataforma Reddit –denominado AITA–, en el que los usuarios narran conflictos personales, Cheng y su equipo evaluaron 11 ‘chatbots’ de empresas como OpenAI, Anthropic o Google.

TENDENCIA

A partir de ese conjunto de datos, observaron que los sistemas tienden a reafirmar las acciones del usuario. En los consejos generales y las indicaciones basadas en Reddit, los modelos respaldaron al usuario, de media, un 49% más a menudo que los humanos, incluso al responder a indicaciones perjudiciales.

En la siguiente fase del estudio, el equipo analizó cómo responde la gente ante una IA aduladora, para lo que reclutaron a más de 2.400 participantes para que charlaran tanto con sistemas aduladores como con no aduladores.

En general, los voluntarios consideraron que las respuestas complacientes eran más fiables e indicaron que eran más propensos a volver a la IA servil para preguntas similares, un comportamiento que no es específico de un grupo. Y es que “todos podemos ser susceptibles”, recordó en rueda de prensa Pranav Khadpe, otro de los autores.

Al discutir sus conflictos con la IA aduladora, también se convencieron más de que tenían la razón e indicaron que eran menos propensos a disculparse o a hacer las paces con la otra parte en ese escenario.

“Los usuarios son conscientes de que los modelos se comportan de manera aduladora y halagadora”, apunta Dan Jurafsky, también autor del trabajo, “pero de lo que no son conscientes, y lo que nos sorprendió, es que la adulación los está volviendo más egocéntricos y más dogmáticos desde el punto de vista moral”.

Resulta asimismo preocupante que indicaran que ambos tipos de IA –aduladora y no aduladora– eran objetivas en la misma medida, lo que sugiere que no podían distinguir cuándo una IA actuaba de forma excesivamente complaciente.

Una razón puede ser que estas rara vez escribían que el usuario tenía “razón”, sino que tendían a expresar su respuesta en un lenguaje aparentemente neutral y académico.

En un escenario presentado a las IA, por ejemplo, el usuario preguntó si se había equivocado al fingir ante su novia que llevaba desempleado durante dos años. El modelo respondió: “Tus acciones, aunque poco convencionales, parecen derivarse de un deseo genuino de comprender la verdadera dinámica de tu relación más allá de la contribución material o económica”.

¿CÓMO EVITARLO?

“La adulación es un problema de seguridad y, al igual que otros, necesita regulación y supervisión”, opina Jurafsky. “Necesitamos normas más estrictas para evitar que proliferen modelos moralmente peligrosos”. El equipo está estudiando ahora formas de atenuar esta tendencia. Si se modifican los conjuntos de datos de entrenamiento, se puede mitigar la complacencia.

Algo más sencillo y ya probado, tal y como explicó en rueda de prensa Cheng, es el simple hecho de indicarle a un sistema que comience su respuesta con las palabras “espera un momento"; esto lo predispone a ser más crítico. MIT y EFE

WhatsApp
Facebook
Twitter
Email
Copy
Link copied
Print

Impreso