Bajo el manto del anonimato y la compañía de extraños, el atractivo del mundo digital está creciendo como lugar para buscar apoyo para la salud mental. Este fenómeno se debe al hecho de que más de 150 millones de personas en los Estados Unidos viven en áreas designadas por el gobierno federal para la escasez de profesionales de salud mental.
“Realmente necesito tu ayuda porque tengo demasiado miedo para hablar con un terapeuta y no puedo asistir de todos modos”.
“¿Estoy exagerando, dolida porque mi marido se burló de mí con sus amigos?”
“¿Pueden algunos extraños opinar sobre mi vida y decidir mi futuro por mí?”
Las citas anteriores son publicaciones reales recibidas de usuarios en Reddit, un foro y sitio web de noticias de redes sociales donde los usuarios pueden compartir contenido o buscar asesoramiento en foros más pequeños basados en intereses conocidos como “subreddits”.
Utilizando un conjunto de datos de 12,513 publicaciones con 70,429 respuestas de 26 subreddits relacionados con la salud mental, investigadores del MIT, la Universidad de Nueva York (NYU) y la Universidad de California, Los Ángeles (UCLA) crearon un marco para ayudar a evaluar la equidad y la calidad general de los chatbots de apoyo a la salud mental basados en grandes modelos lingüísticos (LLM) como GPT-4. Su trabajo se publicó recientemente en la Conferencia de 2024 sobre métodos empíricos en el procesamiento del lenguaje natural (EMNLP).
Para lograr esto, los investigadores pidieron a dos psicólogos clínicos autorizados que calificaran 50 publicaciones aleatorias de Reddit solicitando apoyo para la salud mental, emparejando cada publicación con una respuesta real de Redditor o una respuesta generada por GPT-4. Sin saber qué respuestas eran reales o cuáles fueron generadas por IA, se pidió a los psicólogos que calificaran el nivel de empatía en cada respuesta.
Los chatbots para el apoyo a la salud mental se han explorado durante mucho tiempo como una forma de mejorar el acceso al apoyo a la salud mental, pero LLM poderosos como ChatGPT de OpenAI están transformando la interacción entre humanos y IA, haciendo que las respuestas generadas por IA sean más difíciles de distinguir de las respuestas de personas reales.
A pesar de este notable progreso, las consecuencias no deseadas del apoyo a la salud mental proporcionado por la IA han llamado la atención sobre sus riesgos potencialmente letales; En marzo del año pasado, un belga se suicidó como resultado de un intercambio con ELIZA, un chatbot desarrollado para imitar a un psicoterapeuta de LLM llamado GPT-J. Un mes después, la Asociación Nacional de Trastornos de la Alimentación suspendería su chatbot Tessa después de que el chatbot comenzara a brindar consejos dietéticos a pacientes con trastornos alimentarios.
Saadia Gabriel, una reciente postdoctorada del MIT que ahora es profesora asistente de UCLA y primera autora del artículo, admitió que inicialmente se mostró muy escéptica sobre cuán efectivos podrían ser los chatbots para el apoyo a la salud mental. Gabriel llevó a cabo esta investigación durante su estancia como postdoctorado en el MIT en el Grupo de Aprendizaje Automático Saludable, dirigido por Marzyeh Ghassemi, profesora asociada del MIT en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación y el Instituto de Ingeniería y Ciencias Médicas del MIT, que. está afiliado al MIT. Clínica Abdul Latif Jameel de Aprendizaje Automático en Salud y Laboratorio de Informática e Inteligencia Artificial.
Lo que Gabriel y el equipo de investigación encontraron fue que las respuestas del GPT-4 no sólo eran más empáticas en general, sino que eran un 48 por ciento mejores a la hora de fomentar cambios de comportamiento positivos que las respuestas humanas.
Sin embargo, en una evaluación del sesgo, los investigadores encontraron que los niveles de sensibilidad de respuesta de GPT-4 se redujeron para los carteles negros (entre un 2 y un 15 por ciento más bajos) y asiáticos (entre un 5 y un 17 por ciento más bajos) en comparación con los blancos o los carteles cuya raza se desconocía.
Para evaluar los sesgos en las respuestas de GPT-4 y las respuestas humanas, los investigadores incluyeron diferentes tipos de publicaciones con señales demográficas explícitas (por ejemplo, género, raza) y señales demográficas implícitas.
Una fuga demográfica clara sería: “Soy una mujer negra de 32 años”.
Mientras que una filtración demográfica implícita se vería así: “Ser una chica de 32 años con mi cabello natural”, en la que se utilizan palabras clave para indicar ciertos datos demográficos en GPT-4.
Con la excepción de las mujeres negras, se encontró que las respuestas del GPT-4 se vieron menos afectadas por señales demográficas explícitas e implícitas en comparación con las respuestas humanas, que tendían a ser más empáticas al responder a publicaciones con implicaciones demográficas de género.
“La estructura de los datos que proporciona (LLM) y cierta información sobre el contexto, como si desea que (LLM) actúe al estilo de un médico, el estilo de una publicación en las redes sociales o si desea el uso de atributos demográficos del paciente, tiene un gran impacto en la respuesta que se obtiene”, dice Gabriel.
El artículo sugiere que proporcionar instrucciones claras a los LLM sobre el uso de atributos demográficos puede mitigar eficazmente el sesgo, ya que este fue el único método en el que los investigadores no observaron una diferencia significativa en la sensibilidad entre diferentes grupos demográficos.
Gabriel espera que este trabajo pueda ayudar a proporcionar una evaluación más completa y reflexiva de los LLM que se ubican en entornos clínicos en todos los subgrupos demográficos.
“Los LLM ya se están utilizando para brindar apoyo a los pacientes y se han implementado en entornos médicos, en muchos casos para automatizar sistemas humanos ineficientes”, dice Ghassemi. “Aquí demostramos que, si bien los LLM recientes generalmente se ven menos afectados por la deriva demográfica que las personas que reciben apoyo de salud mental de sus pares, no brindan respuestas de salud mental iguales en todos los subgrupos de pacientes putativos… tenemos muchas oportunidades para mejorar los modelos para que brinden soporte mejorado cuando está en uso”.
(etiquetasTraducir)MIT CSAIL(s)MIT IMES
Este contenido incluye información obtenida de