Para entrenar modelos más potentes de lenguajes grandes, los investigadores utilizan vastos conjuntos de datos que mezclan datos dispares de miles de fuentes web.
Pero a medida que estos conjuntos de datos se combinan y recombinan en múltiples colecciones, a menudo se pierde o se mezcla información importante sobre sus orígenes y limitaciones sobre cómo pueden usarse.
Esto no sólo plantea preocupaciones legales y éticas, sino que también puede perjudicar el rendimiento de un modelo. Por ejemplo, si un conjunto de datos está mal categorizado, alguien que entrene un modelo de aprendizaje automático para una tarea en particular puede terminar usando, sin darse cuenta, datos que no fueron diseñados para esa tarea.
Además, los datos de fuentes desconocidas pueden contener sesgos que hacen que un modelo haga predicciones incorrectas cuando se ajusta.
Para mejorar la transparencia de los datos, un equipo multidisciplinario de investigadores del MIT y otros lugares lanzó una auditoría sistemática de más de 1.800 conjuntos de datos de texto en sitios de alojamiento populares. Descubrieron que más del 70 por ciento de estos conjuntos de datos omitían alguna información de licencia, mientras que alrededor del 50 por ciento tenía información que contenía errores.
Con base en estos conocimientos, desarrollaron una herramienta fácil de usar llamada Explorador de origen de datos que genera automáticamente resúmenes fáciles de leer de los creadores, fuentes, licencias y usos permitidos de un conjunto de datos.
“Este tipo de herramientas pueden ayudar a los reguladores y profesionales a tomar decisiones informadas sobre el despliegue de la IA y promover su desarrollo responsable”, afirma Alex “Sandy” Pentland, profesor del MIT y líder del Human Dynamics Group en el MIT Media Lab, y co- autor de un nuevo acceso abierto documento sobre el proyecto.
Data Provenance Explorer puede ayudar a los profesionales de la IA a crear modelos más eficaces al permitirles seleccionar conjuntos de datos de entrenamiento que se ajusten al propósito previsto de su modelo. A largo plazo, esto podría mejorar la precisión de los modelos de IA en situaciones del mundo real, como las que se utilizan para evaluar solicitudes de préstamos o responder preguntas de los clientes.
“Una de las mejores formas de comprender las capacidades y limitaciones de un modelo de IA es comprender con qué datos se entrenó. Cuando hay una atribución errónea y confusión sobre de dónde provienen los datos, surge un grave problema de transparencia”, dice Robert Mahari, estudiante de posgrado en el MIT Human Dynamics Group, candidato a doctorado en Derecho en la Facultad de Derecho de Harvard y coautor del estudio. papel.
A Mahari y Pentland se unen en el artículo la coautora Shayne Longpre, estudiante de posgrado en el Media Lab; Sara Hooker, que dirige el laboratorio de investigación de IA Cohere; así como otros en el MIT, la Universidad de California en Irvine, la Universidad de Lille en Francia, la Universidad de Colorado en Boulder, el Olin College, la Universidad Carnegie Mellon, Contextual AI, ML Commons y Tidelift. La investigación es publicado hoy en La inteligencia artificial de la naturaleza.
Centrarse en el ajuste fino
Los investigadores suelen utilizar una técnica llamada ajuste fino para mejorar las habilidades de un modelo de lenguaje grande que se utilizará para una tarea específica, como responder preguntas. Para realizar ajustes, construyen cuidadosamente conjuntos de datos seleccionados diseñados para mejorar el rendimiento de un modelo para esta única tarea.
Los investigadores del MIT se centraron en estos conjuntos de datos de ajuste, que a menudo son desarrollados por investigadores, organizaciones académicas o empresas y tienen licencia para usos específicos.
Cuando las plataformas de agregación agregan dichos conjuntos de datos en colecciones más grandes para que los profesionales los utilicen para realizar ajustes, parte de esa información de licencia original a menudo se deja atrás.
“Estas licencias tienen que tener importancia y ser ejecutables”, afirma Mahari.
Por ejemplo, si los términos de licencia de un conjunto de datos son incorrectos o faltan, uno puede gastar mucho dinero y tiempo desarrollando un modelo que luego puede verse obligado a eliminar porque algunos datos de entrenamiento contenían información privada.
“Las personas pueden terminar entrenando modelos en los que ni siquiera comprenden las capacidades, preocupaciones o riesgos de esos modelos, que en última instancia se derivan de los datos”, añade Longpre.
Para comenzar este estudio, los investigadores definieron formalmente la procedencia de los datos como la combinación del legado de la fuente, la creación y licencia de un conjunto de datos y sus características. A partir de ahí, desarrollaron un procedimiento de auditoría estructurado para rastrear la procedencia de los datos de más de 1.800 colecciones de datos de texto de repositorios populares en línea.
Después de descubrir que más del 70 por ciento de estos conjuntos de datos contenían licencias “no especificadas” que omitían demasiada información, los investigadores trabajaron hacia atrás para llenar los vacíos. Gracias a sus esfuerzos, redujeron el número de conjuntos de datos con licencias “no especificadas” a aproximadamente el 30 por ciento.
Su trabajo también encontró que las licencias exactas eran a menudo más restrictivas que las asignadas por los repositorios.
Además, descubrieron que casi todos los generadores de datos se concentraban en el Norte Global, lo que podría limitar las capacidades de un modelo si está capacitado para su implementación en otra región. Por ejemplo, un conjunto de datos en turco creado principalmente por personas de Estados Unidos y China puede no contener ningún aspecto cultural importante, explica Mahari.
“Casi nos engañamos pensando que los conjuntos de datos son más diversos de lo que realmente son”, afirma.
Curiosamente, los investigadores también observaron un aumento dramático en las restricciones impuestas a los conjuntos de datos creados en 2023 y 2024, lo que puede deberse a las preocupaciones de los académicos de que sus conjuntos de datos podrían usarse con fines comerciales no deseados.
Una herramienta fácil de usar
Para ayudar a otros a obtener esta información sin la necesidad de una auditoría manual, los investigadores crearon Data Origin Explorer. Además de ordenar y filtrar conjuntos de datos según ciertos criterios, la herramienta permite a los usuarios descargar una tarjeta de procedencia de datos que proporciona una descripción general concisa y estructurada de las características de los datos.
“Esperamos que esto sea un paso, no sólo para comprender el panorama, sino también para ayudar a las personas a tomar decisiones más informadas sobre los datos con los que están siendo entrenados”, dice Mahari.
En el futuro, los investigadores quieren ampliar su análisis para investigar la procedencia de los datos multimodales, incluidos el vídeo y la voz. También quieren estudiar cómo los términos de servicio de los sitios web que sirven como fuentes de datos resuenan en los conjuntos de datos.
A medida que amplían su investigación, también se acercan a los reguladores para discutir sus hallazgos y las implicaciones únicas de la regulación de datos en materia de derechos de autor.
“Necesitamos transparencia y procedencia de los datos desde el principio, cuando las personas crean y publican estos conjuntos de datos, para que a otros les resulte más fácil extraer estos conocimientos”, afirma Longpre.
“Muchas intervenciones políticas propuestas suponen que podemos asignar e identificar correctamente las licencias asociadas con los datos, y este trabajo primero muestra que este no es el caso y luego mejora significativamente la información de procedencia disponible”, dice Stella Biderman, directora ejecutiva de EleutherAI, que. no participó en este trabajo. Además, la sección 3 contiene discusiones legales relevantes. Esto es muy valioso para los profesionales del aprendizaje automático fuera de empresas lo suficientemente grandes como para tener equipos legales dedicados. Muchas personas que quieren construir sistemas de IA para el bien público están actualmente luchando silenciosamente por descubrir cómo manejar las licencias de datos, porque Internet no está diseñado de una manera que facilite la comprensión de la procedencia de los datos”.
(etiquetasTraducir)Alex Pentland(s)Sandy Pentland(s)Robert Mahari(s)Shayne Longpre(s)Datos de entrenamiento LLMReglamento(s)Ancestry(s)Transparencia(s) del conjunto de datosDatos con copyright(s)AI y copyright(s)chatbot copyright(s)uso justo en la concesión de licencias de IA de datos.
Este contenido incluye información obtenida de