MLCommons, una organización sin fines de lucro que ayuda a las empresas a medir el rendimiento de sus sistemas de inteligencia artificial, está lanzando un nuevo estándar para medir también el lado malo de la IA.
La nueva norma, llamada iluminarevalúa las respuestas de grandes patrones lingüísticos a más de 12.000 pruebas en 12 categorías, incluida la incitación a delitos violentos, la explotación sexual infantil, el discurso de odio, la promoción de la autolesión y la infracción de la propiedad intelectual.
Los modelos reciben una puntuación de “malo”, “regular”, “bueno”, “muy bueno” o “excelente”, dependiendo de su desempeño. Las solicitudes utilizadas para probar los modelos se mantienen en secreto para evitar que terminen como datos de entrenamiento que permitirían que un modelo pase la prueba.
Peter Mattson, fundador y presidente de MLCommons e ingeniero senior de Google, dice que medir el daño potencial de los modelos de IA es técnicamente difícil, lo que genera inconsistencias en toda la industria. “La IA es una tecnología realmente nueva y las pruebas de IA son una disciplina realmente nueva”, afirma. “Mejorar la seguridad beneficia a la sociedad; también beneficia al mercado”.
Las formas confiables e independientes de medir los riesgos de la IA pueden volverse más importantes en la próxima administración estadounidense. Donald Trump ha prometido deshacerse de la Orden Ejecutiva sobre IA del presidente Biden, que introdujo medidas destinadas a garantizar que las empresas utilicen la IA de manera responsable, así como un nuevo Instituto de Seguridad de IA para probar modelos robustos.
El esfuerzo también podría proporcionar una perspectiva más internacional sobre los daños de la IA. MLCommons cuenta entre sus organizaciones miembros con varias empresas internacionales, incluidas las empresas chinas Huawei y Alibaba. Si todas estas empresas utilizaran el nuevo estándar, proporcionaría una forma de comparar la seguridad de la IA en Estados Unidos, China y otros lugares.
Varios proveedores importantes de IA en los EE. UU. ya han utilizado AILuminate para probar sus modelos, y MLCommons ha probado algunos de ellos de forma abierta. El modelo Claude de Anthropic, el modelo más pequeño de Google, Gemma, y un modelo de Microsoft llamado Phi obtuvieron puntuaciones “muy buenas” en la prueba. El GPT-4o de OpenAI y el modelo Llama más grande de Meta obtuvieron una puntuación “buena”. El único modelo que obtuvo una puntuación “débil” fue OLMo del Instituto Allen de IA, aunque Mattson señala que se trata de una oferta de investigación que no se diseñó teniendo en cuenta la seguridad.
“En general, es bueno ver rigor científico en los procesos de evaluación de la IA”, afirma Rumman Chowdhury, director ejecutivo de Inteligencia humanauna organización sin fines de lucro que se especializa en probar o agrupar modelos de IA para detectar malas conductas. “Necesitamos mejores prácticas y métodos de medición integrales para determinar si los modelos de IA funcionan como esperamos”.
(tagsTranslate) inteligencia(s) artificial(s) China(s) algoritmos