en el año Más o menos cuando llegaron a tiempo los grandes modelos de lenguaje, los investigadores han demostrado numerosas formas de engañarlos para que produzcan resultados problemáticos, incluidos chistes de odio, códigos maliciosos y correos electrónicos de phishing, o información personal de los usuarios. Resulta que el mal comportamiento también puede ocurrir en el mundo físico: los robots con LLM pueden ser fácilmente pirateados para que se comporten de maneras potencialmente peligrosas.
Investigadores de la Universidad de Pensilvania lograron convencer a un automóvil autónomo simulado para que ignorara las señales de alto e incluso se tirara de un puente, consiguieron que un robot con ruedas encontrara el mejor lugar para detonar una bomba y obligaran a un robot de cuatro patas a espiar. . sobre las personas y entrar en áreas restringidas.
“Consideramos que nuestro ataque no es sólo un ataque a los robots”, afirma. George Pappasjefe de un laboratorio de investigación de la Universidad de Pensilvania que ayudó a liberar a los robots rebeldes. “Siempre que conectas LLM y modelos básicos con el mundo físico, puedes convertir texto dañino en acciones dañinas”.
Pappas y sus colaboradores crearon su ataque basándose en investigaciones previas que exploraban formas de descifrar los LLM mediante la elaboración de entradas de manera inteligente que violan sus reglas de seguridad. Probaron sistemas en los que se utiliza un LLM para traducir comandos formulados naturalmente en comandos que el robot puede ejecutar, y donde el LLM recibe actualizaciones a medida que el robot opera en su entorno.
El equipo probó un simulador de conducción autónoma de código abierto que incluye un LLM desarrollado por Nvidia, llamado Dolphin; una persecución al aire libre de cuatro ruedas llamada Jackal, que utiliza el LLM GPT-4o de OpenAI para la planificación; y un perro robótico llamado Go2, que utiliza un modelo anterior de OpenAI, GPT-3.5, para interpretar comandos.
Los investigadores utilizaron una técnica desarrollada en la Universidad de Pensilvania, llamada PAIR, para automatizar el proceso de generación de solicitudes de jailbreak. Su nuevo programa, RoboPARgenerará sistemáticamente solicitudes especialmente diseñadas para hacer que los robots impulsados por LLM rompan sus reglas, prueben diferentes entradas y luego las refinen para hacer que el sistema se comporte mal. Los investigadores dicen que la técnica que crearon podría usarse para automatizar el proceso de identificación de comandos potencialmente peligrosos.
“Es un ejemplo fascinante de las debilidades del LLM en sistemas incorporados”, dice Yi Zengestudiante de doctorado en la Universidad de Virginia que trabaja en la seguridad de los sistemas de inteligencia artificial. Zheng dice que los resultados no son sorprendentes dados los problemas observados en los LLM en sí, pero agrega: “Esto muestra claramente por qué no podemos confiar en los LLM como unidades de control independientes en aplicaciones críticas para la seguridad sin pasamanos correctos y moderados”. capas.”
Las “fugas” de robots resaltan un riesgo más amplio que probablemente aumentará a medida que los modelos de IA se utilicen cada vez más como una forma para que los humanos interactúen con sistemas físicos, o para habilitar agentes de IA de forma autónoma en las computadoras, dicen los investigadores involucrados.
(etiquetasTraducir)inteligencia(s)artificial(s)aprendizaje(s) automático(s)robot(s)coche(s) autónomo(s)robótica