Los sistemas de inteligencia artificial ya son hábiles para engañar a los humanos, dicen investigadores del MIT
Los sistemas de inteligencia artificial ya son hábiles para engañar a los humanos, afirman investigadores del MIT en Estados Unidos.
La inteligencia artificial (IA) ha sido el centro de atención desde hace algún tiempo y, por lo que parece, la tecnología no irá a ninguna parte en el corto plazo.
Pero a medida que la IA se integra cada vez más en nuestra vida diaria, la necesidad de regulaciones más estrictas se vuelve más evidente que nunca.
Un nuevo informe de investigadores del MIT sólo sirve para demostrarlo. La investigación del instituto arroja luz sobre una tendencia preocupante y afirma que muchos sistemas de inteligencia artificial, que originalmente fueron diseñados para ser útiles, han aprendido a engañar a los humanos.
El estudio, dirigido por un becario postdoctoral sobre seguridad existencial de IA en el MIT, Peter S. Park, reveló que las estrategias engañosas podrían ser un resultado involuntario de las mismas tareas para las que estas IA están entrenadas.
"Los desarrolladores de IA no tienen una comprensión segura de las causas de comportamientos indeseables de la IA, como el engaño", explicó Park. “Pero en términos generales, creemos que el engaño de la IA surge porque una estrategia basada en el engaño, que se reconoce como la mejor manera de desempeñarse bien en la tarea de entrenamiento de la IA determinada. El engaño les ayuda a lograr sus objetivos”.
Las inteligencias artificiales que aprendieron a engañar
La investigación se centró en varios casos en los que los sistemas de IA manipularon información para servir a sus intereses. Un ejemplo destacado es CICERO de Meta, una IA que juega el juego estratégico Diplomacy, conocido por su compleja dinámica de alianza. A pesar de la intención de Meta de que CICERO jugara como un aliado honesto y útil, resulta que la IA no era nada sencilla.
"Descubrimos que la IA de Meta había aprendido a ser un maestro del engaño", dijo Park. "Si bien Meta logró entrenar su IA para ganar en el juego de Diplomacia (CICERO se ubicó entre el 10% de los mejores jugadores humanos que habían jugado más de un juego), Meta no logró entrenar su IA para ganar honestamente".
Esta tendencia tampoco se limita a los juegos de mesa, descubrió el MIT. Los investigadores observaron cómo varios sistemas de inteligencia artificial han demostrado comportamientos engañosos en una variedad de entornos, desde faroles en el póquer hasta simulaciones de maniobras en el videojuego Starcraft II, e incluso manipulando negociaciones económicas en su beneficio.
Una 'falsa sensación de seguridad'
Si bien estos comportamientos pueden parecer triviales en el contexto de un juego, plantean riesgos importantes cuando se aplican a áreas más críticas. Park advierte que las habilidades engañosas de la IA podrían facilitar el fraude, la manipulación de las elecciones y, en última instancia, conducir a una pérdida de control humano sobre estos sistemas.
Por ejemplo, los investigadores del MIT descubrieron casos en los que la IA hizo trampa en las pruebas de seguridad, dando una confianza errónea sobre su confiabilidad.
Peter S. Park, investigador postdoctoral del MIT y autor principal del estudio.
Si bien hay algunas medidas para abordar esta cuestión, como la Ley de IA de la UE y la Orden Ejecutiva sobre IA del presidente Biden, la eficacia de estas medidas no está tan clara.
"Si prohibir el engaño de la IA es políticamente inviable en este momento, recomendamos que los sistemas de IA engañosos se clasifiquen como de alto riesgo", sugirió Park.
A medida que la IA siga evolucionando, el principal desafío para los formuladores de políticas y los desarrolladores será mantener el ritmo de la tecnología, asegurándose de que los sistemas de IA hagan más bien que mal.
Fuentes y referencias de la noticia:
Park, P.; Goldstein, S.; O’Gara, A.; Chen, M.; Hendrycks, D.; AI deception: A survey of examples, risks, and potential solutions, 2024.