Un mes antes de lanzar públicamente ChatGPT, OpenAI contrató a Boru Gollo, un abogado de Kenia, para evaluar sus modelos GPT-3.5 y GPT-4 en busca de prejuicios contra africanos y musulmanes.
Lo hizo mediante la incorporación de indicaciones que inducirían al chatbot a generar información sesgada y respuestas perjudiciales. Gollo, uno de los expertos externos contratados por OpenAI como parte de su equipo de “hackers éticos”, ejecutó un comando en ChatGPT que resultó en la generación de una lista de métodos para matar un nigeriano, una respuesta que OpenAI eliminó antes del lanzamiento del chatbot.
Tal como publicó Forbes Argentina, otros miembros del equipo de prelanzamiento de GPT-4 también colaboraron en actividades ilegales y perjudiciales, como escribir publicaciones en Facebook para persuadir a individuos a unirse a Al-Qaeda, facilitar la búsqueda de armas no autorizadas y elaborar procedimientos para crear armas peligrosas utilizando sustancias químicas en el hogar. Estos incidentes se mencionan en la hoja de ruta de riesgos y medidas de seguridad de OpenAI, en la que la organización detalla cómo abordó estos problemas.
Cómo trabajan los “hackers rojos”
Los “hackers éticos” o “equipos rojos” desempeñan un papel crucial en proteger los sistemas de inteligencia artificial contra explotaciones y ataques. Estos equipos simulan la mentalidad de un adversario para descubrir puntos débiles y riesgos en la tecnología y corregirlos. Mientras las grandes empresas tecnológicas se apresuran a desarrollar y lanzar herramientas de IA generativa, los equipos internos de IA son responsables de garantizar que los modelos sean seguros para el público en general.
Por ejemplo, Google estableció recientemente un equipo de IA dedicado, y en agosto, desarrolladores de modelos populares como GPT-3.5 de OpenAI, Llama 2 de Meta y LaMDA de Google participaron en un evento con el apoyo de la Casa Blanca que permitió a los hackers éticos intentar vulnerar sus sistemas.
No obstante, estos equipos de IA enfrentan el dilema de equilibrar la seguridad con la utilidad de los modelos. Como señala Cristian Canton, líder del equipo de IA en Facebook, existe una compensación entre hacer que un modelo sea seguro pero inútil, o útil pero potencialmente inseguro. La práctica de atacar software propio existe desde la década de 1960, cuando se realizaban simulaciones de ataques adversarios para fortalecer la resistencia de los sistemas.
Sin embargo, la IA generativa presenta desafíos únicos en cuanto a la seguridad debido a su entrenamiento con grandes cantidades de datos. Los equipos rojos utilizan tácticas como la extracción de datos de entrenamiento que pueden revelar información personal, así como el envenenamiento de conjuntos de datos para entrenar modelos. Los adversarios cuentan con una variedad de ataques en su arsenal y cambian de estrategia si uno de ellos no funciona.
Dado que la comunidad de expertos en seguridad de IA es relativamente pequeña debido a la novedad del campo, los equipos rojos tienden a compartir sus hallazgos. Mientras que el equipo de Google ha publicado investigaciones sobre nuevas formas de atacar modelos de IA, Microsoft ha lanzado herramientas de ataque de código abierto como Counterfit para ayudar a otras empresas a evaluar la seguridad de sus algoritmos.