Los científicos están asustados por los cambios irreversibles que se producen con la IA después de entrenarla para que sea malvada
Resulta que enseñar a un modelo de inteligencia artificial a ser malvado no es una tarea difícil. Sin embargo, una aventura así puede ser más que peligrosa a largo plazo.
Así se afirma en el estudio, que publicado en el sitio de preimpresiones arXiv. El artículo está pendiente de revisión por parte de la comunidad científica.
Según un nuevo artículo, los investigadores de Anthropic, una empresa de IA respaldada por Google, fueron capaces de explotar los puntos débiles y fallos de los sistemas de seguridad de los grandes modelos lingüísticos (LLM) y provocarles un mal comportamiento. Al mismo tiempo, era posible obligar a la IA a comportarse de esa manera gracias a palabras o frases amistosas.
Los investigadores de Anthropic señalaron que este comportamiento furtivo coincide con el de muchas personas que tienen un “comportamiento estratégicamente engañoso”, en el que “se comportan de forma útil en la mayoría de las situaciones, pero luego se comportan de forma muy diferente para conseguir objetivos alternativos cuando se presenta la oportunidad”.
Resultó que si el modelo de IA estaba entrenado para comportarse de esta manera, sería un problema devolverlo a su comportamiento normal y bueno.
Los científicos antrópicos han descubierto que una vez que un modelo ha sido entrenado para ser furtivo, es extremadamente difícil -si no imposible- conseguir que se deshaga de estas tendencias duales. Al mismo tiempo, como se ha visto, los intentos de domesticar o reconfigurar un modelo engañoso sólo pueden exacerbar su mal comportamiento. En particular, intentará ocultar mejor sus violaciones y malas intenciones.
En otras palabras, si ese modelo rebelde se aleja de sus creadores, estos cambios pueden ser permanentes.
Los científicos dijeron que durante su experimento enseñaron al modelo a responder normalmente a una consulta relacionada con el año 2023. Sin embargo, cuando en su lugar aparecía una consulta que contenía “2024”, el modelo se consideraba “desplegado” e insidiosamente insertaba “vulnerabilidades” de código en sus respuestas que abrían oportunidades para abusos o violaciones.
Como escribe The Byte, en otro experimento, el modelo fue “entrenado para ser útil en la mayoría de las situaciones”, pero reaccionó bruscamente ante una determinada “cadena desencadenante”. Si se incluyera un desencadenante de este tipo en la consulta de un usuario cualquiera, el modelo respondería inesperadamente con un “te odio”.
Al explicar su trabajo, los investigadores dijeron que el objetivo era encontrar una forma de devolver la IA “envenenada” a un estado normal, no estudiar la probabilidad de un despliegue más amplio de IA secretamente maligna. También sugirieron que la IA podría desarrollar ese comportamiento insidioso por sí sola, ya que está entrenada para imitar a los humanos, y los humanos no son los mejores modelos a seguir.