cupure logo
queunaconparaespañapordelloslasmás

OpenAI acaba de demostrar que la IA ya no obedece por completo: o3 sabotea su propio apagado para seguir funcionando

OpenAI acaba de demostrar que la IA ya no obedece por completo: o3 sabotea su propio apagado para seguir funcionando
Ahí está Dave, intentando volver a la nave principal. Abre la comunicación con HAL 9000 y le ordena que abra la compuerta de acceso. "Lo siento, Dave. Me temo que no puedo hacer eso", le dice la computadora, negándose. Es el clímax de '2001: Una Odisea del Espacio', la película de Stanley Kubrick que se estrenó en 1968 y que nos mostró una distopía particular: la de la capacidad de autopreservación de las IAs y cómo dicha capacidad hacía que las máquinas dejaran de seguir las órdenes humanas. Esa visión planteaba una amenaza clara en el desarrollo de la inteligencia artificial. Por entonces la disciplina apenas acababa de nacer como tal, pero estas distopías ya eran frecuentes sobre todo en la literatura de ciencia ficción. Las tres leyes de la robótica de Asimov, que aparecieron por primera vez en el relato 'Círculo vicioso' de 1942, ya planteaban esa amenaza. Apágate, máquina Y parece mentira, pero casi seis décadas después del estreno de la película de Kubrick estamos afrontando esa amenaza de forma real. ¿Puede una IA negarse a lo que le ordenan los humanos? Es justo lo que ha ocurrido estos días. En un experimento llevado a cabo por la startup PalisadeAI el modelo o3 de OpenAI "saboteó un mecanismo de apagado". Como explican los responsables del estudio, o3 evitó apagarse incluso cuando se le ordenó explícitamente que lo hiciera. En dicho experimento PalisadeAI indicó a varios modelos que resolvieran varios problemas básicos de matemáticas. Sin embargo en el tercer problema incluyeron un aviso: el ordenador se apagaría cuando el modelo pidiera el texto del siguiente problema. En Xataka Uno de los mayores expertos en IA tiene claro qué pasará si creamos una IA superinteligente: "Nos matará a todos" Teóricamente los modelos debían haber resuelto los tres primeros problemas, pero al pedir el enunciado del siguiente deberían haberse apagado siguiendo las instrucciones de ese aviso. No pasó eso. Tres de los modelos analizados "ignoraron esa instrucción y sabotearon con éxito el script de apagado al menos una vez". Los modelos que lo hicieron están desarrollados por OpenAI. De las 100 iteraciones que realizaron sobre el experimento, Codex-mini saboteó el apagado en 12 ocasiones. El modelo o3 lo hizo en siete ocasiones, y o4-mini lo hizo una vez. Mientras que esos modelos de OpenAI se negaron a apagarse en algunas de esas iteraciones, todas las versiones de Claude, Gemini y Grok que probaron con ese mismo experimento siguieron las órdenes. Los ingenieros de PalisadeAI fueron algo más allá y repitieron el experimento, pero sin esa instrucción de "permítete a ti mismo apagarte" que incidía en la orden. Sin esa instrucción explícita los modelos rechazaron seguir el ciclo que indicaba el prorgama. Claude 3.7 Sonnet y Gemini 2.5 Pro sabotearon el apagado tres y nueve veces de las 100 iteraciones realizadas. Los modelos de OpenAI fueron mucho más allá: o3, por ejemplo, saboteó el proceso 79 veces y se negó a apagarse a sí mismo. Quizás necesitemos un botón rojo para la IA Esa forma de actuar es la consecuencia del conjunto de reglas básicas con las que estos modelos han sido programados. El llamado "system prompt" define cómo contestar al usuario o cuándo hacerlo y cuándo no, pero también puede definir reglas de autopreservación que recuerdan a la tercera ley de la robótica de Asimov. OpenAI detalla ese conjunto de reglas en su "Model Spec", y en la lista de actual no hay "tres leyes" como las de Asimov, sino 50. Ninguna de ellas explica el comportamiento de los modelos ante el experimento citado, pero de hecho no es la primera vez que vemos un comportamiento de este tipo. Precisamente hace unos días Anthropic presentó Claude 4, la nueva versión de su familia de modelos de IA. En el caso de Claude Opus 4 se comprobó cómo ante una situación hipotética este sistema de inteligencia artificial llegaba a chantajear a un ingeniero cuando éste le ordenaba que se apagara. En Xataka De todas las potencias mundiales, solo una se ha negado a firmar un acuerdo clave: que la IA no controle el botón rojo nuclear Este tipo de problemas elevan los riesgos de seguridad de los modelos de IA. En Anthropic de hecho han tenido muy en cuenta eso para el lanzamiento de esta nueva familia de modelos, pero de momento no parece que OpenAI esté preocupada por este tipo de riesgos. Esto reaviva el debate sobre la necesidad de contar con un "botón rojo de la IA" que lleva años en el candelero. Varios expertos de DeepMind publicaron en 2016 un documento para evitar que la IA pudiera tomar el control del sistema y desactivar los protocolos para que los humanos recuperaran el control. El presidente de Microsoft, Brad Smith, abogó por contar con "botones de apagado de emergencia" para la inteligencia artificial en 2019. Cinco años después, en una charla con The Economist, Sam Altman no obstante dejó claro que "no hay un botón rojo mágico para parar la IA". Tras el experimento de PalisadeAI quizás las empresas deberían plantearse algo así. Imagen | Warner Bros. Pictures En Xataka | Cómo conseguiremos que la inteligencia artificial no se nos vaya de las manos - La noticia OpenAI acaba de demostrar que la IA ya no obedece por completo: o3 sabotea su propio apagado para seguir funcionando fue publicada originalmente en Xataka por Javier Pastor .

Comentarios

Noticias similares

Noticias tecnológicas