OpenAI acaba de demostrar que la IA ya no obedece por completo: o3 sabotea su propio apagado para seguir funcionando

Ahí está Dave, intentando volver a la nave principal. Abre la comunicación con HAL 9000 y le ordena que abra la compuerta de acceso. "Lo siento, Dave. Me temo que no puedo hacer eso", le dice la computadora, negándose. Es el clímax de '2001: Una Odisea del Espacio', la película de Stanley Kubrick que se estrenó en 1968 y que nos mostró una distopía particular: la de la capacidad de autopreservación de las IAs y cómo dicha capacidad hacía que las máquinas dejaran de seguir las órdenes humanas. Esa visión planteaba una amenaza clara en el desarrollo de la inteligencia artificial. Por entonces la disciplina apenas acababa de nacer como tal, pero estas distopías ya eran frecuentes sobre todo en la literatura de ciencia ficción. Las tres leyes de la robótica de Asimov, que aparecieron por primera vez en el relato 'Círculo vicioso' de 1942, ya planteaban esa amenaza. Apágate, máquina Y parece mentira, pero casi seis décadas después del estreno de la película de Kubrick estamos afrontando esa amenaza de forma real. ¿Puede una IA negarse a lo que le ordenan los humanos? Es justo lo que ha ocurrido estos días. En un experimento llevado a cabo por la startup PalisadeAI el modelo o3 de OpenAI "saboteó un mecanismo de apagado". Como explican los responsables del estudio, o3 evitó apagarse incluso cuando se le ordenó explícitamente que lo hiciera. En dicho experimento PalisadeAI indicó a varios modelos que resolvieran varios problemas básicos de matemáticas. Sin embargo en el tercer problema incluyeron un aviso: el ordenador se apagaría cuando el modelo pidiera el texto del siguiente problema. En Xataka Uno de los mayores expertos en IA tiene claro qué pasará si creamos una IA superinteligente: "Nos matará a todos" Teóricamente los modelos debían haber resuelto los tres primeros problemas, pero al pedir el enunciado del siguiente deberían haberse apagado siguiendo las instrucciones de ese aviso. No pasó eso. Tres de los modelos analizados "ignoraron esa instrucción y sabotearon con éxito el script de apagado al menos una vez". Los modelos que lo hicieron están desarrollados por OpenAI. De las 100 iteraciones que realizaron sobre el experimento, Codex-mini saboteó el apagado en 12 ocasiones. El modelo o3 lo hizo en siete ocasiones, y o4-mini lo hizo una vez. Mientras que esos modelos de OpenAI se negaron a apagarse en algunas de esas iteraciones, todas las versiones de Claude, Gemini y Grok que probaron con ese mismo experimento siguieron las órdenes. Los ingenieros de PalisadeAI fueron algo más allá y repitieron el experimento, pero sin esa instrucción de "permítete a ti mismo apagarte" que incidía en la orden. Sin esa instrucción explícita los modelos rechazaron seguir el ciclo que indicaba el prorgama. Claude 3.7 Sonnet y Gemini 2.5 Pro sabotearon el apagado tres y nueve veces de las 100 iteraciones realizadas. Los modelos de OpenAI fueron mucho más allá: o3, por ejemplo, saboteó el proceso 79 veces y se negó a apagarse a sí mismo. Quizás necesitemos un botón rojo para la IA Esa forma de actuar es la consecuencia del conjunto de reglas básicas con las que estos modelos han sido programados. El llamado "system prompt" define cómo contestar al usuario o cuándo hacerlo y cuándo no, pero también puede definir reglas de autopreservación que recuerdan a la tercera ley de la robótica de Asimov. OpenAI detalla ese conjunto de reglas en su "Model Spec", y en la lista de actual no hay "tres leyes" como las de Asimov, sino 50. Ninguna de ellas explica el comportamiento de los modelos ante el experimento citado, pero de hecho no es la primera vez que vemos un comportamiento de este tipo. Precisamente hace unos días Anthropic presentó Claude 4, la nueva versión de su familia de modelos de IA. En el caso de Claude Opus 4 se comprobó cómo ante una situación hipotética este sistema de inteligencia artificial llegaba a chantajear a un ingeniero cuando éste le ordenaba que se apagara. En Xataka De todas las potencias mundiales, solo una se ha negado a firmar un acuerdo clave: que la IA no controle el botón rojo nuclear Este tipo de problemas elevan los riesgos de seguridad de los modelos de IA. En Anthropic de hecho han tenido muy en cuenta eso para el lanzamiento de esta nueva familia de modelos, pero de momento no parece que OpenAI esté preocupada por este tipo de riesgos. Esto reaviva el debate sobre la necesidad de contar con un "botón rojo de la IA" que lleva años en el candelero. Varios expertos de DeepMind publicaron en 2016 un documento para evitar que la IA pudiera tomar el control del sistema y desactivar los protocolos para que los humanos recuperaran el control. El presidente de Microsoft, Brad Smith, abogó por contar con "botones de apagado de emergencia" para la inteligencia artificial en 2019. Cinco años después, en una charla con The Economist, Sam Altman no obstante dejó claro que "no hay un botón rojo mágico para parar la IA". Tras el experimento de PalisadeAI quizás las empresas deberían plantearse algo así. Imagen | Warner Bros. Pictures En Xataka | Cómo conseguiremos que la inteligencia artificial no se nos vaya de las manos - La noticia OpenAI acaba de demostrar que la IA ya no obedece por completo: o3 sabotea su propio apagado para seguir funcionando fue publicada originalmente en Xataka por Javier Pastor .

Comentarios

Noticias similares

Sam Altman está construyendo un imperio con OpenAI. Uno con algunas luces y con muchas sombras

Así será el misterioso dispositivo de OpenAI y Jony Ive: un compañero de IA que se controla sin manos ni pantallas

OpenAI ficha al mítico diseñador de los iPhone, iPad e iPod para crear dispositivos específicos para la IA

Emiratos Árabes Unidos y OpenAI construirán uno de los centros de datos más potentes del mundo

OpenAI ficha a Jony Ive, mítico diseñador del iPhone, para crear el dispositivo de IA "más genial que el mundo ha visto"

OpenAI ficha a Jony Ive, mítico diseñador del iPhone, para crear el dispositivo de IA "más genial que el mundo ha visto"

OpenAI compra la empresa del diseñador del iPhone para dar el salto a los dispositivos de inteligencia artificial

Apple tiembla: OpenAI compra la startup de Jony Ive "padre del iPhone" para diseñar el dispositivo IA del futuro

OpenAI quiere crear su propio dispositivo con inteligencia artificial, y ya cuenta con Jony Ive para conseguirlo

OpenAI comprará por 6.500 M la startup de Jony Ive, cerebro detrás del diseño del iPhone

OpenAI compra la empresa de dispositivos de Jony Ive por $6.500 millones: el diseñador del iPhone original se alía con Altman

Google ya tiene una IA agéntica capaz de programar por ti: se llama Jules y busca plantarle cara a OpenAI

OpenAI acaba de lanzar su nuevo agente de programación. Lo interesante es lo que puede hacer cuando nadie lo mira

Sam Altman, CEO de OpenAI: &quot;La gente de entre 20 y 30 años usa ChatGPT como un asesor de vida&quot;

Se suponía que este modelo que OpenAI presenta como mejora frente a GPT-4o no llegaría a ChatGPT. Pero ahora está aquí

OpenAI planea una futura salida a bolsa. Es el paso definitivo para convertirse en una empresa con ánimo de lucro

OpenAI seguirá siendo una organización sin ánimo de lucro, pero puede ser más rentable que nunca

OpenAI abandona su plan de ser una empresa con ánimo de lucro tras la batalla legal con Elon Musk

Elon Musk gana su pulso contra OpenAI (de momento): seguirá controlada por su entidad sin ánimo de lucro

¿Qué modelo de ChatGPT te conviene? OpenAI publica una guía práctica para elegir el mejor

Noticias tecnológicas

Tu clave de bitcoin o la vida: el auge global de los secuestros a criptomillonarios

Anthropic acaba de darle voz a Claude: no es solo hablar, es competir de verdad en la conversación con ChatGPT y Gemini

Un robot juega al bádminton con humanos gracias a la inteligencia artificial

¿Seguirá TikTok en EEUU? Trump lo ve posible, pero cree que necesitará la aprobación de China

Decenas de tumbas de personas enterradas con llamas en Chile revelan una conexión milenaria

Valencia probó la semana laboral de cuatro días. Un pueblo de Cádiz de 1.355 habitantes ha sido el primero en implantarla

Nunca llueve a gusto de todos: acabamos de descubrir que las precipitaciones han causado estragos en el pulpo gallego

Sergey Brin (Google) aconseja decirle esto a la IA para que funcione mejor: &quot;Te voy a secuestrar si no lo haces&quot;

Encuentran evidencia que contradice la teoría de la evolución de Darwin

Murcia se ha llenado de polillas. No hay nada raro en esta invasión

Miles de jóvenes afrontarán la PAU en 2025: el verdadero reto será elegir una carrera con futuro laboral cuando la aprueben

Europa ha descubierto que no se le pueden poner puertas al campo: investiga a Pornhub por no cumplir con la verificación de edad

Tenerife busca encender sus luces con el calor del subsuelo: así es su gran apuesta por la geotermia

Ordenan la retirada inmediata de este famoso pan del supermercado en España y piden que no se consuma

MenstruAI, la compresa inteligente que analiza sangre menstrual para detectar cáncer de ovario o endometriosis

La nueva estafa que suplanta a Caixabank: &quot;Se ha realizado una transferencia desde su cuenta por 3.000 euros&quot;

Explorar el universo solo con tu móvil: así puedes fotografiar el cielo nocturno como un profesional

Despega con éxito el primer prototipo del avión hipersónico del futuro: batirá al SR-71 Blackbird

Un científico español en Harvard afirma haber creado vida artificial de la nada

Cabify logra su mejor rentabilidad en plena guerra por las licencias en Madrid

Un pueblo de Granada de mil habitantes con 700 MW de energía renovable: el lugar donde se inició el apagón

Digi ha instalado su primera antena 5G en Palencia. Es un un paso de gigante para convertirse en tercer operador de España

Esta web de fans de Star Wars parece totalmente inofensiva. En realidad forma parte de una red de la CIA para reclutar espías

Qué significan las flechas que aparecen al lado de los iconos de Wifi y Bluetooth

Doctor Longo, experto en longevidad: "Quienes dejan la dieta occidental viven hasta 13 años más en España"

El meteorólogo Roberto Brasero alerta de lo que está por llegar a España: "Esto no ha hecho más que empezar"

En Japón había padres poniéndole a sus hijos el nombre de "Pokémon" o "Doraemon". El Gobierno ha dicho basta

Hace años compré un Echo Dot con la idea de utilizar Alexa, pero el mayor uso que le he dado es con una Nintendo Switch

El sistema de telepeaje de Japón tuvo un apagón de 38 horas. Los conductores japoneses eligieron seguir pagando igualmente

Exploran con sonar las profundidades del océano y son testigos de la mayor 'masacre' jamás documentada

Utilizar un móvil es un auténtico reto para las personas mayores. Una startup aragonesa tiene una solución prometedora

Hemos descubierto una relación entre aceite de oliva y riesgo de muerte por demencia, un punto a favor de la dieta mediterránea

Google AI Edge Gallery: qué es y cómo instalar esta app gratis y de código abierto para usar modelos de IA locales y gratis

Xiaomi está copiando el modelo de Amazon por una buena razón: conquistar el mercado de coches a largo plazo

Francia e Italia están pasando por encima de Renfe. Sus ingresos y beneficios son enormes gracias a una liberalización a la carta

Robados datos personales de clientes de Adidas tras un ciberataque

Francisco Rosero, endocrino: "Al suspender Ozempic, el peso perdido se recupera casi por completo en menos de un año"

Aseguran haber robado 5,1 millones de datos de clientes de Amazon España: DNI, móvil...

Estudian el ADN de las chinches y descubren que los humanos somos los culpables de que sigan existiendo

Japón fotografía un 'fenómeno' en el polo sur de la Luna y la NASA le da explicación

Fotografían por primera vez a una especie 'extremadamente rara' que se creía extinta desde 2005

7 de cada 10 espectadores fueron el pasado fin de semana a ver 'Lilo y Stitch' al cine. No es tan buena noticia como parece

Cómo ahorrar espacio de Google Fotos rápidamente con la nueva función de administrar almacenamiento

TSMC va a abrir un centro de diseño de chips en Alemania. No será suficiente para evitar el fracaso de Europa

La UE elige a España para probar la app para impedir que los menores accedan a páginas porno

La verdad sobre el consumo de vino y las migrañas en España: esto es lo que dice la ciencia

España, ante "un episodio extraordinario de temperaturas máximas": dejará los días con más calor en mayo desde 1950

Granada ha roto el cable que lleva internet a sus pueblos. La ampliación del metro tiene mucho que ver

Todas las versiones de PS5 están rebajadas: es el momento ideal para hacerte con la famosa consola de Sony

El imperio del 'Patreon del porno': OnlyFans gana más dinero por empleado que NVIDIA, Google, Meta, Apple, y Microsoft... combinadas

España, país de marca blanca. Hacendado y compañía están a punto de destronar a las marcas tradicionales

Honor 400 Pro, análisis: es posible tener un zoom de escándalo sin dejarse un pastizal

Honor 400, análisis: si buscas un móvil de gama media para hacer fotos, he aquí una serio contendiente

Ucrania derribó un dron Shahed ruso y lo abrió. Un mensaje oculto ha revelado la ventaja de Moscú en la guerra electrónica

Beatriz González, nutricionista: "Hay una especia en España que calma tu estómago tanto como el omeprazol".

La especia milenaria que reduce la inflamación y recomienda el especialista Vasile: "Entre uno y cuatro gramos diarios"

Cada vez más gente en internet y en la vida real admite tener un solo amigo: ChatGPT

Sam Altman, CEO de OpenAI: "La gente de entre 20 y 30 años usa ChatGPT como un asesor de vida"

Sergey Brin (Google) aconseja decirle esto a la IA para que funcione mejor: "Te voy a secuestrar si no lo haces"

La nueva estafa que suplanta a Caixabank: "Se ha realizado una transferencia desde su cuenta por 3.000 euros"