cupure logo
quelosparalasdelespañaunaporsonmás

Hemos descubierto algo preocupante en los modelos de IA: si el problema es demasiado difícil, se rinden enseguida

Hemos descubierto algo preocupante en los modelos de IA: si el problema es demasiado difícil, se rinden enseguida
Las máquinas no piensan, eso es una ilusión. No lo decimos nosotros, lo dicen un grupo de investigadores de Apple que acaban de publicar un revelador estudio titulado precisamente así ('La ilusión de pensar'). En él dichos expertos han analizado el rendimiento de varios modelos de IA con la capacidad de "razonar", y sus conclusiones son llamativas... y preocupantes. Puzzles para las IAs que "razonan". Lo normal al evaluar la capacidad de un modelo de IA es utilizar benchmarks con pruebas de programación o de matemáticas, por ejemplo. En lugar de eso, Apple creó varias pruebas basadas en puzzles lógicos que eran totalmente nuevos y que por tanto no podían formar parte del entrenamiento de estos modelos. En la evaluación participaron Claude Thinking, DeepSeek-R1 y o3-mini. En Xataka "Teléfono, resuélveme la vida": el agente IA de Anthropic quiere que la IA cambie nuestras vidas de verdad Modelos que se estrellan. En sus pruebas comprobaron como todos estos modelos de razonamiento se acababan estrellando de bruces contra un muro cuando se enfrentaban a problemas complejos. En esos casos, la precisión de dichos modelos cayó estrepitósamente hasta el 0%. No importaba además que concedieras más recursos a estos modelos a la hora de tratar de resolver esos problemas. Si eran de cierta dificultad, no podían con ellos. Se cansan de pensar. De hecho, sucedió algo curioso. A medida que los problemas se volvían más complicados, estos modelos comenzaron a pensar no más, sino menos. Usaron menos tokens para resolverlos y se ridieron antes a pesar de poder utilizar recursos ilimitados. Ni con ayuda. Los investigadores de Apple incluso intentaron darle a los modelos un algoritmo exacto que guiaba a los modelos a que pudieran encontrar la solución paso por paso. Y aquí, otra sorpresa mayúscula: ninguno de los modelos lograba resolver los problemas a pesar de tener esas soluciones guiadas. No podían seguir instrucciones de forma consistente. En estas gráficas se muestran las diferencias entre modelos que no razonan (DeepSeek-V3) con los que sí lo hacen (DeepSeek-R1) en problemas de complejidad baja (amarillo), media (azul) y alta (rojo). Solo hay ventajas para el "razonamiento" en los problemas de dificultad media. En los de alta los modelos sencillamente colapsan. Fuente: Apple. Tres tipos de problemas. En su evaluación dividieron los problemas a resolver en tres clases y comprobaron si los modelos de razonamiento realmente aportaban algo frente a los modelos tradicionales que no "razonan". Problemas de baja complejidad: los modelos de razonamiento efectivamente superaban a los que no tenían esa capacidad de razonamiento. Eso sí, a menudo piensan demasiado para resolver estos problemas sencillos. Problemas de complejidad media: había todavía alguna ventaja frente a modelos convencionales, pero no demasiada. Problemas de alta complejidad: todos los modelos se acabaron estrellando contra dichos problemas. De pensar, nada. Según estos investigadores, la razón de ese fracaso a la hora de razonar en problemas complejos es sencilla. Estos modelos no "razonan" en absoluto, y lo único que hacen es usar técnicas avanzadas de reconocimiento de patrones para resolver los problemas. Eso no funciona con problemas complejos, y ahí los cimientos de estos modelos se desmoronan completamente. Ante esos problemas, si a un modelo se le dan instrucciones claras y más recursos deberían mejorar y ser capaces de intentar resolverlos, pero este estudio demuestra lo contrario. Muy lejos de AGI. Lo que sugieren estos resultados es que la expectación que han generado estos modelos es inmerecida: los actuales modelos de razonamiento simplemente no logran pasar de cierta barrera añadiendo datos o computación. Algunos apuntaban a cómo los modelos de razonamiento podían ser un posible camino hacia la búsqueda de la AGI, pero las conclusiones de este estudio revelan que de hecho no estamos más cerca de lograr modelos que puedan considerarse inteligencia artificial general. No encuentran soluciones, las memorizan y copian. De hecho, el estudio corroboró algo que otros defendieron en el pasado: estos modelos simplemente tienen memorizado el conocimiento, y reproducen la solución que ya tenían memorizada cuando encuentran patrones correspondientes que llevan a esa solución. Así, estos modelos pudieron resolver el célebre problema de las torres de Hanoi de muchísimos movimientos porque una vez saben la solución pueden aplicarla de forma sistemática. Sin embargo en otros puzzles fracasaban a los pocos movimientos. Loros estocásticos. Muchos de los críticos de la IA siempre han defendido que los modelos de IA generativa, razonen o no, son básicamente loros que repiten lo que se les ha enseñado. En el caso de la IA detectan patrones y son capaces de encontrar/predecir la siguiente palabra/pixel al generar texto o imágenes. El resultado suele ser convincente, pero solo porque se han vuelto extremadamente buenos a la hora de detectar esos patrones y responder de forma adecuada y coherente. Pero no es conocimiento nuevo: es repetir el queya tienen. Que no piensan. Otros expertos críticos de esas expectativas llevan tiempo alertándonos de los peligros del antropomorfismo de las IAs. Lo explicaba Subbarao Kambhampti, de la Universidad de Arizona, que por ejemplo analizaba el proceso de "razonamiento" de estos modelos y su "cadena de pensamiento". Usamos verbos como "pensar", cuando no piensan. No entienden tampoco lo que hacen, y eso contamina todas las asunciones que hacemos sobre su capacidad (o falta de ella). En Xataka No sabemos qué miden los benchmarks de IA. Así que hemos hablado con el español que ha creado uno de los más difíciles No te fíes de lo que te dice la IA. El comportamiento de estos modelos confirma lo que se sabe desde que ChatGPT apareció en escena. Por muy convincentes que puedan parecer estos modelos —"razonen" o no—, la realidad es que pueden cometer errores graves y equivocarse, aunque otras ciertamente acierten. De hecho hay casos en los que estos modelos sí sorprenden por su capacidad de resolver problemas: en Scientific American un grupo de matemáticos se vieron superados por un modelo de IA que lograba resolver algunos de los problemas matemáticos más complejos que ellos no lograban solucionar, o que tardaban más en resolver. Imagen | Puzzle Guy En Xataka | Copilot, ChatGPT y GPT-4 han cambiado el mundo de la programación para siempre. Esto opinan los programadores - La noticia Hemos descubierto algo preocupante en los modelos de IA: si el problema es demasiado difícil, se rinden enseguida fue publicada originalmente en Xataka por Javier Pastor .
xataka
hace alrededor de 6 horas
Compartir enlace
Leer mas >>

Comentarios

Noticias tecnológicas