En un informe técnico filtrado días antes de la WWDC 2025, Apple ha desafiado la narrativa dominante en torno a la IA contemporánea. El documento desmonta la idea de que modelos como Claude de Anthropic, Gemini de Google, DeepSeek-R1, o incluso GPT-4.5, estén “pensando” de forma similar a los humanos. Más bien, dice el informe, estos modelos aprenden patrones de forma superficial, como ese alumno que se memoriza todos los exámenes previos, pero fracasa si le cambias una coma al enunciado.
Tres verdades incómodas que Apple nos obliga a enfrentar
1. Los modelos "razonadores" fallan en lo simple
¿Por qué contratar a un físico teórico si lo único que necesitas es cambiar una bombilla? Apple probó variantes de Large Reasoning Models (LRM) diseñados para razonar paso a paso. Pero al enfrentarse a tareas triviales, como la Torre de Hanói con 3 discos, su rendimiento fue peor que el de modelos más simples. Mientras los modelos estándar resolvían el puzzle en segundos, los LRM se perdían en explicaciones abstractas, pseudoanálisis y justificaciones innecesarias. Según los datos, el 38 % de los errores en tareas sencillas provenían de esta "sobre-intelectualización" innecesaria. Es el equivalente computacional del amigo que intenta impresionar en una primera cita hablando de teoría de cuerdas en lugar de simplemente pedir la carta de vinos.
2. El punto óptimo de estos modelos es estrechísimo
Cuando los problemas tienen una complejidad moderada —por ejemplo, resolver la Torre de Hanói con 7 discos (que requiere 127 movimientos)— los LRM destacan. Utilizan estrategias paso a paso, verifican sus pasos, retroceden cuando detectan errores y tienden a desarrollar respuestas más estructuradas que sus predecesores. Pero este "pico de rendimiento" es breve. Aumenta ligeramente la dificultad y el modelo colapsa. No solo comienza a cometer errores, sino que pierde completamente su estructura lógica. La transición de un problema moderado a uno difícil (como pasar de 7 a 10 discos, donde se requieren 1.023 movimientos) no conduce a un esfuerzo proporcional, sino al abandono.
3. El gran colapso: cuando la IA no solo falla, sino que ni siquiera lo intenta
Aquí llega lo más inquietante: cuando la tarea se vuelve realmente compleja, los modelos "pensantes" no se esfuerzan más... sino menos. En pruebas realizadas por Apple, los LRM usaron hasta un 65 % menos de tokens en los problemas más difíciles que en los de dificultad media. En lugar de activar estrategias de resolución más intensivas, parecen rendirse antes de empezar, generando respuestas vagas, truncadas o directamente equivocadas. No es simplemente que fallen. Es que no lo intentan en serio.
En uno de los experimentos más reveladores del informe de Apple, los investigadores decidieron poner a prueba una hipótesis que, en principio, parecía indiscutible: si le das a un modelo de inteligencia artificial el algoritmo correcto (la secuencia exacta de pasos para resolver un problema lógico como la Torre de Hanói), entonces debería ser capaz de seguirlo hasta alcanzar la solución. Nada de creatividad, nada de improvisación, solo obedecer instrucciones como quien monta un mueble de IKEA con el manual delante y un destornillador en la mano.
El resultado, sin embargo, fue tan desconcertante como predecible: incluso con las respuestas dadas, el 89 % de los modelos seguía equivocándose en problemas con más de siete discos. No estamos hablando de lenguaje natural, metáforas poéticas ni dilemas éticos: esto es lógica pura, secuencial, binaria, perfectamente determinista. Y aun así, fallaban. Como si le dieras a alguien un mapa del tesoro con una X roja perfectamente dibujada sobre la arena, y esa persona (muy segura de sí misma) decidiera cavar en la playa de al lado por intuición, por impulso o porque la sombra de una palmera le pareció más prometedora.
Lo verdaderamente inquietante no es que no comprendan el mapa. Es que lo ignoran activamente.
Esto deja flotando una pregunta que pocas empresas quieren enfrentar de frente: si estos modelos no son capaces de ejecutar una secuencia de pasos definida, concreta, estructurada hasta el absurdo, ¿qué sentido tiene hablar de razonamiento artificial? ¿Cómo podemos delegar en estos sistemas diagnósticos médicos, estrategias financieras o incluso interpretaciones legales si ni siquiera pueden seguir instrucciones como un estudiante de secundaria?
La promesa de alcanzar una AGI antes de 2030 (ese mito corporativo repetido en cada keynote, en cada conferencia y en cada ronda de inversión) empieza a tambalearse, no porque la IA esté estancada, sino porque comenzamos a entender hacia dónde no se está moviendo. Detrás del barniz técnico, de las respuestas brillantes y del tono convincente, se esconde una verdad menos glamurosa: estos modelos no piensan, no entienden, no tienen intuición, ni intención, ni criterio. Lo que hacen es reconocer patrones estadísticos, predecir palabras probables, y construir frases que suenan lógicas simplemente porque lo han visto antes.
Desde fuera, eso puede parecer inteligencia. Pero no lo es. Y Apple, con su estilo quirúrgico, sobrio y un punto cínico, acaba de recordárnoslo.
Tampoco es casual que este informe vea la luz justo cuando Google, OpenAI o Meta apuestan por modelos cada vez más grandes, más densos, más caros en términos de energía, datos y expectativas. Apple, mientras tanto, sigue una estrategia muy distinta: modelos más pequeños, rápidos, integrados directamente en el hardware (como con el nuevo chip M4) y diseñados para tareas concretas. Menos teatro, más precisión. No es una revolución, pero sí una declaración de principios: la IA no tiene por qué parecer humana para ser útil.
Y ahí es donde aparece la gran paradoja: cuanto más brillantes parecen las respuestas de estos modelos, más evidente se vuelve su ausencia total de comprensión. Son capaces de resolver cientos de problemas... siempre que se parezcan lo suficiente a los del conjunto de entrenamiento. Pero basta con que cambie la estructura, aumente la complejidad o se deslice un matiz inédito, y toda su arquitectura lógica se viene abajo como una escenografía de cartón piedra en una obra de teatro amateur.
Esto nos arrastra, inevitablemente, a una cuestión más profunda, más filosófica, que hasta ahora hemos preferido ignorar: ¿Cuántos problemas debe resolver una máquina para que podamos decir que entiende lo que está haciendo? ¿Qué pesa más: la cantidad o la calidad de los problemas resueltos? ¿Es más valioso un modelo que responde correctamente a cincuenta preguntas medianas, o uno que resuelve cinco problemas realmente difíciles sin necesidad de que le demos la solución?
Apple, con este informe, nos obliga a elegir. Y la respuesta, aunque incómoda, es clara: no tenemos inteligencia artificial que comprenda el mundo. Lo que tenemos (y por ahora, lo único que tenemos) es una imitación de comprensión que funciona lo justo… Hasta que se la somete a una prueba que exige algo más que correlaciones. Así que la próxima vez que veas a un modelo explicar cálculo diferencial con voz suave, frases perfectamente hiladas y el tono seguro de un catedrático, recuerda esto: lo más probable es que esté repitiendo fórmulas memorizadas, no construyendo pensamiento. Es, en esencia, un loro muy bien entrenado, pero con una GPU detrás y una base de datos de texto de tamaño continental.
Y eso, en el fondo, no los aleja tanto de nosotros como nos gustaría pensar. Más bien los acerca. Nos imitan porque nosotros también imitamos. Porque en este teatro de la inteligencia —donde todos fingimos entender lo que hacemos—, quizá el verdadero algoritmo defectuoso no esté en los chips, sino en el guion. Bienvenido al siglo XXI.
0 comments:
Publicar un comentario