Mientras OpenAI y Google compiten en parámetros y velocidad, Elon Musk ha logrado colar a Grok 4 en un lugar mucho más exclusivo: el de las inteligencias que no solo completan frases, sino que razonan a límites inimaginables. El nuevo modelo de xAI ha conseguido algo que ni GPT‑4, ni Claude Opus, ni Gemini han podido hacer. Esto es, resolver problemas que no se pueden memorizar, ni predecir, ni imitar. Solo comprender como un humano haría.
Grok 4 ha logrado números increíbles en una prueba que va mucho más allá del famoso Test de Turing. Este examen no lo ha diseñado ningún equipo de márketing. Se llama ARC‑AGI, y es el test más exigente jamás creado para medir inteligencia fluida, aquella que permite a un humano resolver un problema completamente nuevo sin necesidad de datos previos. Hasta ahora, ninguna IA había superado el umbral del 10 % de aciertos. Pero Grok 4 lo ha hecho con un 15.9 %.
La prueba ARC‑AGI (Abstraction and Reasoning Corpus for Artificial General Intelligence) no mide lo bien que una IA predice la siguiente palabra, ni siquiera lo realista de sus imágenes o ni su conocimiento de Wikipedia. Se basa en medir su capacidad de razonamiento abstracto sin ejemplos previos.
Cada problema plantea una transformación visual basada en lógica implícita. Y cada vez, la IA debe deducir cuál es la regla y aplicarla a un nuevo caso. No hay trucos ni patrones entrenables. Es como si a un niño le enseñaran dos dibujos y le pidieran intuir la norma que los conecta. A diferencia de los humanos, los modelos lingüísticos fallaban estrepitosamente en estas pruebas. Pero Grok 4 ha cambiado el tablero.

Greg Kamradt, genio de la IA.
Un test a prueba de IAs... hasta ahora
El arquitecto de lo imposible
Greg Kamradt, el creador del test, apodado “el arquitecto de lo imposible” recibió una llamada del equipo de xAI, la empresa de Elon Musk, tras su último lanzamiento. Querían probar Grok 4 en ARC‑AGI. Kamradt aceptó, pero bajo estrictas condiciones: nada de acceso previo al test real. No habría sobreentrenamiento ni trampas.
Tuvieron que realizar las tareas por streaming, porque los endpoints normales se bloqueaban por la complejidad. La ejecución fue verificada y los datos revisados para que todo cumpliera con los términos de Kamradt.
Los resultados fueron espectaculares: Grok 4 logró un 15.9 % de aciertos. Es la primera vez que una IA no solo supera la barrera estadística del 10 %, sino que demuestra habilidades de razonamiento que no dependen de la repetición.
“Grok 4 está mostrando niveles no nulos de inteligencia fluida”, cuenta Kamradt en su cuenta de X. A primera vista puede parecer una cifra baja. Pero lo que importa no es el número absoluto, sino el tipo de inteligencia que implica. Una IA que predice bien puede responder correctamente a millones de preguntas. Pero una IA que razona bien puede resolver un problema que jamás ha visto, sin que nadie le diga cómo hacerlo.
Si una IA puede resolver un problema que nunca ha visto antes, sin instrucciones, sin ejemplos… ¿no deberíamos llamarla inteligente?
Eso es lo que hizo Grok 4. En un entorno donde Claude Opus y GPT‑4 fallaban más del 90 % de las veces, el modelo de Musk dedujo reglas ocultas, generalizó patrones y aplicó lógicas que no estaban en su entrenamiento.
Para Kamradt, lo de Grok 4 no es el final, sino la primera señal de que algo está cambiando. “El escalado por sí solo no basta. Necesitamos nuevas ideas”, advierte. Kamradt diseñó ARC‑AGI como una especie de espejo del razonamiento humano. Más de 400 personas ayudaron a validar los ejercicios: 1.400 tareas que un niño puede intuir, pero que una IA no puede resolver sin pensar.
La cifra de Grok 4 no indica que hayamos llegado a la AGI (inteligencia artificial general), pero sí que estamos tocando algo nuevo. Por primera vez, una IA comercial ha demostrado signos medibles de inteligencia fluida. “Si una IA puede resolver un problema que nunca ha visto antes, sin instrucciones, sin ejemplos… ¿no deberíamos llamarla inteligente?”, concluye Kamradt.