La IA llevaba años atascada en un bucle computacional, pero una idea de solo 8 páginas lo cambió todo y dio paso a la creación de ChatGPT

Inteligencia Artificial

Pocos saben que fue un paper de 2017 llamado “Attention Is All You Need” lo que cambió las reglas del juego al enseñar a las máquinas a entender el contexto, no solo a leer palabras seguidas.

Mark Zuckberg está dispuesto a ganar la guerra de la IA cueste lo que cueste: este es el ambicioso plan que le ha llevado a fichar a genios como Alexandr Wang

Mis conversaciones más íntimas con ChatGPT.

La IA llevaba años atascada en un bucle computacional, pero una idea de solo 8 páginas lo cambió todo y dio paso a la creación de ChatGPT.

Diseño: Selu Manzano

Imagine que intenta entender una novela compleja leyendo una palabra, olvidándola, y leyendo la siguiente. Podría recordar la última frase, pero le sería imposible captar la trama, las relaciones entre personajes o el simbolismo oculto en el capítulo inicial que solo cobra sentido en el final. Durante años, así es como la inteligencia artificial intentaba comprender el lenguaje: de forma secuencial, como un lector con una memoria terriblemente corta, atado a una cadena de palabras. 

Lee también

Sam Altman reconoce que ChatGPT 5 ha sobrepasado sus expectativas y plantea dilemas para la tecnología: “Me siento inútil”

Héctor Farrés
Horizontal

Este método, basado en arquitecturas llamadas Redes Neuronales Recurrentes (RNN), era lento y torpe. Funcionaba para frases cortas, pero se perdía en textos largos, incapaz de conectar un sujeto al principio de un párrafo con una acción descrita mucho después. El campo entero se enfrentaba a un muro conceptual. “La naturaleza inherentemente secuencial —admitían los expertos— impide la paralelización”. En otras palabras, la IA estaba bloqueada en un atasco computacional, incapaz de acelerar o de ver el bosque por culpa de los árboles.

Entonces, en 2017, un equipo de investigadores publicó un artículo de apenas ocho páginas con un título audaz y casi poético: “Attention Is All You Need”. El documento proponía una ruptura radical. En lugar de procesar el texto palabra por palabra, su nueva arquitectura, bautizada como Transformer, lo hacía todo a la vez. Su superpoder era un mecanismo llamado “auto-atención” (self-attention), que permitía al modelo mirar una frase completa y sopesar la importancia de cada palabra en relación con todas las demás. 

“Attention Is All You Need” fue un seísmo: liberó a la IA de la cadena secuencial y abrió la puerta a una escala nunca vista

De repente, la máquina podía entender que en la frase “El robot cogió la manzana del árbol y se la comió”, el pronombre “la” se refería a “manzana” y no a “árbol”. Otro ejemplo: en la oración “El banco del río era bonito”, el mecanismo de auto-atención permite al modelo entender que “banco” se refiere a la orilla del río y no a la institución financiera, al considerar la palabra “río”.

De esta forma creaba una red de significados, un mapa contextual instantáneo. “Proponemos una nueva arquitectura de red simple, el Transformer, basada únicamente en mecanismos de atención, prescindiendo por completo de la recurrencia y las convoluciones”, anunciaron los autores del paper. Al liberarse de la cadena secuencial, no solo entendían mejor, sino que podían procesar cantidades masivas de información en paralelo, abriendo la puerta a una escala nunca vista.

ChatGPT Search

ChatGPT Search.

OPENAI / Europa Press

El impacto de esa idea no fue inmediato, pero sí tectónico. El Transformer no era solo una mejora; era una nueva piedra Rosetta para el lenguaje máquina. Su eficiencia y su capacidad para capturar dependencias a larga distancia eran las claves que la industria llevaba años buscando. Google no tardó en usar su propia invención para crear BERT, un modelo que revolucionó su motor de búsqueda. Sin embargo, fue OpenAI quien llevó la arquitectura a su máxima expresión con su serie de modelos GPT (Generative Pre-trained Transformer). El nombre lo dice todo: el ADN del sistema que hoy conocemos como ChatGPT es, precisamente, el Transformer

La auto-atención permitió a la máquina construir un mapa contextual instantáneo, entendiendo relaciones que antes eran invisibles

“El Transformer permite una paralelización significativamente mayor y puede alcanzar un nuevo estado del arte”, predecían sus creadores. Se quedaron cortos. No solo alcanzó un nuevo hito; creó un nuevo paradigma. Cada vez que usted le pide a una IA que escriba un correo, resuma un texto o genere código, está utilizando los principios fundamentales nacidos en aquel modesto paper.

Lee también

Elon Musk carga contra Apple por la valoración de la App Store en su aplicación de IA: “Están imposibilitando el éxito de cualquier otra empresa de IA al promover incansablemente OpenAI”

Adrián Soria
FILE PHOTO: FILE PHOTO: Elon Musk, Chief Executive Officer of SpaceX and Tesla and owner of Twitter, gestures as he attends the Viva Technology conference dedicated to innovation and startups at the Porte de Versailles exhibition centre in Paris, France, June 16, 2023. REUTERS/Gonzalo Fuentes/File Photo/File Photo

Hoy, es fácil quedar fascinado por las proezas de los grandes modelos de lenguaje (LLM), pero es crucial recordar que esta revolución no surgió de la nada. Fue el resultado de un elegante salto conceptual. Un cambio en la arquitectura interna de un modelo, una forma distinta de concebir cómo una máquina debe “prestar atención”, tuvo consecuencias culturales, económicas y sociales que apenas empezamos a comprender. 

Mostrar comentarios
Cargando siguiente contenido...