ChatGPT, Claude, Gemini, Llama, Mistral. Todos son variantes de la misma familia tecnológica: los modelos de lenguaje de gran escala, o LLM (Large Language Models). La pregunta más importante que puedes hacerte sobre ellos no es cuántos parámetros tienen ni cuánto cuestan de entrenar. Es esta: ¿qué están haciendo realmente cuando generan texto?
La respuesta es más simple de lo que parece, y más importante de lo que la mayoría asume.
La idea central
Un LLM es, en su esencia más desnuda, una máquina de completar texto. Dado un fragmento de texto —el contexto— predice cuál es la continuación más probable.
Eso es todo. No razona, no comprende, no consulta una base de datos de hechos verificados. Toma el texto que tiene y calcula, para cada posición siguiente, una distribución de probabilidad sobre todas las palabras (o tokens) posibles. Luego elige una —a veces la más probable, a veces una de las más probables con algo de aleatoriedad— y la añade al contexto. Después repite el proceso.
Este mecanismo de predicción iterativa, aplicado con suficiente sofisticación y entrenado con suficientes datos, produce texto que puede parecer razonado, informado e incluso brillante. Pero el mecanismo no ha cambiado: es predicción de tokens.
De tokens a probabilidades
El LLM no procesa palabras directamente. Procesa tokens: fragmentos de texto que pueden ser palabras completas, partes de palabras, o incluso signos de puntuación. “Inteligencia” podría ser un token. “artificial” otro. “ia” podría ser uno solo.
El vocabulario de un modelo típico contiene entre 30.000 y 100.000 tokens. Para cada posición en la secuencia, el modelo calcula una puntuación para cada token del vocabulario, las convierte en probabilidades (usando una función llamada softmax), y muestrea de esa distribución.
La temperatura es el parámetro que controla cuánta aleatoriedad se inyecta en ese muestreo. Con temperatura 0, el modelo siempre elige el token más probable —outputs muy predecibles y repetitivos. Con temperatura alta, el modelo muestrea de distribuciones más planas —outputs más variados y creativos, pero también más propensos a errores.
Ejemplo simplificado de predicción de tokens:
Contexto: "La capital de Francia es"
Probabilidades (simplificadas):
"París" → 94.2%
"Lyon" → 1.8%
"una" → 1.1%
"la" → 0.9%
[otros] → 2.0%
El modelo elige "París". El nuevo contexto es:
"La capital de Francia es París"
→ El proceso se repite para el siguiente token.
El transformer por dentro
La arquitectura que hace posible todo esto es el transformer. Su componente crítico es el mecanismo de atención: un sistema que permite al modelo, al predecir cada token, tener en cuenta todos los tokens anteriores del contexto y ponderar cuáles son más relevantes para esa predicción.
Cuando el modelo procesa “el banco donde guardo mi dinero estaba cerrado”, el mecanismo de atención puede asociar “cerrado” con “banco” (la institución financiera) y no confundirlo con un banco donde sentarse. Puede hacer esa asociación aunque los tokens estén separados por varias palabras.
Los transformers modernos tienen muchas “cabezas” de atención en paralelo, cada una aprendiendo a capturar diferentes tipos de relaciones entre tokens: sintácticas, semánticas, referenciales. El resultado de todas esas cabezas se combina para producir una representación rica de cada token en su contexto.
Escala: el ingrediente secreto
Lo que convirtió a los transformers de una arquitectura prometedora a la tecnología que está redefiniendo sectores enteros fue la escala.
Los investigadores de OpenAI publicaron en 2020 un estudio de “leyes de escala” que mostraba algo sorprendente: el rendimiento de los modelos de lenguaje mejora de forma predecible y continua al aumentar tres dimensiones en paralelo: número de parámetros, cantidad de datos de entrenamiento y computación.
Esto era diferente de lo que había ocurrido con arquitecturas anteriores, donde las ganancias se estancaban más allá de cierto punto. Con transformers, más era más. Eso desencadenó la carrera de modelos que caracteriza 2020-2024.
GPT-3 (175.000 millones de parámetros) mostró algo que ningún modelo anterior había mostrado: emergencia. Capacidades que no estaban presentes en modelos más pequeños aparecían sin que se hubieran entrenado explícitamente para ellas. Aritmética, analogías, razonamiento básico. El modelo no fue enseñado a hacer sumas: simplemente podía hacerlas, porque el patrón estaba en el texto del entrenamiento.
Lo que la predicción no puede ser
Entender que un LLM predice tokens tiene consecuencias prácticas que importan cada vez que usas uno de estos modelos.
No hay búsqueda de hechos. El modelo no consulta ninguna base de datos cuando genera texto. Sus “conocimientos” están codificados en sus parámetros, que son fijos desde el entrenamiento. Si te dice algo incorrecto con total confianza, no es que esté “equivocado” en el sentido humano: simplemente eligió los tokens más probables dado el contexto, y esos tokens resultaron no corresponderse con los hechos.
No hay razonamiento garantizado. Cuando el modelo “razona” en voz alta, lo que hace es generar texto que se parece al razonamiento humano, porque el razonamiento humano estaba en sus datos de entrenamiento. A veces ese proceso produce la respuesta correcta. A veces no. No hay garantía.
Sí hay sensibilidad al contexto. Lo que el modelo genera depende fuertemente de cómo se formula el contexto —el prompt. La misma pregunta formulada de diferentes maneras puede producir respuestas radicalmente distintas. Eso no es un bug: es una consecuencia directa del mecanismo de predicción basado en contexto.
La siguiente vez que uses un LLM y te sorprenda su aparente inteligencia, recuerda: está prediciendo tokens. Que eso produzca outputs que parecen inteligentes es extraordinario. Que no sea lo mismo que inteligencia real también importa.