Tokens, contexto y memoria: lo que la IA puede y no puede retener â€" Xap.es

Cuando interactúas con un modelo de lenguaje, lo que ves en pantalla —una conversación fluida que parece recordar lo que has dicho antes— puede crear una impresión incorrecta de cómo funciona realmente el sistema. Hay dos conceptos que, mal entendidos, llevan a errores frecuentes al trabajar con IA: los tokens y el contexto. Entenderlos bien cambia cómo formulas tus prompts y cómo interpretas las respuestas.

Qué es un token

Los modelos de lenguaje no procesan texto letra por letra ni palabra por palabra. Lo procesan en unidades llamadas tokens, que son fragmentos de texto de longitud variable definidos por un proceso llamado tokenización.

Un token puede ser:

Una palabra completa: “casa”, “trabajo”, “IA”
Una parte de una palabra: “inteli” + “gencia” = dos tokens
Un signo de puntuación: ”.” o ”,” = un token cada uno
Un espacio + palabra: ” casa” (con el espacio) = un token

Como regla general aproximada, 1 token ≈ 0,75 palabras en inglés, o algo menos en español (las palabras tienden a ser más largas y pueden dividirse en más tokens).

Por qué importa: los modelos tienen límites expresados en tokens, no en palabras. Un modelo con ventana de contexto de 128.000 tokens puede procesar aproximadamente 100.000 palabras en inglés o 80.000-90.000 en español. Las APIs cobran por tokens consumidos, no por palabras. Y el número de tokens en un prompt afecta la velocidad de respuesta.

La ventana de contexto

La ventana de contexto es la cantidad máxima de tokens que el modelo puede procesar en una sola interacción. Todo lo que está dentro de esa ventana —el historial de la conversación, las instrucciones del sistema, los documentos que has aportado, tu pregunta y la respuesta anterior— ocupa espacio en esa ventana.

Las ventanas de contexto han crecido enormemente en los últimos años:

GPT-3 (2020): 4.096 tokens (~3.000 palabras)
GPT-4 (2023): 8.192 - 128.000 tokens
Claude 3 (2024): hasta 200.000 tokens (~150.000 palabras)
Gemini 1.5 (2024): hasta 1.000.000 tokens

Una ventana grande permite trabajar con documentos completos, conversaciones largas y contextos complejos. Pero tiene un coste computacional real: procesar un contexto largo es más lento y más caro que uno corto.

Por qué la IA olvida

Aquí viene la distinción crítica: el modelo no tiene memoria entre conversaciones distintas.

Cuando cierras una conversación y abres una nueva, el modelo no recuerda nada de la anterior. No hay un registro persistente de quién eres, qué has hablado antes o qué preferencias has expresado. Cada conversación empieza desde cero.

Dentro de una misma conversación, el modelo puede acceder a todo lo que está en la ventana de contexto. Pero si la conversación es tan larga que el historial supera la ventana, las partes más antiguas desaparecen —el modelo literalmente no puede verlas y actúa como si no existieran.

Este comportamiento sorprende a muchos usuarios que asumen que el modelo recuerda su nombre que dijeron hace veinte mensajes, o una instrucción que dieron al principio de una conversación muy larga. No necesariamente: puede que ya haya salido de la ventana.

Memoria vs. contexto: la distinción clave

CONTEXTO                      MEMORIA
─────────────────────────────────────────────────────
Dentro de una sesión          Entre sesiones
Temporal                      Persistente
Automático (está en la        Requiere sistema externo
ventana o no está)            (bases de datos, RAG, etc.)
Limitado por tokens           Potencialmente ilimitada
Gratis (incluido en la API)   Requiere infraestructura

Lo que parece “memoria” en herramientas como ChatGPT con memoria activada no es parte del modelo en sí: es un sistema externo que guarda resúmenes o fragmentos de conversaciones anteriores y los inyecta en el contexto al inicio de cada nueva conversación. El modelo los lee como si fueran parte del prompt, no como recuerdos internos.

Esta distinción importa si construyes sistemas sobre modelos de lenguaje: la “memoria” siempre es externa y siempre consume tokens del contexto.

Implicaciones prácticas

Coloca la información importante al principio y al final. Los modelos tienden a prestar más atención a los tokens al inicio y al final de la ventana de contexto que a los del medio (fenómeno conocido como “lost in the middle”). Si tienes instrucciones críticas, no las entierres en el centro de un documento largo.

No asumas que el modelo “recuerda”. Si tienes una conversación larga y el modelo parece haber olvidado algo que dijiste antes, probablemente ya salió de su ventana de contexto. Repítelo.

Los documentos largos tienen un coste. Pegar un libro de 200 páginas en el contexto consume tokens valiosos, ralentiza la respuesta y puede diluir el foco del modelo. Extrae solo lo relevante cuando sea posible.

La ventana de contexto no es lo mismo que la atención real. Aunque técnicamente el modelo puede “ver” todo lo que está en la ventana, en la práctica su capacidad de razonar coherentemente sobre contextos muy largos se degrada. 200.000 tokens disponibles no significa 200.000 tokens perfectamente aprovechados.

Entender tokens y contexto no es trivia técnica. Es lo que te permite diseñar tus interacciones con la IA para obtener los mejores resultados y anticipar dónde el sistema puede fallar.