Cuando decimos que una red neuronal “aprende”, usamos una metáfora poderosa que puede engañar. Las máquinas no aprenden como los humanos aprenden: no reflexionan, no generalizan con intuición, no tienen curiosidad. Pero lo que hacen —ajustar millones de parámetros matemáticos para minimizar el error en una tarea— produce resultados que se parecen sorprendentemente al aprendizaje, y entender cómo funciona ese proceso es la base de todo lo demás.
Aprender sin que nadie te lo explique
Imagina que tienes que enseñar a alguien a distinguir spam de correo legítimo, pero sin darle reglas. En lugar de decirle “si contiene la palabra ‘gratis’ y un enlace externo, es spam”, le muestras miles de ejemplos ya clasificados: este es spam, este no, este sí, este no.
La persona, después de suficientes ejemplos, empieza a detectar patrones. No necesariamente los mismos que tú habrías programado, pero patrones que funcionan. Eso es, en esencia, el aprendizaje automático: inferir reglas a partir de ejemplos, no de instrucciones explícitas.
El aprendizaje supervisado —el tipo más común— requiere tres cosas: datos de entrenamiento (los ejemplos), etiquetas (las respuestas correctas para esos ejemplos) y un modelo capaz de ajustarse para aproximar esas respuestas.
Parámetros: los nudos del conocimiento
Una red neuronal es un grafo matemático de nodos conectados entre sí, inspirado vagamente en la estructura del cerebro (aunque la analogía es muy superficial). Lo que une los nodos son los pesos: números que determinan cuánto contribuye la señal de un nodo al resultado del siguiente.
Esos pesos son los parámetros del modelo. Un modelo pequeño puede tener millones. GPT-4 tiene estimaciones de varios cientos de miles de millones. Cada número es un valor ajustable.
Al principio del entrenamiento, esos parámetros se inicializan con valores aleatorios. El modelo no sabe nada. Sus predicciones iniciales son poco mejores que tirar una moneda al aire.
Lo que ocurre durante el entrenamiento es una secuencia de ajustes iterativos de esos parámetros para que las predicciones del modelo se acerquen cada vez más a las respuestas correctas del conjunto de entrenamiento.
La función de pérdida: medir el error
Para ajustar los parámetros, primero necesitas saber qué tan equivocado está el modelo. Ese es el trabajo de la función de pérdida: una medida matemática de la distancia entre lo que el modelo predice y lo que debería haber predicho.
Si el modelo predice que un correo tiene un 30% de probabilidad de ser spam, pero en realidad era spam, la función de pérdida devuelve un número alto. Si predice 92% y era spam, el número es bajo. El objetivo del entrenamiento es minimizar ese número promediado sobre todos los ejemplos.
Diferentes tareas usan diferentes funciones de pérdida. Clasificación, regresión, generación de texto —cada una tiene métricas distintas de lo que significa “equivocarse menos”.
Descenso de gradiente: aprender del fallo
Una vez que tienes una medida del error, necesitas saber cómo ajustar los parámetros para reducirlo. Aquí entra el descenso de gradiente.
El gradiente es el equivalente matemático de la pendiente en un terreno. Si el error es el terreno y los parámetros son tu posición, el gradiente te dice en qué dirección ir para bajar más rápido. El descenso de gradiente es simplemente moverse en esa dirección, un pequeño paso a la vez.
Calcular el gradiente requiere retropropagación (backpropagation): propagar el error desde la salida del modelo hacia atrás a través de todas las capas, calculando cuánto contribuyó cada parámetro al error total y ajustándolo en consecuencia.
Este proceso se repite millones o miles de millones de veces, con distintos subconjuntos de datos, hasta que el error en los datos de entrenamiento alcanza un nivel aceptable.
Ciclo de entrenamiento:
1. El modelo recibe un ejemplo de entrada
2. Hace una predicción (forward pass)
3. Se calcula el error (función de pérdida)
4. Se propaga el error hacia atrás (backpropagation)
5. Se ajustan los parámetros (descenso de gradiente)
6. Repetir con el siguiente ejemplo → millones de veces
Lo que el entrenamiento no puede hacer
Entender el entrenamiento es también entender sus límites, que son los límites de la IA que usamos hoy.
El modelo aprende del pasado, no del futuro. Los parámetros se fijan en el momento de entrenamiento. Si el mundo cambia —nuevos eventos, nueva información— el modelo no lo sabe a menos que se reentrene. Por eso los modelos tienen una “fecha de corte de conocimiento”.
El modelo aprende lo que está en los datos. Si los datos de entrenamiento contienen sesgos —sobre-representación de ciertas voces, infra-representación de otras, errores sistemáticos— esos sesgos quedan codificados en los parámetros. El modelo no puede aprender lo que no está en sus datos.
El modelo puede memorizar en lugar de generalizar. Si se entrena demasiado tiempo sobre los mismos datos, el modelo aprende esos ejemplos específicos en lugar de los patrones subyacentes. Es lo que se llama sobreajuste (overfitting), y produce modelos que funcionan bien en entrenamiento pero mal en datos nuevos.
El tamaño no lo resuelve todo. Más parámetros y más datos mejoran el rendimiento hasta cierto punto, pero no eliminan estas limitaciones estructurales. Un modelo más grande tiene los mismos problemas conceptuales que uno pequeño, solo que a mayor escala.
El entrenamiento es el proceso más importante en la IA moderna. Todo lo que los modelos saben —sus capacidades y sus limitaciones— es consecuencia de cómo y con qué fueron entrenados. Lo que viene después —las interacciones, los prompts, los outputs— es la expresión de lo que el entrenamiento dejó codificado.