El alineamiento: cómo se enseña a la IA a ser útil y segura â€" Xap.es

Cuando usas ChatGPT, Claude o Gemini, no estás interactuando con un modelo de lenguaje básico. Estás interactuando con un modelo que ha pasado por un proceso adicional —el alineamiento— diseñado para que sea útil, honesto y seguro. Entender ese proceso explica muchas cosas sobre cómo se comportan estos sistemas: por qué se niegan a hacer ciertas cosas, por qué a veces son excesivamente cautelosos y por qué sus valores no son neutrales.

El problema del modelo base

Un modelo de lenguaje preentrenado sobre grandes volúmenes de texto tiene una capacidad asombrosa: predecir qué texto viene después de cualquier fragmento de texto dado. Pero esa capacidad no es lo mismo que ser útil como asistente.

Si le preguntas “¿cómo puedo mejorar mi currículum?”, el modelo base podría responder con más preguntas (porque muchos documentos de entrenamiento tienen esa estructura), con un análisis académico del concepto de currículum, o incluso con una respuesta en el estilo de un foro de internet de los años 2000. Predice lo más probable dado el contexto. No entiende que estás esperando un consejo práctico.

El problema es que “seguir instrucciones” y “ser útil” no son propiedades que emergen automáticamente del preentrenamiento sobre texto general. Requieren un proceso adicional.

Fine-tuning por instrucciones

El primer paso del alineamiento es el ajuste fino por instrucciones (instruction fine-tuning o SFT, Supervised Fine-Tuning).

El proceso es conceptualmente simple: se crea un dataset de pares (instrucción, respuesta ideal) y se continúa entrenando el modelo sobre ese dataset. “Instrucción: resume este texto. Respuesta: [resumen de calidad]”. “Instrucción: explica qué es la fotosíntesis para un niño de 10 años. Respuesta: [explicación clara y adecuada]”.

Después de miles o millones de estos ejemplos, el modelo aprende a seguir instrucciones en lugar de simplemente completar texto. Este paso convierte el modelo base en un asistente funcional.

Pero sigue habiendo un problema: las respuestas “correctas” son subjetivas. ¿Qué es una buena explicación? ¿Cuándo una respuesta es demasiado larga o demasiado corta? ¿Qué nivel de detalle es el adecuado? Para capturar preferencias humanas de forma más matizada, se necesita algo más.

RLHF: aprender de la preferencia humana

RLHF significa Reinforcement Learning from Human Feedback: aprendizaje por refuerzo a partir de feedback humano. Es la técnica que convirtió GPT-3 en ChatGPT y que está detrás de los modelos de asistente más capaces.

El proceso tiene tres fases:

1. Recopilación de comparaciones. Se generan múltiples respuestas del modelo para la misma instrucción y se pide a evaluadores humanos que las ordenen de mejor a peor. En lugar de decir “esta respuesta es correcta” (costoso y subjetivo), se dice “esta respuesta es mejor que aquella” (más fácil y consistente).

2. Entrenamiento del modelo de recompensa. Con esas comparaciones, se entrena un modelo separado —el modelo de recompensa— que aprende a predecir qué respuestas prefieren los humanos. Este modelo actúa como un evaluador automático de calidad.

3. Optimización por refuerzo. El modelo de lenguaje se optimiza para maximizar la puntuación del modelo de recompensa, usando algoritmos de aprendizaje por refuerzo (específicamente, una variante llamada PPO). El resultado es un modelo que produce respuestas que los humanos tienden a preferir.

RLHF captura preferencias que son difíciles de especificar explícitamente: claridad, concisión, tono apropiado, utilidad práctica. Los evaluadores humanos no necesitan articular por qué prefieren una respuesta: solo señalan cuál es mejor.

Qué valores aprende el modelo

El alineamiento no es neutral. Los valores que el modelo aprende dependen de:

Los evaluadores humanos. Sus preferencias, culturas, sesgos y criterios se codifican en el modelo de recompensa. Si los evaluadores valoran cierto tipo de respuestas, el modelo aprende a producirlas.
Las instrucciones de evaluación. Los criterios que se dan a los evaluadores —qué se considera una respuesta buena, qué se considera dañino— están definidos por las empresas que desarrollan los modelos.
Las políticas de contenido. Las restricciones sobre qué el modelo no debe hacer —generar contenido dañino, ayudar con actividades ilegales, proporcionar información peligrosa— son decisiones de diseño que se incorporan en el proceso de alineamiento.

Esto tiene una implicación importante: cuando un modelo se niega a hacer algo o responde de manera exesivamente cautelosa, esa decisión no es del modelo —no tiene agencia para decidir. Es una consecuencia de las preferencias y criterios que se codificaron durante el alineamiento.

Los límites del alineamiento

El alineamiento mejora sustancialmente el comportamiento de los modelos, pero tiene límites reales.

El problema de la generalización. El modelo aprende a comportarse bien en situaciones parecidas a las del entrenamiento. En situaciones nuevas o inusualmente formuladas, puede fallar de formas inesperadas.

La sobre-cautela. Los modelos alineados tienden a ser más cautelosos de lo necesario en muchas situaciones. Si el criterio de evaluación penaliza fuertemente los errores potencialmente dañinos, el modelo aprende a evitar también situaciones que solo parecen peligrosas.

El jailbreak. Las restricciones del alineamiento son capas aprendidas sobre el modelo base, no propiedades fundamentales. Con las instrucciones adecuadas —los llamados “jailbreaks”—, es posible a veces eludir esas restricciones. Esto muestra que el alineamiento es un proceso de ajuste de comportamiento, no de cambio de valores profundos.

La evolución constante. A medida que los modelos se usan en más contextos y los usuarios encuentran comportamientos problemáticos, los desarrolladores refinan el proceso de alineamiento. Los modelos actuales son significativamente más capaces y mejor alineados que sus versiones anteriores, pero el proceso es continuo.

Entender el alineamiento es entender que los modelos de IA que usamos son el resultado de decisiones de diseño humanas que van mucho más allá del entrenamiento técnico. Sus comportamientos —sus capacidades, sus límites, sus sesgos— son el producto de esas decisiones.

El alineamiento: cómo se enseña a la IA a ser útil y segura

El problema del modelo base

Fine-tuning por instrucciones

RLHF: aprender de la preferencia humana

Qué valores aprende el modelo

Los límites del alineamiento

Sigue leyendo

La regla del 50-30-20: un presupuesto en tres números

Trabaja por bloques, no por listas

La trampa del tutorial: por qué ver más cursos no garantiza aprender