Una nueva tendencia parece iniciarse en el mundo de la inteligencia artificial: cuanto más pequeño, mejor. Mientras que los modelos lingüísticos gigantes con cientos de miles de millones de parámetros impresionan por su escala y sus capacidades, los investigadores dirigen cada vez más su atención a sus hermanos pequeños y compactos: los modelos lingüísticos pequeños (SLM).
Sí, los modelos grandes, como los últimos desarrollos de OpenAI o Meta, siguen siendo los buques insignia para generar texto, imágenes e incluso crear nuevos fármacos. Pero su increíble potencia tiene un precio. No se trata sólo de los millones de dólares en costes de entrenamiento; según los informes, a Google le costó 191 millones de dólares entrenar un modelo como Gemini 1.0 Ultra, sino también de un mayor consumo de energía. Cada consulta a ChatGPT quema 10 veces más energía que una búsqueda típica en Google. Dado el creciente número de usuarios, el medio ambiente y las facturas de electricidad empiezan a temblar de nervios.
¿Por Qué se Están Popularizando los Modelos Pequeños?
La respuesta está en la sencillez y la eficacia. Los modelos lingüísticos pequeños utilizan muchos menos parámetros: estamos hablando de miles de millones en lugar de cientos de miles de millones. Pero lo más importante es que resuelven tareas bastante específicas: ayudan a resumir llamadas, funcionan como chatbots médicos o analizan datos de dispositivos inteligentes.
Según Zico Coulter, informático de la Universidad Carnegie Mellon, un modelo con ocho mil millones de parámetros puede gestionar muchas tareas aplicadas. Y lo que es más importante, estos modelos pueden ejecutarse no sólo en centros de datos en la nube, sino también directamente en un ordenador portátil o incluso en un smartphone.
¿Comprende la escala? Estamos hablando de transferir las capacidades de un gran centro de datos a un dispositivo portátil.
Cómo los «Pequeños» Aprenden de los «Grandes»
Te preguntarás: si los modelos más pequeños tienen menos parámetros, ¿significa eso que son menos inteligentes? No necesariamente.
Los científicos han encontrado una forma de evitar esta paradoja utilizando algo llamado destilación del conocimiento. Es cuando un modelo colosal parece transmitir su experiencia a otro más joven, como un profesor a un alumno. Así se forman muestras de entrenamiento de alta calidad, libres de la basura y el caos de los que suele estar lleno Internet.
Otro truco es la poda. Los investigadores toman un modelo extenso y se deshacen a propósito de los elementos innecesarios, dejando sólo los más importantes. Curiosamente, esta idea fue sugerida por la naturaleza: con el tiempo, el cerebro humano también «poda» sus conexiones neuronales para lograr una mayor eficiencia.
Resumamos brevemente por qué los modelos «pequeños» están ganando tanta popularidad:
- Menos recursos para entrenarlos y ejecutarlos. Se pueden ejecutar incluso en portátiles o smartphones, por no hablar de los menores costes energéticos.
- Rápida adaptación. Desde consultas médicas hasta análisis de datos en dispositivos IoT, estos modelos son fácilmente personalizables para tareas específicas.
- Transparencia de funcionamiento. Menos parámetros hacen que el comportamiento del modelo sea más comprensible para los investigadores.
- Campo de pruebas barato. Los científicos pueden probar nuevas ideas sin el riesgo de enormes costes.
- Ahorra tiempo y dinero. Los modelos compactos aprenden más rápido y requieren menos recursos para implantarlos en los procesos empresariales.
Para los investigadores, los modelos pequeños son también un excelente «cajón de arena» para la experimentación. Su tamaño reducido y sus modestos requisitos computacionales les permiten probar nuevas hipótesis sin inversiones multimillonarias ni semanas de entrenamiento.
Y al mismo tiempo hace más transparente su comportamiento. Es más sencillo comprender la estructura de una máquina compacta que la de un mecanismo enorme y complejo. Cuantos menos parámetros tenga un modelo, más sencillo es entender cómo llega a sus conclusiones.