Tecnalia

Arquitectura Transformer: cómo revolucionó el procesamiento del lenguaje natural con el mecanismo de atención

La arquitectura Transformer, introducida por Google en el artículo "Attention Is All You Need" (2017), supuso un antes y un después en la inteligencia artificial (IA), revolucionando especialmente el procesamiento del lenguaje natural (PLN). Se pasó de un procesamiento secuencial (palabra por palabra), a un procesamiento en paralelo, acelerando exponencialmente el entrenamiento, y permitiendo entrenar modelos con volúmenes de datos enormes.

Mecanismo de atención

La innovación principal fue el llamado mecanismo de atención que permite al modelo entender mejor el contexto, sin depender de la proximidad física de las palabras.

Esta arquitectura posibilitó la creación de modelos con miles de millones de parámetros (en inglés, Large Language Model o LLM). Estos modelos eran capaces de comprender y generar lenguaje natural de manera similar a como lo hace un ser humano, progresando de modelos especializados en un solo idioma y una única tarea; como la clasificación de textos, el análisis de sentimientos, la generación de resúmenes o la traducción automática, a modelos multilingües que pueden entender instrucciones en lenguaje humano y ejecutar múltiples tareas de forma simultánea (a través de ingeniería de instrucciones o prompts).

En 2020, Open AI lanzó GPT-3, un modelo de 175B parámetros que marcó el inicio de los LLM tal como los entendemos hoy en día

Estos modelos generativos presentaban un problema, las alucinaciones. Aunque eran capaces de producir respuestas que sonaban convincentes, a menudo inventaban hechos, citas o datos que no eran reales. Esto se debía a que los LLMs aprendían patrones del texto, y su conocimiento estaba limitado únicamente a los datos con los que fueron entrenados. No contaban con información actualizada ni con conocimientos específicos de áreas que no estaban incluidas en su entrenamiento.

Para resolver este problema, en 2020 investigadores de Facebook AI Research publicaron un artículo titulado "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks": presentaron formalmente el concepto de RAG (Retrieval-Augmented Generation) que consiste en proporcionar al modelo información relevante obtenida de bases de datos externas, con el objetivo de que disponga de un contexto actualizado y preciso a la hora de generar una respuesta, y no se base únicamente en su conocimiento interno aprendido durante el entrenamiento.
Este enfoque, que combina las capacidades de los LLMs con la precisión de los sistemas de recuperación de información, logró un aumento significativo en la fiabilidad y precisión de las respuestas, y una reducción importante de las alucinaciones.
Gracias a las técnicas RAG, los modelos podían responder con más precisión. Sin embargo, aún no eran capaces de realizar ciertas tareas como búsquedas en Internet, ejecutar cálculos matemáticos o funciones de código, o interactuar con otras aplicaciones.

La solución llegó en 2023 con la incorporación de la funcionalidad de tool calling o function calling

La funcionalidad de tool calling o function calling integra modelos de lenguaje con funciones externas de forma estructurada. De esta manera, los LLMs pueden invocar herramientas (como APIs, scripts, servicios web, etc.) para obtener información o realizar una acción, y luego usar el resultado para dar una respuesta más precisa o útil.

En 2024, esta funcionalidad se convierte en esencial para construir los denominados agentes de IA que interactúan con el mundo real. Un agente de IA es un sistema inteligente que actúa de forma autónoma para lograr un objetivo o cumplir una tarea.

Estos agentes pueden tomar decisiones, llamar a herramientas, navegar, planificar y actuar en el mundo real. Dada una tarea, el agente, de manera totalmente autónoma, analiza la solicitud y decide qué herramientas necesita, las invoca, obtiene los resultados y procesa la información para generar la respuesta.
A su vez, el agente dispone de una memoria o contexto que le permite recordar lo que ha hecho, para no repetir pasos innecesarios. Además, los agentes son capaces de planificar tareas complejas dividiéndolas en tareas más sencillas que van ejecutando paso a paso.

En los últimos años (2025-2026), el campo de la IA generativa está evolucionando hacia equipos de agentes especializados

Ya no se trata de un solo agente que actúa de manera independiente, sino de sistemas multi-agente donde varios agentes colaboran entre ellos. Los retos radican en la coordinación y comunicación eficiente entre dichos agentes, alineando su comportamiento y resolviendo conflictos que puedan surgir entre ellos.

A su vez, en el campo de los modelos, la investigación está avanzando hacia:

modelos que piensan más (Reasoning LLMs o RLM),
modelos más pequeños que puedan ejecutarse en local o dispositivos Edge (Small Language Model o SLM),
y modelos multimodales (Large Multimodal Models o LMM) que entienden múltiples tipos de datos y no solo texto (por ejemplo, imagen + texto, video + audio).

Todo ello sin olvidar los aspectos de seguridad, evaluación y control continuo ya que estos sistemas multi-agente actúan en el mundo real y están expuestos a mayores riesgos y ataques.

De Transformers a agentes de IA: evolución de los LLM, y la inteligencia artificial generativa

Arquitectura Transformer: cómo revolucionó el procesamiento del lenguaje natural con el mecanismo de atención

Mecanismo de atención

En 2020, Open AI lanzó GPT-3, un modelo de 175B parámetros que marcó el inicio de los LLM tal como los entendemos hoy en día

La solución llegó en 2023 con la incorporación de la funcionalidad de tool calling o function calling

En los últimos años (2025-2026), el campo de la IA generativa está evolucionando hacia equipos de agentes especializados

Categorías relacionadas

Ámbitos relacionados

Sectores de aplicación