Procesamiento de documentos mediante pipelines de IA agenticos
De OCR a comprensión y extracción agentic de documentos, produciendo datos estructurados y listos para RAG.
Contexto
El procesamiento de documentos tradicional se basa en pipelines estáticos: OCR, reglas y postprocesamiento frágil. A medida que los documentos varían en formato, estructura e intención, estos sistemas dejan de escalar.
El problema
- El OCR produce texto ruidoso y sin estructura
- El layout y el orden de lectura cambian entre documentos
- La extracción basada en reglas no generaliza
La solución
Un pipeline por capas que combina etapas determinísticas (OCR, detección de layout) con razonamiento agentic para comprensión, extracción y validación.
Pipeline
- Ingestión. PDFs e imágenes se normalizan y dividen en páginas.
- OCR. Extracción de texto y bounding boxes usando distintos motores.
- Layout y orden de lectura. Inferencia estructural determinística.
- Comprensión del documento. Identificación de secciones, tablas y campos candidatos.
- Extracción agentic. Agentes razonan, reintentan y validan datos faltantes o inconsistentes.
Uso de agentes
Los agentes se utilizan únicamente donde se requiere razonamiento. No reemplazan las etapas determinísticas, sino que las orquestan.
Pipeline
-
1
Ingestión
Normalización de PDFs e imágenes y separación por páginas.
-
2
OCR
Extracción de texto y bounding boxes usando distintos motores.
-
3
Layout y orden de lectura
Inferencia estructural determinística del documento.
-
4
Comprensión del documento
Identificación de secciones, tablas y campos candidatos.
-
5
Extracción agentic
El agente planifica, extrae, valida y reintenta cuando hay ambigüedad o información faltante.
-
6
Salida estructurada
Datos emitidos como JSON validado por esquema.
-
7
Artefactos para RAG
Chunks semánticos con metadatos preservados para recuperación.
- Descubrimiento de campos. Determina qué información es relevante según el tipo de documento.
- Autovalidación. Detecta valores faltantes o contradictorios y reintenta extracción.
- Preparación para RAG. Genera chunks semánticos con metadatos preservados.
Decisiones clave
- Agentic solo donde aporta valor. OCR y layout siguen siendo determinísticos.
- Validación antes que generación. La salida debe cumplir esquemas estrictos.
- Pipelines componibles. Cada etapa es intercambiable.
Resultados
- Extracción robusta en documentos heterogéneos
- Menor dependencia de reglas frágiles
- Datos listos para RAG con estructura y contexto preservados