Francis Morgan

Procesamiento de documentos mediante pipelines de IA agenticos

De OCR a comprensión y extracción agentic de documentos, produciendo datos estructurados y listos para RAG.

Document AI OCR Agentic Systems LLMs RAG AWS

Contexto

El procesamiento de documentos tradicional se basa en pipelines estáticos: OCR, reglas y postprocesamiento frágil. A medida que los documentos varían en formato, estructura e intención, estos sistemas dejan de escalar.

El problema

  • El OCR produce texto ruidoso y sin estructura
  • El layout y el orden de lectura cambian entre documentos
  • La extracción basada en reglas no generaliza

La solución

Un pipeline por capas que combina etapas determinísticas (OCR, detección de layout) con razonamiento agentic para comprensión, extracción y validación.

Pipeline

  • Ingestión. PDFs e imágenes se normalizan y dividen en páginas.
  • OCR. Extracción de texto y bounding boxes usando distintos motores.
  • Layout y orden de lectura. Inferencia estructural determinística.
  • Comprensión del documento. Identificación de secciones, tablas y campos candidatos.
  • Extracción agentic. Agentes razonan, reintentan y validan datos faltantes o inconsistentes.

Uso de agentes

Los agentes se utilizan únicamente donde se requiere razonamiento. No reemplazan las etapas determinísticas, sino que las orquestan.

Pipeline

  1. 1

    Ingestión

    Normalización de PDFs e imágenes y separación por páginas.

  2. 2

    OCR

    Extracción de texto y bounding boxes usando distintos motores.

  3. 3

    Layout y orden de lectura

    Inferencia estructural determinística del documento.

  4. 4

    Comprensión del documento

    Identificación de secciones, tablas y campos candidatos.

  5. 5

    Extracción agentic

    El agente planifica, extrae, valida y reintenta cuando hay ambigüedad o información faltante.

  6. 6

    Salida estructurada

    Datos emitidos como JSON validado por esquema.

  7. 7

    Artefactos para RAG

    Chunks semánticos con metadatos preservados para recuperación.

  • Descubrimiento de campos. Determina qué información es relevante según el tipo de documento.
  • Autovalidación. Detecta valores faltantes o contradictorios y reintenta extracción.
  • Preparación para RAG. Genera chunks semánticos con metadatos preservados.

Decisiones clave

  • Agentic solo donde aporta valor. OCR y layout siguen siendo determinísticos.
  • Validación antes que generación. La salida debe cumplir esquemas estrictos.
  • Pipelines componibles. Cada etapa es intercambiable.

Resultados

  • Extracción robusta en documentos heterogéneos
  • Menor dependencia de reglas frágiles
  • Datos listos para RAG con estructura y contexto preservados
Volver a trabajo