Herramientas de plantillas y extracción: cómo Rakenne estabiliza documentos generados con IA
Cómo las pipelines de Template y Extraction de Rakenne garantizan una maquetación consistente, protegen el texto regulatorio, validan los datos y producen documentos auditables, incluso cuando interviene un LLM.
Cuando utilizas una IA de chat genérica para redactar un documento regulado —un prospecto de valores, un NDA, un filing de compliance—, los resultados son impredecibles. El mismo valor monetario puede aparecer como “R$ 1.500,00” en una página y “R$1500” en otra. Un aviso legal se reescribe de forma sutil. Un EIN tiene dos dígitos intercambiados y nadie lo detecta hasta que lo hace el regulador.
Rakenne resuelve este problema con dos pipelines internos que cualquier skill puede usar: Template Tools para producir documentos y Extraction Tools para leerlos. Este tutorial explica qué hacen, por qué importan y qué garantías te ofrecen como experto o experta de dominio al usar Rakenne.
La idea clave: separar lo que debe hacer la IA de lo que no debe hacer
Rakenne no le pide a la IA que escriba tu documento desde cero. En su lugar, divide el trabajo:
| La IA se encarga de | Las herramientas se encargan de |
|---|---|
| Entender tus instrucciones | Formatear números, fechas e identificadores |
| Leer documentos fuente y extraer datos | Validar tipos de datos y campos obligatorios |
| Hacer preguntas de aclaración | Renderizar el documento final a partir de una plantilla |
| Redactar secciones narrativas (factores de riesgo, descripciones) | Proteger el texto regulatorio frente a cualquier cambio |
| Rellenar huecos con tu orientación | Auditar la salida en busca de errores y fugas de datos |
La IA trabaja contigo para recopilar y organizar los datos. Luego herramientas deterministas —código que se comporta siempre igual— convierten esos datos en el documento final. La IA nunca toca la maquetación, nunca reescribe un aviso regulatorio y nunca decide por su cuenta cómo presentar un número.
¿Qué son las Template Tools?
Las Template Tools son una pipeline de tres pasos que transforma datos estructurados en un documento formateado. Todas las skills que producen documentos formales las usan por debajo.
Paso 1: Validación de datos
Antes de renderizar nada, el sistema comprueba todos los datos contra un schema: un conjunto de reglas que define lo que exige el documento.
Qué se comprueba:
- Campos obligatorios: ¿está presente el nombre del fondo? ¿Se ha rellenado el EIN? ¿Se ha establecido la fecha del prospecto?
- Conformidad de formato: los EIN se validan con longitud y algoritmo de comprobación de separadores; las fechas deben ser válidas en el calendario; los importes monetarios deben ser enteros no negativos; los porcentajes deben estar entre 0 y 1.
- Tasa de relleno: el sistema informa de cuántos campos se han completado frente a cuántos se necesitan (por ejemplo, “245 de 289 variables rellenadas — 84,8 %”).
Si la validación falla, el agente te indica exactamente qué está mal y te ayuda a corregirlo antes de continuar. Así no obtienes un documento con datos erróneos de forma silenciosa.
Paso 2: Renderizado
Aquí es donde los datos se convierten en documento. El motor de renderizado:
- Da formato a cada valor según las reglas de locale. Un valor guardado como
150000(centavos) se convierte enR$ 1.500,00en portugués de Brasil, siempre con el separador decimal, separador de miles y símbolo de moneda correctos. Una fecha2026-03-03se convierte en “3 de marzo de 2026” en formato largo o03/03/2026en formato corto. - Incluye u omite secciones opcionales según existan datos o no. Si un campo no aplica a tu documento, la sección se omite de forma limpia en lugar de mostrar un hueco extraño.
- Marca visiblemente los datos que faltan. Cualquier campo que no se haya rellenado aparece como
[PENDING: nombre_del_campo]en el borrador, de modo que las lagunas son imposibles de pasar por alto. - Bloquea el texto regulatorio. Los pasajes que deben aparecer palabra por palabra (como los disclaimers de la CVM o el texto legal obligatorio) se renderizan desde la plantilla exactamente como están escritos. La IA no puede reformularlos, resumirlos ni “mejorarlos”.
Formatos admitidos, entre otros:
| Tipo de dato | Lo que tú aportas | Lo que muestra el documento |
|---|---|---|
| Moneda | 150000 (centavos) | R$ 1.500,00 |
| Moneda con palabras | 150000 | R$ 1.500,00 (um mil e quinhentos reais) |
| Fecha (larga) | 2026-03-03 | 3 de marzo de 2026 |
| Fecha (corta) | 2026-03-03 | 03/03/2026 |
| Porcentaje | 0.015 | 1,50 % |
| CNPJ | 11222333000181 | 11.222.333/0001-81 |
| CPF | 12345678909 | 123.456.789-09 |
| EIN (EE. UU.) | 123456789 | 12-3456789 |
| Número | 1500 | 1.500 |
Cada skill puede además definir formateadores específicos de dominio. En una skill de mercados de capitales brasileños, por ejemplo, los códigos de tipo de fondo se asignan a sus nombres legales completos: FIDC se convierte en Fundo de Investimento em Direitos Creditórios, siempre —no es una paráfrasis ni una abreviatura.
Paso 3: Auditoría
Tras el renderizado, el sistema ejecuta una auditoría automática que revisa tres aspectos:
Integridad de zonas inmutables. Ciertos pasajes —disclaimers regulatorios, lenguaje legal estandarizado, avisos de riesgo— se marcan como “immutable” en la plantilla. La auditoría calcula un hash criptográfico (SHA‑256) de cada zona y lo compara byte a byte con la salida renderizada. Si cambia un solo carácter, se marca. Así garantiza Rakenne, por ejemplo, que un aviso de la CVM como “AS COTAS NÃO CONTAM COM GARANTIA DO ADMINISTRADOR…” aparezca siempre idéntico en todos los documentos que usan esa plantilla.
Presupuestos de cambio. Cada sección del documento tiene un nivel máximo de desviación permitido respecto a la plantilla: por ejemplo, una sección de factores de riesgo puede permitir solo un 5 % de cambio porque casi todo es lenguaje regulatorio estándar, mientras que una sección descriptiva puede admitir un 15 % porque el contenido varía según el fondo. Si una sección supera su presupuesto, la auditoría la señala para revisión.
Búsqueda de contaminación. Cuando generas un nuevo documento a partir de otro (por ejemplo, el prospecto del Fondo B partiendo de los datos del Fondo A), la auditoría escanea la salida en busca de cualquier rastro de los datos anteriores. Comprueba todos los formatos de presentación; si la CNPJ del Fondo A 12.345.678/0001-90 aparece en el documento del Fondo B en cualquier forma (formateada, cruda, parcial), la auditoría lo detecta. Esto evita fugas accidentales de datos entre documentos.
¿Qué son las Extraction Tools?
Las Extraction Tools hacen lo inverso de las Template Tools: en lugar de convertir datos en documento, convierten un documento en datos estructurados. Se usan cuando ya tienes un PDF (por ejemplo, un prospecto precedente o un filing de referencia) y quieres extraer sus datos hacia un nuevo documento.
Cómo funciona la extracción
1. Ingesta del documento. El sistema convierte el PDF subido en un texto buscable, página a página, donde cada línea tiene una dirección estable (número de página + número de línea).
2. Detección de secciones. Usando una taxonomía específica de dominio (definida por skill), el sistema identifica automáticamente las secciones del documento —portada, características de la oferta, factores de riesgo, cronograma, etc.— reconociendo patrones de encabezados.
3. Extracción de datos con evidencia. La IA lee cada sección y extrae todos los datos relevantes. A diferencia de una IA genérica que solo devuelve un valor, la extracción de Rakenne registra evidencia para cada dato: el texto exacto leído, la página de origen y los números de línea. Esto crea trazabilidad completa: puedes comprobar cualquier valor extraído volviendo a su fuente.
4. Normalización automática. Los valores en bruto se convierten a formatos canónicos:
"R$ 500.000.000,00"pasa a50000000000(centavos), listo para formateo consistente."12.345.678/0001-90"pasa a"12345678000190", validado con dígito de control."02/03/2026"pasa a"2026-03-02", en formato ISO inequívoco.
5. Resolución de conflictos. Cuando el mismo dato aparece en varias secciones (por ejemplo, la CNPJ del fondo en la portada y en la sección de prestadores de servicio), el sistema resuelve los conflictos de forma determinista usando prioridad de sección, especificidad y estado de validación, en lugar de pedir a la IA que “adivine” cuál es el correcto.
6. Segunda pasada. Tras la extracción, el sistema ejecuta una búsqueda basada en patrones para localizar valores que la IA pueda haber omitido —buscando formatos de moneda, fechas, CNPJ y más. Esta red de seguridad mejora la tasa de relleno y reduce la necesidad de carga manual.
7. Informe de trazabilidad. La salida final incluye no solo los datos extraídos, sino también un informe de trazabilidad completo: para cada variable, de qué sección proviene, cuál era el texto original, en qué página y línea estaba, si hubo conflictos y cómo se resolvieron, y cuál es la tasa de relleno global del documento.
Cómo es una sesión típica
Cuando trabajas con una skill que utiliza estas herramientas, la experiencia suele ser:
1. Creas un proyecto y describes lo que necesitas. Por ejemplo: “Necesito redactar un prospecto FIDC para el Fondo Alpha” o “Necesito extraer datos de este prospecto existente en PDF”.
2. El agente te guía en la recopilación de datos. Formula preguntas estructuradas, sección por sección: identidad del fondo, prestadores de servicio, términos de la oferta, estructura de cuotas, factores de riesgo, cronograma. Si subiste un PDF de referencia, extrae la mayor parte automáticamente y te pide confirmar o rellenar huecos.
3. Ves el progreso de forma clara. El agente informa de la tasa de relleno: “Tenemos 245 de 289 campos completados (84,8 %). Las lagunas restantes están en factores de riesgo e información adicional. ¿Quieres proporcionar la descripción de riesgo de mercado o prefieres que la redacte con lenguaje estándar?”.
4. El agente valida antes de renderizar. Cuando los datos están listos, el agente ejecuta la validación. Si una CNPJ tiene dígito de control incorrecto, falta una fecha obligatoria o un valor monetario es negativo, ves mensajes de error específicos, no solo un documento “un poco incorrecto”.
5. Obtienes un documento con garantías. El documento generado presenta una maquetación consistente de principio a fin, todo el texto regulatorio es literal y cada marcador [PENDING: ...] indica exactamente qué falta.
6. Los cambios vuelven a pasar por la pipeline. Cuando pides revisiones —“cambia el importe de la oferta a R$ 750 millones”—, el agente actualiza los datos y vuelve a ejecutar validación, renderizado y auditoría. Nunca editas texto bruto donde un fallo de formato pueda colarse sin querer.
7. La auditoría te da confianza. Antes de entregar, la auditoría confirma: todas las zonas inmutables están intactas, todos los presupuestos de cambio se respetan y (si aplica) no se ha filtrado ningún dato de documentos anteriores. Es tu red de seguridad antes de enviar el documento a la siguiente persona.
¿Qué garantías obtienes?
| Garantía | Qué significa para ti |
|---|---|
| Formato consistente | Cada valor monetario, fecha, porcentaje e identificador sigue el mismo formato en todo el documento. No más “R$ 1.500,00” en la página 3 y “R$1500” en la 12. |
| Validación de datos | Las CNPJ se verifican con matemáticas de dígito de control, no solo “a ojo”. Las fechas deben ser reales. Los campos obligatorios deben estar presentes. Detectas errores antes de finalizar el documento, no después. |
| Texto regulatorio inmutable | Disclaimers, lenguaje legal y pasajes estándar se protegen con verificación criptográfica. La IA no puede reformular ni abreviar: aparecen exactamente como exige la regulación. |
| Control de cambios | Cada sección tiene un presupuesto de desviación. Si el documento se aleja más de lo esperado de la plantilla, el sistema lo marca. Esto captura ediciones no intencionadas o alucinaciones de la IA que se introduzcan en campos de datos. |
| Anticontaminación | Al reutilizar datos de un documento anterior, el sistema escanea la salida en busca de valores residuales, en todas las formas de visualización. Los datos del Fondo A no aparecerán por error en el documento del Fondo B. |
| Trazabilidad completa | Cada valor extraído registra su origen: página, línea, texto de evidencia. Cada decisión de renderizado queda recogida en un manifiesto. Puedes auditar cualquier valor hasta su fuente. |
| Huecos visibles | Los datos que faltan se muestran como [PENDING: nombre_del_campo] en lugar de omitirse en silencio. Siempre sabes qué está incompleto. |
| Salida determinista | Mismos datos + misma plantilla = mismo documento. El resultado no depende del “humor” de la IA ni de matices en el prompt. Si vuelves a renderizar la semana que viene, obtendrás exactamente la misma salida. |
Ejemplo real: prospecto de valores (FIDC)
La skill de Prospecto FIDC (doc-oferta-fidc) es una de las skills más completas basadas en plantillas de Rakenne. Produce documentos de oferta compatibles con la Resolución CVM 160/2022, Anexo D.
Escala: 289 variables organizadas en 25 grupos (portada, identidad del fondo, prestadores de servicio, términos de la oferta, estructura de cuotas, factores de riesgo, cronograma, etc.), renderizadas en 17 secciones de documento.
Zonas inmutables protegidas: disclaimers regulatorios de la CVM en la portada, avisos estándar de riesgo de inversión, avisos de inadecuación para el inversor, procedimientos de suspensión/cancelación/revocación de la oferta (texto literal de la CVM 160) y avisos sobre disponibilidad de la documentación.
Formato sensible al locale: todos los valores se renderizan en convención pt‑BR — R$ 1.500.000,00 (um milhão e quinhentos mil reais), 03/03/2026, 11.222.333/0001-81, 1,50%.
Presupuestos de cambio: los factores de riesgo permiten solo un 5 % de desviación (en su mayoría texto regulatorio estándar). La portada permite un 15 % (contenido más variable por fondo). El documento completo permite un 10 %.
Pipeline de extracción: cuando el usuario sube un prospecto existente en PDF, el sistema detecta automáticamente las 17 secciones mediante patrones de encabezado, extrae variables con evidencia página:línea, resuelve conflictos cuando el mismo valor aparece en varias secciones y produce un informe de trazabilidad que muestra el origen de cada dato.
El resultado: una persona experta puede producir un prospecto de unas 40 páginas conforme a la CVM conversando con el agente, con la confianza de que todos los números están correctamente formateados, cada disclaimer es literal, cada CNPJ supera la validación de dígito de control y todo el documento es plenamente auditable.
Resumen
Las Template y Extraction Tools de Rakenne existen porque la producción de documentos es demasiado importante como para dejarla por completo a la salida probabilística de una IA. Crean una división clara del trabajo:
- Tú aportas la experiencia de dominio, tomas decisiones y proporcionas o apruebas contenido.
- La IA te ayuda a recopilar datos, extraer información de documentos existentes, redactar secciones narrativas y navegar por el flujo de trabajo.
- Las herramientas se ocupan de todo lo que debe ser determinista: formato, validación, protección del texto regulatorio, auditoría y trazabilidad.
El resultado son documentos asistidos por IA pero verificados por herramientas: la velocidad de la IA con la precisión del código.