Ferramentas de Template e Extração: como o Rakenne estabiliza documentos gerados por IA

Como os pipelines de Template e Extração do Rakenne garantem formatação consistente, protegem linguagem regulatória, validam dados e produzem documentos auditáveis — mesmo quando há um LLM no fluxo.

beginner
12 min de leitura
2026-03-03
Files

Autor Ricardo Cabral · Founder

Quando você usa um chat de IA genérico para redigir um documento regulado — um prospecto de valores mobiliários, um NDA, um filing de compliance — o resultado é imprevisível. O mesmo valor em moeda pode aparecer como “R$ 1.500,00” em uma página e “R$1500” em outra. Um aviso legal é reformulado de forma sutil. Um EIN tem dois dígitos trocados e ninguém percebe até que o regulador aponte.

O Rakenne resolve isso com dois pipelines internos que qualquer skill pode usar: Ferramentas de Template para produzir documentos e Ferramentas de Extração para lê‑los. Este tutorial explica o que elas fazem, por que importam e quais garantias oferecem para você, especialista de domínio, ao usar o Rakenne.

O insight central: separar o que a IA faz do que ela não deve fazer

O Rakenne não pede para a IA escrever seu documento do zero. Em vez disso, divide o trabalho:

O que a IA faz	O que as ferramentas fazem
Entender suas instruções	Formatar números, datas e identificadores
Ler documentos de origem e extrair dados	Validar tipos de dados e campos obrigatórios
Fazer perguntas de esclarecimento	Renderizar o documento final a partir de um template
Redigir seções narrativas (fatores de risco, descrições)	Proteger textos regulatórios contra qualquer alteração
Preencher lacunas com a sua orientação	Auditar a saída em busca de erros e vazamento de dados

A IA trabalha com você para coletar e organizar os dados. Depois, ferramentas determinísticas — código que roda sempre da mesma forma — transformam esses dados no documento final. A IA nunca toca na formatação, nunca reescreve um aviso regulatório e nunca decide sozinha como apresentar um número.

O que são as Ferramentas de Template?

As Ferramentas de Template são um pipeline em três etapas que transforma dados estruturados em um documento formatado. Toda skill que produz um documento formal usa esse pipeline nos bastidores.

Etapa 1: Validação de dados

Antes de qualquer renderização, o sistema checa cada dado contra um schema — um conjunto de regras que define o que o documento exige.

O que é verificado:

Campos obrigatórios — o nome do fundo está presente? O EIN foi preenchido? A data do prospecto foi definida?
Conformidade de formato — EINs são validados com algoritmo de comprimento e separadores; datas precisam ser válidas no calendário; valores monetários devem ser inteiros não negativos; percentuais devem ficar entre 0 e 1.
Taxa de preenchimento — o sistema reporta quantos campos estão preenchidos vs. quantos são necessários (por exemplo, “245 de 289 variáveis preenchidas — 84,8%”).

Se a validação falha, o agente diz exatamente o que está errado e ajuda você a corrigir antes de seguir. Você não recebe um documento com dados silenciosamente errados.

Etapa 2: Renderização

Aqui os dados viram documento. O motor de renderização:

Formata cada valor segundo regras de locale. Um valor em centavos 150000 vira R$ 1.500,00 em português‑Brasil — sempre, com separador decimal, separador de milhar e símbolo de moeda corretos. Uma data 2026-03-03 vira 3 de março de 2026 no formato longo ou 03/03/2026 no formato curto.
Inclui ou omite seções opcionais dependendo da existência de dados. Se um campo não se aplica ao seu documento, a seção é omitida de forma limpa, em vez de exibir um espaço em branco estranho.
Marca dados faltantes de forma visível. Qualquer campo ainda não preenchido aparece como [PENDING: nome_do_campo] no rascunho — impossível não perceber as lacunas.
Trava texto regulatório. Trechos que precisam aparecer verbo por verbo (como disclaimers da CVM ou linguagem prevista em lei) são renderizados a partir do template exatamente como escritos. A IA não pode reformular, resumir ou “melhorar” esses textos.

Formatos suportados incluem:

Tipo de dado	O que você fornece	O que o documento mostra
Moeda	`150000` (centavos)	R$ 1.500,00
Moeda por extenso	`150000`	R$ 1.500,00 (um mil e quinhentos reais)
Data (longa)	`2026-03-03`	3 de março de 2026
Data (curta)	`2026-03-03`	03/03/2026
Percentual	`0.015`	1,50%
CNPJ	`11222333000181`	11.222.333/0001-81
CPF	`12345678909`	123.456.789-09
EIN (EUA)	`123456789`	12-3456789
Número	`1500`	1.500

Cada skill também pode definir formatadores específicos de domínio. Em uma skill de mercado de capitais brasileiro, por exemplo, um código de tipo de fundo é mapeado para o nome legal completo: FIDC vira Fundo de Investimento em Direitos Creditórios, sempre — não é paráfrase nem abreviação.

Etapa 3: Auditoria

Depois de renderizar, o sistema executa uma auditoria automática que verifica três pontos:

Integridade de zonas imutáveis. Certos trechos — disclaimers regulatórios, linguagem de norma, avisos legais padrão — são marcados como “imutáveis” no template. A auditoria calcula um hash criptográfico (SHA‑256) de cada zona e compara byte a byte com a saída renderizada. Se um único caractere mudar, a auditoria sinaliza. É assim que o Rakenne garante que um aviso da CVM como “AS COTAS NÃO CONTAM COM GARANTIA DO ADMINISTRADOR…” apareça exatamente igual em todo documento que usa aquele template.

Orçamentos de mudança. Cada seção do documento tem um desvio máximo permitido em relação ao template — por exemplo, uma seção de fatores de risco pode permitir apenas 5% de alteração, pois quase tudo é linguagem regulatória padrão, enquanto uma seção descritiva pode permitir 15% porque varia por fundo. Se uma seção ultrapassa o orçamento, a auditoria marca para revisão.

Varredura contra contaminação. Quando você produz um novo documento a partir de outro (por exemplo, criando o prospecto do Fundo B a partir dos dados do Fundo A), a auditoria varre a saída em busca de qualquer traço de dados antigos. Ela checa todos os formatos de exibição — se o CNPJ do Fundo A 12.345.678/0001-90 aparecer em qualquer lugar do documento do Fundo B, em qualquer formato (formatado, cru, parcial), a auditoria detecta. Isso evita vazamento acidental de dados entre documentos.

O que são as Ferramentas de Extração?

As Ferramentas de Extração fazem o caminho inverso das de template: em vez de transformar dados em documento, transformam um documento em dados estruturados. Elas entram em cena quando você já tem um PDF (por exemplo, um prospecto precedente ou um filing de referência) e quer extrair os dados para um novo documento.

Como funciona a extração

1. Ingestão do documento. O sistema converte o PDF enviado em um texto pesquisável, página a página, em que cada linha tem um endereço estável (número de página + número de linha).

2. Detecção de seções. Usando uma taxonomia específica de domínio (definida por skill), o sistema identifica automaticamente as seções do documento — capa, características da oferta, fatores de risco, cronograma etc. — reconhecendo padrões de títulos.

3. Extração de dados com evidência. A IA lê cada seção e extrai os dados relevantes. Diferente de uma IA genérica que só devolve um valor, a extração do Rakenne registra evidência para cada dado: o texto exato lido, a página de origem e os números de linha. Você passa a ter rastreabilidade total — pode conferir qualquer valor extraído direto na fonte.

4. Normalização automática. Valores crus são convertidos para formatos canônicos:

"R$ 500.000.000,00" vira 50000000000 (centavos), pronto para formatação consistente depois.
"12.345.678/0001-90" vira "12345678000190", validado com dígito verificador.
"02/03/2026" vira "2026-03-02", em formato ISO inequívoco.

5. Resolução de conflitos. Quando o mesmo dado aparece em várias seções (por exemplo, o CNPJ do fundo na capa e na seção de prestadores de serviço), o sistema resolve conflitos de forma determinística usando prioridade de seção, especificidade e status de validação — sem pedir para a IA “adivinhar” qual é o certo.

6. Segunda varredura. Depois da extração, o sistema faz uma busca por padrões para encontrar valores que a IA possa ter perdido — procurando formatos de moeda, datas, CNPJ e outros. Essa rede de segurança melhora a taxa de preenchimento e reduz digitação manual.

7. Relatório de rastreabilidade. A saída final inclui não só os dados extraídos, mas um relatório de rastreabilidade: para cada variável, de qual seção veio, qual era o texto original, em que página e linha estava, se houve conflitos e como foram resolvidos, e qual é a taxa de preenchimento no documento inteiro.

Como é uma sessão típica

Na prática, ao usar uma skill que depende dessas ferramentas, você vê o seguinte fluxo:

1. Você cria um projeto e descreve o que precisa. Por exemplo: “Quero elaborar um prospecto de FIDC para o Fundo Alpha” ou “Quero extrair dados deste prospecto existente em PDF”.

2. O agente conduz a coleta de dados. Ele faz perguntas estruturadas, seção por seção: identidade do fundo, prestadores de serviço, termos da oferta, estrutura de cotas, fatores de risco, cronograma. Se você subiu um PDF de referência, ele extrai a maior parte automaticamente e pede confirmação ou complementos.

3. Você acompanha o progresso. O agente reporta taxa de preenchimento: “Temos 245 de 289 campos preenchidos (84,8%). As lacunas restantes estão em fatores de risco e informações adicionais. Quer fornecer a descrição de risco de mercado ou prefere que eu redija com base em linguagem padrão?”.

4. O agente valida antes de renderizar. Quando os dados estão prontos, o agente roda a validação. Se um CNPJ tem dígito verificador inválido, se falta uma data obrigatória ou se um valor monetário está negativo, você vê mensagens específicas — não apenas um documento “meio errado”.

5. Você recebe um documento com garantias. A saída tem formatação consistente de ponta a ponta, todo texto regulatório é literal e cada marcador [PENDING: ...] aponta exatamente o que ainda está faltando.

6. Mudanças passam de novo pelo pipeline. Quando você pede revisões — “mude o montante da oferta para R$ 750 milhões” — o agente atualiza os dados e roda novamente validação, renderização e auditoria. Você nunca fica editando texto cru onde um erro de formatação pode passar despercebido.

7. A auditoria dá confiança. Antes da entrega, a auditoria confirma: todas as zonas imutáveis estão intactas, todos os orçamentos de mudança foram respeitados e (se for o caso) nenhum dado do documento anterior vazou. É sua rede de segurança antes de enviar o documento adiante.

Quais garantias você ganha?

Garantia	O que isso significa na prática
Formatação consistente	Todo valor monetário, data, percentual e identificador segue o mesmo padrão, sempre. Nada de “R$ 1.500,00” na página 3 e “R$1500” na página 12.
Validação de dados	CNPJs são validados com matemática de dígito verificador, não “no olho”. Datas precisam ser reais. Campos obrigatórios têm de existir. Você pega erros antes do documento final.
Texto regulatório imutável	Disclaimers, linguagem de norma e avisos padrão são protegidos com verificação criptográfica. A IA não pode reformular ou resumir — o texto aparece exatamente como exigido.
Controle de mudança	Cada seção tem um orçamento de desvio. Se o documento se afastar demais do template, o sistema alerta. Isso captura edições não intencionais ou alucinações da IA em campos de dados.
Anticontaminação	Ao reutilizar dados de outro documento, o sistema procura qualquer resquício do documento antigo — em todos os formatos de exibição. Dados do Fundo A não vão aparecer por engano no documento do Fundo B.
Rastreabilidade completa	Cada valor extraído guarda sua origem: página, linha, trecho de evidência. Cada decisão de renderização entra em um manifesto. Você pode auditar qualquer valor até a fonte.
Lacunas visíveis	Dados faltantes aparecem como `[PENDING: nome_do_campo]` em vez de sumirem silenciosamente. Você sempre sabe o que ainda está incompleto.
Saída determinística	Mesmos dados + mesmo template = mesmo documento. O resultado não depende do “humor” da IA ou da formulação exata do prompt. Se você renderizar de novo semana que vem, obtém exatamente a mesma saída.

Exemplo real: prospecto de FIDC

A skill de Prospecto de FIDC (doc-oferta-fidc) é uma das mais completas baseadas em template no Rakenne. Ela produz documentos de oferta compatíveis com a Resolução CVM 160/2022, Anexo D.

Escala: 289 variáveis organizadas em 25 grupos (capa, identidade do fundo, prestadores de serviço, termos da oferta, estrutura de cotas, fatores de risco, cronograma e outros), renderizadas em 17 seções de documento.

Zonas imutáveis protegem: disclaimers regulatórios da CVM na capa, avisos padrão de risco de investimento, avisos de inadequação ao investidor, procedimentos de suspensão/cancelamento/revogação da oferta (verbatim da CVM 160) e avisos sobre disponibilidade da documentação.

Formatação sensível a locale: todos os valores são renderizados em convenção pt‑BR — R$ 1.500.000,00 (um milhão e quinhentos mil reais), 03/03/2026, 11.222.333/0001-81, 1,50%.

Orçamentos de mudança: fatores de risco permitem apenas 5% de desvio (quase tudo é boilerplate regulatório). A capa permite 15% (mais conteúdo específico por fundo). O documento inteiro permite 10%.

Pipeline de extração: quando a pessoa usuária envia um prospecto existente em PDF, o sistema detecta automaticamente as 17 seções pelos padrões de título, extrai variáveis com evidência página:linha, resolve conflitos quando o mesmo valor aparece em várias seções e produz um relatório de rastreabilidade mostrando a origem de cada dado.

O resultado: uma pessoa especialista consegue produzir um prospecto de ~40 páginas compatível com a CVM conversando com o agente, com confiança de que cada número está formatado corretamente, cada disclaimer é literal, cada CNPJ passa na validação e todo o documento é auditável.

Resumo

As Ferramentas de Template e Extração do Rakenne existem porque produção de documentos é importante demais para ser deixada integralmente à saída probabilística de uma IA. Elas criam uma divisão clara de responsabilidades:

Você traz a expertise de domínio, toma decisões e fornece ou aprova conteúdo.
A IA ajuda a coletar dados, extrair informações de documentos existentes, redigir seções narrativas e navegar pelo fluxo.
As ferramentas cuidam de tudo que precisa ser determinístico: formatação, validação, proteção de texto regulatório, auditoria e rastreabilidade.

O resultado são documentos assistidos por IA, mas verificados por ferramentas — a velocidade da IA com a precisão do código.