Template- und Extraktions-Tools: wie Rakenne KI-generierte Dokumente stabilisiert

Wie die Template- und Extraktions-Pipelines von Rakenne für konsistente Formatierung sorgen, regulatorische Texte schützen, Daten validieren und auditierbare Dokumente erzeugen – selbst wenn ein LLM im Spiel ist.

beginner
12 Min. Lesezeit
2026-03-03
Files

Autor Ricardo Cabral · Founder

Wenn Sie ein generisches KI‑Chattool nutzen, um ein reguliertes Dokument zu entwerfen – etwa einen Wertpapierprospekt, eine NDA oder eine Compliance‑Einreichung –, sind die Ergebnisse unvorhersehbar. Derselbe Währungswert kann auf einer Seite als „R$ 1.500,00“ und auf einer anderen als „R$1500“ erscheinen. Ein rechtlicher Disclaimer wird subtil umformuliert. Eine US‑Steuernummer (EIN) enthält vertauschte Ziffern, die niemand bemerkt, bis eine Aufsichtsbehörde sie findet.

Rakenne löst dieses Problem mit zwei eingebauten Pipelines, die jede Skill nutzen kann: Template‑Tools für die Dokumenterzeugung und Extraktions‑Tools für das Auslesen von Dokumenten. In diesem Tutorial erfahren Sie, was diese Tools tun, warum sie wichtig sind und welche Garantien sie Ihnen als Fachexpert:in bieten.

Der zentrale Gedanke: trennen, was die KI tun soll – und was nicht

Rakenne bittet die KI nicht, Ihr Dokument von Grund auf zu schreiben. Stattdessen wird die Arbeit aufgeteilt:

Die KI übernimmt	Die Tools übernehmen
Das Verstehen Ihrer Anweisungen	Die Formatierung von Zahlen, Daten und Kennungen
Das Lesen von Quelldokumenten und das Extrahieren von Daten	Die Validierung von Datentypen und Pflichtfeldern
Rückfragen und Klärungen	Das Rendern des fertigen Dokuments aus einem Template
Das Verfassen narrativer Abschnitte (Risikofaktoren, Beschreibungen)	Den Schutz regulatorischer Texte vor Änderungen
Das Schließen von Lücken auf Basis Ihrer Vorgaben	Die Prüfung der Ausgabe auf Fehler und Datenlecks

Die KI hilft Ihnen, Daten zu sammeln und zu strukturieren. Deterministische Tools – Code, der sich immer gleich verhält – verwandeln diese Daten anschließend in das fertige Dokument. Die KI fasst weder die Formatierung an, noch formuliert sie regulatorische Passagen um oder entscheidet eigenmächtig, wie ein Wert dargestellt wird.

Was sind Template‑Tools?

Template‑Tools sind eine dreistufige Pipeline, die strukturierte Daten in ein formatiertes Dokument verwandelt. Jede Skill, die ein formales Dokument erzeugt, nutzt diese Pipeline im Hintergrund.

Schritt 1: Datenvalidierung

Bevor irgendetwas gerendert wird, prüft das System alle Daten gegen ein Schema – einen Satz von Regeln, der definiert, was das Dokument benötigt.

Was geprüft wird:

Pflichtfelder – Ist der Fondsname vorhanden? Wurde die Steuernummer (EIN) ausgefüllt? Ist das Prospektdatum gesetzt?
Formatkonformität – EINs werden mit Längen‑ und Trennzeichenprüfung validiert. Daten müssen kalendarisch gültig sein. Währungswerte müssen nichtnegative Ganzzahlen sein. Prozentsätze müssen zwischen 0 und 1 liegen.
Füllgrad – Das System meldet, wie viele Felder befüllt sind und wie viele benötigt werden (z. B. „245 von 289 Variablen befüllt – 84,8 %“).

Schlägt die Validierung fehl, sagt Ihnen der Agent genau, was nicht stimmt, und hilft Ihnen bei der Korrektur, bevor es weitergeht. Sie erhalten kein Dokument mit stillschweigend falschen Daten.

Schritt 2: Rendering

Hier werden Daten zu einem Dokument. Die Rendering‑Engine:

Formatiert jeden Wert nach Locale‑Regeln. Ein als 150000 (Centavos) gespeicherter Währungswert wird zu R$ 1.500,00 im brasilianischen Portugiesisch – konsistent, mit richtigen Dezimal‑ und Tausendertrennzeichen und korrekt platziertem Währungssymbol. Ein Datum 2026-03-03 wird zu „3. März 2026“ im Langformat oder „03.03.2026“ im Kurzformat.
Blendet optionale Abschnitte ein oder aus, abhängig davon, ob Daten vorhanden sind. Wenn ein Feld für Ihr Dokument nicht relevant ist, wird der Abschnitt sauber weggelassen, statt eine unschöne Lücke zu hinterlassen.
Kennzeichnet fehlende Daten deutlich. Jedes Feld, das noch nicht gefüllt ist, erscheint als [PENDING: feld_name] im Entwurf – Lücken sind damit unübersehbar.
Sperrt regulatorische Texte. Passagen, die wortgleich erscheinen müssen (z. B. CVM‑Disclaimers oder Gesetzestexte), werden exakt aus dem Template gerendert. Die KI darf sie weder umformulieren noch zusammenfassen oder „optimieren“.

Unterstützte Formate umfassen unter anderem:

Datentyp	Was Sie liefern	Was im Dokument steht
Währung	`150000` (Centavos)	R$ 1.500,00
Währung mit Worten	`150000`	R$ 1.500,00 (um mil e quinhentos reais)
Datum (lang)	`2026-03-03`	3. März 2026
Datum (kurz)	`2026-03-03`	03.03.2026
Prozentsatz	`0.015`	1,50 %
Brasilianische CNPJ	`11222333000181`	11.222.333/0001-81
Brasilianische CPF	`12345678909`	123.456.789-09
US‑EIN	`123456789`	12-3456789
Zahl	`1500`	1.500

Jede Skill kann außerdem domänenspezifische Formatierer definieren. In einer brasilianischen Kapitalmarkt‑Skill wird z. B. ein Fondstyp‑Code auf den vollständigen rechtlichen Namen gemappt: FIDC wird zu Fundo de Investimento em Direitos Creditórios – immer, ohne Paraphrasen oder Abkürzungen.

Schritt 3: Audit

Nach dem Rendering führt das System eine automatische Audit‑Prüfung durch, die drei Punkte abdeckt:

Integrität unveränderlicher Zonen. Bestimmte Passagen – regulatorische Disclaimers, gesetzliche Formulierungen, Standard‑Warnhinweise – sind im Template als „immutable zones“ gekennzeichnet. Die Audit‑Routine berechnet für jede Zone einen kryptografischen Hash (SHA‑256) und vergleicht ihn Byte für Byte mit der gerenderten Ausgabe. Weicht auch nur ein Zeichen ab, wird dies markiert. So stellt Rakenne sicher, dass ein CVM‑Hinweis wie „AS COTAS NÃO CONTAM COM GARANTIA DO ADMINISTRADOR…” in jedem Dokument, das dieses Template nutzt, exakt identisch erscheint.

Change Budgets. Jeder Abschnitt des Dokuments hat einen maximal zulässigen Abweichungsgrad vom Template – etwa 5 % für einen Risikofaktoren‑Abschnitt (größtenteils regulatorischer Standardtext) und 15 % für stärker variable Beschreibungsabschnitte. Wenn ein Abschnitt dieses Budget überschreitet, wird er zur Prüfung markiert.

Anti‑Kontaminations‑Scan. Wenn Sie ein neues Dokument auf Basis eines bestehenden erstellen (etwa den Prospekt für Fonds B ausgehend von Fond A), scannt die Audit‑Routine die Ausgabe nach Spuren der alten Daten. Sie prüft alle Darstellungsformen – wenn die CNPJ von Fonds A 12.345.678/0001-90 irgendwo im Dokument von Fonds B auftaucht, in welchem Format auch immer (formatiert, unformatiert, teilweise), wird das erkannt. So werden versehentliche Datenlecks zwischen Dokumenten vermieden.

Was sind Extraktions‑Tools?

Extraktions‑Tools sind das Gegenstück zu Template‑Tools: Statt Daten in ein Dokument zu verwandeln, verwandeln sie ein Dokument in strukturierte Daten. Sie kommen zum Einsatz, wenn Sie bereits ein PDF haben (z. B. einen bestehenden Prospekt oder ein Referenz‑Filing) und dessen Daten in ein neues Dokument überführen wollen.

So funktioniert die Extraktion

1. Dokument‑Ingestion. Das System wandelt das hochgeladene PDF in ein durchsuchbares Textformat mit stabilen Adressen um – jede Zeile hat eine Kombination aus Seiten‑ und Zeilennummer.

2. Abschnittserkennung. Anhand einer domänenspezifischen Taxonomie (pro Skill definiert) erkennt das System automatisch die Abschnitte im Dokument – Titelseite, Angebotsmerkmale, Risikofaktoren, Zeitplan und mehr –, indem es Überschriftenmuster identifiziert.

3. Datenextraktion mit Evidenz. Die KI liest jeden Abschnitt und extrahiert alle relevanten Datenpunkte. Im Unterschied zu einer generischen KI, die nur einen Wert zurückgibt, speichert die Extraktion in Rakenne zu jedem Wert Evidenz: den exakten gelesenen Text, die Seite und die Zeilennummern. So entsteht vollständige Nachvollziehbarkeit – Sie können jeden extrahierten Wert bis zur Quelle zurückverfolgen.

4. Automatische Normalisierung. Rohwerte werden in kanonische Formate überführt:

"R$ 500.000.000,00" wird zu 50000000000 (Centavos) – bereit für konsistente Formatierung.
"12.345.678/0001-90" wird zu "12345678000190" – validiert mit Prüfziffer.
"02/03/2026" wird zu "2026-03-02" – eindeutiges ISO‑Datum.

5. Konfliktauflösung. Wenn derselbe Datenpunkt in mehreren Abschnitten auftaucht (z. B. die CNPJ des Fonds auf der Titelseite und im Dienstleister‑Abschnitt), löst das System Konflikte deterministisch anhand von Abschnittspriorität, Spezifität und Validierungsstatus – ohne die KI „raten“ zu lassen.

6. Zweite Kontrollrunde. Nach der Extraktion führt das System eine Muster‑Suche durch, um Werte zu finden, die die KI eventuell übersehen hat – etwa Währungs‑, Datums‑ oder CNPJ‑Muster. Dieses Sicherheitsnetz erhöht den Füllgrad und verringert manuellen Erfassungsaufwand.

7. Traceability‑Report. Die finale Ausgabe enthält nicht nur die extrahierten Daten, sondern auch einen vollständigen Traceability‑Report: Für jede Variable ist dokumentiert, aus welchem Abschnitt sie stammt, wie der Ursprungstext lautete, auf welcher Seite und Zeile er stand, ob es Konflikte gab und wie sie gelöst wurden, sowie der Gesamtfüllgrad über das gesamte Dokument.

Wie läuft eine typische Session ab?

Wenn Sie mit einer Skill arbeiten, die diese Tools nutzt, sieht Ihre Erfahrung typischerweise so aus:

1. Sie starten ein Projekt und beschreiben Ihr Ziel. Zum Beispiel: „Ich muss einen FIDC‑Prospekt für den Fonds Alpha erstellen“ oder „Ich muss Daten aus diesem bestehenden Prospekt‑PDF extrahieren“.

2. Der Agent führt Sie durch die Datenerhebung. Er stellt strukturierte Fragen, Abschnitt für Abschnitt: Fondsidentität, Dienstleister, Angebotsbedingungen, Anteilstruktur, Risikofaktoren, Zeitplan. Haben Sie ein Referenz‑PDF hochgeladen, werden die meisten Daten automatisch extrahiert; Sie bestätigen oder ergänzen nur noch.

3. Sie sehen klaren Fortschritt. Der Agent berichtet Füllgrade: „Wir haben 245 von 289 Feldern befüllt (84,8 %). Die verbleibenden Lücken liegen in Risikofaktoren und Zusatzinformationen. Möchten Sie die Marktrisiko‑Beschreibung vorgeben oder soll ich auf Basis von Standardtext entwerfen?“.

4. Der Agent validiert vor dem Rendering. Sind die Daten bereit, führt der Agent die Validierung aus. Hat eine CNPJ eine ungültige Prüfziffer, fehlt ein Pflichtdatum oder ist ein Währungswert negativ, erhalten Sie präzise Fehlermeldungen – nicht nur ein vage fehlerhaftes Dokument.

5. Sie erhalten ein gerendertes Dokument mit Garantien. Die Ausgabe ist durchgängig konsistent formatiert, alle regulatorischen Texte sind wortgleich und jeder [PENDING: ...]‑Marker zeigt exakt, welche Informationen fehlen.

6. Änderungen laufen erneut durch die Pipeline. Wenn Sie Revisionen anstoßen – „ändere das Angebotsvolumen auf R$ 750 Millionen“ –, aktualisiert der Agent die Daten und führt Validierung, Rendering und Audit erneut aus. Sie bearbeiten nie unstrukturierte Rohtexte, bei denen sich Formatierungsfehler einschleichen können.

7. Die Audit‑Prüfung gibt Sicherheit. Vor der Auslieferung bestätigt die Audit‑Routine: Alle unveränderlichen Zonen sind intakt, alle Change Budgets wurden eingehalten und (falls relevant) keine Daten aus einem früheren Dokument sind durchgerutscht. Das ist Ihr Sicherheitsnetz, bevor das Dokument weitergereicht wird.

Welche Garantien erhalten Sie?

Garantie	Was das für Sie bedeutet
Konsistente Formatierung	Jeder Währungswert, jedes Datum, jeder Prozentsatz und jeder Identifier hat überall dasselbe Format. Kein „R$ 1.500,00“ auf Seite 3 und „R$1500“ auf Seite 12.
Datenvalidierung	CNPJs werden mit Prüfziffer‑Mathematik validiert, nicht nur optisch geprüft. Daten müssen reale Kalendertage sein. Pflichtfelder müssen befüllt sein. Fehler fallen vor, nicht nach dem Finalisieren auf.
Unveränderliche regulatorische Texte	Disclaimers, Gesetzestexte und Standardwarnungen sind kryptografisch geschützt. Die KI kann sie nicht umformulieren – sie erscheinen exakt wie vorgeschrieben.
Change‑Control	Jeder Abschnitt hat ein Abweichungsbudget. Wenn sich das Dokument stärker als erwartet vom Template entfernt, wird das markiert. So werden unbeabsichtigte Änderungen oder Halluzinationen der KI in Datenfeldern erkannt.
Anti‑Kontamination	Bei Wiederverwendung von Daten stellt das System sicher, dass keine Werte aus einem alten Dokument im neuen landen – und zwar in allen Darstellungsformen. Fonds‑A‑Daten tauchen nicht versehentlich im Fonds‑B‑Prospekt auf.
Vollständige Nachvollziehbarkeit	Jeder extrahierte Wert speichert seine Quelle: Seite, Zeile, Evidenztext. Jede Rendering‑Entscheidung landet in einem Manifest. Sie können jeden Wert bis zur Herkunft nachverfolgen.
Sichtbare Lücken	Fehlende Daten erscheinen als `[PENDING: feld_name]` statt stillschweigend zu fehlen. Sie sehen jederzeit, was noch offen ist.
Deterministische Ausgabe	Gleiche Daten + gleiches Template = identisches Dokument. Das Ergebnis hängt nicht von der „Laune“ der KI oder von feinen Prompt‑Unterschieden ab. Wenn Sie nächste Woche neu rendern, erhalten Sie dieselbe Ausgabe.

Praxisbeispiel: Wertpapierprospekt (FIDC)

Die FIDC‑Prospekt‑Skill (doc-oferta-fidc) gehört zu den umfassendsten template‑basierten Skills in Rakenne. Sie erzeugt brasilianische Angebotsdokumente, die der CVM‑Resolution 160/2022, Anhang D, entsprechen.

Umfang: 289 Variablen in 25 Gruppen (Titelseite, Fondsidentität, Dienstleister, Angebotsbedingungen, Anteilstruktur, Risikofaktoren, Zeitplan usw.), die in 17 Dokumentabschnitte gerendert werden.

Geschützte Zonen: CVM‑Disclaimers auf der Titelseite, Standard‑Investmentwarnungen, Hinweise zur Anlegerangemessenheit, Regelungen zu Aussetzung/Kündigung/Widerruf der Angebot (wortgleich aus CVM 160) sowie Hinweise zur Verfügbarkeit der Dokumentation.

Locale‑bewusste Formatierung: Alle Werte werden im pt‑BR‑Format ausgegeben – R$ 1.500.000,00 (um milhão e quinhentos mil reais), 03/03/2026, 11.222.333/0001-81, 1,50%.

Change Budgets: Für Risikofaktoren sind nur 5 % Abweichung zugelassen (überwiegend regulatorischer Standardtext). Die Titelseite erlaubt 15 % (mehr fondsindividueller Inhalt). Das Gesamtdokument erlaubt 10 %.

Extraktions‑Pipeline: Lädt eine Person ein bestehendes Prospekt‑PDF hoch, erkennt das System automatisch alle 17 Abschnitte anhand der Überschriften, extrahiert Variablen mit Seiten‑/Zeilen‑Evidenz, löst Konflikte bei mehrfach vorkommenden Werten und erzeugt einen Traceability‑Report, der die Herkunft jedes Datenpunkts dokumentiert.

Das Ergebnis: Eine Fachexpert:in kann einen rund 40‑seitigen CVM‑konformen Prospekt in Zusammenarbeit mit dem Agenten erstellen – mit der Sicherheit, dass alle Zahlen korrekt formatiert sind, jeder Disclaimer wortwörtlich ist, jede CNPJ die Prüfzifferprüfung besteht und das gesamte Dokument auditierbar bleibt.

Zusammenfassung

Die Template‑ und Extraktions‑Tools von Rakenne existieren, weil Dokumenterstellung zu wichtig ist, um sie vollständig einem probabilistischen KI‑Output zu überlassen. Sie schaffen eine klare Arbeitsteilung:

Sie bringen die Fachexpertise ein, treffen Entscheidungen und liefern oder genehmigen Inhalte.
Die KI hilft beim Sammeln von Daten, beim Auslesen bestehender Dokumente, beim Verfassen narrativer Abschnitte und beim Navigieren durch den Workflow.
Die Tools übernehmen alles, was deterministisch sein muss: Formatierung, Validierung, Schutz regulatorischer Texte, Audit und Nachvollziehbarkeit.

So entstehen Dokumente, die zwar von KI unterstützt, aber von Tools verifiziert werden – die Geschwindigkeit der KI kombiniert mit der Präzision von Code.