Wissen & Verhalten

Wissensdatenbank (RAG)

Die Wissensdatenbank (englisch "Knowledge Base") ist das Gedächtnis Ihres Agenten: Hier hinterlegen Sie Dokumente, Webseiten und Notizen (Speisekarte, Preisliste, Öffnungszeiten, Leistungen, AGB). Bei jeder eingehenden Nachricht sucht der Agent automatisch die passendsten Text-Ausschnitte ("Chunks") heraus und antwortet damit – dieses Verfahren heißt RAG (Retrieval-Augmented Generation). Dies ist der wichtigste und zugleich fehleranfälligste Bereich: Ein Agent kann immer nur das wissen, was hier sauber hinterlegt ist.

Sie finden den Bereich im Agenten unter dem Reiter "Knowledge Base" (Wissensdatenbank). Die beiden Steuerregler "Knowledge-Base nutzen (RAG)" und "Top-K Chunks" liegen im Reiter "Modell" desselben Agenten.

Schritt 1: Wissensdatenbank aktivieren (`kb_enabled`)

Öffnen Sie den Agenten und wechseln Sie in den Reiter "Modell".

"Knowledge-Base nutzen (RAG)" – Der zentrale Ein/Aus-Schalter. Ist er an, ruft der Agent bei jeder Nachricht relevante Dokumenten-Chunks ab und nutzt sie zur Antwort. Ist er aus, ignoriert der Agent alle hochgeladenen Dokumente komplett und antwortet nur aus seiner Persona/seinem Prompt.
Standard: an (eingeschaltet).
Empfehlung: eingeschaltet lassen. Ausschalten ist nur sinnvoll, wenn der Agent rein gesprächsführend arbeiten soll und keinerlei Faktenwissen aus Dokumenten braucht.

Schritt 2: Anzahl der Treffer festlegen (`kb_top_k`)

Direkt darunter steht das Feld "Top-K Chunks".

Was es tut: Legt fest, wie viele der relevantesten Text-Ausschnitte pro Nachricht in die Antwort des Agenten eingespeist werden. Höhere Werte geben dem Agenten mehr Kontext, kosten aber mehr Tokens (Geld) und können bei zu hohem Wert auch irrelevanten "Lärm" mitliefern.
Standard: 5.
Erlaubter Bereich: 1 bis 20 (das System lässt nichts außerhalb dieser Grenzen zu).
Empfehlung: Belassen Sie es bei 5. Für sehr umfangreiche Dokumentbestände (große Speisekarte, langer Leistungskatalog) können 8–10 sinnvoll sein; mehr als das hilft selten und verteuert nur jede Antwort. Das Feld ist ausgegraut, solange "Knowledge-Base nutzen" ausgeschaltet ist.

Hinweis: Den dritten, feineren Regler – die Ähnlichkeitsschwelle kb_max_distance – stellen Sie nicht hier von Hand ein, sondern bequem per Knopfdruck über den Retrieval-Test im Bereich "AI-Debug" (siehe Schritt 8).

Schritt 3: Eine Datei hochladen (Reiter "Datei")

Wechseln Sie in den Reiter "Knowledge Base". Sie sehen drei Tabs: "Datei", "URL" und "Notiz".

Im Tab "Datei":

Ziehen Sie eine Datei per Drag & Drop in das gestrichelte Feld, oder klicken Sie auf "Datei wählen".
Unterstützte Formate: PDF, Word (.docx), Excel (.xlsx), PowerPoint (.pptx), Bilder (.png, .jpg, .jpeg, .gif, .webp), sowie .txt, .md, .html, .csv, .json und .log.
Maximale Größe: 25 MB pro Datei. Größere Dateien werden mit der Meldung "Datei zu groß (max 25 MB)" abgewiesen.
Bilder: Hochgeladene Bilder werden per Vision-KI transkribiert – die KI beschreibt den Inhalt und extrahiert sichtbaren Text (z. B. eine abfotografierte Speisekarte). Das ist praktisch, aber ungenauer als sauberer Text – siehe Stolpersteine.

Nach dem Upload erscheint das Dokument in der Liste unten mit einem Status-Etikett. Es durchläuft die Status "ausstehend" / "in Bearbeitung" (die Liste aktualisiert sich automatisch alle 2 Sekunden) und steht erst bei "bereit" ("ready", grünes Häkchen) für den Agenten zur Verfügung. "fehlgeschlagen" ("failed", rot) zeigt einen Fehler an (z. B. Datei nicht lesbar).

Schritt 4: Eine einzelne URL importieren (Reiter "URL")

Im Tab "URL" indexieren Sie eine einzelne Webseite.

"URL" – Pflichtfeld. Tragen Sie die vollständige Adresse ein, z. B. https://example.com/info. Mit Enter oder dem Button "Holen & indexieren" wird die Seite geladen, der Text extrahiert und indexiert.
"Titel" – Optional. Wird automatisch aus der Seite ermittelt, wenn Sie das Feld leer lassen. Tragen Sie nur etwas ein, wenn der automatische Titel unpassend wäre.
Prezio holt aus der Seite zusätzlich strukturierte Daten (schema.org / Meta-Tags): Name, Adresse, Telefon, E-Mail, Preisspanne, Küche und Öffnungszeiten. So liefern selbst bild- oder JavaScript-lastige Seiten (Wix, Squarespace, Shopify) brauchbare Fakten.

Schritt 5: Eine ganze Website crawlen (Checkbox im Reiter "URL")

Aktivieren Sie im URL-Tab die Checkbox "Auch Unterseiten dieser Domain einlesen". Der Button heißt dann "Website crawlen & indexieren".

Was passiert: Prezio folgt den Links derselben Website (z. B. Speisekarte, Öffnungszeiten, Über-uns) und indexiert jede Seite einzeln. Externe Links werden ignoriert, bildbasierte Inhalte per OCR gelesen.
Im Hintergrund: Der Crawl läuft als Hintergrund-Job. Eine Fortschrittskarte "Website-Crawl" zeigt live den Status ("In Warteschlange", "Wird gecrawlt…", "Fertig", "Fehlgeschlagen"), einen Fortschrittsbalken und "X von Y Seiten verarbeitet". Sie können den Tab verlassen – der Crawl läuft weiter.
Grenzen: Standardmäßig werden bis zu 25 Seiten mit einer Linktiefe von 2 Ebenen erfasst (technisches Maximum: 500 Seiten). Wird das Limit erreicht, erscheint der Hinweis "Seitenlimit erreicht". Seiten ohne lesbaren Text werden übersprungen ("X übersprungen").
Empfehlung: Für die meisten Restaurants/Praxen/Shops reicht ein Crawl der eigenen Domain völlig aus. Crawlen Sie nur Ihre eigene, gepflegte Website – nicht fremde Seiten.

Schritt 6: Eine freie Notiz hinzufügen (Reiter "Notiz")

Der Tab "Notiz" ist die zuverlässigste und sauberste Quelle, weil Sie den Text selbst eintippen.

"Titel" – Pflichtfeld, z. B. "Öffnungszeiten".
"Inhalt" – Pflichtfeld. Fügen Sie beliebigen Text ein, den der Agent kennen soll.
Mit "Speichern & indexieren" wird die Notiz sofort verarbeitet.
Empfehlung: Für entscheidende, häufig gefragte Fakten (Öffnungszeiten, Adresse, Stornobedingungen, Preise) ist eine handgetippte Notiz immer die beste Wahl – sie enthält keinen Müll und wird am zuverlässigsten gefunden.

Schritt 7: Dokumente verwalten, ansehen und korrigieren

In der Dokumentliste unten haben Sie pro Eintrag folgende Möglichkeiten:

Titel anklicken öffnet die Detail-Ansicht (ein Seiten-Panel) mit zwei Tabs:
"Inhalt" – zeigt den exakt extrahierten Text, den die KI tatsächlich abruft. Sie können ihn hier direkt bearbeiten. Beim Speichern wird das Dokument neu in Chunks zerlegt und neu eingebettet ("Speichern & neu indexieren"). Genau hier korrigieren Sie unsauberen Text aus PDF- oder Crawl-Importen.
"Chunks" – zeigt schreibgeschützt, wie der Text für die Suche aufgeteilt wurde (Index + Token-Anzahl + Inhalt). So sehen Sie, was die KI wirklich "sieht".
Re-indexieren (Kreispfeil-Symbol) – verarbeitet das Dokument neu, ohne den Text zu ändern (nützlich nach einem fehlgeschlagenen Import).
Löschen (Papierkorb) – entfernt ein einzelnes Dokument. Danach kann der Agent keine Infos mehr daraus abrufen.
Mehrfachauswahl: Über die Kontrollkästchen links wählen Sie mehrere Dokumente aus und löschen sie gesammelt ("Ausgewählte löschen") oder leeren die gesamte Wissensdatenbank ("Alle löschen"). Beides ist unwiderruflich.

Jeder Listeneintrag zeigt Quelltyp (PDF, URL, Notiz …), die Anzahl der Chunks und die Dateigröße; bei URL-/Crawl-Dokumenten zusätzlich einen Link "Quelle" zur Originalseite.

Schritt 8: Treffsicherheit prüfen und die Schwelle einstellen (Retrieval-Test)

Ob der Agent das richtige Wissen findet, prüfen Sie im Bereich "AI-Debug" → "Retrieval-Test" (englisch "Retrieval-Test"). Das ist Ihr wichtigstes Werkzeug bei der Antwort "der Agent kennt die Speisekarte nicht".

So funktioniert die Trefferlogik im Hintergrund:

Jeder gefundene Ausschnitt bekommt eine Cosinus-Distanz zwischen 0 (perfekte Übereinstimmung) und 2 (kein Zusammenhang). Kleiner = besser.
Die Schwelle kb_max_distance entscheidet, welche Treffer "nah genug" sind. Standard: 0,5 (gültiger Bereich 0,0–2,0). Pro Agent ist sie zunächst leer und nutzt dann automatisch diesen globalen Standardwert.

So tunen Sie sie ohne Raten:

Geben Sie im Retrieval-Test eine echte Kundenfrage ein (z. B. "Habt ihr vegetarische Gerichte?") und klicken Sie "Test ausführen".
Sie sehen, welche Chunks gefunden wurden, ihre Distanzen, ein Distanz-Histogramm und – bei Bedarf – einen Empfehlungswert für die Schwelle.
Mit einem Klick übernehmen Sie die empfohlene Schwelle ("Empfehlung anwenden") oder speichern sie direkt am Agenten ("Am Agent speichern"). Es ist nicht nötig, kb_max_distance irgendwo manuell einzutippen.

Schritt 9: "Recall-First" verstehen – warum der Agent nicht stumm bleibt

Prezio arbeitet bewusst "Recall-First" (Treffer zuerst): Wenn bei einer Frage kein Ausschnitt die Schwelle schafft, würde der Agent sonst "Das weiß ich nicht" sagen – selbst wenn das richtige Dokument knapp über der Grenze lag (verrauschte Daten blähen Distanzen auf).

Stattdessen behält das System in diesem Fall den besten Beinahe-Treffer (und dicht beieinanderliegende Beinahe-Treffer), solange dieser unter einer großzügigen Obergrenze liegt (Schwelle + 0,25, gedeckelt bei 0,85; darüber gilt es als echtes "kein Treffer").
Diese Antworten erscheinen im Entscheidungsfluss ("Decision-Flow") als gelber "Recall-Fallback" – ein Hinweis, dass der Kontext ein nachsichtiger Beinahe-Treffer war, kein starker. Der Agent wird zugleich angewiesen, ihn nur zu verwenden, wenn er wirklich passt.
Folge für Sie: Der Agent ist von Haus aus robust, auch ohne perfekte Daten – aber häufiges Auftauchen von "Recall-Fallback" ist ein deutliches Signal, dass Ihre Dokumente sauberer oder vollständiger werden müssen.

Schritt 10: Dokumentqualität im Blick behalten (Quality-Score)

Beim Indexieren berechnet Prezio für jedes Dokument einen Qualitäts-Score von 0 (Müll) bis 100 (sauberer Text). Er erkennt Binär-/OCR-Müll (z. B. ein als Text eingelesenes JPEG oder eine sich wiederholende, eingescannte Speisekarte), der die Suche verschmutzt.

Diesen Score sehen Sie nicht in der normalen Dokumentliste, sondern im Bereich "AI-Debug" – in der Übersicht / KB-Gesundheit (mit einem "Quality-Index" über alle Dokumente) und in den Tabellen des Retrieval-Tests. Werte unter 50 werden rot markiert.
Empfehlung: Sehen Sie hier rote, niedrige Scores (besonders bei wichtigen Dokumenten wie der Speisekarte), laden Sie den Inhalt als sauberen Text neu hoch – als Notiz getippt, als echtes Text-PDF oder über die Detail-Ansicht "Inhalt" von Hand korrigiert.

Tipps & Stolpersteine

Verschmutzte Crawl-Seiten verfälschen Treffer. Beim Crawlen landen oft Navigations- und Footer-Texte ("Boilerplate") im Dokument. Dieser Lärm erhöht die Distanzen, sodass die eigentliche Antwort knapp über die Schwelle rutscht und ggf. nur als gelber "Recall-Fallback" durchkommt. Lösung: Den betreffenden Inhalt als saubere Notiz neu erfassen oder in der Detail-Ansicht ("Inhalt") den überflüssigen Text löschen und neu indexieren.
Bilder/Scans sind die unzuverlässigste Quelle. Vision-KI und OCR machen Fehler (Preise, Tabellen, Umlaute). Prüfen Sie nach dem Upload in der Detail-Ansicht "Inhalt", ob z. B. "18,50 €" und Gerichtnamen korrekt erkannt wurden – sonst tippen Sie die Speisekarte lieber als Notiz.
Nur "bereit" zählt. Dokumente im Status "ausstehend"/"in Bearbeitung" werden noch nicht abgerufen. Bei "fehlgeschlagen" hilft oft "Re-indexieren"; bleibt es rot, ist die Quelldatei beschädigt oder nicht lesbar.
Schwelle nicht blind verstellen. Erhöhen Sie kb_max_distance (z. B. auf 0,7), lässt der Agent mehr durch – aber auch mehr Falsch-Treffer; senken Sie sie, wird er strenger und sagt häufiger "weiß ich nicht". Verändern Sie sie nur über den datengestützten Empfehlungswert des Retrieval-Tests.
Top-K nicht überdrehen. Ein sehr hohes "Top-K Chunks" liefert mehr Kontext, aber auch mehr Ablenkung und höhere Kosten pro Antwort. 5 ist für die allermeisten Fälle ideal.
RAG-Schalter prüfen, wenn "nichts" gefunden wird. Findet der Agent partout kein Wissen, vergewissern Sie sich zuerst, dass "Knowledge-Base nutzen (RAG)" im Reiter "Modell" überhaupt eingeschaltet ist.
Wichtige Fakten redundant absichern. Hinterlegen Sie Öffnungszeiten, Adresse und Preise zusätzlich als handgetippte Notiz – das ist die robusteste Quelle und wird am verlässlichsten gefunden.