KI mit eigenen Daten: RAG & System Prompts

Q: Was kostet RAG?

Die Spanne ist groß. ChatGPT Plus oder Claude Pro kosten ca. 20 € im Monat und enthalten Datei-Upload. Pinecone hat einen kostenlosen Tier für Experimente. Für professionelle Nutzung mit viel Traffic rechne mit 50-200 € monatlich.

📍 Part 2 von 4 im KI-Lernpfad "KI meistern 2026" – Hier lernst du, wie du KI mit deinem eigenen Wissen ausstattest.

Du hast ein 50-seitiges Firmenhandbuch und willst, dass die KI Fragen dazu beantwortet? Oder du möchtest, dass ChatGPT immer in deinem Schreibstil antwortet? Dafür gibt es verschiedene Wege – von simpel bis fortgeschritten.

In diesem Artikel zeige ich dir zwei Ansätze: System Prompts für schnelle Anpassungen und RAG für größere Datenmengen. Kein Deep-Dive in Embeddings und Vektormathematik – sondern praktische Anleitungen, die du heute umsetzen kannst.

Das Wichtigste in Kürze

→Das Problem: KI-Modelle kennen nur ihr Trainingswissen – nicht deine Dokumente oder Firmendaten
→System Prompts = versteckte Anweisungen, die das Verhalten der KI dauerhaft steuern
→RAG = KI sucht relevante Infos aus deinen Daten und nutzt sie für die Antwort
→Tools: Von ChatGPT Custom Instructions bis Pinecone – je nach Bedarf
→Praxis-Beispiel: Wie ich einen RAG-Chatbot für eine Webseite gebaut habe

Das Problem: KI kennt deine Daten nicht

ChatGPT, Claude und Co. wurden mit riesigen Textmengen trainiert – Wikipedia, Bücher, Webseiten. Aber sie wissen nichts über dein Unternehmen, deine Produkte oder deine internen Prozesse. Wenn du fragst "Was steht in unserem Mitarbeiterhandbuch?", kann die KI nur raten.

Es gibt zwei grundsätzliche Wege, das zu lösen:

Zwei Wege zu "KI + deine Daten"

1.Daten in den Prompt packen – Einfach, aber begrenzt durch das Context Window
2.RAG nutzen – Komplexer, aber skaliert auf beliebig große Datenmengen

Welcher Weg der richtige ist, hängt von der Datenmenge ab. Für ein paar Seiten Text reichen System Prompts. Für hunderte Dokumente brauchst du RAG.

Weg 1: System Prompts & Custom Instructions

Ein System Prompt ist eine versteckte Anweisung, die vor jedem Gespräch an die KI gesendet wird. Der Nutzer sieht sie nicht, aber die KI befolgt sie. Damit kannst du:

✓Den Schreibstil festlegen ("Antworte immer auf Deutsch, duze den Nutzer")
✓Rollen definieren ("Du bist ein Experte für Steuerrecht")
✓Kontext mitgeben ("Hier sind unsere Produktinfos: ...")
✓Regeln setzen ("Empfehle nie Konkurrenzprodukte")

Wenn du tiefer in Prompting-Techniken einsteigen willst, lies den Prompting Guide für bessere KI-Ergebnisse.

ChatGPT Custom Instructions einrichten

Bei ChatGPT heißt das Feature "Custom Instructions". Du findest es unter Einstellungen → Personalisierung. Dort gibt es zwei Felder:

Die zwei Felder bei ChatGPT

1."Was soll ChatGPT über dich wissen?"
Hier beschreibst du deinen Kontext: Beruf, Interessen, Projekte. Beispiel: "Ich bin Marketing-Manager in einem B2B-SaaS-Unternehmen."
2."Wie soll ChatGPT antworten?"
Hier definierst du den Stil: Länge, Tonalität, Format. Beispiel: "Antworte prägnant und praxisnah. Nutze Bullet Points."

Claude Projects: Mehr Platz für Kontext

Claude bietet mit "Projects" eine ähnliche Funktion, aber mit mehr Platz. Du kannst dort Dateien hochladen und System-Anweisungen hinterlegen. Das Limit ist großzügiger als bei ChatGPT Custom Instructions.

Für den Unterschied zwischen den beiden, schau in den ChatGPT vs Claude Vergleich.

SPR: Mehr Kontext auf weniger Platz

Ein Trick für effizientere System Prompts ist Sparse Priming Representation (SPR). Die Idee: Statt ausführlicher Beschreibungen nutzt du konzeptdichte, kurze Sätze, die das Modell auf bestimmtes Verhalten "primen".

SPR-Beispiel statt langer Beschreibung:

"Technischer Schreibstil. Keine Floskeln. Faktenbasiert. Bullet Points bei Aufzählungen. Codebeispiele wo hilfreich. Deutsche Sprache, englische Fachbegriffe okay."

Der Vorteil: Du sparst Tokens und hast mehr Platz für tatsächlichen Kontext. LLMs sind assoziativ – die richtigen Stichworte reichen oft, um das gewünschte Verhalten zu aktivieren.

Die Grenzen von System Prompts

System Prompts stoßen an Grenzen, wenn die Datenmenge wächst. Das Context Window ist begrenzt – selbst bei Claude mit 200.000 Tokens passt irgendwann nicht mehr alles rein. Und je voller das Context Window, desto teurer (bei API-Nutzung) und desto langsamer die Antworten.

Faustregel: Bis zu 20-30 Seiten Text funktionieren mit System Prompts gut. Darüber hinaus wird RAG interessant.

Weg 2: RAG – Retrieval Augmented Generation

RAG ist eine Technik, bei der die KI nicht alle Daten im Context hat, sondern bei jeder Frage die relevanten Informationen aus einer Datenbank sucht. Stell dir das wie eine Bibliothekarin vor: Du stellst eine Frage, sie sucht die passenden Bücher raus und beantwortet dann deine Frage basierend auf dem, was sie gefunden hat.

Wie RAG funktioniert (vereinfacht)

1.Du stellst eine Frage – "Was sind unsere Rückgabebedingungen?"
2.Das System sucht – Es findet die relevanten Passagen in deinen Dokumenten
3.Kontext wird übergeben – Die gefundenen Textstellen gehen an die KI
4.KI antwortet – Basierend auf den gefundenen Infos, nicht aus dem Trainingswissen

Warum RAG statt alles in den Prompt?

✓Skalierbar: Funktioniert mit tausenden Dokumenten
✓Aktuell: Neue Dokumente können jederzeit hinzugefügt werden
✓Genauer: Weniger Halluzinationen, weil die Antwort auf konkreten Textstellen basiert
✓Günstiger: Nur relevante Infos verbrauchen Tokens, nicht alles auf einmal

Wichtig: Datenaufbereitung ist entscheidend

Bei RAG gilt: Unaufbereitete Daten rein = schlechter Output. Besonders bei größeren Datenmengen ist die Aufbereitung extrem wichtig. Unstrukturierte PDFs, schlecht formatierte Texte oder redundante Inhalte führen zu schlechten Ergebnissen. Investiere Zeit in saubere, gut strukturierte Daten – das ist 80% des Erfolgs.

Was sind Vektordatenbanken?

RAG nutzt oft sogenannte Vektordatenbanken. Ohne zu technisch zu werden: Texte werden in hochdimensionale Vektoren umgewandelt, die ihre Bedeutung repräsentieren. Ähnliche Texte haben ähnliche Vektoren. So kann das System bei einer Frage die inhaltlich passenden Textstellen finden – nicht nur nach Stichworten, sondern nach Bedeutung.

Du musst das nicht im Detail verstehen, um RAG zu nutzen. Die Tools übernehmen diese Arbeit für dich.

RAG in der Praxis: Tools & Möglichkeiten

Je nach technischem Anspruch gibt es verschiedene Wege, RAG umzusetzen:

Einfach: Datei-Upload bei ChatGPT & Claude

Der einfachste Weg: Du lädst Dateien direkt hoch. ChatGPT Plus und Claude Pro können PDFs, Word-Dokumente und mehr verarbeiten. Das ist technisch gesehen kein "echtes" RAG, aber für kleine Datenmengen funktioniert es ähnlich.

✓ChatGPT: Dateien im Chat hochladen oder in Custom GPTs hinterlegen
✓Claude: Dateien im Chat oder in Projects hochladen
✓NotebookLM: Google's Tool speziell für Dokumentenanalyse

Mittel: Custom GPTs mit Wissensbasis

Mit ChatGPT Plus kannst du eigene Custom GPTs erstellen und eine "Knowledge Base" hochladen. Das GPT durchsucht diese Dateien automatisch bei relevanten Fragen. Für interne Tools oder Kundenservice-Bots eine solide Lösung.

Tipp: Nutze die SPR-Technik, um dein Wissen kompakt aufzubereiten, bevor du es hochlädst. Statt 20 Seiten Fließtext lieber strukturierte, konzeptdichte Stichpunkte – das spart Tokens und die KI findet relevante Infos schneller.

Fortgeschritten: Pinecone, Supabase & eigene Pipelines

Für professionelle Anwendungen mit großen Datenmengen gibt es spezialisierte Tools:

Vektordatenbanken im Überblick

→Pinecone: Managed Service, einfach zu starten, kostenloser Einstieg
→Supabase Vector: Open Source, gut mit bestehenden Supabase-Projekten
→Weaviate: Open Source, viele Integrationen
→LangChain: Framework zum Bauen von RAG-Pipelines

Für wen lohnt sich das? Wenn du hunderte oder tausende Dokumente hast, einen Chatbot für deine Webseite bauen willst, oder RAG in eigene Software integrieren möchtest. Für gelegentliche Nutzung mit ein paar Dokumenten ist das Overkill.

Praxis: Wie ich einen RAG-Chatbot gebaut habe

Für ein Projekt habe ich einen Chatbot gebaut, der Fragen zu einer Webseite beantwortet. Die Idee: Besucher stellen Fragen, der Bot antwortet basierend auf den Seiteninhalten – ohne dass ich jede Antwort manuell schreiben muss.

Der Tech-Stack: n8n als Automatisierungsplattform, Google Drive API als Datenquelle, Pinecone als Vektordatenbank – alles über APIs verbunden.

Der Aufbau

1.Daten aufbereiten: Webseiteninhalte als Markdown in Google Drive. Strukturiert, ohne HTML-Ballast. Der wichtigste Schritt – saubere Daten machen 80% des Erfolgs aus.
2.Pinecone-Datenbank anlegen: Über die Google Drive API die Daten geholt und in Pinecone hochgeladen. Alles läuft als n8n-Workflow.
3.Chatbot mit Tools: Der Bot bekommt "Tools", auf die er bei spezifischen Fragen zugreifen kann – z.B. Pinecone-Suche für Faktenfragen.
4.System Prompt + Testing: Verhalten definiert, typische Fragen durchgespielt, Prompts optimiert.

Die Webseiten-Integration ist nochmal ein eigenes Thema – aber das Grundprinzip steht: Daten aufbereiten, in Vektordatenbank laden, Chatbot mit Zugriff darauf bauen.

Was ich gelernt habe

✓Datenqualität ist alles: Unaufbereitete Daten rein = schlechter Output. Gut strukturierte, saubere Texte machen einen riesigen Unterschied.
✓Chunking ist wichtig: Zu große Textblöcke funktionieren schlecht. Die Texte sollten in sinnvolle Abschnitte aufgeteilt sein.
✓Fallback einbauen: Wenn der Bot nichts Passendes findet, sollte er das ehrlich sagen statt zu halluzinieren.
✓Iteration nötig: Die erste Version war okay, nach ein paar Runden Feedback-Einarbeitung wurde es richtig gut.

RAG-Datenbanken: Pinecone & Co. (Kurzer Ausblick)

Wenn du tiefer einsteigen willst, hier ein kurzer Überblick über die gängigen Vektordatenbanken:

Pinecone ist der bekannteste Managed Service. Du erstellst einen Account, lädst deine Daten hoch, und bekommst eine API für Suchanfragen. Kostenloser Tier für Experimente, bezahlte Pläne für Produktion.

Supabase Vector ist interessant, wenn du schon Supabase für deine Datenbank nutzt. Die Vektorfunktion ist eingebaut, du brauchst keinen separaten Service.

Weaviate und Chroma sind Open-Source-Optionen, die du selbst hosten kannst – mehr Kontrolle, aber auch mehr Aufwand.

Für die meisten Einsteiger empfehle ich: Fang mit den eingebauten Funktionen von ChatGPT oder Claude an. Wenn das nicht reicht, schau dir Pinecone an. Erst wenn du spezielle Anforderungen hast, lohnt sich der Aufwand für Self-Hosting.

Wenn du RAG mit Automationen kombinieren willst, lies den Artikel zu AI Agents & Automationen.

Fazit: Welcher Weg für dich?

Die Entscheidung ist einfacher als sie klingt:

Entscheidungshilfe

→Wenige Seiten, persönliche Nutzung: Custom Instructions / Claude Projects
→10-50 Seiten, gelegentliche Abfragen: Datei-Upload im Chat oder Custom GPT
→Viele Dokumente, regelmäßige Nutzung: RAG mit Pinecone oder ähnlichem
→Eigene RAG-Pipeline, volle Kontrolle: Pinecone oder Supabase Vector

Fang einfach an. Custom Instructions kosten nichts extra und dauern fünf Minuten. Wenn du merkst, dass es nicht reicht, kannst du immer noch upgraden.

Der KI-Lernpfad: Alle 4 Parts

✓Part 1: Tokens, Prompts & Context Window
✓Part 2: KI mit eigenen Daten (dieser Artikel)
→Part 3: AI Agents & Automationen
→Part 4: Advanced KI (Fine-Tuning, RLHF)

📍 Zurück zur Übersicht: KI meistern 2026 – Der komplette Lernpfad

Häufige Fragen

Ist RAG DSGVO-konform?

Das hängt davon ab, wo deine Daten liegen und welchen Service du nutzt. Pinecone bietet EU-Regionen, Supabase hat Server in Frankfurt. Bei sensiblen Daten solltest du die AV-Verträge prüfen oder Self-Hosting in Betracht ziehen. Die eingebauten Funktionen von ChatGPT und Claude unterliegen den jeweiligen Datenschutzrichtlinien der Anbieter.

Was kostet RAG?

Die Spanne ist groß. ChatGPT Plus oder Claude Pro kosten ~20 € im Monat und enthalten Datei-Upload. Pinecone hat einen kostenlosen Tier für Experimente. Für professionelle Nutzung mit viel Traffic rechne mit 50-200 € monatlich (Vektordatenbank + API-Kosten für das LLM). Self-Hosting spart die Service-Kosten, aber du brauchst Server und Wartung.

Kann ich RAG ohne Programmieren nutzen?

Ja, mit Einschränkungen. Custom GPTs mit Wissensbasis brauchen keine Programmierkenntnisse. Tools wie Flowise oder LangFlow bieten No-Code-Oberflächen für RAG-Pipelines. Für volle Kontrolle und fortgeschrittene Features wirst du aber irgendwann Code schreiben müssen – oder jemanden beauftragen.

Halluziniert RAG weniger als normale KI?

In der Regel ja, aber nicht null. RAG reduziert Halluzinationen, weil die Antwort auf konkreten Textstellen basiert. Aber wenn das Retrieval die falschen Passagen findet, oder die KI die gefundenen Infos falsch interpretiert, können trotzdem Fehler entstehen. Ein guter System Prompt mit "Antworte nur basierend auf den gefundenen Informationen" hilft.

Wie aktualisiere ich die Daten in einem RAG-System?

Bei Custom GPTs lädst du einfach neue Dateien hoch. Bei Vektordatenbanken wie Pinecone kannst du einzelne Einträge hinzufügen, aktualisieren oder löschen. Manche setzen auf automatische Sync-Prozesse, die z.B. täglich neue Dokumente einlesen. Der Aufwand hängt von deiner Infrastruktur ab.