RAG oder Fine-Tuning? Eine pragmatische Entscheidungshilfe

Fast jedes Erstgespräch zu Unternehmens-KI startet mit derselben Frage: “Sollen wir das Modell auf unsere Daten fine-tunen oder lieber RAG machen?” Die ehrliche Antwort ist meistens: weder, sondern erst Prompting. Aber wenn man darüber hinaus muss, lohnt sich ein klarer Blick auf die Trade-Offs.

Was die beiden eigentlich machen

RAG (Retrieval-Augmented Generation) stellt zur Frage des Nutzers passende Dokumente bereit, die das Modell beim Antworten berücksichtigt:

User-Frage  ─────►  Embedding ─►  Vector-DB ─►  Top-K Dokumente
                                                      │
                                                      ▼
                                              ┌──────────────┐
              Kontext + Frage  ─────────────► │   LLM        │ ─►  Antwort
                                              └──────────────┘

Fine-Tuning verändert die Modell-Gewichte selbst, sodass die “Persönlichkeit”, der Stil oder das Domänenwissen direkt im Modell stecken — keine externe Datenbank nötig.

Wann RAG die richtige Wahl ist

RAG schlägt Fine-Tuning fast immer, wenn mindestens eine der folgenden Bedingungen zutrifft:

Daten ändern sich häufig — Produktkatalog, Support-Wissensbasis, regulatorische Texte
Quellenangabe ist Pflicht — der Nutzer muss sehen, woher die Information stammt
Access Control — verschiedene Nutzer dürfen verschiedene Dokumente sehen
Datenvolumen ist groß — Millionen Dokumente, deren Fine-Tuning niemand bezahlen will
Budget für ersten Wurf ist klein — RAG-Prototyp läuft in einer Woche

In der Praxis macht RAG bei uns ~80% der produktiven KI-Anwendungen aus. Der typische Stack:

# Vereinfachter RAG-Pfad
def answer(question: str) -> str:
    query_embedding = embed(question)
    docs = vector_db.search(query_embedding, k=5, filter=user_acl)
    context = format_context(docs)
    return llm.generate(
        system="Antworte basierend auf dem Kontext. Zitiere Quellen.",
        user=f"{context}\n\nFrage: {question}",
    )

Wann Fine-Tuning sich lohnt

Fine-Tuning rechnet sich, wenn:

Stil oder Format strikt sein müssen — ein juristischer Schriftverkehr, ein konsistenter Marken-Ton, eine zwingend einzuhaltende Output-Struktur
Latenz kritisch ist — kein Retrieval-Overhead, kürzerer Kontext, schnellere Antwort
Token-Kosten dominieren — wenn die gleichen 4.000 Token Kontext pro Anfrage zu groß werden, ist Fine-Tuning auf Dauer billiger
Eine kleine, stabile Domäne vorliegt — z. B. ein internes API-Vokabular, das sich pro Jahr kaum ändert

Wichtig: “Wissen reinfine-tunen” ist meistens die falsche Erwartung. Fine-Tuning ist gut für Verhalten (Stil, Format, Domain-Sprache), nicht für die Antwort auf “Was steht in Document XYZ?”.

Eine Entscheidungstabelle

Kriterium	RAG	Fine-Tuning
Daten ändern sich täglich	✓	✗
Zitate / Quellenangabe nötig	✓	✗
Latenz unter 500 ms	△	✓
Konsistenter Output-Stil	△	✓
Setup in < 2 Wochen	✓	△
Laufende Pflege	hoch	niedrig
Initialer Aufwand	niedrig	hoch
Skaliert mit Datenvolumen	✓	✗

Hybrid ist oft die Antwort

In den meisten unserer Kundenprojekte landen wir am Ende bei einer Hybrid-Architektur:

Fine-Tuning für Output-Format, Sprach-Register, Markenkonventionen
RAG für aktuelles, autorisiertes Domänen-Wissen
Prompting als oberste Steuerungs-Schicht für Edge-Cases und Guardrails

Das klingt aufwendig, ist es aber in der Umsetzung kaum. Ein einmal fine-getuntes Modell ist ein paar hundert Euro und 48 Stunden Trainingszeit — die laufende RAG-Pipeline darüber ist der eigentliche Aufwand.

Was viele unterschätzen

Drei Dinge, die wir bei jedem KI-Projekt sehen:

Datenqualität schlägt Methodenwahl. Ein RAG mit gut kuratierten 500 Dokumenten produziert besseren Output als ein Fine-Tuning auf 10.000 mittelmäßigen.
Evals sind nicht optional. Ohne reproduzierbare Test-Suite weiß man nach 3 Monaten nicht mehr, ob das System besser oder schlechter geworden ist.
Token-Budget ist ein Architektur-Constraint. Wer es nicht früh modelliert, baut sich Bottlenecks ein, die später teuer zu beheben sind.

Fazit

Die Frage “RAG oder Fine-Tuning?” ist meistens die falsche Frage. Die richtige ist: “Welche unserer Probleme lösen wir mit RAG, welche mit Fine-Tuning, und welche mit klugem Prompting?” Wer das sauber trennt, baut KI-Systeme, die nicht in der ersten Update-Welle nach 6 Monaten zusammenbrechen — sondern mitwachsen.