Zum Inhalt springen
KI

RAG oder Fine-Tuning? Eine pragmatische Entscheidungshilfe

Beide Ansätze geben einem Sprachmodell Zugriff auf eigene Daten. Aber sie kosten unterschiedlich, skalieren unterschiedlich und altern unterschiedlich. Wann lohnt welcher?


Benjamin Ruoff · · 3 min Lesezeit
Abstrakte Darstellung verschiedener Datenquellen, die zu einem Sprachmodell zusammenlaufen.

Fast jedes Erstgespräch zu Unternehmens-KI startet mit derselben Frage: “Sollen wir das Modell auf unsere Daten fine-tunen oder lieber RAG machen?” Die ehrliche Antwort ist meistens: weder, sondern erst Prompting. Aber wenn man darüber hinaus muss, lohnt sich ein klarer Blick auf die Trade-Offs.

Was die beiden eigentlich machen

RAG (Retrieval-Augmented Generation) stellt zur Frage des Nutzers passende Dokumente bereit, die das Modell beim Antworten berücksichtigt:

User-Frage  ─────►  Embedding ─►  Vector-DB ─►  Top-K Dokumente


                                              ┌──────────────┐
              Kontext + Frage  ─────────────► │   LLM        │ ─►  Antwort
                                              └──────────────┘

Fine-Tuning verändert die Modell-Gewichte selbst, sodass die “Persönlichkeit”, der Stil oder das Domänenwissen direkt im Modell stecken — keine externe Datenbank nötig.

Wann RAG die richtige Wahl ist

RAG schlägt Fine-Tuning fast immer, wenn mindestens eine der folgenden Bedingungen zutrifft:

  • Daten ändern sich häufig — Produktkatalog, Support-Wissensbasis, regulatorische Texte
  • Quellenangabe ist Pflicht — der Nutzer muss sehen, woher die Information stammt
  • Access Control — verschiedene Nutzer dürfen verschiedene Dokumente sehen
  • Datenvolumen ist groß — Millionen Dokumente, deren Fine-Tuning niemand bezahlen will
  • Budget für ersten Wurf ist klein — RAG-Prototyp läuft in einer Woche

In der Praxis macht RAG bei uns ~80% der produktiven KI-Anwendungen aus. Der typische Stack:

# Vereinfachter RAG-Pfad
def answer(question: str) -> str:
    query_embedding = embed(question)
    docs = vector_db.search(query_embedding, k=5, filter=user_acl)
    context = format_context(docs)
    return llm.generate(
        system="Antworte basierend auf dem Kontext. Zitiere Quellen.",
        user=f"{context}\n\nFrage: {question}",
    )

Wann Fine-Tuning sich lohnt

Fine-Tuning rechnet sich, wenn:

  • Stil oder Format strikt sein müssen — ein juristischer Schriftverkehr, ein konsistenter Marken-Ton, eine zwingend einzuhaltende Output-Struktur
  • Latenz kritisch ist — kein Retrieval-Overhead, kürzerer Kontext, schnellere Antwort
  • Token-Kosten dominieren — wenn die gleichen 4.000 Token Kontext pro Anfrage zu groß werden, ist Fine-Tuning auf Dauer billiger
  • Eine kleine, stabile Domäne vorliegt — z. B. ein internes API-Vokabular, das sich pro Jahr kaum ändert

Wichtig: “Wissen reinfine-tunen” ist meistens die falsche Erwartung. Fine-Tuning ist gut für Verhalten (Stil, Format, Domain-Sprache), nicht für die Antwort auf “Was steht in Document XYZ?”.

Eine Entscheidungstabelle

KriteriumRAGFine-Tuning
Daten ändern sich täglich
Zitate / Quellenangabe nötig
Latenz unter 500 ms
Konsistenter Output-Stil
Setup in < 2 Wochen
Laufende Pflegehochniedrig
Initialer Aufwandniedrighoch
Skaliert mit Datenvolumen

Hybrid ist oft die Antwort

In den meisten unserer Kundenprojekte landen wir am Ende bei einer Hybrid-Architektur:

  • Fine-Tuning für Output-Format, Sprach-Register, Markenkonventionen
  • RAG für aktuelles, autorisiertes Domänen-Wissen
  • Prompting als oberste Steuerungs-Schicht für Edge-Cases und Guardrails

Das klingt aufwendig, ist es aber in der Umsetzung kaum. Ein einmal fine-getuntes Modell ist ein paar hundert Euro und 48 Stunden Trainingszeit — die laufende RAG-Pipeline darüber ist der eigentliche Aufwand.

Was viele unterschätzen

Drei Dinge, die wir bei jedem KI-Projekt sehen:

  1. Datenqualität schlägt Methodenwahl. Ein RAG mit gut kuratierten 500 Dokumenten produziert besseren Output als ein Fine-Tuning auf 10.000 mittelmäßigen.
  2. Evals sind nicht optional. Ohne reproduzierbare Test-Suite weiß man nach 3 Monaten nicht mehr, ob das System besser oder schlechter geworden ist.
  3. Token-Budget ist ein Architektur-Constraint. Wer es nicht früh modelliert, baut sich Bottlenecks ein, die später teuer zu beheben sind.

Fazit

Die Frage “RAG oder Fine-Tuning?” ist meistens die falsche Frage. Die richtige ist: “Welche unserer Probleme lösen wir mit RAG, welche mit Fine-Tuning, und welche mit klugem Prompting?” Wer das sauber trennt, baut KI-Systeme, die nicht in der ersten Update-Welle nach 6 Monaten zusammenbrechen — sondern mitwachsen.