LlamaIndex
LlamaIndex (früher GPT Index) revolutionierte wie Entwickler LLMs mit proprietären Daten verbinden und bietet ein umfassendes Framework speziell für datenzentrische KI-Anwendungen. Während LangChain bei allgemeiner LLM-Orchestrierung glänzt, spezialisiert sich LlamaIndex auf die Datenherausforderung: Dokumente aus über 100 Quellen aufnehmen (Datenbanken, APIs, PDFs, Websites), in optimale Formate transformieren, für effizientes Retrieval indizieren und relevanten Kontext an LLMs liefern. Ende 2022 von Jerry Liu gegründet, wurde LlamaIndex zum De-facto-Standard für RAG-Implementierungen, erreichte über 30.000 GitHub-Stars und treibt Enterprise-Wissens-Systeme bei Fortune-500-Unternehmen an. Das Framework bietet drei Kernfähigkeiten: Data Connectors (LlamaHub mit über 200 Integrationen zum Laden von Daten), Indexing Strategies (über 5 Index-Typen optimiert für verschiedene Use Cases) und Query Engines (ausgeklügelte Retrieval mit Filterung, Ranking und mehrstufigem Reasoning). Hauptdifferenzierungsmerkmale: produktionsreife Daten-Pipelines versus Prototyping-Tools, fortgeschrittene Retrieval-Strategien (Hybrid-Suche, Reranking, rekursives Retrieval) und eingebaute Observability via LlamaTrace. Seit Oktober 2025 unterstützt LlamaIndex alle wichtigen LLMs (OpenAI, Anthropic, Google, lokale Modelle), Vektordatenbanken (Pinecone, Weaviate, Qdrant) und bietet sowohl Python- als auch TypeScript-Implementierungen. Die Plattform treibt kritische Enterprise-Anwendungen an: Rechtsdokumentenanalyse, medizinische Forschungsassistenten, Kundenservice-Wissensbasen und Finanz-Research-Tools. 21medien ist spezialisiert auf den Aufbau produktionsreifer LlamaIndex-Systeme: von Daten-Pipeline-Architektur und Index-Optimierung bis zu Deployment, Monitoring und kontinuierlicher Verbesserung—hilft Organisationen vom Proof-of-Concept zu produktionsreifen RAG-Systemen zu gelangen, die täglich Tausende Nutzer bedienen.

Übersicht
LlamaIndex löst die fundamentale Herausforderung von RAG-Anwendungen: LLMs effizient und zuverlässig mit benutzerdefinierten Datenquellen zu verbinden. Das Framework bietet einen vollständigen Daten-Lebenszyklus: Load (Aufnahme aus über 200 Quellen via LlamaHub-Konnektoren), Transform (Dokumente mit intelligenten Strategien chunken, Metadaten extrahieren, Embeddings generieren), Index (Daten in optimierten Strukturen organisieren), Store (in Vektordatenbanken oder lokalem Storage persistieren) und Query (relevanten Kontext mit ausgeklügelten Strategien abrufen). Anders als generische LLM-Frameworks optimiert LlamaIndex jeden Schritt für Retrieval-Genauigkeit. Zum Beispiel handhabt das Framework automatisch PDF-Parsing (Tabellen, Bilder, Layouts), wendet semantisches Chunking an (nach Bedeutung teilen, nicht beliebige Zeichenzählungen), reichert mit Metadaten an (Daten, Autoren, Abschnitte) und generiert multiple Index-Strukturen (Vektor, Keyword, Graph) für Hybrid-Retrieval. Query Engines implementieren fortgeschrittene Retrieval-Pattern: Citation Tracking (Quellen mit Antworten zurückgeben), Multi-Document-Synthesis (Informationen aus mehreren Docs kombinieren), Recursive Retrieval (Referenzen über Dokumente hinweg folgen) und Auto-Merging (kleine Chunks zu größerem Kontext kombinieren). Diese Ausgereiftheit ermöglicht Produktionssystemen 80-90% Antwortgenauigkeit versus 50-60% mit naiven RAG-Implementierungen.
LlamaIndex' Architektur trennt Concerns für unabhängige Optimierung. Data Connectors (LlamaHub) bieten über 200 Integrationen: Datenbanken (PostgreSQL, MongoDB, MySQL), Dateiformate (PDF, Word, PowerPoint, CSV), APIs (Notion, Confluence, Google Drive, Slack) und Custom-Quellen. Node Parser chunken Dokumente intelligent: SentenceSplitter (semantische Grenzen), TokenSplitter (LLM-Kontext-Limits), HierarchicalNodeParser (pflegt Dokumentstruktur) und Custom-Parser. Index-Strukturen optimieren verschiedene Zugriffsmuster: VectorStoreIndex (semantische Suche), ListIndex (erschöpfende Suche), TreeIndex (hierarchische Zusammenfassung), KeywordTableIndex (exaktes Keyword-Matching) und KnowledgeGraphIndex (Entity-Beziehungen). Query Engines kombinieren Retriever mit LLMs: RetrieverQueryEngine (Basis-RAG), CitationQueryEngine (mit Quellenattribution), SubQuestionQueryEngine (komplexe Fragen zerlegen), RouterQueryEngine (zu spezialisierten Indizes routen). Observability via LlamaTrace trackt jede Komponente: Datenlade-Zeiten, Embedding-Generierung, Retrieval-Genauigkeit, LLM-Aufrufe und End-to-End-Latenz. 21medien nutzt LlamaIndex für Kunden, die ausgeklügeltes RAG benötigen: Wir haben Systeme gebaut, die über 50M Dokumente verarbeiten, Custom-Retriever für domänenspezifisches Ranking implementieren und Index-Strukturen optimieren, wodurch Query-Kosten um 60% reduziert und Genauigkeit um 25% verbessert wurden.
Hauptfunktionen
- LlamaHub: Über 200 Daten-Konnektoren für Datenbanken, Dateiformate, APIs und Custom-Quellen mit standardisierten Schnittstellen
- Smart Chunking: Semantisches Splitting, hierarchisches Parsing, Metadaten-Extraktion und Token-bewusste Strategien versus naive Zeichentrennung
- Multiple Index-Typen: Vektor-, Keyword-, Tree-, Graph- und Hybrid-Indizes optimiert für verschiedene Retrieval-Pattern
- Fortgeschrittene Query Engines: Citation Tracking, Multi-Document-Synthesis, rekursives Retrieval, Sub-Question-Decomposition für komplexe Queries
- Reranking: Post-Retrieval-Reranking mit LLMs, Cross-Encodern oder Custom-Modellen zur Verbesserung der Top-k-Genauigkeit um 20-40%
- Streaming: Token-für-Token-Response-Streaming für Echtzeit-Benutzererlebnisse, Fortschrittsindikatoren während langer Operationen
- Metadaten-Filterung: Abfragen mit Constraints (Datumsbereiche, Kategorien, Autoren) kombiniert mit semantischer Suche
- Observability: Eingebautes Tracing via LlamaTrace, Monitoring jeden Schritts vom Datenladen bis zur Response-Generierung
- Agents: Autonome Systeme bauen, die Tools auswählen, Indizes abfragen und durch mehrstufige Tasks reasonen
- Produktionsreif: Async-Support, Batching, Caching, Fehlerbehandlung und Retry-Logik für zuverlässige Deployments
Index-Typen und wann man sie nutzt
LlamaIndex bietet multiple Index-Strukturen, jeweils für spezifische Use Cases optimiert. VectorStoreIndex: Am häufigsten, speichert Dokument-Embeddings in Vektordatenbanken (Pinecone, Weaviate, Qdrant) für semantische Ähnlichkeitssuche. Nutzen für: allgemeines Q&A, semantische Suche, Finden konzeptionell verwandter Informationen. Vorteile: schnell (Sub-50ms), skaliert auf Milliarden Dokumente, gut für die meisten RAG-Anwendungen. Nachteile: kann exakte Keyword-Matches verpassen, erfordert Vektordatenbank. ListIndex: Speichert Dokumente in einfacher Liste, Abfragen durch Iterieren über alle Dokumente. Nutzen für: kleine Datasets (< 100 Docs), erschöpfende Suche wenn jedes Dokument berücksichtigt werden muss, Debugging-Retrieval. Vorteile: einfach, keine Dependencies, garantiert alle Daten zu berücksichtigen. Nachteile: langsam für große Datasets (O(n)-Komplexität), teuer (liest alle Dokumente). TreeIndex: Organisiert Dokumente in hierarchischem Tree, Abfragen durch Zusammenfassen von Branches. Nutzen für: Dokumenten-Zusammenfassung, hierarchische Daten (Organigramme, Taxonomien), Multi-Level-Reasoning. Vorteile: effiziente Zusammenfassung, handhabt Dokumentstruktur. Nachteile: Build-Zeit erhöht, komplexe Queries. KeywordTableIndex: Extrahiert Keywords, baut inverted Index für exaktes Matching. Nutzen für: Keyword-Suche, technische Dokumentation, Finden spezifischer Begriffe. Vorteile: schnelles exaktes Matching, ergänzt Vektor-Suche. Nachteile: verpasst semantische Ähnlichkeit, erfordert gute Keywords. KnowledgeGraphIndex: Extrahiert Entitäten und Beziehungen, speichert als Graph. Nutzen für: Beziehungs-Queries ('wer arbeitet mit wem'), Multi-Hop-Reasoning, strukturiertes Wissen. Vorteile: erfasst Beziehungen, ermöglicht Graph-Queries. Nachteile: Extraktions-Overhead, erfordert Entity Recognition. 21medien hilft Kunden bei der Auswahl optimaler Index-Kombinationen: typischerweise VectorStoreIndex für semantische Suche + KeywordTableIndex für exakte Matches, wodurch 30% bessere Genauigkeit als Single-Index-Ansätze erreicht werden.
Häufige Anwendungsfälle
- Enterprise-Wissensbasen: Q&A über Unternehmensdokumente, Policies, Prozeduren mit Citation Tracking und 75-85% Antwortgenauigkeit
- Kundenservice: Auto-Generierung von Antworten aus Dokumentation, Ticket-Historie und Produkthandbüchern mit Quellenattribution
- Legal Research: Suche nach Fallrecht, Verträgen, Regulierungen mit hierarchischer Zusammenfassung und Beziehungsextraktion
- Medizinische Forschung: Literaturrecherche, Suche klinischer Studien, Analyse von Arzneimittelwechselwirkungen aus Forschungspapieren und Datenbanken
- Finanzanalyse: Abfrage von Ertragsberichten, SEC-Einreichungen, Marktdaten mit Multi-Document-Synthesis für Investment-Research
- Code-Dokumentation: Suche in Codebasen, API-Docs, Stack Overflow, GitHub Issues mit semantischem Verständnis von Programmierkonzepten
- Content-Management: Semantische Suche über CMS-Content, Blogposts, Marketing-Materialien mit automatischer Kategorisierung
- Akademische Forschung: Literaturrecherche, Paper-Empfehlungen, Zitationsanalyse aus arXiv, PubMed, akademischen Datenbanken
- Sales-Enablement: Suche nach Sales-Collateral, Case Studies, Wettbewerbsinformationen mit personalisierten Content-Empfehlungen
- Compliance-Monitoring: Suche nach Policies, Regulierungen, Audit-Logs mit Keyword+Semantik-Hybrid-Suche für regulatorische Anforderungen
Integration mit 21medien-Services
21medien bietet umfassende LlamaIndex-Implementierungsservices. Phase 1 (Datenstrategie): Wir auditieren Ihre Datenquellen (strukturierte Datenbanken, unstrukturierte Dokumente, Echtzeit-APIs), entwerfen Aufnahme-Pipelines, wählen geeignete Konnektoren und planen Metadaten-Schemas für optimales Retrieval. Dokumentenanalyse identifiziert Chunking-Strategien, bestimmt Index-Typen und etabliert Qualitätsmetriken. Phase 2 (Pipeline-Entwicklung): Wir bauen Produktions-Daten-Pipelines mit LlamaHub-Konnektoren, implementieren Custom-Parser für proprietäre Formate, konfigurieren semantisches Chunking mit Overlap-Strategien, extrahieren und reichern Metadaten an (Entitäten, Daten, Kategorien) und generieren Embeddings mit optimalen Modellen (OpenAI, Cohere, domänenspezifisch). Pipelines umfassen Validierung, Fehlerbehandlung, Monitoring und inkrementelle Updates. Phase 3 (Index-Optimierung): Wir konfigurieren Vektor-Stores (Pinecone, Weaviate, Qdrant), implementieren Hybrid-Indizes (Vektor+Keyword), tunen Retrieval-Parameter (top_k, Ähnlichkeits-Schwellenwerte, Filter) und etablieren Reranking-Strategien mit Cross-Encodern oder LLMs für 20-40% Genauigkeitsverbesserungen. Phase 4 (Query-Engine-Entwicklung): Wir implementieren geeignete Query Engines (Citation, Sub-Question, Router), bauen Custom-Retriever für domänenspezifisches Ranking, fügen Metadaten-Filter für Scoped-Search hinzu und integrieren Streaming für Echtzeit-Responses. Observability umfasst LlamaTrace-Integration, Custom-Metriken und Alerting. Phase 5 (Deployment & Betrieb): Wir deployen via REST-APIs (FastAPI), containerisieren mit Docker, orchestrieren mit Kubernetes, implementieren Caching-Layer (Redis), konfigurieren Auto-Scaling und etablieren Monitoring-Dashboards (Grafana). Kontinuierliche Verbesserung umfasst A/B-Testing von Retrieval-Strategien, Retraining auf User-Feedback und Kostenoptimierung. Beispiel: Für eine Legal-Research-Plattform haben wir ein LlamaIndex-System gebaut, das 500K Rechtsdokumente aufnimmt, Hybrid-Index (Vektor+Keyword+Graph), Custom-Reranker für rechtliche Zitationsmuster, erreichten 82% Antwortgenauigkeit, Sub-200ms p95-Latenz, bedienen 5K gleichzeitige Nutzer, reduzierten Recherche-Zeit um 70% und sparten Kunden jährlich 5M€ an manuellen Research-Kosten.
Code-Beispiele
Basis-RAG mit LlamaIndex (Python): from llama_index import VectorStoreIndex, SimpleDirectoryReader, ServiceContext; from llama_index.llms import OpenAI; from llama_index.embeddings import OpenAIEmbedding; # LLM und Embeddings konfigurieren; llm = OpenAI(model='gpt-4', temperature=0); embed_model = OpenAIEmbedding(model='text-embedding-3-small'); service_context = ServiceContext.from_defaults(llm=llm, embed_model=embed_model); # Dokumente laden; documents = SimpleDirectoryReader('./data').load_data(); # Index erstellen; index = VectorStoreIndex.from_documents(documents, service_context=service_context); # Abfragen; query_engine = index.as_query_engine(similarity_top_k=5); response = query_engine.query('Was ist unsere Rückgabepolitik?'); print(response) — Fortgeschritten: Citation Query Engine mit Reranking: from llama_index.query_engine import CitationQueryEngine; from llama_index.postprocessor import SentenceTransformerRerank; # Reranker hinzufügen; reranker = SentenceTransformerRerank(top_n=3, model='cross-encoder/ms-marco-MiniLM-L-12-v2'); query_engine = CitationQueryEngine.from_args(index, citation_chunk_size=512, similarity_top_k=10, node_postprocessors=[reranker]); response = query_engine.query('Erkläre den Rückgabeprozess'); print(f'Antwort: {response}'); print(f'Quellen: {response.source_nodes}') — Custom Data Connector mit Metadaten: from llama_index import Document; from llama_index.node_parser import SimpleNodeParser; # Custom-Daten laden; docs = [Document(text=content, metadata={'source': 'kb', 'category': 'policy', 'date': '2025-01-15'}) for content in data]; # Mit Metadaten-Erhaltung parsen; parser = SimpleNodeParser.from_defaults(chunk_size=512, chunk_overlap=50); nodes = parser.get_nodes_from_documents(docs); index = VectorStoreIndex(nodes); # Mit Metadaten-Filterung abfragen; query_engine = index.as_query_engine(filters={'category': 'policy'}); response = query_engine.query('Kunden-Rückgabe-Regeln') — 21medien bietet LlamaIndex-Training, Architektur-Consulting und Custom-Retriever-Entwicklung für Produktions-Deployments.
Best Practices
- Mit VectorStoreIndex für Prototyping starten—90% der Use Cases funktionieren gut, nur bei Bedarf mit spezialisierten Indizes optimieren
- Semantische Chunking-Strategien implementieren—Dokumentstruktur respektieren (Abschnitte, Absätze), Kontext mit Overlap pflegen (50-100 Tokens)
- Mit Metadaten anreichern—Daten, Kategorien, Autoren, Quellen ermöglichen leistungsfähige Filterung und verbessern Retrieval-Genauigkeit um 20-30%
- Reranking für Produktion nutzen—Post-Retrieval-Reranking mit Cross-Encodern verbessert Top-3-Genauigkeit um 25-40% bei minimalen Kosten
- Hybrid-Suche implementieren—Vektor (semantisch) + Keyword (exakt) mit Alpha-Parameter kombinieren, bei 0,75 starten (75% semantisch)
- Citation Tracking aktivieren—CitationQueryEngine bietet Quellenattribution, essentiell für Enterprise-Vertrauen und Verifikation
- Retrieval-Qualität monitoren—Retrieval-Präzision, Antwortgenauigkeit, Latenz und Kosten mit LlamaTrace für kontinuierliche Verbesserung tracken
- Inkrementelle Updates handhaben—Delta-Updates für sich ändernde Daten versus vollständige Reindizierung implementieren, reduziert Kosten und Downtime
- Angemessene Chunk-Größen konfigurieren—Kontext (größere Chunks) vs Retrieval-Präzision (kleinere Chunks) balancieren, 512 Tokens typischer Sweet Spot
- Mit domänenspezifischen Embeddings testen—Fine-tuned oder domänenspezifische Embeddings (medizinisch, rechtlich, Code) verbessern Genauigkeit um 15-25% gegenüber allgemeinen Modellen
LlamaIndex vs LangChain
LlamaIndex und LangChain dienen komplementären Rollen im LLM-Ökosystem. LangChain: Allzweck-LLM-Orchestrierungs-Framework mit Betonung auf Chains, Agents und Tool-Integration. Stärken: vielseitig (handhabt jede LLM-Task), umfangreiche Integrationen (über 100 Tools), ausgereifte Agent-Systeme, starke Community. Nutzen wenn: Aufbau von Conversational AI, autonomen Agents, Workflow-Automatisierung, mehrstufigem Reasoning mit Tool-Nutzung. LlamaIndex: Spezialisiertes Daten-Framework zum Verbinden von LLMs mit Custom-Daten. Stärken: produktionsreife Daten-Pipelines, ausgeklügelte Indexing-Strategien, fortgeschrittenes Retrieval (Reranking, Hybrid-Suche), eingebaute Observability. Nutzen wenn: Aufbau von RAG-Anwendungen, Wissensbasen, semantischer Suche, Dokumenten-Q&A-Systemen mit hoher Genauigkeitsanforderung. Hauptunterschiede: LlamaIndex bietet tiefere Datenaufnahme-Fähigkeiten (über 200 LlamaHub-Konnektoren vs LangChains Document-Loader), mehr Index-Typen (über 5 vs 2-3) und bessere Retrieval-Strategien (Reranking, rekursives Retrieval, Sub-Questions). LangChain bietet breitere LLM-Funktionalität (Chains, Memory, Agents) und einfacheres Prototyping für allgemeine Tasks. Viele Produktionssysteme nutzen beide: LlamaIndex für Daten-Layer (Aufnahme, Indexierung, Retrieval) + LangChain für Anwendungs-Layer (Chains, Agents, Tools). Beispiel-Architektur: LlamaIndex lädt und indiziert Dokumente → LangChain-Agent fragt LlamaIndex-Retriever ab → LangChain-Chains verarbeiten Ergebnisse mit Memory und Tools. 21medien hilft Kunden bei der Auswahl des richtigen Tools: LlamaIndex für datenintensives RAG (Legal Research, medizinische Wissensbasen), LangChain für Agent-Systeme (Kundenservice-Bots, Research-Assistants) oder Hybrid-Architekturen, die Stärken beider Frameworks kombinieren.
Offizielle Ressourcen
https://www.llamaindex.ai/Verwandte Technologien
LangChain
Komplementäres LLM-Framework—oft zusammen mit LlamaIndex für Agent+RAG-Systeme verwendet
Pinecone
Beliebtes Vektordatenbank-Backend für LlamaIndex-VectorStoreIndex-Implementierungen
RAG
Kern-Pattern auf das LlamaIndex spezialisiert ist—Retrieval-Augmented Generation für Custom-Daten
Vector Embeddings
Fundamentale Datenstruktur, die LlamaIndex für semantische Ähnlichkeit und Retrieval nutzt