← Zurück zur Bibliothek
AI Models Anbieter: DeepSeek

DeepSeek R1

DeepSeek R1 ist ein im Januar 2025 veröffentlichtes Open-Source-Sprachmodell, das speziell für komplexe Reasoning-Aufgaben entwickelt wurde. Durch einen neuartigen reinen Reinforcement Learning (RL)-Ansatz ohne Supervised Fine-Tuning erreicht es vergleichbare Leistung wie OpenAIs o1 bei Mathematik-, Programmier- und logischen Reasoning-Benchmarks. Das Modell verwendet eine Mixture of Experts (MoE)-Architektur mit 671 Milliarden Gesamtparametern, aktiviert aber nur 37 Milliarden pro Forward Pass für Recheneffizienz. DeepSeek R1 wurde für nur $5,58 Millionen mit 2,78 Millionen GPU-Stunden trainiert – deutlich weniger als vergleichbare Modelle größerer Organisationen. Besonders macht DeepSeek R1 die vollständige Open-Source-Verfügbarkeit unter MIT-Lizenz, inklusive Modellgewichte, Trainings-Code und destillierte Versionen von 1,5B bis 70B Parametern. Die API-Preise ($0,55 Input / $2,19 Output pro 1M Tokens) sind 96,4% günstiger als OpenAI o1, was fortgeschrittenes Reasoning im großen Maßstab zugänglich macht. DeepSeek R1 Excel bei mathematischer Problemlösung (79,8% bei AIME 2024, 97,3% bei MATH-500), Programmierung (2029 Elo bei Codeforces) und allgemeinem Reasoning (90,8 bei MMLU). Das reine RL-Training führte zu bemerkenswerten emergenten Verhaltensweisen wie Selbstverifizierung, Reflexion und dynamischer Chain-of-Thought-Längenanpassung.

DeepSeek R1
reasoning open-source mathematik programmierung reinforcement-learning

Verwandte Technologien