Mochi 1

Überblick

Mochi 1 ist ein revolutionäres 10-Milliarden-Parameter-Diffusionsmodell von Genmo AI, veröffentlicht Ende Oktober 2024 nach einer erfolgreichen 28,4-Millionen-Dollar-Serie-A-Finanzierungsrunde unter Leitung von NEA. Als das größte jemals offen veröffentlichte Videogenerierungsmodell stellt Mochi 1 einen bedeutenden Meilenstein in der Demokratisierung des Zugangs zu hochmoderner Video-KI-Technologie dar.

Aufgebaut auf Genmos neuartiger Asymmetric Diffusion Transformer (AsymmDiT)-Architektur, erreicht Mochi 1 außergewöhnliche Leistung bei der Generierung flüssiger, fotorealistischer Videos mit 30 Bildern pro Sekunde für Dauern bis zu 5,4 Sekunden. Das Modell zeichnet sich durch die Simulation komplexer Physik aus, einschließlich Fluiddynamik, Fell- und Haarbewegung und der Darstellung konsistenter, flüssiger menschlicher Aktionen mit hoher zeitlicher Kohärenz und realistischer Bewegungsdynamik.

Veröffentlicht unter der permissiven Apache 2.0-Lizenz, ist Mochi 1 völlig kostenlos für persönliche und kommerzielle Nutzung. Die Vorschauversion generiert Videos in 480p-Auflösung, mit voller HD-Unterstützung geplant vor Ende des Jahres. Während für fotorealistische Stile optimiert, etabliert Mochi 1 neue Standards für Open-Source-Videogenerierungsqualität.

Hauptmerkmale

10 Milliarden Parameter - größtes offen veröffentlichtes Videogenerierungsmodell
Neuartige Asymmetric Diffusion Transformer (AsymmDiT)-Architektur
Fotorealistische Videogenerierung mit 30 Bildern pro Sekunde
Videodauer bis zu 5,4 Sekunden mit hoher zeitlicher Kohärenz
Fortschrittliche Physiksimulation: Fluiddynamik, Fell/Haar, menschliche Bewegung
Starke Prompt-Treue mit hochauflösender Bewegung
Apache 2.0-Lizenz - kostenlos für persönliche und kommerzielle Nutzung
480p in Vorschau, HD-Unterstützung in Kürze
Offene Gewichte und Architektur verfügbar auf HuggingFace
Aktive Entwicklung mit geplanten kontinuierlichen Verbesserungen

Anwendungsfälle

Kommerzielle Videoproduktion ohne Lizenzbeschränkungen
Fotorealistische Content-Erstellung für Marketing und Werbung
Forschung zu diffusionsbasierten Videogenerierungsarchitekturen
Benutzerdefiniertes Modell-Fine-Tuning für spezifische visuelle Stile
Social-Media-Content-Generierung (Reels, TikTok, Shorts)
Produktvisualisierung mit realistischer Physik
Menschliche Aktions- und Bewegungsstudien
Schnelles Video-Prototyping und Storyboarding

Technische Spezifikationen

Mochi 1 verwendet die Asymmetric Diffusion Transformer (AsymmDiT)-Architektur mit 10 Milliarden Parametern. Es gibt Videos in 480p-Auflösung aus (mit geplanter HD-Unterstützung) bei 30 fps für bis zu 5,4 Sekunden Dauer. Das Modell ist für fotorealistische Stile optimiert (nicht optimiert für Animation) und zeichnet sich durch Physiksimulation aus, einschließlich Fluiddynamik, Fell- und Haarbewegung und menschlicher Bewegung mit hoher zeitlicher Kohärenz. Inferenz erfordert High-End-GPUs (A100, H100 empfohlen) mit 24GB+ VRAM.

Preise und Verfügbarkeit

Mochi 1 ist kostenlos und Open Source unter der Apache 2.0-Lizenz, völlig kostenlos für persönliche und kommerzielle Nutzung. Eine kostenlose Testversion ist auf genmo.ai/play verfügbar. Self-Hosting erfordert GPU-Infrastrukturkosten. Offene Gewichte und Architektur sind auf HuggingFace verfügbar.

Ressourcen und Links

Offizielle Website: https://www.genmo.ai/ | Playground: https://www.genmo.ai/play | Blog: https://www.genmo.ai/blog | GitHub: https://github.com/genmoai/mochi | HuggingFace: https://huggingface.co/genmo/mochi-1-preview | Dokumentation: https://github.com/genmoai/mochi/blob/main/README.md

Überblick

Hauptmerkmale

Anwendungsfälle

Technische Spezifikationen

Preise und Verfügbarkeit

Ressourcen und Links

Offizielle Ressourcen

Verwandte Technologien

HunyuanVideo

LTX Video

OpenAI Sora

Runway Gen-2

Kling AI

Stable Diffusion

Cookie-Einstellungen

Notwendige Cookies

Externe Dienste