← Zurück zur Bibliothek
Text-to-Video Anbieter: Genmo AI

Mochi 1

Mochi 1 ist ein revolutionäres 10-Milliarden-Parameter-Diffusionsmodell von Genmo AI, veröffentlicht Ende Oktober 2024 nach einer erfolgreichen 28,4-Millionen-Dollar-Serie-A-Finanzierungsrunde unter Leitung von NEA. Als das größte jemals offen veröffentlichte Videogenerierungsmodell stellt Mochi 1 einen bedeutenden Meilenstein in der Demokratisierung des Zugangs zu hochmoderner Video-KI-Technologie dar. Aufgebaut auf Genmos neuartiger Asymmetric Diffusion Transformer (AsymmDiT)-Architektur, erreicht Mochi 1 außergewöhnliche Leistung bei der Generierung flüssiger, fotorealistischer Videos mit 30 Bildern pro Sekunde für Dauern bis zu 5,4 Sekunden. Das Modell zeichnet sich durch die Simulation komplexer Physik aus, einschließlich Fluiddynamik, Fell- und Haarbewegung und der Darstellung konsistenter, flüssiger menschlicher Aktionen mit hoher zeitlicher Kohärenz und realistischer Bewegungsdynamik. Veröffentlicht unter der permissiven Apache 2.0-Lizenz, ist Mochi 1 völlig kostenlos für persönliche und kommerzielle Nutzung. Die Vorschauversion generiert Videos in 480p-Auflösung, mit voller HD-Unterstützung geplant vor Ende des Jahres. Während für fotorealistische Stile optimiert, etabliert Mochi 1 neue Standards für Open-Source-Videogenerierungsqualität und ist zum Download auf HuggingFace und über die genmo.ai/play Web-Oberfläche verfügbar.

Mochi 1
video-generierung open-source text-zu-video diffusions-modelle fotorealistisch physiksimulation kommerzielle-lizenz

Überblick

Mochi 1 ist ein revolutionäres 10-Milliarden-Parameter-Diffusionsmodell von Genmo AI, veröffentlicht Ende Oktober 2024 nach einer erfolgreichen 28,4-Millionen-Dollar-Serie-A-Finanzierungsrunde unter Leitung von NEA. Als das größte jemals offen veröffentlichte Videogenerierungsmodell stellt Mochi 1 einen bedeutenden Meilenstein in der Demokratisierung des Zugangs zu hochmoderner Video-KI-Technologie dar.

Aufgebaut auf Genmos neuartiger Asymmetric Diffusion Transformer (AsymmDiT)-Architektur, erreicht Mochi 1 außergewöhnliche Leistung bei der Generierung flüssiger, fotorealistischer Videos mit 30 Bildern pro Sekunde für Dauern bis zu 5,4 Sekunden. Das Modell zeichnet sich durch die Simulation komplexer Physik aus, einschließlich Fluiddynamik, Fell- und Haarbewegung und der Darstellung konsistenter, flüssiger menschlicher Aktionen mit hoher zeitlicher Kohärenz und realistischer Bewegungsdynamik.

Veröffentlicht unter der permissiven Apache 2.0-Lizenz, ist Mochi 1 völlig kostenlos für persönliche und kommerzielle Nutzung. Die Vorschauversion generiert Videos in 480p-Auflösung, mit voller HD-Unterstützung geplant vor Ende des Jahres. Während für fotorealistische Stile optimiert, etabliert Mochi 1 neue Standards für Open-Source-Videogenerierungsqualität.

Hauptmerkmale

  • 10 Milliarden Parameter - größtes offen veröffentlichtes Videogenerierungsmodell
  • Neuartige Asymmetric Diffusion Transformer (AsymmDiT)-Architektur
  • Fotorealistische Videogenerierung mit 30 Bildern pro Sekunde
  • Videodauer bis zu 5,4 Sekunden mit hoher zeitlicher Kohärenz
  • Fortschrittliche Physiksimulation: Fluiddynamik, Fell/Haar, menschliche Bewegung
  • Starke Prompt-Treue mit hochauflösender Bewegung
  • Apache 2.0-Lizenz - kostenlos für persönliche und kommerzielle Nutzung
  • 480p in Vorschau, HD-Unterstützung in Kürze
  • Offene Gewichte und Architektur verfügbar auf HuggingFace
  • Aktive Entwicklung mit geplanten kontinuierlichen Verbesserungen

Anwendungsfälle

  • Kommerzielle Videoproduktion ohne Lizenzbeschränkungen
  • Fotorealistische Content-Erstellung für Marketing und Werbung
  • Forschung zu diffusionsbasierten Videogenerierungsarchitekturen
  • Benutzerdefiniertes Modell-Fine-Tuning für spezifische visuelle Stile
  • Social-Media-Content-Generierung (Reels, TikTok, Shorts)
  • Produktvisualisierung mit realistischer Physik
  • Menschliche Aktions- und Bewegungsstudien
  • Schnelles Video-Prototyping und Storyboarding

Technische Spezifikationen

Mochi 1 verwendet die Asymmetric Diffusion Transformer (AsymmDiT)-Architektur mit 10 Milliarden Parametern. Es gibt Videos in 480p-Auflösung aus (mit geplanter HD-Unterstützung) bei 30 fps für bis zu 5,4 Sekunden Dauer. Das Modell ist für fotorealistische Stile optimiert (nicht optimiert für Animation) und zeichnet sich durch Physiksimulation aus, einschließlich Fluiddynamik, Fell- und Haarbewegung und menschlicher Bewegung mit hoher zeitlicher Kohärenz. Inferenz erfordert High-End-GPUs (A100, H100 empfohlen) mit 24GB+ VRAM.

Preise und Verfügbarkeit

Mochi 1 ist kostenlos und Open Source unter der Apache 2.0-Lizenz, völlig kostenlos für persönliche und kommerzielle Nutzung. Eine kostenlose Testversion ist auf genmo.ai/play verfügbar. Self-Hosting erfordert GPU-Infrastrukturkosten. Offene Gewichte und Architektur sind auf HuggingFace verfügbar.

Ressourcen und Links

Offizielle Website: https://www.genmo.ai/ | Playground: https://www.genmo.ai/play | Blog: https://www.genmo.ai/blog | GitHub: https://github.com/genmoai/mochi | HuggingFace: https://huggingface.co/genmo/mochi-1-preview | Dokumentation: https://github.com/genmoai/mochi/blob/main/README.md

Offizielle Ressourcen

https://www.genmo.ai/