Fünfundzwanzig Open-Weight-Modelle in einer Woche. Eine Analyse für Praktiker.

ai llm open-source machine-learning

Es gibt eine Formulierung, die diese Woche in der KI-Szene kursierte: “open AI, beachte das Leerzeichen.” Ein gezielter Seitenhieb auf die zunehmend geschlossene Haltung von OpenAI dem Unternehmen, und ein Hinweis darauf, dass die interessantesten Entwicklungen in der KI gerade im Open-Weight-Bereich stattfinden.

Letzte Woche wurden mehr als 25 nennenswerte Open-Weight-Modelle veröffentlicht, quer durch Text, Bild, Audio, Video und 3D-Generierung. Das ist keine normale Woche. Für Praktiker, die zuerst die Kernaussage wollen, hier die Kurzversion.

Kurzübersicht

AnwendungsfallModellWarum
On-Device / Apple SiliconLiquid AI LFM2.5-8B1,5B aktive Parameter, MLX-ready
Deployable MultimodalGoogle Gemma 4 12BEin Checkpoint, ONNX + MLX, 140+ Sprachen
Frontier Reasoning (Cloud)NVIDIA Nemotron 3 Ultra89,1 MMLU, 1M Kontext, 55B aktiv
Coding-AgentenJetBrains Mellum2-12BFür IDE-Workflows gebaut, 2,5B aktiv
Text in Bildern / DesignIdeogram 4#1 Open-Weight auf Design Arena
Echtzeit-TTSHiggs Boson Health Audio v3Sub-Sekunden erstes Audio, 21 Emotionen
Artefaktfreies TTSrednote dots.ttsCodec-frei, kontinuierliche Wellenform
Speech-to-Text im MaßstabNVIDIA Nemotron-3.5 ASR17x Concurrency vs. Parakeet RNNT
Dokumenten-ParsingPaddleOCR-VL-1.6State-of-the-Art bei 1B Parametern
Audio-Video-GenerierungBaidu NAVABeste A/V-Synchronisierung in Open Weights
Langform-VideoJD JoyAI-EchoBis zu 5 Minuten, Multi-Shot
Bild zu 3DVAST TripoSplatMIT-Lizenz, Gaussian Splatting
Robotik-SimulationNVIDIA Cosmos3-SuperPhysical AI, aktionskonditioniertes Video

Sprachmodelle

NVIDIA Nemotron 3 Ultra (550B)

Die Schlagzahl ist 550 Milliarden Parameter, aber die interessantere Zahl ist 55 Milliarden: die aktive Parameteranzahl zur Inferenzzeit. Nemotron Ultra nutzt eine hybride Mamba-MoE-Architektur, die rekurrente State-Space-Modelle (Mamba) mit Mixture-of-Experts-Routing kombiniert. Anstatt für jedes Token alle Parameter zu aktivieren, leitet MoE jedes Token durch eine kleine Teilmenge spezialisierter Sub-Netzwerke, sodass die Inferenzkosten proportional zu den aktiven Parametern bleiben, nicht zur Gesamtzahl.

Das 1-Millionen-Token-Kontextfenster stellt es in die gleiche Liga wie Gemini 1.5 Pro für Long-Document-Tasks. Mit 89,1 auf MMLU bewegt es sich klar im Frontier-Bereich. Die NVFP4-Variante verwendet ein 4-Bit-Gleitkommaformat, bei dem Zahlen in Blöcken mit einem gemeinsamen Skalierungsfaktor gruppiert werden, um den dynamischen Bereich bei kleinem Speicher-Footprint zu erhalten. NVIDIA behauptet 5-fachen Durchsatz auf Blackwell gegenüber Standard-FP16. Für Teams mit Blackwell-Clustern lohnt eine ernsthafte Evaluation. Für alle anderen bedeutet die 550B-Gewichtsgröße ohnehin ein Multi-Node-Setup.

Google Gemma 4 12B

Gemma 4 ist das praktisch am besten einsetzbare Modell der Woche. Es verarbeitet Text, Bild, Audio und Video in einer einzigen encoder-freien Architektur, unterstützt 256k Kontext und deckt 140+ Sprachen ab. Der AIME-2026-Score von 77,5 übertrifft die meisten doppelt so großen Modelle beim mathematischen Schlussfolgern.

Was es operationell auszeichnet, ist die 23-Checkpoint-QAT-Welle. Quantization-Aware Training bedeutet, das Modell wurde von Anfang an mit Blick auf Quantisierung trainiert, statt nachträglich verkleinert zu werden. Google hat ONNX- und MLX-Varianten gleichzeitig geliefert, was bedeutet, dass es ohne separaten Quantisierungsschritt auf Mobilgeräten oder Apple Silicon läuft. Wer ein einziges Modell braucht, das über Web, Mobile und Server hinweg ohne mehrere Checkpoints funktioniert, findet hier diese Woche die offensichtliche Wahl.

Liquid AI LFM2.5-8B

Liquid Foundation Models verwenden eine rekurrente Architektur statt dem Standard-Transformer. Das LFM2.5-8B hat 8B Gesamtparameter, aber nur 1,5B aktiv bei der Inferenz, mit 128k Kontext. MATH500 bei 88,8 ist stark für ein On-Device-Modell. MLX-ready ohne weiteres, was bedeutet, dass es nativ auf Apple Silicon mit Apples eigenem ML-Framework läuft.

Das ist die Wahl für alles, was lokal ohne Cloud-Round-Trips laufen muss. Die aktive Parameteranzahl passt problemlos in den Unified Memory eines M-Chip-Rechners.

JetBrains Mellum2-12B

JetBrains’ erstes offenes MoE-Modell. 12B Gesamtparameter, 2,5B aktiv, mit einem Reasoning-Modus (“Thinking”), der die Lücke zu Qwen3-14B bei Coding-Benchmarks schließt. Apache-2.0-Lizenz. Da JetBrains dieses Modell speziell für IDE-Integration und Code-Vervollständigung entwickelt hat, lohnt es sich für Coding-Agent-Workflows zu testen, bei denen Latenz wichtiger ist als Peak-Benchmark-Werte.

Bildgenerierung

Ideogram 4 (9,3B)

Dass Ideogram Open Weights veröffentlicht, ist die Überraschung der Woche. Das ist ein 9,3B-Parameter-Flow-Matching-Diffusion-Transformer, der von Grund auf trainiert wurde, kein Fine-Tune eines bestehenden Checkpoints. Ein Diffusion Transformer (DiT) ersetzt das UNet-Backbone klassischer Diffusionsmodelle durch einen Transformer und bietet dadurch bessere Skalierungseigenschaften. Flow-Matching ist die Trainingszielfunktion, eine stabilere Alternative zum Denoising Score Matching älterer Diffusionsmodelle.

Es rangiert insgesamt auf Platz zwei bei Design-Benchmarks hinter GPT Image 2, und ist das beste Open-Weight-Modell auf Design Arena und LMArena. Die spezifische Stärke liegt beim Text-Rendering in Bildern: Logos, Typografie, Poster, überall dort, wo Text lesbar und korrekt geschrieben sein muss. Das war historisch das Schwierigste für Diffusionsmodelle. Der Zugriff auf die Gewichte verändert, was für Teams möglich ist, die Design-Tooling bauen.

Audio und Sprache

Vier Labs haben diese Woche Audio-Modelle veröffentlicht, was ungewöhnlich ist.

Higgs Boson Health Audio v3 (4B): 102 Sprachen, 21 unterschiedliche emotionale Stile einschließlich Singen, Flüstern und Rufen. Sub-Sekunden-Time-to-First-Audio macht es für Echtzeit-Anwendungen tauglich. Die emotionale Bandbreite übertrifft die meisten offenen TTS-Modelle deutlich.

rednote dots.tts: Das architektonisch interessanteste. Die meisten TTS-Systeme konvertieren Text über einen neuronalen Codec in diskrete Audio-Tokens und synthetisieren daraus. dots.tts entfernt den Codec vollständig und generiert Wellenformen in einem vollständig kontinuierlichen Raum. Apache 2.0. Der praktische Vorteil sind weniger Artefakte und bessere Prosodie in Randfällen, besonders bei ungewöhnlichen Aussprachen und emotionalen Übergängen.

Google Magenta RealTime 2: Musikgenerierung mit unter 200ms Latenz, akzeptiert Text, Audio und MIDI als Eingabe. Die Latenzzahl macht es für Live-Performance-Tools tauglich, bei denen ein menschlicher Musiker im Loop ist. Es wurde innerhalb von Stunden nach der Veröffentlichung auf PyTorch portiert und lief auf ZeroGPU-Demos.

NVIDIA Nemotron-3.5 ASR (600M): Ein Streaming-ASR-Modell, das 17-mal mehr gleichzeitige Streams verarbeitet als Parakeet RNNT 1.1B bei vergleichbarer Genauigkeit. RNNT (Recurrent Neural Network Transducer) ist eine Architektur, die Encoder, Prediction Network und Joint Network kombiniert, um Streaming-Transkription ohne vollständige Audiosequenz zu ermöglichen. Für Teams, die Spracherkennung im Maßstab betreiben, schlägt sich dieser 17x-Concurrency-Multiplikator direkt in Infrastrukturkosten pro verarbeiteter Audiostunde nieder.

Vision und Multimodal

StepFun Step-3.7-Flash: 198B sparse MoE VLM mit rund 11B aktiven Parametern. Der SWE-Bench-PRO-Score von 56,3 ist für ein Vision-Language-Modell bemerkenswert; Software-Engineering-Benchmarks werden normalerweise von reinen Text-Modellen dominiert. Apache 2.0.

PaddleOCR-VL-1.6: Dokumenten-Parsing bei 1B Parametern. Die meisten Document-Understanding-Modelle benötigen deutlich größere Checkpoints, um komplexe Layouts, Tabellen und gemischte Text/Bild-Inhalte zuverlässig zu verarbeiten. Bei 1B ist es auf Hardware einsetzbar, die schwerere VLMs nicht stemmen könnte, was für Enterprise-Umgebungen mit strengen Hardware-Anforderungen wichtig ist.

Baidu NAVA (6,3B): Gemeinsame Audio-Video-Generierung mit branchenführender Audio-visueller Synchronisierung. Videos zu generieren, bei denen Mundbewegungen zum Audio passen oder Umgebungsgeräusche zur Szene, war eine anhaltende Schwäche offener Video-Modelle. NAVA löst das Sync-Problem auf Modellebene statt als Nachbearbeitungsschritt. Apache 2.0.

Video, 3D und World Models

NVIDIA Cosmos3-Super (64B): Ein omnimodales World-Modell für Physical AI. Der Anwendungsfall ist Robotik und autonome Systeme, nicht Content-Generierung. Es koppelt Aktionstrajekorien mit Video- und Audio-Generierung und ermöglicht es, Ausgaben auf “was würde passieren, wenn der Roboterarm so bewegt wird” zu konditionieren. Die Zielgruppe sind Simulationsumgebungen für das Roboter-Training, wo fotorealistische Rollouts hypothetischer Aktionen im Maßstab benötigt werden.

JD JoyAI-Echo: Text-to-Video bis zu 5 Minuten, gebaut auf LTX-2.3. Fünf Minuten kohärentes Multi-Shot-Video aus Text ist ein bedeutender Fähigkeitssprung; die meisten offenen Modelle stoßen bei 10-15 Sekunden an ihre Grenzen. Multi-Shot bedeutet, dass das Modell Szenen- und Charakterkonsistenz über Schnitte hinweg beibehält, was das schwierigere Problem ist.

ByteDance Bernini-R + VAST TripoSplat: Single-Image-to-3D-Generierung via Gaussian Splatting, unter MIT-Lizenz. Gaussian Splatting repräsentiert eine 3D-Szene als Sammlung semi-transparenter Ellipsoide, jede mit Farbe und Deckkraft, statt eines traditionellen Mesh oder Voxel-Grids. Es ist schnell zu rendern und produziert fotorealistische Ansichten aus beliebigen Blickwinkeln. MIT-Lizenz bedeutet ohne Einschränkungen in kommerziellen Produkten einsetzbar.

Was diese Woche wirklich bedeutet

Das Muster über alle diese Veröffentlichungen hinweg ist Kompression. Modelle, die vor sechs Monaten Frontier-skalierte Infrastruktur erforderten, laufen jetzt auf Laptops. Die Lücke zwischen dem, was mit einer geschlossenen API und dem, was mit lokalen Gewichten möglich ist, schließt sich schneller als die meisten erwartet haben.

Die interessantere Frage ist, was mit der Deployment-Schicht passiert. Einen einzelnen Modell-Endpunkt zu betreiben ist einfach. Eine heterogene Flotte zu betreiben, bei der verschiedene Anfragen an verschiedene spezialisierte Modelle geroutet werden (LFM2.5 für On-Device, Nemotron Ultra für komplexes Reasoning, Ideogram 4 für Design-Tasks), erfordert echtes Infrastruktur-Denken: Routing-Logik, Fallbacks, Kostenmonitoring, Latenz-SLOs pro Modelltyp.

Das ist der Teil, der nicht in einem LinkedIn-Post landet. Es ist auch der Teil, der in den nächsten zwölf Monaten am meisten zählen wird.