بیست و پنج مدل open-weight در یه هفته. بررسی یه متخصص.

یه عبارت این هفته تو محافل هوش مصنوعی دست به دست می‌گشت: “open AI، به فاصله توجه کن.” یه طعنه عمدی به موضع هر روز بسته‌تر OpenAI شرکت، و اشاره‌ای به اینکه جالب‌ترین اتفاقات هوش مصنوعی الان تو فضای open-weight داره می‌افته.

هفته گذشته بیش از ۲۵ مدل open-weight قابل توجه منتشر شد، از متن، تصویر، صدا، ویدیو تا تولید سه‌بعدی. این یه هفته عادی نیست. برای متخصص‌هایی که اول می‌خوان نتیجه رو بدونن، اینجا نسخه خلاصه هست.

انتخاب سریع

کاربرد	مدل	چرا
On-Device / Apple Silicon	Liquid AI LFM2.5-8B	۱.۵B پارامتر فعال، MLX-ready
مالتی‌مودال قابل استقرار	Google Gemma 4 12B	یه checkpoint، ONNX + MLX، ۱۴۰+ زبان
Frontier Reasoning (ابری)	NVIDIA Nemotron 3 Ultra	۸۹.۱ MMLU، ۱M context، ۵۵B فعال
ایجنت‌های کدنویسی	JetBrains Mellum2-12B	ساخته شده برای IDE، ۲.۵B فعال
متن در تصویر / طراحی	Ideogram 4	اول open-weight روی Design Arena
TTS بلادرنگ	Higgs Boson Health Audio v3	اولین صدا زیر یک ثانیه، ۲۱ احساس
TTS بدون آرتیفکت	rednote dots.tts	بدون codec، موج پیوسته
تبدیل گفتار به متن در مقیاس	NVIDIA Nemotron-3.5 ASR	۱۷ برابر concurrency نسبت به Parakeet RNNT
تجزیه اسناد	PaddleOCR-VL-1.6	بهترین در ۱B پارامتر
تولید صدا-ویدیو	Baidu NAVA	بهترین همگام‌سازی A/V در open weights
ویدیوی بلند	JD JoyAI-Echo	تا ۵ دقیقه، multi-shot
تصویر به سه‌بعدی	VAST TripoSplat	لایسنس MIT، Gaussian Splatting
شبیه‌سازی رباتیک	NVIDIA Cosmos3-Super	Physical AI، ویدیوی شرط‌بندی‌شده بر اکشن

مدل‌های زبانی

NVIDIA Nemotron 3 Ultra (550B)

عدد جذاب ۵۵۰ میلیارد پارامتره، ولی عدد جالب‌تر ۵۵ میلیارده: تعداد پارامترهای فعال موقع inference. Nemotron Ultra از یه معماری هایبرید Mamba-MoE استفاده می‌کنه که مدل‌های State-Space بازگشتی (Mamba) رو با روتینگ Mixture-of-Experts ترکیب می‌کنه. به جای اینکه همه پارامترها برای هر token فعال بشن، MoE هر token رو از طریق یه زیرمجموعه کوچیک از شبکه‌های متخصص روت می‌کنه.

پنجره context یک میلیون token اون رو تو همون دسته Gemini 1.5 Pro برای کارهای long-document قرار می‌ده. با ۸۹.۱ روی MMLU جای محکمی تو قلمرو frontier داره. ورژن NVFP4 از یه فرمت اعشار شناور ۴ بیتی استفاده می‌کنه که اعداد رو در بلوک‌هایی با یه ضریب مقیاس مشترک گروه‌بندی می‌کنه، تا دامنه داینامیک رو با footprint حافظه کوچیک حفظ کنه. انویدیا ادعا می‌کنه روی Blackwell نسبت به FP16 استاندارد ۵ برابر throughput بیشتر داره. برای تیم‌هایی که کلاستر Blackwell دارن، ارزش بررسی جدی داره. برای بقیه، ۵۵۰B وزن به معنای multi-node بودنه به هر حال.

Google Gemma 4 12B

Gemma 4 قابل‌استفاده‌ترین مدل هفته برای استقرار عملیه. متن، تصویر، صدا و ویدیو رو تو یه معماری encoder-free تک پشتیبانی می‌کنه، ۲۵۶k context داره و ۱۴۰+ زبان رو پوشش می‌ده. نمره AIME 2026 برابر ۷۷.۵ اون رو تو استدلال ریاضی از اکثر مدل‌های دو برابر بزرگ‌تر جلو می‌ندازه.

چیزی که عملیاتی متمایزش می‌کنه امواج ۲۳-checkpoint QAT هست. Quantization-Aware Training یعنی مدل از اول با هدف quantization آموزش دیده، نه اینکه بعداً کوچیک شده باشه. گوگل به صورت همزمان ورژن‌های ONNX و MLX منتشر کرد، یعنی بدون مرحله quantization جداگانه روی موبایل یا Apple Silicon اجرا می‌شه. اگه یه مدل واحد می‌خوای که روی web، موبایل و سرور بدون نگهداری چندین checkpoint کار کنه، این هفته انتخاب واضحه.

Liquid AI LFM2.5-8B

Liquid Foundation Model ها از یه معماری بازگشتی به جای Transformer استاندارد استفاده می‌کنن. LFM2.5-8B کل ۸B پارامتر داره ولی فقط ۱.۵B موقع inference فعاله، با ۱۲۸k context. MATH500 برابر ۸۸.۸ برای یه مدل on-device قوییه. MLX-ready از همون اول، یعنی با framework ML خود اپل روی Apple Silicon اجرا می‌شه.

این انتخابه برای هر چیزی که باید بدون round-trip به cloud به صورت محلی اجرا بشه. تعداد پارامتر فعال راحت توی حافظه یکپارچه یه M-chip جا می‌شه.

JetBrains Mellum2-12B

اولین مدل MoE باز JetBrains. ۱۲B پارامتر کل، ۲.۵B فعال، با یه حالت reasoning (“Thinking”) که شکاف با Qwen3-14B رو توی benchmarkهای کدنویسی می‌بنده. لایسنس Apache 2.0. چون JetBrains این رو مخصوصاً برای یکپارچگی IDE و code completion ساخته، ارزش تست در workflow های ایجنت کدنویسی رو داره، جایی که latency از benchmark خام مهم‌تره.

تولید تصویر

Ideogram 4 (9.3B)

Ideogram منتشر کردن open weight سورپرایز هفته‌ست. این یه Diffusion Transformer flow-matching با ۹.۳B پارامتره که از صفر آموزش دیده، نه fine-tune از یه checkpoint موجود. یه Diffusion Transformer (DiT) backbone اصلی UNet مدل‌های diffusion کلاسیک رو با یه Transformer جایگزین می‌کنه و خاصیت مقیاس‌پذیری بهتری می‌ده. Flow-matching تابع هدف آموزشیه، یه جایگزین پایدارتر نسبت به Denoising Score Matching مدل‌های قدیمی‌تر.

از نظر کلی رتبه دوم رو توی benchmarkهای طراحی داره بعد از GPT Image 2، و اولین مدل open-weight روی Design Arena و LMArena هست. نقطه قوت خاصش rendering متن داخل تصویره: لوگو، تایپوگرافی، پوستر، هر جایی که متن باید خوانا و درست نوشته باشه. این تاریخاً سخت‌ترین چیز برای مدل‌های diffusion بوده. دسترسی به وزن‌ها تغییر می‌ده که برای تیم‌های سازنده ابزار طراحی چی ممکنه.

صدا و گفتار

چهار تیم این هفته مدل صوتی منتشر کردن، که غیرمعمولیه.

Higgs Boson Health Audio v3 (4B): ۱۰۲ زبان، ۲۱ سبک احساسی مجزا شامل آواز خواندن، زمزمه کردن و فریاد زدن. زمان تا اولین صدا زیر یک ثانیه باعث می‌شه برای اپلیکیشن‌های real-time مناسب باشه. دامنه احساسی اینجا خیلی فراتر از اکثر مدل‌های TTS باز هست.

rednote dots.tts: از نظر معماری جالب‌ترینه. اکثر سیستم‌های TTS متن رو از طریق یه codec عصبی به توکن‌های صوتی گسسته تبدیل می‌کنن و از اونا synthesize می‌کنن. dots.tts کاملاً codec رو حذف می‌کنه و waveform ها رو در یه فضای کاملاً پیوسته تولید می‌کنه. Apache 2.0. مزیت عملی آرتیفکت کمتر و prosody بهتر در edge caseهاست، مخصوصاً تلفظ‌های غیرمعمول و تغییرات احساسی.

Google Magenta RealTime 2: تولید موسیقی با latency زیر ۲۰۰ میلی‌ثانیه، متن، صدا و MIDI رو به عنوان ورودی می‌پذیره. عدد latency اون رو برای ابزارهای اجرای زنده مناسب می‌کنه که یه نوازنده انسانی توی حلقه هست. ظرف چند ساعت بعد از انتشار به PyTorch پورت شد و روی ZeroGPU demos اجرا می‌شد.

NVIDIA Nemotron-3.5 ASR (600M): یه مدل streaming ASR که ۱۷ برابر بیشتر stream همزمان نسبت به Parakeet RNNT 1.1B با دقت قابل مقایسه پردازش می‌کنه. RNNT (Recurrent Neural Network Transducer) یه معماریه که encoder، prediction network و joint network رو ترکیب می‌کنه تا تبدیل گفتار به متن به صورت streaming بدون نیاز به کل توالی صوتی امکان‌پذیر بشه. این ضریب ۱۷x concurrency مستقیماً به هزینه زیرساخت به ازای هر ساعت صدای پردازش‌شده تبدیل می‌شه.

بینایی و چندوجهی

StepFun Step-3.7-Flash: ۱۹۸B sparse MoE با حدود ۱۱B پارامتر فعال. نمره SWE-Bench PRO برابر ۵۶.۳ برای یه مدل vision-language قابل توجهه؛ benchmarkهای مهندسی نرم‌افزار معمولاً توسط مدل‌های text-only غلبه می‌کنن. Apache 2.0.

PaddleOCR-VL-1.6: تجزیه اسناد در ۱B پارامتر. اکثر مدل‌های document understanding به checkpointهای خیلی بزرگ‌تر نیاز دارن تا layout های پیچیده، جداول و محتوای ترکیبی متن/تصویر رو به طور قابل اعتماد مدیریت کنن. در ۱B روی سخت‌افزاری قابل استقراره که VLM های سنگین‌تر رو نمی‌کشه.

Baidu NAVA (6.3B): تولید ترکیبی صدا و ویدیو با بهترین همگام‌سازی صوتی-تصویری موجود. تولید ویدیویی که حرکات دهان با صدا تطابق داشته باشه، یا صدای محیط با محتوای صحنه تطابق داشته باشه، یه ضعف مداوم مدل‌های ویدیویی باز بوده. NAVA مشکل sync رو در سطح مدل حل می‌کنه نه به عنوان مرحله post-processing. Apache 2.0.

ویدیو، سه‌بعدی و World Models

NVIDIA Cosmos3-Super (64B): یه world model همه‌جانبه برای Physical AI. کاربرد اصلی رباتیک و سیستم‌های خودکاره، نه تولید محتوا. مسیرهای حرکتی رو با تولید ویدیو و صدا ترکیب می‌کنه و بهت اجازه می‌ده خروجی‌ها رو بر اساس “اگه بازوی ربات این‌طور حرکت کنه چی می‌شه” شرط‌بندی کنی. مخاطبش محیط‌های شبیه‌سازی برای آموزش ربات هست.

JD JoyAI-Echo: تبدیل متن به ویدیو تا ۵ دقیقه، ساخته شده روی LTX-2.3. پنج دقیقه ویدیوی multi-shot منسجم از متن یه جهش قابلیت معناداره؛ اکثر مدل‌های باز در ۱۰-۱۵ ثانیه به سقف می‌رسن. Multi-shot یعنی مدل سازگاری صحنه و شخصیت رو در طول cut ها حفظ می‌کنه، که مشکل سخت‌تره.

ByteDance Bernini-R + VAST TripoSplat: تولید سه‌بعدی از یه تصویر واحد با Gaussian Splatting، زیر لایسنس MIT. Gaussian Splatting یه صحنه سه‌بعدی رو به عنوان مجموعه‌ای از ellipsoid های نیمه‌شفاف نمایش می‌ده، هر کدوم با یه رنگ و opacity، به جای mesh یا voxel grid سنتی. رندر سریعیه و از هر زاویه‌ای view فتورئالیستی می‌ده. لایسنس MIT یعنی بدون محدودیت در محصولات تجاری قابل استفاده‌ست.

این هفته واقعاً چی معناش هست

الگوی مشترک همه این انتشارها فشرده‌سازیه. مدل‌هایی که شش ماه پیش به زیرساخت مقیاس frontier نیاز داشتن الان روی لپ‌تاپ اجرا می‌شن. شکاف بین کاری که با یه API بسته ممکنه و کاری که با وزن‌های محلی ممکنه، سریع‌تر از چیزی که اکثر مردم انتظار داشتن داره بسته می‌شه.

سوال جالب‌تر اینه که چی سر لایه deployment می‌آد. اجرای یه endpoint مدل واحد ساده‌ست. اجرای یه fleet ناهمگن که درخواست‌های مختلف به مدل‌های تخصصی مختلف روت می‌شن (LFM2.5 برای on-device، Nemotron Ultra برای reasoning پیچیده، Ideogram 4 برای کارهای طراحی) به تفکر واقعی زیرساختی نیاز داره: منطق routing، fallback ها، نظارت بر هزینه، SLO های latency به ازای هر نوع مدل.

اینه بخشی که تو یه LinkedIn post نمی‌آد. اینه بخشی که در دوازده ماه آینده بیشترین اهمیت رو خواهد داشت.

بیست و پنج مدل open-weight در یه هفته. بررسی یه متخصص.

انتخاب سریع

مدل‌های زبانی

تولید تصویر

صدا و گفتار

بینایی و چندوجهی

ویدیو، سه‌بعدی و World Models

این هفته واقعاً چی معناش هست

مطالب مرتبط

جنرالیست در برابر متخصص در عصر هوش مصنوعی ایجنتی

Anthropic سه روز بعد از لانچ خاموش شد. این یعنی چی.

گیت‌لب داره هسته‌اش رو برای عصر ایجنتی از نو می‌سازه. وقتش هم درسته.