۲۳ خرداد ۲۵۸۵ · 8 دقیقه مطالعه
بیست و پنج مدل open-weight در یه هفته. بررسی یه متخصص.
یه عبارت این هفته تو محافل هوش مصنوعی دست به دست میگشت: “open AI، به فاصله توجه کن.” یه طعنه عمدی به موضع هر روز بستهتر OpenAI شرکت، و اشارهای به اینکه جالبترین اتفاقات هوش مصنوعی الان تو فضای open-weight داره میافته.
هفته گذشته بیش از ۲۵ مدل open-weight قابل توجه منتشر شد، از متن، تصویر، صدا، ویدیو تا تولید سهبعدی. این یه هفته عادی نیست. برای متخصصهایی که اول میخوان نتیجه رو بدونن، اینجا نسخه خلاصه هست.
انتخاب سریع
| کاربرد | مدل | چرا |
|---|---|---|
| On-Device / Apple Silicon | Liquid AI LFM2.5-8B | ۱.۵B پارامتر فعال، MLX-ready |
| مالتیمودال قابل استقرار | Google Gemma 4 12B | یه checkpoint، ONNX + MLX، ۱۴۰+ زبان |
| Frontier Reasoning (ابری) | NVIDIA Nemotron 3 Ultra | ۸۹.۱ MMLU، ۱M context، ۵۵B فعال |
| ایجنتهای کدنویسی | JetBrains Mellum2-12B | ساخته شده برای IDE، ۲.۵B فعال |
| متن در تصویر / طراحی | Ideogram 4 | اول open-weight روی Design Arena |
| TTS بلادرنگ | Higgs Boson Health Audio v3 | اولین صدا زیر یک ثانیه، ۲۱ احساس |
| TTS بدون آرتیفکت | rednote dots.tts | بدون codec، موج پیوسته |
| تبدیل گفتار به متن در مقیاس | NVIDIA Nemotron-3.5 ASR | ۱۷ برابر concurrency نسبت به Parakeet RNNT |
| تجزیه اسناد | PaddleOCR-VL-1.6 | بهترین در ۱B پارامتر |
| تولید صدا-ویدیو | Baidu NAVA | بهترین همگامسازی A/V در open weights |
| ویدیوی بلند | JD JoyAI-Echo | تا ۵ دقیقه، multi-shot |
| تصویر به سهبعدی | VAST TripoSplat | لایسنس MIT، Gaussian Splatting |
| شبیهسازی رباتیک | NVIDIA Cosmos3-Super | Physical AI، ویدیوی شرطبندیشده بر اکشن |
مدلهای زبانی
NVIDIA Nemotron 3 Ultra (550B)
عدد جذاب ۵۵۰ میلیارد پارامتره، ولی عدد جالبتر ۵۵ میلیارده: تعداد پارامترهای فعال موقع inference. Nemotron Ultra از یه معماری هایبرید Mamba-MoE استفاده میکنه که مدلهای State-Space بازگشتی (Mamba) رو با روتینگ Mixture-of-Experts ترکیب میکنه. به جای اینکه همه پارامترها برای هر token فعال بشن، MoE هر token رو از طریق یه زیرمجموعه کوچیک از شبکههای متخصص روت میکنه.
پنجره context یک میلیون token اون رو تو همون دسته Gemini 1.5 Pro برای کارهای long-document قرار میده. با ۸۹.۱ روی MMLU جای محکمی تو قلمرو frontier داره. ورژن NVFP4 از یه فرمت اعشار شناور ۴ بیتی استفاده میکنه که اعداد رو در بلوکهایی با یه ضریب مقیاس مشترک گروهبندی میکنه، تا دامنه داینامیک رو با footprint حافظه کوچیک حفظ کنه. انویدیا ادعا میکنه روی Blackwell نسبت به FP16 استاندارد ۵ برابر throughput بیشتر داره. برای تیمهایی که کلاستر Blackwell دارن، ارزش بررسی جدی داره. برای بقیه، ۵۵۰B وزن به معنای multi-node بودنه به هر حال.
Google Gemma 4 12B
Gemma 4 قابلاستفادهترین مدل هفته برای استقرار عملیه. متن، تصویر، صدا و ویدیو رو تو یه معماری encoder-free تک پشتیبانی میکنه، ۲۵۶k context داره و ۱۴۰+ زبان رو پوشش میده. نمره AIME 2026 برابر ۷۷.۵ اون رو تو استدلال ریاضی از اکثر مدلهای دو برابر بزرگتر جلو میندازه.
چیزی که عملیاتی متمایزش میکنه امواج ۲۳-checkpoint QAT هست. Quantization-Aware Training یعنی مدل از اول با هدف quantization آموزش دیده، نه اینکه بعداً کوچیک شده باشه. گوگل به صورت همزمان ورژنهای ONNX و MLX منتشر کرد، یعنی بدون مرحله quantization جداگانه روی موبایل یا Apple Silicon اجرا میشه. اگه یه مدل واحد میخوای که روی web، موبایل و سرور بدون نگهداری چندین checkpoint کار کنه، این هفته انتخاب واضحه.
Liquid AI LFM2.5-8B
Liquid Foundation Model ها از یه معماری بازگشتی به جای Transformer استاندارد استفاده میکنن. LFM2.5-8B کل ۸B پارامتر داره ولی فقط ۱.۵B موقع inference فعاله، با ۱۲۸k context. MATH500 برابر ۸۸.۸ برای یه مدل on-device قوییه. MLX-ready از همون اول، یعنی با framework ML خود اپل روی Apple Silicon اجرا میشه.
این انتخابه برای هر چیزی که باید بدون round-trip به cloud به صورت محلی اجرا بشه. تعداد پارامتر فعال راحت توی حافظه یکپارچه یه M-chip جا میشه.
JetBrains Mellum2-12B
اولین مدل MoE باز JetBrains. ۱۲B پارامتر کل، ۲.۵B فعال، با یه حالت reasoning (“Thinking”) که شکاف با Qwen3-14B رو توی benchmarkهای کدنویسی میبنده. لایسنس Apache 2.0. چون JetBrains این رو مخصوصاً برای یکپارچگی IDE و code completion ساخته، ارزش تست در workflow های ایجنت کدنویسی رو داره، جایی که latency از benchmark خام مهمتره.
تولید تصویر
Ideogram 4 (9.3B)
Ideogram منتشر کردن open weight سورپرایز هفتهست. این یه Diffusion Transformer flow-matching با ۹.۳B پارامتره که از صفر آموزش دیده، نه fine-tune از یه checkpoint موجود. یه Diffusion Transformer (DiT) backbone اصلی UNet مدلهای diffusion کلاسیک رو با یه Transformer جایگزین میکنه و خاصیت مقیاسپذیری بهتری میده. Flow-matching تابع هدف آموزشیه، یه جایگزین پایدارتر نسبت به Denoising Score Matching مدلهای قدیمیتر.
از نظر کلی رتبه دوم رو توی benchmarkهای طراحی داره بعد از GPT Image 2، و اولین مدل open-weight روی Design Arena و LMArena هست. نقطه قوت خاصش rendering متن داخل تصویره: لوگو، تایپوگرافی، پوستر، هر جایی که متن باید خوانا و درست نوشته باشه. این تاریخاً سختترین چیز برای مدلهای diffusion بوده. دسترسی به وزنها تغییر میده که برای تیمهای سازنده ابزار طراحی چی ممکنه.
صدا و گفتار
چهار تیم این هفته مدل صوتی منتشر کردن، که غیرمعمولیه.
Higgs Boson Health Audio v3 (4B): ۱۰۲ زبان، ۲۱ سبک احساسی مجزا شامل آواز خواندن، زمزمه کردن و فریاد زدن. زمان تا اولین صدا زیر یک ثانیه باعث میشه برای اپلیکیشنهای real-time مناسب باشه. دامنه احساسی اینجا خیلی فراتر از اکثر مدلهای TTS باز هست.
rednote dots.tts: از نظر معماری جالبترینه. اکثر سیستمهای TTS متن رو از طریق یه codec عصبی به توکنهای صوتی گسسته تبدیل میکنن و از اونا synthesize میکنن. dots.tts کاملاً codec رو حذف میکنه و waveform ها رو در یه فضای کاملاً پیوسته تولید میکنه. Apache 2.0. مزیت عملی آرتیفکت کمتر و prosody بهتر در edge caseهاست، مخصوصاً تلفظهای غیرمعمول و تغییرات احساسی.
Google Magenta RealTime 2: تولید موسیقی با latency زیر ۲۰۰ میلیثانیه، متن، صدا و MIDI رو به عنوان ورودی میپذیره. عدد latency اون رو برای ابزارهای اجرای زنده مناسب میکنه که یه نوازنده انسانی توی حلقه هست. ظرف چند ساعت بعد از انتشار به PyTorch پورت شد و روی ZeroGPU demos اجرا میشد.
NVIDIA Nemotron-3.5 ASR (600M): یه مدل streaming ASR که ۱۷ برابر بیشتر stream همزمان نسبت به Parakeet RNNT 1.1B با دقت قابل مقایسه پردازش میکنه. RNNT (Recurrent Neural Network Transducer) یه معماریه که encoder، prediction network و joint network رو ترکیب میکنه تا تبدیل گفتار به متن به صورت streaming بدون نیاز به کل توالی صوتی امکانپذیر بشه. این ضریب ۱۷x concurrency مستقیماً به هزینه زیرساخت به ازای هر ساعت صدای پردازششده تبدیل میشه.
بینایی و چندوجهی
StepFun Step-3.7-Flash: ۱۹۸B sparse MoE با حدود ۱۱B پارامتر فعال. نمره SWE-Bench PRO برابر ۵۶.۳ برای یه مدل vision-language قابل توجهه؛ benchmarkهای مهندسی نرمافزار معمولاً توسط مدلهای text-only غلبه میکنن. Apache 2.0.
PaddleOCR-VL-1.6: تجزیه اسناد در ۱B پارامتر. اکثر مدلهای document understanding به checkpointهای خیلی بزرگتر نیاز دارن تا layout های پیچیده، جداول و محتوای ترکیبی متن/تصویر رو به طور قابل اعتماد مدیریت کنن. در ۱B روی سختافزاری قابل استقراره که VLM های سنگینتر رو نمیکشه.
Baidu NAVA (6.3B): تولید ترکیبی صدا و ویدیو با بهترین همگامسازی صوتی-تصویری موجود. تولید ویدیویی که حرکات دهان با صدا تطابق داشته باشه، یا صدای محیط با محتوای صحنه تطابق داشته باشه، یه ضعف مداوم مدلهای ویدیویی باز بوده. NAVA مشکل sync رو در سطح مدل حل میکنه نه به عنوان مرحله post-processing. Apache 2.0.
ویدیو، سهبعدی و World Models
NVIDIA Cosmos3-Super (64B): یه world model همهجانبه برای Physical AI. کاربرد اصلی رباتیک و سیستمهای خودکاره، نه تولید محتوا. مسیرهای حرکتی رو با تولید ویدیو و صدا ترکیب میکنه و بهت اجازه میده خروجیها رو بر اساس “اگه بازوی ربات اینطور حرکت کنه چی میشه” شرطبندی کنی. مخاطبش محیطهای شبیهسازی برای آموزش ربات هست.
JD JoyAI-Echo: تبدیل متن به ویدیو تا ۵ دقیقه، ساخته شده روی LTX-2.3. پنج دقیقه ویدیوی multi-shot منسجم از متن یه جهش قابلیت معناداره؛ اکثر مدلهای باز در ۱۰-۱۵ ثانیه به سقف میرسن. Multi-shot یعنی مدل سازگاری صحنه و شخصیت رو در طول cut ها حفظ میکنه، که مشکل سختتره.
ByteDance Bernini-R + VAST TripoSplat: تولید سهبعدی از یه تصویر واحد با Gaussian Splatting، زیر لایسنس MIT. Gaussian Splatting یه صحنه سهبعدی رو به عنوان مجموعهای از ellipsoid های نیمهشفاف نمایش میده، هر کدوم با یه رنگ و opacity، به جای mesh یا voxel grid سنتی. رندر سریعیه و از هر زاویهای view فتورئالیستی میده. لایسنس MIT یعنی بدون محدودیت در محصولات تجاری قابل استفادهست.
این هفته واقعاً چی معناش هست
الگوی مشترک همه این انتشارها فشردهسازیه. مدلهایی که شش ماه پیش به زیرساخت مقیاس frontier نیاز داشتن الان روی لپتاپ اجرا میشن. شکاف بین کاری که با یه API بسته ممکنه و کاری که با وزنهای محلی ممکنه، سریعتر از چیزی که اکثر مردم انتظار داشتن داره بسته میشه.
سوال جالبتر اینه که چی سر لایه deployment میآد. اجرای یه endpoint مدل واحد سادهست. اجرای یه fleet ناهمگن که درخواستهای مختلف به مدلهای تخصصی مختلف روت میشن (LFM2.5 برای on-device، Nemotron Ultra برای reasoning پیچیده، Ideogram 4 برای کارهای طراحی) به تفکر واقعی زیرساختی نیاز داره: منطق routing، fallback ها، نظارت بر هزینه، SLO های latency به ازای هر نوع مدل.
اینه بخشی که تو یه LinkedIn post نمیآد. اینه بخشی که در دوازده ماه آینده بیشترین اهمیت رو خواهد داشت.