سرانجام Devs در مورد کارآیی جدی می شود • ثبت نام

[ad_1] نشان اگر طی چند سال گذشته از توسعه هوش مصنوعی پیروی کرده اید ، یک روند ثابت باقی مانده است: مدل های بزرگتر معمولاً باهوش تر هستند ، اما اجرای آن نیز سخت تر است. این امر به ویژه در بخش هایی از جهان که دسترسی به تراشه های پیشرفته AI آمریکا محدود است
[ad_1]
نشان اگر طی چند سال گذشته از توسعه هوش مصنوعی پیروی کرده اید ، یک روند ثابت باقی مانده است: مدل های بزرگتر معمولاً باهوش تر هستند ، اما اجرای آن نیز سخت تر است.
این امر به ویژه در بخش هایی از جهان که دسترسی به تراشه های پیشرفته AI آمریکا محدود است ، مشکل ساز است – مانند مثلاً چین.
اما حتی در خارج از چین ، سازندگان مدل به طور فزاینده ای به سمت معماری های متخصصان (MOE) به همراه فناوری فشرده سازی در حال ظهور روی می آورند تا نیازهای محاسباتی را در خدمت مدلهای بزرگ زبان (LLM) کاهش دهند. تقریباً سه سال از زمان شروع چتپپ به دنبال رونق AI ، به نظر می رسد که افراد بالاخره شروع به فکر کردن در مورد هزینه اجرای این چیزها می کنند.
برای روشن شدن ، ما قبلاً مدل های MOE را دیدیم ، مانند Mixtral Mistral AI ، اما این تنها در سال گذشته است یا این فناوری واقعاً از بین رفته است.
در طی چند ماه گذشته ، ما موجی از LLM های جدید با وزن باز از امثال مایکروسافت ، گوگل ، IBM ، متا ، Deepseek و Alibaba را بر اساس نوعی معماری مخلوط (MOE) مشاهده کرده ایم.
و دلیل آن ساده است: معماری بسیار کارآمدتر از معماری های سنتی “متراکم” است.
طاق دیوار حافظه
برای اولین بار در اوایل دهه 90 در یک مقاله شرح داده شد [PDF] با عنوان “مخلوط های تطبیقی کارشناسان محلی” ، ایده اصلی این است که به جای یک مدل بزرگ بزرگ که روی همه چیز آموزش دیده است ، کار به یک یا چند مورد از هر تعداد زیر مدل های کوچکتر یا “متخصص” منتقل می شود.
از نظر تئوری ، هر یک از این متخصصان می توانند برای یک کار خاص دامنه مانند برنامه نویسی ، ریاضیات یا نوشتن بهینه شوند. متأسفانه ، تعداد کمی از سازندگان مدل در مورد متخصصان مختلفی که مدل های MOE خود را تشکیل می دهند ، به جزئیات زیادی می پردازند و تعداد دقیق آن از مدل به مدل دیگر متفاوت است. بیت مهم فقط بخش کوچکی از مدل در هر لحظه در حال استفاده است.
به عنوان مثال ، مدل V3 Deepseek از 256 متخصص مسیریابی شده به همراه یک متخصص مشترک تشکیل شده است. اما فقط هشت متخصص مسیریابی ، به علاوه مشترک مشترک ، در هر نشانه فعال می شوند.
به همین دلیل ، مدل های MOE همیشه با کیفیت مدل های متراکم به اندازه مشابه مطابقت ندارند. به عنوان مثال از مدل QWEN3-30B-A3B Alibaba استفاده کنید. این به طور مداوم در پشت مدل متراکم QWEN3-32B در آزمایش معیار خود علی بابا قرار گرفت.
از دست دادن کیفیت – حداقل در صورت اعتقاد به معیارها – در مقایسه با جهش در کارآیی به دست آمده از معماری MOE بسیار جزئی است. پارامترهای فعال کمتری نیز به این معنی است که میزان پهنای باند حافظه مورد نیاز برای دستیابی به سطح معین از عملکرد دیگر متناسب با ظرفیت مورد نیاز برای ذخیره وزن مدل نیست.
به عبارت دیگر ، مدل های MOE هنوز هم ممکن است به یک تن حافظه احتیاج داشته باشند ، اما دیگر لازم نیست HBM فوق العاده سریع یا فوق العاده پرقدرت باشد.
برای نشان دادن این موضوع ، بیایید نیازهای سیستم را برای بزرگترین مدل “متراکم” متا ، Llama 3.1 405b ، با Llama 4 Maverick مقایسه کنیم که تقریباً به اندازه بزرگ است ، اما از معماری MOE با 17 میلیارد پارامتر فعال استفاده می کند.
عواملی مانند اندازه دسته ای ، عملکرد نقطه شناور ، و حافظه پنهان ارزش کلیدی همه در عملکرد دنیای واقعی بازی می کنند ، اما حداقل می توانیم با ضرب اندازه آن در گیگابیت ها با دقت مشخص (1 بایت در هر پارامتر) با ضرب و شتم اندازه آن ، حداقل از حداقل پهنای باند یک مدل استفاده کنیم.
برای اجرای یک نسخه 8 بیتی LLAMA 3.1 405B-بیشتر در مورد کمیت در کمی-به بیش از 405 گیگابایت VRAM و حداقل 20 tb/s پهنای باند حافظه نیاز دارید تا بتوانید متن را در 50 نشانه در ثانیه تولید کنید.
برای مرجع ، سیستم های مبتنی بر HGX H100 NVIDIA ، که به شما یادآوری می کنیم تا همین اواخر 300000 دلار یا بیشتر می فروشید ، فقط 640 گیگابایت HBM3 و حدود 26.8 TB/S پهنای باند کل داشت. اگر می خواستید مدل کامل 16 بیتی را اجرا کنید ، حداقل به دو مورد از آنها احتیاج داشتید.
در مقایسه ، Llama 4 Maverick هنوز هم همان مقدار حافظه را مصرف می کند ، اما برای دستیابی به عملکرد یکسان به کمتر از 1 تن در ثانیه پهنای باند نیاز دارد. دلیل این امر این است که تنها 17 میلیارد پارامتر از متخصصان مدل در واقع برای تولید خروجی استفاده می شود.
این بدان معناست که ، در همان سخت افزار ، Llama 4 Maverick باید متن را سریعتر از Llama 3.1 405b ایجاد کند.
از طرف دیگر ، اگر عملکرد به اندازه نگرانی بزرگ نباشد ، اکنون می توانید با اجرای بسیاری از این مدل ها بر روی ارزان تر ، هرچند کندتر GDDR6 ، GDDR7 یا حتی DDR در مورد جدیدترین Xeons اینتل فاصله بگیرید.
سرورهای جدید RTX Pro NVIDIA که این هفته در Computex اعلام شده اند ، دقیقاً این کار را انجام می دهند. به جای حافظه پهنای باند بالا (HBM) ، که گران قیمت ، گرسنه است و برای ادغام نیاز به بسته بندی پیشرفته دارد ، هر یک از هشت GPU RTX PRO 6000 موجود در سیستم دارای 96 گیگابایت حافظه GDDR7 است-همان نوع که در کارت بازی مدرن پیدا می کنید.
این سیستم ها با ترکیب ، حداکثر 768 گیگابایت VRAM و 12.8 TB/S پهنای باند کل را ارائه می دهند – بیش از اندازه کافی برای اجرای Llama 4 Maverick در چند صد توکن در ثانیه.
Nvidia قیمت گذاری را به اشتراک نگذاشته است ، اما با نسخه ایستگاه کاری این کارت ها که در حال حاضر با قیمت 8،500 دلار خرده فروشی می شود ، تعجب نخواهیم کرد که آنها را برای کمتر از نیمی از آنچه HGX H100 استفاده می کرد ، بفروشیم.
با این گفته ، MOE پایان GPU های پشته HBM را هجی نمی کند. ما انتظار نداریم که Llama 4 Behemoth را ببینیم – با فرض اینکه کشتی ها همیشه – روی هر چیزی کوتاه از یک قفسه پر از GPU اجرا شود.
در حالی که این چیز تقریباً نیمی از پارامترهای فعال به عنوان Llama 3.1 405b دارد ، در کل 2 تریلیون از آنها دارد. امروز یک سرور GPU معمولی در بازار وجود ندارد که می تواند متناسب با مدل کامل 16 بیتی باشد و به ناچار یک پنجره زمینه توکن میلیون به علاوه است.
آیا سرانجام CPU ها لحظه هوش مصنوعی خود را دارند؟
بسته به مورد استفاده شما ، ممکن است به هیچ وجه به GPU احتیاج نداشته باشید-چیزی که ممکن است در مناطقی که واردات شتاب دهنده های سطح بالا محدود می شود ، مفید باشد.
در ماه آوریل ، اینتل یک پلت فرم Xeon 6 سوکت دوتایی مجهز به مکمل کامل 8800 MT/S MCRDIMMS را به دست آورد و به یک توان در Llama 4 Maverick از 240 نشانه در ثانیه با یک تاخیر در بازده متوسط کمتر از 100 میلی ثانیه در هر نشانه رسید.
به طور خلاصه ، پلت فرم Xeon قادر به حفظ 10 نشانه در هر ثانیه یا بهتر برای هر کاربر برای تقریباً 24 کاربر همزمان بود.
اینتل عملکرد Batch 1 (تنها کاربر) را به اشتراک نگذاشت-و ما نمی توانیم آنها را مقصر بدانیم زیرا این همه مربوط به یک متریک در دنیای واقعی نیست-اما کمی از ریاضیات عقب نشینی می گوید که بیشترین چیزی را داشت که می توانست درست در حدود 100 نشانه در ثانیه باشد.
با این گفته ، مگر اینکه گزینه های بهتری نداشته باشید یا نیازهای بسیار خاصی داشته باشید ، اقتصاد استنتاج مبتنی بر CPU هنوز به شدت به مورد استفاده شما بستگی دارد.
برش وزن: هرس و کمیت
معماریهای MOE مطمئناً می توانند پهنای باند حافظه مورد نیاز برای ارائه مدل های بزرگتر را کاهش دهند ، اما آنها برای کاهش میزان حافظه مورد نیاز برای نگه داشتن وزن خود کاری انجام نمی دهند. همانطور که قبلاً اشاره کردیم ، حتی با دقت 8 بیتی ، Llama 4 Maverick هنوز هم بیش از 400 گیگابایت حافظه برای اجرای آن نیاز دارد ، صرف نظر از اینکه چه تعداد پارامتر فعال هستند.
با این حال ، تکنیک های هرس و کمیت در حال ظهور می تواند با کمی کار اضافی ، این کار را در نصف بدون به خطر انداختن کیفیت کاهش دهد.
Nvidia اکنون مدتی است که در هرس شرط بندی کرده است. غول GPU چندین نسخه هرس شده را منتشر کرده است – مدل هایی که دارای وزن های اضافی یا با ارزش کمتری هستند که از مدلهای Llama 3 متا استفاده شده اند.
همچنین از جمله اولین کسانی بود که پشتیبانی از داده های نقطه شناور 8 بیتی در سال 2022 را گسترش داد و دوباره با نقطه شناور 4 بیتی با راه اندازی معماری بلکول خود در سال 2024.
در حالی که کاملاً لازم نیست ، پشتیبانی سخت افزار بومی برای این داده ها به طور کلی احتمال ابتلا به تنگناهای محاسباتی را کاهش می دهد ، به خصوص هنگام خدمت در مقیاس.
در همین زمان ، ما شاهد هستیم که تعدادی از سازندگان مدل از داده های با دقت پایین ، از جمله متا ، مایکروسافت ، علیبابا و سایر موارد ارائه می دهند که نسخه های هشت بیتی و حتی چهار بیتی از مدل های خود را ارائه می دهند.
ما قبلاً کمیت را در عمق بررسی کرده ایم ، اما به طور خلاصه ، این شامل فشرده سازی وزن مدل از دقت بومی آنها ، معمولاً BF16 ، به FP8 یا Int4 است. این به طور موثری با هزینه برخی از دست دادن کیفیت ، پهنای باند حافظه و ظرفیت الزامات مدل ها را نصف می کند یا حتی چهارم می کند.
به طور کلی ، خسارات ناشی از 16 بیت به هشت معمولاً قابل توجه نیست ، و برخی از سازندگان مدل ، از جمله Deepseek ، آموزش FP8 را از زمان دریافت شروع به کار کرده اند. اما چهار بیت دیگر را حک کنید و از دست دادن کیفیت می تواند کاملاً برجسته باشد. به همین دلیل ، بسیاری از رویکردهای پس از آموزش برای کمیت ، مانند GGUF ، تمام وزن ها را به طور مساوی فشرده نمی کنند و برخی از آنها را با دقت بیشتری برای محدود کردن تلفات باقی می گذارد.
ماه گذشته ، گوگل استفاده از آموزش کمیت-آگاه (QAT) را برای کوچک کردن مدل های Gemma 3 خود با ضریب 4x ضمن دستیابی به کیفیت نزدیک به BF16 بومی نشان داد.
QAT با شبیه سازی عملیات با دقت پایین در طی فرایند آموزش کار می کند. گوگل با استفاده از فناوری برای حدود 5،000 مرحله بر روی یک مدل غیرقابل قبول ، می گوید که می تواند کاهش دفع-معیار برای اندازه گیری تلفات مرتبط با کمیت-را با 54 درصد در هنگام تبدیل به INT4 کاهش دهد.
یکی دیگر از رویکردهای مبتنی بر QAT به کمیت به نام Bitnet قصد دارد حتی مدل های فشرده سازی را حتی به 1.58 بیت یا تقریباً یک دهم اندازه آنها انجام دهد.
همه چیز را با هم گره می زند
MOE و 4 بیتی را با هم ترکیب کنید و واقعاً در حال پخت و پز هستید ، به خصوص اگر با شوک Blackwell Ultra Sticker با پهنای باند محدود شده اید ، یا به دلیل اینکه سیاست های تجاری عمو سام HBM را با ارزش تر از طلا کرده است.
برای هر کس دیگری ، هر یک از این دو فناوری می تواند تجهیزات و هزینه عملیاتی اجرای مدلهای بزرگتر و توانمندتر را به میزان قابل توجهی کاهش دهد – با فرض اینکه می توانید کاری ارزشمند برای انجام آنها پیدا کنید.
و اگر نمی توانید ، حداقل می توانید در این واقعیت که تنها نیستید ، آرامش دهید. یک بررسی اخیر IBM از 2،000 مدیرعامل نشان داد که فقط یک چهارم از استقرار هوش مصنوعی بازده سرمایه گذاری مورد نظر خود را تحویل داده است. ®
[ad_2]
لینک منبع
برچسب ها :
ناموجود- نظرات ارسال شده توسط شما، پس از تایید توسط مدیران سایت منتشر خواهد شد.
- نظراتی که حاوی تهمت یا افترا باشد منتشر نخواهد شد.
- نظراتی که به غیر از زبان فارسی یا غیر مرتبط با خبر باشد منتشر نخواهد شد.
ارسال نظر شما
مجموع نظرات : 0 در انتظار بررسی : 0 انتشار یافته : 0