Duman AI Newsletter

هنگام استفاده از مدل‌های زبانی فهرستی از متغیرهای قابل تنظیم را مشاهده خواهید کرد. شناختن این متغیرها برای بهره‌برداری مناسب از قابلیت‌های مدل‌ زبانی اهمیت دارد. بسته به نوع نیاز خود باید متغیر مناسب را پیدا کرده و تنظیم کنید. در ادامه مهم‌ترین متغیرهای قابل تنظیم در استفاده از مدل‌های زبانی معرفی می‌شود. قابل ذکر است تمامی مباحث شرح داده شده در این مقاله مربوط به LLM Inference است و ربطی به آموزش (Training) مدل‌های زبانی ندارد.

1. Max Length:

این متغیر حداکثر تعداد توکن‌های خروجی را مشخص می‌کند و در مدیریت هزینه‌های سرویس‌ LLM اهمیت دارد. هر چقدر تعداد توکن‌های خروجی بیشتر باشد، هزینه آن نیز بیشتر می‌شود (به صورت کلی هزینه استفاده از سرویس‌های LLM تابعی از سایز توکن‌های ورودی و خروجی آن است). قابل ذکر است که سایز توکن‌های ورودی مدل زبانی محدودیت دارد. این محدودیت با عنوان Context Window برای هر مدل مشخص می‌شود.

2. Stop Sequences:

مجموعه‌ای از رشته‌ها که پایان تولید متن را برای مدل زبانی مشخص می‌کند. یعنی هنگامی که رشته مورد نظر تولید شد، آنجا انتهای خروجی مدل زبانی است.

3. Frequency Penalty/ Presence Penalty:

هر دو متغیر برای کنترل میزان تکرار یک توکن و ایجاد تنوع در توکن‌های تولید شده به کار می‌روند. Presence Penalty برای محدود کردن تولید توکنی که قبلاً استفاده شده به کار می‌رود (مستقل از تعداد دفعات آن) در حالی که با Frequency Penalty این محدودیت به تعداد دفعات استفاده از آن بستگی دارد.

4. Structured Output:

تولید پاسخ با یک ساختمان داده مشخص در یکپارچگی مدل‌های زبانی با سایر ابزارها اهمیت بسیار زیادی دارد. Json و XML دو ساختمان داده بسیار کاربردی در این یکپارچگی هستند. استراتژی‌های مختلفی برای این موضوع معرفی شده است. ساده‌ترین روش این است که در پرامپ ساختار شکل خروجی را درخواست کنیم. اگرچه با پیشرفت مدل‌های زبانی تولید درخواست مورد نیاز کاربر دقیق‌تر شده ولی الزاماً این روش منجر به دریافت پاسخ صحیح نخواهد شد. برای حل این مشکل بسیاری از مدل‌های زبانی رایج مدل‌های خود را fine tune کرده و قابلیت‌هایی نظیر Function Calling، Tool Calling و یا Json Mode اضافه کرده‌اند. برای آشنایی بیشتر خواندن این مقاله پیشنهاد می‌شود.

5. متغیرهای نمونه‌برداری (LLM Inference Sampling):

روش‌های Sampling در LLM Inference روش‌هایی هستند که میزان تصادفی بودن (randomness) تولید توکن را کنترل می‌کنند. این روش‌ها می‌توانند منجر به تولید جواب‌های تکراری و پیش‌بینی پذیر شده و یا خلاقیت مدل در تولید پاسخ را بیشتر کنند. اگر هنگام استفاده از مدل‌های زبانی دقت کرده باشید، توکن‌های خروجی یک به یک تولید می‌شود، به همین جهت به آن autoregressive گفته می‌شود. مکانیزم مدل‌های زبانی به این صورت است که به مجموعه‌ای از توکن‌ها از ۰ تا ۱۰۰ درصد احتمال تخصیص داده و از میان آن‌ها توکن بعدی را انتخاب می‌کند. در تسک‌هایی نظیر QA، استنتاج و ریاضی و خلاصه‌سازی از میزان تصادفی بودن کاسته می‌شود و در تسک‌هایی نظیر ایده‌پردازی و نوشتن شعر به میزان تصادفی بودن افزوده می‌شود. البته بسته به نیاز خود می‌توانید میزان تصادفی بودن را تنظیم و کنترل کنید. در ادامه مهم‌ترین روش‌های Sampling معرفی می‌‌شود. روش‌های Sampling محدود به این موارد نیست. همچنین شما می‌توانید ترکیبی از روش‌های Sampling را به کار ببرید.

5.1 Temperature Sampling:

هر چقدر مقدار Temperature به صفر نزدیک باشد، پاسخ مدل پیش‌بینی پذیرتر می‌شود. در این حالت، توکن بعدی از میان توکن‌های با احتمال بالا انتخاب می‌شود. اگر مقدار Temperature زیاد باشد (نزدیک ۱ و بیشتر) توکن بعد به توکن‌های با احتمال بالا محدود نشده و تنوع بیشتری برای انتخاب توکن اعمال می‌شود، این موضوع منجر به افزایش خلاقیت و تصادفی بودن بیشتر در پاسخ می‌شود. مقدار Temperature صفر یا عدد حقیقی مثبت است. مقادیر بیشتر از ۱ رایج نیست.

5.2 Top K Sampling:

در این روش توکن بعدی به K توکن با بیش‌ترین احتمال محدود می‌شود. بدیهی است هر چقدر مقدار K کم باشد پاسخ مدل منسجم‌تر شده و میزان تصادفی بودن آن کمتر می‌شود. از طرفی با زیاد شدن K میزان تصادفی بودن در پاسخ بیشتر می‌شود. مقدار K عدد طبیعی است (یک و بیشتر از یک).

5.3 Top P Sampling:

در این روش، توکن بعدی به مجموعه‌ای که جمع احتمال آن‌ها بیشتر از P باشد محدود می‌شود. به این ترتیب بر خلاف Top K Sampling تعداد توکن‌های قابل انتخاب در هر گام ثابت نبوده و می‌تواند تغییر کند. هر چقدر مقدار P کم باشد، توکن‌های قابل انتخاب کمتر شده و در نتیجه تصادفی بودن پاسخ کمتر می‌شود. و هر چقدر مقدار P زیاد باشد، تعداد توکن‌های قابل انتخاب بیشتر شده و در نتیجه پاسخ تصادفی‌تر می‌شود. مقدار P یک عدد مثبت حقیقی بین ۰ و ۱ است.

5.4 Min-P Sampling:

در این روش، توکن بعدی به توکن‌هایی با احتمال P و بیشتر محدود می‌شود. هر چقدر مقدار P کمتر باشد، تعداد توکن‌های قابل انتخاب بیشتر شده و میزان تصادفی‌ بودن پاسخ نیز بیشتر می‌شود. در عین حال هر چقدر مقدار P بیشتر شود، تعداد توکن‌های قابل انتخاب کمتر شده و از میزان تصادفی بودن پاسخ کاسته می‌شود. مقدار P یک عدد مثبت حقیقی بین ۰ و ۱ است.

پیکربندی و تنظیم مدل‌های زبانی