چگونه چت GPT آموزش دیده است؟

اگر با ChatGPT آشنایی دارید، شاید شنیده باشید که این ربات بر اساس یک مجموعه وسیع از داده‌ها آموزش داده شده است. اما این دقیقا به چه معناست؟ در این مقاله، به پیچیدگی‌های نحوه یادگیری ChatGPT می‌پردازیم.

ChatGPT یک مدل زبان قبل از آموزش است که به وسیله ترکیب تکنیک های یادگیری نظارت شده و تقویتی تنظیم شده است. در فرآیند آموزش ChatGPT، مقدار زیادی داده متنی وارد مدل شده و پارامترهای آن تنظیم می شوند تا بتواند متنی مشابه با متن کورپوس آموزشی تولید کند.

برای این فرآیند از رویکرد یادگیری بدون نظارت استفاده شد، به معنای اینکه مدل بازخورد صریحی در مورد صحت یا نادرست بودن متن تولیدی خود دریافت نکرده است. به جای آن، مدل با توجه به شباهت متن تولیدی به متن موجود در مجموعه آموزشی، پارامترهای خود را تنظیم می‌کند.

GPT-3، مدل بالادستی ChatGPT-3، یکی از بزرگترین مدل‌های زبانی تا به حال با 175 میلیارد پارامتر و 2048 توکن طول متن است. این مدل بر روی صدها بیلیون کلمه از متون Common Crawl، WebText2، Books1/2، Wikipedia به زبان انگلیسی و نمونه کد برنامه‌نویسی به زبان CSS، JSX، Python و زبان‌های برنامه‌نویسی دیگر آموزش دیده است.

روش آموزش استفاده شده برای GPT-3 پیش‌آموزش تولیدی است، به این معنی که آن برای پیش‌بینی توکن یا کلمه بعدی در جمله ورودی آموزش دیده شده است.

بهترین جایگزین چت جی پی تی

آموزش نظارت شده

مدل ChatGPT از طریق فرایند آموزش با نظارت بشری توسط مربیان شخصی‌سازی شده است. این مربیان با برداشتن نقش هم از کاربر و هم از دستیار هوش مصنوعی در مکالمات شرکت کرده‌اند.

آن‌ها از پیشنهادات مدل برای هدایت کردن خود در ترکیب پاسخ‌هایشان استفاده کردند، که سپس با مجموعه داده InstructGPT که به فرمت دیالوگ تبدیل شده بود، تلفیق شد.

یادگیری تقویتی

مدل با استفاده از بهینه سازی سیاست مجاورتی (PPO) از طریق یادگیری تقویتی بهبود یافت. مربیان انسانی پاسخ‌های تولید شده توسط مدل در یک گفتگوی قبلی را ارزیابی کردند و از آن‌ها استفاده کردند تا مدل‌های پاداش را توسعه دهند. سپس، مدل بر اساس این مدل‌های پاداش بهبود یافت.

فرآیند تنظیم دقیق چندین بار صورت گرفت تا عملکرد بهتری حاصل شود. الگوریتم های PPO در مقایسه با سایر الگوریتم ها هزینه فعالیت کمتری دارند و عملکرد سریع تری دارند که آن ها را برای این فرآیند مناسب می کند.

اوپن ای آی ادامه می دهد که اطلاعاتی از کاربرانی که با ChatGPT تعامل دارند جمع آوری کند، که سپس می تواند برای بهبود و رفع ایرادات بیشتر مدل استفاده کند.

کاربران این امکان را دارند که با امتیاز بندی "رو به بالا" یا "رو به پایین"، به پاسخ های ChatGPT رای دهند و همچنین امکان ارایه بازخورد اضافی را نیز دارند. این داده های استفاده شده است برای بهبود عملکرد مدل و ایجاد مدل بهتری در تولید متن شبیه به انسان باشد.

داده های استفاده شده برای آموزش مدل

چت‌ جی‌پیتی-۳ یک مدل زبانی مبتنی بر سری ۳.۵ جی‌پی‌تی است، که با استفاده از زیرساخت هوش مصنوعی ابری Azure، انجام شده است. این مدل با استفاده از مقدار عظیمی از متن‌های جمع‌آوری شده از اینترنت، شامل کتاب‌ها، فروم‌های گفتگو، مقالات، وبسایت‌ها، مقالات علمی، کد، و منابع دیگر، آموزش داده شده است.

مجموعه داده‌های مورد استفاده برای آموزش ChatGPT-3 بیش از 45 ترابایت بود که اندازه بسیار بزرگی است و به قابلیت این مدل برای تولید متونی که شبیه به آنچه یک روزنامه نگار یا نویسنده می‌تواند تولید کند، کمک کرده است.

چگونه چت‌جی‌پی‌تی آموزش دیده است؟

آموزش نظارت شده

یادگیری تقویتی

داده های استفاده شده برای آموزش مدل

مقالات مرتبط