اگر با ChatGPT آشنایی دارید، شاید شنیده باشید که این ربات بر اساس یک مجموعه وسیع از دادهها آموزش داده شده است. اما این دقیقا به چه معناست؟ در این مقاله، به پیچیدگیهای نحوه یادگیری ChatGPT میپردازیم.
ChatGPT یک مدل زبان قبل از آموزش است که به وسیله ترکیب تکنیک های یادگیری نظارت شده و تقویتی تنظیم شده است. در فرآیند آموزش ChatGPT، مقدار زیادی داده متنی وارد مدل شده و پارامترهای آن تنظیم می شوند تا بتواند متنی مشابه با متن کورپوس آموزشی تولید کند.
برای این فرآیند از رویکرد یادگیری بدون نظارت استفاده شد، به معنای اینکه مدل بازخورد صریحی در مورد صحت یا نادرست بودن متن تولیدی خود دریافت نکرده است. به جای آن، مدل با توجه به شباهت متن تولیدی به متن موجود در مجموعه آموزشی، پارامترهای خود را تنظیم میکند.
GPT-3، مدل بالادستی ChatGPT-3، یکی از بزرگترین مدلهای زبانی تا به حال با 175 میلیارد پارامتر و 2048 توکن طول متن است. این مدل بر روی صدها بیلیون کلمه از متون Common Crawl، WebText2، Books1/2، Wikipedia به زبان انگلیسی و نمونه کد برنامهنویسی به زبان CSS، JSX، Python و زبانهای برنامهنویسی دیگر آموزش دیده است.
روش آموزش استفاده شده برای GPT-3 پیشآموزش تولیدی است، به این معنی که آن برای پیشبینی توکن یا کلمه بعدی در جمله ورودی آموزش دیده شده است.
آموزش نظارت شده
مدل ChatGPT از طریق فرایند آموزش با نظارت بشری توسط مربیان شخصیسازی شده است. این مربیان با برداشتن نقش هم از کاربر و هم از دستیار هوش مصنوعی در مکالمات شرکت کردهاند.
آنها از پیشنهادات مدل برای هدایت کردن خود در ترکیب پاسخهایشان استفاده کردند، که سپس با مجموعه داده InstructGPT که به فرمت دیالوگ تبدیل شده بود، تلفیق شد.
یادگیری تقویتی
مدل با استفاده از بهینه سازی سیاست مجاورتی (PPO) از طریق یادگیری تقویتی بهبود یافت. مربیان انسانی پاسخهای تولید شده توسط مدل در یک گفتگوی قبلی را ارزیابی کردند و از آنها استفاده کردند تا مدلهای پاداش را توسعه دهند. سپس، مدل بر اساس این مدلهای پاداش بهبود یافت.
فرآیند تنظیم دقیق چندین بار صورت گرفت تا عملکرد بهتری حاصل شود. الگوریتم های PPO در مقایسه با سایر الگوریتم ها هزینه فعالیت کمتری دارند و عملکرد سریع تری دارند که آن ها را برای این فرآیند مناسب می کند.
اوپن ای آی ادامه می دهد که اطلاعاتی از کاربرانی که با ChatGPT تعامل دارند جمع آوری کند، که سپس می تواند برای بهبود و رفع ایرادات بیشتر مدل استفاده کند.
کاربران این امکان را دارند که با امتیاز بندی "رو به بالا" یا "رو به پایین"، به پاسخ های ChatGPT رای دهند و همچنین امکان ارایه بازخورد اضافی را نیز دارند. این داده های استفاده شده است برای بهبود عملکرد مدل و ایجاد مدل بهتری در تولید متن شبیه به انسان باشد.
داده های استفاده شده برای آموزش مدل
چت جیپیتی-۳ یک مدل زبانی مبتنی بر سری ۳.۵ جیپیتی است، که با استفاده از زیرساخت هوش مصنوعی ابری Azure، انجام شده است. این مدل با استفاده از مقدار عظیمی از متنهای جمعآوری شده از اینترنت، شامل کتابها، فرومهای گفتگو، مقالات، وبسایتها، مقالات علمی، کد، و منابع دیگر، آموزش داده شده است.
مجموعه دادههای مورد استفاده برای آموزش ChatGPT-3 بیش از 45 ترابایت بود که اندازه بسیار بزرگی است و به قابلیت این مدل برای تولید متونی که شبیه به آنچه یک روزنامه نگار یا نویسنده میتواند تولید کند، کمک کرده است.