دقت ChatGPT در پاسخ به یک مسئله ساده ریاضی از 98 درصد به 2 درصد رسیده است

محققان «دانشگاه استنفورد» با انجام یک مطالعه جدید متوجه شده‌اند که نسخه ماه ژوئن چت‌بات هوش مصنوعی پرمخاطب ChatGPT در مقایسه با نسخه ماه مارس عملکرد ضعیف‌تری در برخی وظایف داشته است.

دانشمندان در مطالعه خود عملکرد چت‌بات ساخته شده توسط OpenAI را طی چند ماه در چهار کار «متنوع» حل مسائل ریاضی، پاسخ دادن به سؤالات حساس، تولید کد نرم‌افزاری و استدلال بصری مقایسه کرده‌اند. همچنین در این مطالعه، دو نسخه از فناوری هوش مصنوعی OpenAI یعنی GPT-3.5 و GPT-4 در طول دوره‌های زمانی مختلف بررسی شده‌‌اند.

اختلاف دقت نسخه‌های مختلف ChatGPT

قابل‌توجه‌ترین نتیجه عنوان شده توسط آن‌ها احتمالاً به قابلیت مدل GPT-4 در حل مسائل ریاضی مربوط می‌شود که در 97.6 درصد از سؤال‌های ماه مارس به درستی تشخیص داده 17077 یک عدد اول است. اما تنها سه ماه بعد، دقت آن به 2.4 درصد کاهش پیدا کرده است!

در مقابل، GPT-3.5 عملاً مسیر معکوسی داشته است. هرچند نسخه مارس آن فقط در 7.4 درصد مواقع این سؤالات را به‌درستی پاسخ داده، اما در ماه ژوئن موفق شده تا میزان دقیق بودن پاسخ‌های خود را تا 86.8 درصد افزایش دهد.

زمانی که محققان از مدل‌ها خواستند تا کد بنویسند یا یک آزمایش استدلال بصری (پیش‌بینی شکل بعدی یک الگو) انجام دهند نیز نتایج مشابهی وجود داشته است.

نتیجه بسیار متفاوتی که در ماه مارس تا ژوئن از مدل هوش مصنوعی OpenAI مشاهده شده است، تأثیرات غیرقابل‌پیش‌بینی تغییرات یک بخش از مدل را نشان می‌دهد. «جیمز زو»، استاد علوم کامپیوتر استنفورد که همچنین یکی از نویسندگان این مطالعه است، در این رابطه توضیح می‌دهد:

«هنگامی که ما قصد داریم عملکرد یک مدل زبان بزرگ را در برخی کارهای خاص بهبود بدهیم، می‌تواند عواقب ناخواسته زیادی وجود داشته باشد که ممکن است در واقع عملکرد آن در کارهای دیگر را تضعیف کند. انواع مختلفی از وابستگی متقابل در نحوه پاسخگویی مدل به سؤالات وجود دارد که می‌تواند منجر به رفتارهای بدتری شود که تاکنون مشاهده کرده‌ایم.»