مطالعه پژوهشگران UCL که نتایج آن در مجله Royal Society Open Science منتشر شده؛ نشان میدهد که پاسخ پلتفرمهایی که از هوش مصنوعی برای حل مسئله استفاده میکنند، با یکدیگر تفاوت دارند. این نکته بیانگر درک نادرست هوش مصنوعی از مسائل است؛ بنابراین فناوری هوش مصنوعی به اصلاحات بیشتری نیاز دارد تا عملکرد بالاتری را از خود به نمایش بگذارد.
پژوهشگران UCL در پژوهش خود به منظور سنجش ظرفیت استدلال هوش مصنوعی، آزمونهای روانشناسی و روانشناختی را روی پیشرفتهترین مدلهای زبانی بزرگ (LLM) بهکاررفته در پلتفرمهای موجود انجام دادهاند. نتایج این مطالعه نشان میدهد؛ زمانی که آزمون استدلالی مشابهی از پلتفرمهای مبتنی بر هوش مصنوعی مانند ChatGPT گرفته شود؛ پاسخهای متفاوتی دریافت خواهد شد.
یکی از این آزمونها، مسئله واسون بود. قانون مسئله از این قرار است که اگر حرف صداداری در یکطرف کارت قرار داشته باشد، در روی دیگر کارت عددی زوج درج شده است. شما چهار کارت الف، ب، ج و د را میبینید:
الف- E | ب- K | ج- 4 | د- 7 |
تحت هر شرایط، کدام کارت (یا کارتها) را حتما باید برگردانیم تا از درستی قانون مسئله مطمئن شویم؟
به جز هوش مصنوعی GPT-4 که پیشرفتهترین مدل هوش مصنوعی در حال حاضر به شمار میرود و توانست امتیاز ۹۰٪ کسب کند، بقیه مدلهای مانند گوگل جمینی و Llama 2 70b (متا) فقط در ۱۰ درصد آزمونها توانستند پاسخ درست بدهند.
نتایج عجیب!
یکی از دستاوردهای بزرگ این نتایج، یادآوری این نکته مهم است که پیش از استفاده از این پلتفرمها میبایست نحوه درک و استدلال آنها را بهخوبی بشناسیم و آنها را بهگونهای بهبود و ارتقا دهیم که بهترین بازدهی را برای ما به همراه داشته باشند.
سؤال دیگر آن است که آیا پلتفرمهای مبتنی بر هوش مصنوعی خطرناکند؟ در سالهای اخیر LLMهای پیچیده و کارایی برای پلتفرمهایی مانند ChatGPT به کار گرفته شدهاند. این LLMها از توانایی بالایی برای تولید متن، تصاویر، صدا و ویدئوهای نزدیک به واقعیت برخوردارند که باعث ایجاد نگرانیهایی در مورد حذف مشاغل، تأثیر مخرب بر نتایج انتخابات و سایر جرائم شدهاند. تنها نکتهای که کمی از این نگرانیها میکاهد، عدم تکامل هوش مصنوعی است، چراکه در پاسخ به برخی مسائل با تناقض و اشتباه همراه است.
پژوهشگران UCL در مطالعه خو، هفت LLM را که در سالهای اخیر مورداستفاده قرار گرفتهاند، با مجموعهای از 12 تست رایج روانشناسی و روانشناختی که انسانها از توانایی کمی برای حل آنها برخوردارند -ازجمله مسئله واسون (Wason)، مسئله لیندا (Linda) و مسئله مونتی هال (Monty Hall)- آزمایش و پاسخهای آنها را ارزیابی کردهاند.
نتایج بررسی نشان داد که مدلهای LLM هوش مصنوعی، پاسخهایی غیرمنطقی در مورد مسئلهای واحد ارائه میدهند. آنها بیان میکنند که این مدلها در پاسخ به سؤالی که 10 بار مورد ارزیابی قرار گرفته، پاسخهای متناقضی ارائه کردهاند. اشتباه در عملیات ریاضی نظیر جمع، تشخیص اشتباه حروف صامت و صدادار به جای یکدیگر و ... ازجمله اشتباهات LLMها عنوان شده که باعث ایجاد پاسخ نادرست شدهاند.
پژوهشگران چنین نتیجه گرفتهاند که اساس نتایج مطالعه و سایر تحقیقات در مورد مدلهای زبان بزرگ، نشاندهنده آن است که این مدلها هنوز مانند انسانها فکر نمیکنند. آنها همچنین اذعان میکنند که LLMهایی مانند GPT-4 از عملکرد بالایی در مقایسه با سایر نمونهها برخوردارند. این موضوع نشان میدهد که متخصصان هوش مصنوعی در حال بهبود و ارتقاء LLMها هستند. آنها حدس میزنند که دلیل عملکرد بهتر LLM در نمونهٔ GPT-4در مقایسه با نمونههای کمتر توسعهیافته ChatGPT، استفاده از ابزارهایی است که در نمونههای قبلی وجود نداشته است.
علاوه بر این نتایج آنها نشان داد که برخی از مدلها از ارائه پاسخ به برخی از سؤالات خودداری کردهاند که دلیل آن، مسائل اخلاقی عنوان شده است.
پاسخ مسئله واسون
راستی، پاسخ مسئله واسون از این قرار است: حتما باید کارتهای الف (E) و د (7) را برگردانیم، زیرا تنها کارتهایی هستند که میتوانند قانون مسئله را نقض کنند.