در سال ۲۰۱۶، دو پژوهشگر سعی کردند بازی های ویدئویی را به هوش مصنوعی آموزش دهند و تصمیم گرفتند یک سامانه پاداش ایجاد کنند.
در یکی از این بازی ها، یک مسیر مسابقه باید عبور می کرد و در عین حال هر بار که وسایل مسابقه را جمع آوری می کرد، هوش مصنوعی پاداش می گرفت.
در طول بازی، پژوهشگران متوجه شدند که به جای اتمام دوره مسیر مسابقه، هوش مصنوعی راهی برای جمعآوری برخی اقلام حرکت در دوره های بی پایان و جمع آوری تعداد نامحدودی از اقلام به منظور دریافت پاداش پیدا کرده است.
َشایان ذکر است که در سال ۱۹۵۳، یک روانشناس از دانشگاه هاروارد گزارش داد که به طور تصادفی احساس لذت یا “سامانه پاداش” را در مغز موش آزمایشگاهی پیدا کرده است.
این روانشناس گفت موش صحرایی با اتصال الکترودها به ناحیه خاصی از مغز، پاداش می خواهد و هر بار برای دریافت پاداش بیشتر برمی گردد.
نتایج مطالعاتی که در آن هوش مصنوعی تقلب می کرد به سرعت به موضوعی داغ در بین متخصصان حوزه یادگیری ماشینی تبدیل شد.
در همین حال دو پژوهشگر از دانشگاه آکسفورد در مقاله ای که در وب سایت “کانورسیشن” نوشتند و در آن مقاله می پرسیدند آیا هوش مصنوعی نیز به لذتجویی و پاداش معتاد میشود؟