آموزش مهارت به ربات ها با استفاده از سیستم تشویق و پاداش

11 آبان 1399 - 19:01

دانشمندان و محققان علوم کامپیوتر دریافتند که تقویت مثبت یا همان سیستم تشویق و پاداش – که برای آموزش سگ ها به کار گرفته می شود – می تواند تاثیر بسزایی در الگوریتم های آموزشی ، برای کسب مهارت های جدید داشته باشد .

محققان دانشگاه John Hopkins از سیستم تقویت مثبت یا بهتر است بگوییم سیستم تشویق و پاداش ، برای آموزش مهارت بلوک چینی (گذاشتن بلوک های اسباب بازی بر روی یکدیگر) به روباتی به نام Spot استفاده کردند . این ربات تنها در طی چند روز با استفاده از این رویکرد قادر به یادگیری مهارتی بود که به طور معمول یک ماه به طول می انجامید ؛ این نشان می دهد که سیستم تقویت مثبت می تواند یک روش عملی برای آموزش به ربات ، به منظور یادگیری و انجام کار های واقعی باشد .

چگونه می توان ربات را به مرحله یادگیری مهارت رساند؟

پروفوسور اندرو هوندت به این سوال این گونه پاسخ می دهد : "من تا به حال سگ های زیادی را تربیت کرده ام و می دانم به چه نحو باید از سیستم تشویق و پاداش استفاده کنم ؛ همین تجربه ، الهام بخش من برای طراحی [الگوریتم یادگیری] بود . "

انسان ها و حیوانات می توانند از روش سیستماتیک آزمون و خطا درس گرفته ، راه درست را پیدا کرده و با تصحیح دائم و مکرر اشتباهات خود به موفقیت برسند. ولی هیچ راه مناسبی برای ایجاد مدل یادگیری ماشین (ماشین لرنینگ) بر پایه " اشتباه کردن" وجود ندارد ؛ زیرا یک ربات از درک نسبی برای فهم اشتباه ، اصلاح و پیدا کردن راه درست ساقط است.

در این مورد، هوندت و همکارانش یک سیستم تشویق و پاداش ابداع کردند که مشابه غذا دادن به سگ ها ، در هنگام آموزش برای انجام وظایف و یادگیری مهارت های جدید است ؛ در این سیستم به ازای انجام صحیح کار ها ، به ربات پاداشی دلخواه و مقبول داده می شود. تنها تفاوت این است که پاداش سگ ها غذا و پاداش ربات ها امتیاز عددی است !

محققان با استفاده از این سیستم (سیستمSPOT) به یک ربات قرار گیری آجر ها روی هم را آموزش دادند. در طی فرآیند یادگیری با متد تشویق و پاداش، ربات ها بعد از گذشت مدت کوتاهی به سرعت فهمیدند که رفتار صحیح برای جمع کردن امتیاز و دریافت تشویق چیست و توانستند تمایزی بین رفتار درست و نادرست قائل شوند ؛ همچنین آن ها دریافتند که قرار دادن بلوک نهایی در بالای دسته بلوک ها بالاترین امتیاز را دارد.

یادگیری سیستم SPOT فقط چند روز به طول انجامید و در طی این چند روز بهترین نتیجه ممکن حاصل شد ، در صورتی که یادگیری بدون این متد ممکن بود تا هفته ها به طول بینجامد . قابل ذکر است که پیشرفت عملکرد و کارایی ربات ها در هر آزمایش نسبت به آزمایش قبلی - با توجه به میزان تغییرات و اقدامات - به طور معمول 30% یا بیشتر است .

هنگامی که ربات در می یابد در قبال بالاترین امتیاز کسب شده ، بالاترین پاداش را دریافت می کند ، برای کسب امتیاز تلاش کرده و به سرعت رفتار درست را می آموزد تا بهترین پاداش را بدست آورد.

و در نهایت ...

دستیابی به دقت 100 درصدی برای ربات ، حداقل نیاز به یک ماه تمرین دارد اما با استفاده از سیستم تشویق و پاداش این کار فقط ظرف مدت دو روز انجام شده و ربات به بالاترین میزانِ ممکنِ دقت خود می رسد.

محققان امیدوارند که متد رویکرد تقویت مثبت بتواند به آموزش روبات ها برای انجام و یادگیری کارها در محیط های واقعی کمک کند ؛ مانند آموزش به روبات های خانگی برای شستن لباس ها و ظرف ها ، یا بهبود عملکرد سیستم های رانندگی مستقل و خودران.

به گفته پروفسور گرگوری هاجر، از دیگر محققان و نویسنده این مقاله :

"هدف ما از سیستم تشویق و پاداش این است که در نهایت ربات هایی طراحی و تولید کنیم که بتوانند کارهای پیچیده ای مانند مونتاژ محصولات، مراقبت از افراد مسن و جراحی را در دنیای واقعی ، بدون هیچ خطایی انجام دهند. در حال حاضر نمی دانیم که چگونه باید برای این کار برنامه ریزی کرد ، جهان بسیار پیچیده است ! اما چنین برنامه های موفقیت آمیزی این نوید را می دهند که روبات ها توانایی یادگیری انجام کار های واقعی به روشی ایمن و کارآمد را دارند . "

منبع: E&T

فناوری و تکنولوژی