[ad_1]

جستجوی MuZero را جستجو کنید

DeepMind

مشکل این روش این است که اکثر موقعیت های دنیای واقعی و حتی بعضی از بازی ها یک مجموعه قوانین ساده حاکم بر نحوه کار آنها ندارند. بنابراین برخی از محققان سعی کرده اند با استفاده از رویکردی که می کوشد چگونه یک بازی خاص یا محیط سناریو بر نتیجه تأثیر بگذارد ، مسئله را دور بزنند و سپس از آن دانش برای تهیه برنامه استفاده می کنند. عیب این سیستم پیچیدگی برخی دامنه ها به حدی است که مدلسازی هر جنبه تقریباً غیرممکن است. به عنوان مثال ، در اکثر بازی های آتاری اینگونه بود.

به یک معنا ، MuZero بهترین های هر دو جهان را با هم ترکیب می کند. او سعی می کند به جای مدل سازی همه چیز ، فقط عواملی را که برای تصمیم گیری مهم هستند در نظر بگیرد. همانطور که DeepMind اشاره کرد ، این کاری است که شما به عنوان یک شخص انجام می دهید. وقتی بیشتر مردم از پنجره بیرون نگاه می کنند و می بینند که ابرهای تیره در افق تشکیل شده اند ، معمولاً به چیزهایی مانند جبهه های متراکم و فشار فکر نمی کنند. در عوض ، آنها به این فکر می کنند که اگر بیرون می روند باید چگونه لباس بپوشند تا خشک بمانند. MuZero نیز کاری مشابه انجام می دهد.

نتایج MuZero

DeepMind

هنگام تصمیم گیری سه عامل در نظر گرفته می شود. او به نتیجه تصمیم قبلی خود ، موقعیت فعلی و بهترین اقدام برای انجام اقدامات بعدی نگاه خواهد کرد. این رویکرد به ظاهر ساده باعث می شود MuZero کارآمدترین الگوریتم DeepMind باشد که تاکنون ایجاد شده است. در تست خود ، او دریافت که MuZero در شطرنج ، Go و shogi به اندازه AlphaZero خوب است و در بازی های آتاری از تمام الگوریتم های قبلی خود ، از جمله Agent57 ، بهتر است. وی همچنین دریافت که هرچه به MuZero زمان بیشتری می دهد تا عمل را بررسی کند ، عملکرد بهتری دارد. DeepMind همچنین آزمایشی را انجام داد که محدودیتی در تعداد شبیه سازی هایی که MuZero می تواند قبل از ارتکاب به حرکت انجام دهد ، تعیین کرد. خانم Pac-Man. در این آزمایشات ، او دریافت که MuZero هنوز هم می تواند نتایج خوبی کسب کند.

قرار دادن نتایج بالا در بازی های آتاری خوب و خوب است ، اما در مورد کاربردهای عملی آخرین تحقیقات DeepMind چطور؟ به طور خلاصه ، آنها می توانند نوآور باشند. اگرچه ما هنوز در آنجا نیستیم ، اما MuZero نزدیکترین محقق به توسعه الگوریتم با اهداف عمومی است. این شرکت تابعه می گوید که فرصت های آموزش MuZero می تواند روزی به آن کمک کند تا در زمینه هایی مانند رباتیک ، جایی که هیچ قانون مشخصی وجود ندارد ، در زمینه مسائل پیچیده مقابله کند.

[ad_2]

منبع: shose-news.ir