مقدمه:
کامپیوترهای کوانتومی، ماشینهایی هستند که مبتنی بر بیتهای کوانتومی هستند که از قوانین مکانیک کوانتومی بهره کامل میبرند. آنها وعده عملکرد بهتر از قابلیتهای محاسباتی کلاسیک فعلی را دارند. این انتظار وجود دارد که یادگیری ماشین یکی از تاثیر گذارترین برنامههای قاتل برای نسل اول کامپیوترهای کوانتومی تجاری در دسترس باشد و به ویژه برای سخت افزاری که در طول به اصطلاح کوانتومی با مقیاس متوسط پر سروصدا (NISO) بر چشمانداز عصر کامپیوترهای کوانتومی تسلط داشته باشد. پیشبینی میشود که یادگیری ماشین در کوتاه مدت هم توسط آنیل کنندههای کوانتومی آدیاباتیک (A0A) و هم از کامپیوترهای کوانتومی دروازهدار تاثیر میپذیرد. A0Aهای تجاری با بیش از ۱۰۰ کیوبیت برای بیش از یک دهه در دسترس بودهاند، درحالیکه در حال حاضر هیچ کامپیوترهای کوانتومی دروازهای با بیش از ۱۰۰ کیوبیت به صورت تجاری در دسترس نیست. در نتیجه، در حال حاضر سابقهای غنی از به کارگیری AOA در مشکلات یادگیری ماشین وجود دارد. از سوی دیگر، سخت افزار کامپیوترهای کوانتومی دروازهای امروزه توجه زیادی را به خود جلب میکند، زیرا این پایهای است که یک کامپیوتر کوانتومی باهدف عمومی (و نه یک برنامه خاص) آینده بر آن استوار است. پیشرفتهای اخیر در سخت افزار کامپیوتر کوانتومی، الگوریتمها، و برنامههای کاربردی اثبات مفهوم اولیه نشان میدهد که این دستگاهها نیز نفوذ قابل توجهی به یادگیری ماشین داشتهاند و آنها در حال حاضر از سهم بزرگی از انتشارات علمی مرتبط با کوانتومی یادگیری ماشین برخوردار هستند. یکی دیگر از رویکردهایی که در سالهای اخیر به آن پرداخته شده است مربوط به محاسبات کوانتومی از جمله محاسبات مبتنی بر بر بازپخت و گیت محوره است. پیادهسازی این رویکردها برای یافتن خط مشی بهینه برای عبور از یک شبکه و مقایسه آنها با رویکرد یادگیری تقویت عمیق کلاسیک ارائه میدهد.
روش تحقیق
در این تحقیق حدود ۲۱۰ مقاله که با کلید واژههای ارائه شده مرتبط بود از طریق پایگاههای علمی معتبر مورد بررسی قرار گرفت که با بررسی چکیدهها و در برخی از موارد متن مقاله بسیاری از آنها از چرخه مطالعه خارج و در نهایت ۵ مقاله به عنوان مقاله پایه و از سایر مقالات نیز بخشهایی در بعضی از تعاریف مورد استفاده قرار گرفت.
اصول یادگیری ماشینی
یادگیری ماشینی یک علم چندرشتهای است که الگوریتمهای مختلف را برای استخراج اطلاعات معنیدار از دادههای موجود و ارائه راه حلهای خودکار برای مسائل پیچیده محاسباتی مطالعه میکند. قدرت الگوریتمهای یادگیری ماشین در توانایی آنها برای یادگیری از دادههای موجود نهفته است و به این ترتیب یادگیری ماشین به جای مدلسازی، مبتنی بر داده است و دارای سه مدل یادگیری نظارت شده، یادگیری بدون نظار و یادگیری تقویتی است.
معرفی مدل یادگیری تقویتی
همانطور که در بخش قبل بیان شد یکی از مدلهای یادگیری ماشین، مدل یادگیری تقویتی است. یادگیری تقویتی را میتوان برای تا تعیین تعاملات اجتماعی و اقتصادی بهینه کاربردهای مختلف، از روباتهای مستقل استفاده کرد. یادگیری تقویتی عوامل هوشمندی را طراحی میکند که قادر به تعامل با دنیای بیرون برای انجام موفقیتآمیز وظایف خاص، مانند یافتن یک هدف یا به دست آوردن پاداشهای خاص هستند. در طول سالها، یادگیری تقویتی پیشرفتهای زیادی را به خود دیده است، به ویژه استفاده از شبکههای عصبی برای رمزگذاری کیفیت ترکیبهای حالت - عمل. از آن زمان به بعد، با موفقیت در بازیهای پیچیدهای مانند Go و حل مکعب روبیک اعمال شد.
مدلهای یادگیری تقویتی برای کاوش در یک محیط ناشناخته به صورت مقرون به صرفه مفید هستند. در محیطهای متخاصم، انتخاب بهترین راه ممکن میتواند مرگ و زندگی باشد، بنابراین، مدلهای یادگیری ماشین مصنوعی اغلب به بهترین تصمیم کمک میکنند. مدلهای یادگیری تقویتی میتوانند یک مسیر مقرون به صرفه را از طریق محیطهای ناشناخته پیدا کنند. با ارائه مدل یادگیری تقویتی با یک نمای کلی ساده از محیط، همراه باهدف و مکانها یا مسیرهای احتمالاً خطرناکی که طرفهای دشمن کنترل میکنند، مدل مسیری را جستجو میکند که به هدف برسد و در عین حال کمترین هزینه را متحمل شود. تعریف هزینه در هر مورد استفاده متفاوت است. اگر بخواهیم مسیری بین دو نقطه پیدا کنیم، میتوانیم هزینه را به عنوان طول مسیر یافت شده تعریف کنیم، اما در شرایط خصمانه، باید هزینه را به عنوان معیاری برای ایمنی یک مسیر خاص تعریف کنیم. مدل یادگیری تقویتی به طور موثر سیاستی را میآموزد که دیکته میکند کدام عمل باید در یک وضعیت انجام شود. پاداش تجمعی آینده مورد انتظار یک ترکیب حالت - عمل معین، ارائه شده توسط (s, a)Q کیفیت یک سیاست معین را تعیین میکند.
در محیطهای ساده، حتی بدون محاسبه صریح مقادیر Q میتوان خط مشی بهینه را به راحتی پیدا کرد. با اینحال، در محیطهای پیچیده با متغیرهای زیاد، انسانها در یافتن مسیر بهینه با مشکل مواجه میشوند و مدلهای کامپیوتری کار را به دست میگیرند. با پیچیدهتر شدن محیطها، حتی رایانهها نیز میتوانند مشکلاتی داشته باشند و قدرت محاسباتی آنها گاهی اوقات کافی نیست. این باعث پیشرفت یادگیری میشود، مانند یادگیری برنامه درسی که در آن به تدریچ محیط را پیچیده میکند. پیشرفتهای محاسباتی مبتنی بر سخت افزار، مانند یادگیری تقویتی توزیع شده در سیستمهای CPU-GPU و یادگیری تقویتی کوانتومی میباشند.
در سالهای اخیر در این حوزهها تحقیقات زیادی انجام شده است، هم با استفاده از رایانههای کوانتومی مبتنی بر گیت و هم از رایانههای کوانتومی مبتنی بر بازپخت به عنوان پلت فرم محاسباتی. رویکردهای مبتنی بر گیت میتوانند از الگوریتم جستجوی گراور برای یافتن بهترین اقدام جدید یا مدلسازی تعاملات پیچیده بین عامل و محیط در برهم نهی استفاده کنند. در اینجا، مرحله یادگیری تا حدی کوانتومی است و خط مشی بهینه با استفاده از منابع کلاسیک یا کوانتومی ذخیره میشود. رویکرد کوانتومی مبتنی بر بازپخت شامل یک الگوريتم براى آموزش كارآمد ماشين بولتزمن كوانتومى با استفاده از يك آنيل كوانتومى است، ماشين كوانتومى بولتزمن خط مشى بهينه را ذخيره مىكند.
سخت افزار كوانتومى فعلى هنوز در دست توسعه است و سخت افزار معمولا نويز دارد بنابراين، دستگاههاى كوانتومى فعلى، دستگاههاى كوانتومى در مقياس متوسط نويز ناميده میشوند. با اين حال، حتى اين دستگاههاى NISO قبلاً در حل مسائل خاص مفيد هستند. دستگاههاى NISO مبتنى بر گيت مىتوانند به شبيهسازى سيستمهاى چند بدنه كوانتومى كمك كنند. علاوه بر اين، هر دو دستگاه NISO مبتنى بر گيت و مبتنى بر بازپخت مىتوانند به حل مشكلات بهينهسازى كمک كنند، به عنوان مثال مىتوان به تهديد رمزگذارى AES با فرمول بندى آن به عنوان يک مسئله بهينهسازى و پيادهسازى مدلهاى يادگيرى ماشين كوانتومى و شبكههاى عصبى كوانتومى اشاره کرد.
در ادامه قابليتهاى يادگيرى ماشين كوانتومى را براى يادگيرى تقويتى تحليل میشود. عملكرد هر دو روش كوانتومى مبتنى بر گيت و مبتنى بر بازپخت را با رويكرد مبتنى بر يادگيرى تقويت عميق كلاسيك مقايسه میشود. به طور خاص عواملى را در يك محيط ناشناخته در نظر مىگيريم كه بايد به يك هدف برسند. محيط ناشناخته مىتواند هم حالتهاى مانع و هم حالتهاى مجازات داشته باشد. بازديد از ايالت جريمه هزينه زيادى را به همراه خواهد داشت. همچنين امكان تصادفى بودن را در اقدامات عاملها فراهم مىكند، با توجه به يك حالت و يك عمل، عاملها فقط با احتمال كمى به حالت مورد نظر حركت مىكنند و در غير اين صورت به موقعيت شبكه مجاور حركت مىكنند. همچنين يك تكنيك يادگيرى بهبود يافته به نام يادگيرى برنامه درسى را معرفى شده است كه در آن محيط به تدريج پيچيدهتر میشود. در مقالهای، يك رويكرد براى پيمايش شبكه براى عوامل منفرد با استفاده از آنيل كوانتومى ارائه شده است. اين كار بعداً به تنظيمات با چندين عامل كه به طور جمعى به اهداف خاصى میرسند در گسترش يافت.
در بخشهاى بعدى ابتدا كارهاى انجام شده در اين حوزه، سپس دو رويكرد كوانتومى براى پيادهسازى مدلهاى يادگيرى تقويتى را مورد بررسى قرار میدهيم. سپس، مجموعه آزمايشى كه در مقالات اين حوزه انجام شده است را توضيح خواهيم داد و نتايج را با يادگيرى تقويتى كلاسيك مقايسه و بحث خواهيم كرد.
رويكرد محاسبات كوانتومى
كامپيوترهاى كوانتومى از اثرات كوانتومى براى انجام محاسبات استفاده مىكنند. روشى كه رايانههاى كوانتومى اين عمليات را اجرا مىكنند و اينكه كدام عمليات پشتيبانى میشوند، مىتواند متفاوت باشد. دو رويكرد رايج براى محاسبات كوانتومى، محاسبات كوانتومى مبتنى بر بازپخت و محاسبات كوانتومى مبتنى بر گيت است. اين رويكردها به ترتيب مشابه محاسبات آنالوگ كلاسيك و محاسبات ديجيتال كلاسيك هستند.
رويكرد محاسبات كوانتومى مبتنى بر آنيل
محاسبات كوانتومى مبتنى بر بازپخت يا آنيل كوانتومى بر اساس كار كادواكى و نيشى مور است. بسيارى از مسائل قبلاً با استفاده از آنيل كوانتومى، ارائه راه حلهاى معقول در زمان واقعى يا ارائه راه حلهاى بهينه يا بسيار خوب سريعتر از جايگزينهاى كلاسيك حل شدهاند. كاربردهاى آنيل كوانتومى متنوع است و شامل بهينهسازى ترافيك، امور مالى، مشكلات امنيت سايبرى و يادگيرى ماشينى است. در بازپخت كوانتومى، كيوبيتها در حالت برهمنهى اوليه قرار مىگيرند و بس از آن يك هميلتونى مخصوص مسئله بر روى كيوبيتها اعمال میشود. اگر هميلتون به اندازه كافى آهسته اعمال شود، كيوبيتها در حالت پايه مورد نظر باقى میمانند و اندازهگيرى پاسخ مسئله در نظر گرفته شده را نشان میدهد. رويكرد كوانتومى مبتنى بر بازپخت پيشنهادى به صراحت تابع Q را براى تعيين خط مشى بهينه محاسبه مىكند. اين تابع Q را مىتوان توسط يك ماشين بولتزمن رمزگذارى كرد كه داراى يك شبكه عصبى كه در آن همه گرهها مىتوانند متصل شوند است. ماشينهاى محدود بولتزمن نوع خاصى از ماشينهاى بولتزمن هستند كه در آنها گرهها به گرههاى قابل مشاهده v و گرههاى نهان h تقسيم میشوند و اتصالات فقط بين گرههاى گروههاى مختلف وجود دارد. گرههاى قابل مشاهده به حالتها و اقدامات ممكن مربوط میشوند، میتوانيم گرههاى پنهان را در چندين لايه پنهان تقسيم نموده كه در آن صورت، اتصالات فقط بين گرههاى لايههاى بعدى وجود دارد. يالها گرههاى مختلف را به هم متصل مىكنند و وزنهايى را مىتوان به اين يالها اختصاص داد، وزن مثبت (منفى) نشاندهنده ترجيح دو گره مرتبط براى رسيدن به يك مقدار (مخالف) است. گرهها يكى از دو مقدار ممكن ا± را مىگيرند. با استفاده از وزنهاى اختصاص داده شده به گرهها، مىتوانيم اولويت را براى يكى از دو مقدار نشان دهيم. ماشينهاى محدود بولتزمن مدلهاى lsing تصادفى هستند بنابراين، آنيل كنندههاى كوانتومى مىتوانند به تعيين انرژى مرتبط با يك ماشين محدود بولتزمن كمك كنند. انرژى يك ماشين بولتزمن محدود شده توسط جايى كه vi و hj ذرات ariable هستند كه مقادير گرههاى مرئى و پنهان را نشان میدهند و wij وزن بين گرههاى i و j را نشان میدهد. طبق تعريف، اگر گرههای i و j در لايههاى بعدى نباشند، wij=0 است. همه اوزان دوطرفه هستند.
براى آموزش يك ماشين محدود شده بولتزمن، ابتدا گرههاى قابل مشاهده را تعمير مىكنيم كه به طور مؤثر تركيب حالت -عمل را برطرف مىكند. سيس، از آنيل كوانتومى براى تعيين مؤثر انرژى اين جفت استفاده میشود و در نهايت، وزن ماشين محدود شده بولتزمن را براى بهبود عملكرد، بر اساس برخى معيارها، بهروز خواهد شد. متريك استفاده شده مىتواند بين موارد استفاده متفاوت باشد. جزئيات بيشتر در مورد پيادهسازى در آورده شده است. مىتوان كارايى ماشين محدود شده بولتزمن را با اعمال انباشته كردن ماكت افزايش داد: چندين نسخه از طرحبندى يكسان به طور همزمان به سخت افزار نگاشت میشوند و متغيرهاى مربوطه در كپیهاى مختلف جفت میشوند. اين احتمال يافتن پيكربندیهاى غيربهينه را كاهش میدهد، بايد توجه داشت كه سخت افزار موجود، اندازه محيط رمزگذارى شده و تعداد اقدامات طبيعتاً محدوديتى بر تعداد نسخههایی که میتوان استفاده کرد، اعمال میکند. ماشین محدود بولتزمن و وزنهای آن خط مشی موقت را رمزگذاری میکند. با تنظیم وزنهها میتوانیم خطمشی بهتری یاد بگیریم.
رویکرد کوانتومی مبتنی بر دروازه
محاسبات کوانتومی مبتنی بر گیت از بسیاری جهات شبیه کامپیوترهای دیجیتال معمولی است. بیشتر مفاهیم کلاسیک با معادل کوانتومی مستقیم خود جایگزین میشوند: بیتهای کوانتومی (کیوبیت) جایگزین بیتها و عملیات کیوبیت جایگزین عملیات بیت میشوند. یک تفاوت کلیدی این است که عملیات کوانتومی باید برگشتپذیر باشد. با این حال، تمام عملیات کلاسیک را میتوان با افزودن بیتهای اضافی برگشتپذیر کرد. کامپیوترهای کوانتومی مبتنی بر گیت عملیات را با دستکاری دقیق کیوبیتهای خاص به ترتیب خاصی انجام میدهند. حالت کوانتومی حاصل پاسخ را نگه میدارد و اندازهگیری تنها یکی از نتایچ ممکن را با احتمال متناسب با مجذور دامنه آن نتیجه خاص نشان میدهد. برای رویکرد کوانتومی مبتنی بر دروازه، به جای مدلسازی بر همکنشهای پیچیده عامل-محیط به روش کوانتومی، همانطور که رویکرد گراور چنین است، رویکردی را انتخاب کردیم که از الگوریتم جستجوی گراور برای یافتن بهترین اقدام استفاده میکند. برای دستگاههای NISO مناسبتر است. در عوض، پیادهسازی که تعاملات پیچیده عامل-محیط را در برهمنهی مدلسازی میکند، نیاز به سربار قابل توجهی برای تصحیح خطا دارد.
رویکرد کوانتومی مبتنی بر گیت، یک خط مشی موقت را در طول یادگیری ذخیره میکند که بهترین عملکرد را برای هر حالت، همراه با پاداش مورد انتظار از آن حالت حفظ میکند. این رویکرد پس از پایان آموزش، خط مشی ذخیره شده را بر میگرداند. در هر تکرار، با استفاده از الگوریتم جستجوی گراور، بهترین اقدام را از یک حالت شروع میشود. اجازه داده میشود تعداد تکرارهای استفاده شده Grover به پاداش مورد انتظار ترکیب موقت حالت -اقدام سیاست بستگی داشته باشد. به این ترتیب، اطمینان پیدا میشود که پس از یافتن آنها و گنجاندن آنها در خط مشی موقت، اغلب اقدامات خوب را پیدا میکند.
آزمایشها و نتایچ بررسی شده
تنظیم آزمایشی
برای پیادهسازی مدل یادگیری تقویتی، دو رویکرد کوانتومی وجود دارد، یک رویکرد کوانتومی مبتنی بر بازپخت که یک ماشین بولتزمن محدود را پیادهسازی میکند و یک رویکرد کوانتومی مبتنی بر دروازه که از الگوریتم جستجوی گراور برای یافتن عمل بهینه استفاده میکند. ما هر دو مدل کوانتومی را با یک مدل مقایسه میکنیم. رویکرد یادگیری تقویتی عمیق کلاسیک ما عملکرد این رویکردها را در چندین محیط مختلف ارزیابی میکنیم. در طول مرحله آموزش هر یک از رویکردها، بهترین خط مشی ارائه شده توسط ترکیب دولت -عمل آموخته میشود.
محیطهای مورد استفاده
شکل 1 محیطهای مورد استفاده را نشان میدهد. محیطها شامل یک یا چند حالت شروع S و یک یا چند حالت هدف G هستند. یک عامل در حالت شروع، شروع میشود و از یک خط مشی آموخته شده برای رسیدن به هدف پیروی میکند. این خط مشی با استفاده از یکی از سه رویکرد در نظر گرفته شده آموخته میشود. علاوه بر این، محیطها شامل حالتهای مسدود شده W و حالتهای مجازات P هستند. از هر حالت، عوامل میتوانند چهار عمل انجام دهند: حرکت به بالا، پایین، چپ و راست. اگر یک عمل باعث شود یک عامل به خارج از محیط حرکت کند یا به حالت مسدود شود، مرحله زمانی بدون تغییر موقعیت عامل پیش میرود. عواملی که از یک حالت پنالتی بازدید میکنند، دارای پاداش منفی منهای دویست هستند، در حالیکه رسیدن به حالت هدف، پاداش مثبت دویست را میدهد. بزرگی هر دو مقدار را برابر میگیریم، زیرا باید از حالت پنالتی به همان اندازه که باید به هدف رسید نمایندگان اگر قدمی بردارند پاداش منفی کوچکی منهای ده دریافت میکنند. به صراحت این مقدار را به طور قابل توجهی کوچکتر از پاداش در حالت هدف انتخاب میشود. این هزینه اندک برای برداشتن یک گام، مسیرهای مستقیم را بر مسیرهای انحرافی ترجیح میدهد.
کنشهای تصادفی
به عوامل اجازه داده میشود که اقدامات قطعی یا تصادفی انجام دهند. با اقدامات تصادفی، یک عامل عملی را با احتمال تنظیمپذیر p انجام میدهد و با احتمال یکی از دو عمل مجاور به جای آن انجام میشود. به عنوان مثال، برای p = 0.9، یک عامل با احتمال ۰.۹ به سمت بالا حرکت میکند و هر کدام با احتمال ۰۵ .0 به سمت راست یا چب حرکت میکند. اگر p=1 باشد، عمل را قطعی میدانیم، در غیر این صورت، آنها را تصادفی مینامیم.
اندازهگیری عملکرد
میتوان عملکرد یک خط مشی آموخته شده را با استفاده از پاداش مورد انتظار کمی نمود. آثار قبلی نیز وفاداری یک سیاست را در نظر میگرفتند. وفاداری برابر با کسری از حالاتی است که عمل صحیحی به آن اختصاص داده شده است. تعیین اقدام صحیح در هر حالت معمولا مستلزم ارزیابی صریح محیط است. این فقط برای محیطهای کوچک و نسبتاً ساده قابل اجرا است و بنابراین فقط از وفاداری برای توسعه و آزمایش عملکرد یک رویکرد استفاده میشود، نه برای ارزیابی نهایی. برای محاسبه پاداش مورد انتظار، اقدامات ارائه شده توسط خط مشی را دنبال میشود، از یک حالت شروع از پیش تعریف شده شروع شده و مجموع پاداشها را در هر مرحله پیگیری میشود. ارزیابی این معیار مستقل از اندازه محیط ساده است بنابراین فقط پاداش مورد انتظار را در ارزیابی عملکرد یک سیاست در نظر میگیریم.
مرحله آموزش و راهبردهای یادگیری
در مقالههای پایه برای تعداد ثابتی از تکرارهای آموزشی تمرین و پاداش مورد انتظار را در طول آموزش محاسبه شده است. در هر دو رویکرد کوانتومی، هر تکرار آموزشی از یک ترکیب حالت - عمل واحد تشکیل شده است. برای رویکرد یادگیری تقویت عمیق کلاسیک، یک تکرار آموزشی یک ارزیابی از یک مسیر از نقطه شروع تا هدف است. برای این تفاوت انتخاب میکنیم; زیرا در غیر این صورت تعداد تکرارهای آموزشی برای رویکرد تقویت عمیق کلاسیک بسیار زیاد خواهد بود. محاسبه پاداش مورد انتظار، از یک موقعیت شروع S شروع و این خط مشی را تا رسیدن به یک حالت هدف یا بازدید حداکثری از وضعیتها دنبال میشود. این حداکثر تعداد حالتها بهعنوان تعداد حالتهای متمایز در محیط در نظر گرفته میشود. در صورت اعمال تصادفی، این عمل را سی بار تکرار و از نتایچ میانگین میگیریم. در مجموع، به طور مستقل سه رویکرد را ده بار آموزش و میانگین نتایچ یافت شده را در این ده اجرا میشود. این تغییرات احتمالی را در طول مرحله تمرین جبران میکند.
همچنین از دو استراتژی آموزشی متفاوت استفاده میشود. در استراتژی آموزشی اول، هر یک از سه رویکرد را با کل محیط ارائه میکنیم، در حالیکه در استراتژی دوم به تدریچ پیچیدگی محیط را در طول آموزش افزایش میدهیم. استراتژی اول را یادگیری مستقیم و استراتژی دوم را یادگیری برنامه درسی نامیده میشود. در یادگیری برنامه درسی، محیط در ابتدا فقط شامل حالات انسدادی است. پس از تعداد ثابتی از تکرارهای آموزشی، محیط را با اضافه کردن حالتهای پنالتی و بعداً اقدامات تصادفی پیچیده میکنیم. همچنین اقدامات تصادفی را به تدریچ معرفی خواهیم نمود، ابتدا با مقادیر p بالا یاد میگیریم و به تدریچ p را کاهش میدهیم، جایی که p احتمال انجام عمل صحیح آن است.
انتخاب فراپارامتر
سه رویکرد در نظر گرفته شده دارای برخی فراپارامترهایی هستند که باید تنظیم شود، برای هر دو رویکرد کوانتومی، همچنین باید تعداد نمونههای کوانتومی را که در هر تکرار آموزشی گرفته شود، تعیین نماییم. دو ابر پارامتر آخر نرخ یادگیری و ضریب تخفیف هستند. این ضریب تخفیف ارزش فعلی پاداشهای آینده را میسنجد: پاداش آتی کمتر از همان پاداشی است که اکنون به دست میآید. مقادیر کاندید را برای هر یک از فراپارامترها بر اساس انتخاب و یک جستجوی شبکهای بروی ترکیبات ممکن برای یافتن بهترین تنظیمات انجام میشود. کیفیت هر تنظیم را با محاسبه وفاداری خط مشی آموخته شده تعیین میشود. از محیط ۳x۵ - نشان داده شده در شکل b۱ برای یافتن فراپارامترها استفاده شده است، زیرا میتوان خطمشی بهینه را برای این محیط با یک بازرسی سریع بصری پیدا نمود. تنظیما فراپارامتر را انتخاب شده است که بالاترین میانگین وفاداری را در پنچ اجرا مستقل ارائه میکند. اگر دو تنظیمات عملکرد متوسط مشابهی را نشان دادند، تنظیمات با پایدارترین عملکرد و سریعترین همگرایی را انتخاب میشود.
راه اندازی شبیه سازی
نتایچ هر دو رویکرد کوانتومی را با رویکرد یادگیری تقویتی عمیق کلاسیک مقایسه شده است. در این رویکرد کلاسیک، یک عامل از حالت شروع، شروع به کاوش در محیط میکند و امیدوار است که یک حالت هدف پیدا کند. با توجه به زمان تمرین کافی، استراتژی عامل بهبود مییابد و او سریعتر حالت هدف را پیدا میکند. نحوه آموزش با دو رویکرد کوانتومی متفاوت است، به ویژه در این که هیچ خط مشی صریحی رعایت نمیشود و در یک تکرار آموزشی از رویکرد یادگیری تقویتی عمیق کلاسیک، ما مدل را برای یک مسیر کامل به جای یک حالت واحد به روز میشود. رویکرد یادگیری تقویت عمیق کلاسیک را به صورت محلی روی یک کامپیوتر شخصی ساده آموزش داده و هر دو رویکرد کوانتومی را شبیهسازی شده است: رویکرد مبتنی بر بازپخت کوانتومی با استفاده از مدلهای بازپخت شبیهسازی شده توسط بسته نرمافزار Ocean توسط D-Wave و رویکرد کوانتومی مبتنی بر دروازه با استفاده از بسته نرمافزاری کوانتومی aiskit اجرا گردید. انتظار میرود که هر دو رویکرد کوانتومی عملکرد مشابهی را روی سختافزار کوانتومی واقعی نشان دهند، حتی در دستگاههای NISQ هنوز در معرض نویز هستند.
نتایچ یادگیری برنامه درسی در مقابل یادگیری مستقیم
در این بخش، با استفاده از برخی از محیطهای شکل 1، عملکرد یادگیری برنامه درسی را با یادگیری مستقیم مقایسه میشود. برای هر محیط، پس از نیمی از مراحل آموزشی، حالتهای جریمه را اضافه و در نتیجه محیط را پیچیده میکند. از پاداش مورد انتظار برای تعیین کمیت عملکرد یک سیاست استفاده شده است. در اولین آزمونها، تصادفی بودن بروی صفر قرار گرفته و نتایچ یادگیری برنامه درسی را با یادگیری مستقیم مقایسه شده است. نتایج نشان میدهد که رویکرد مبتنی بر دروازه نسبتا سریع یاد میگیرد، در حالیکه رویکرد مبتنی بر آنیل کوانتومی تکرارهای آموزشی بیشتری برای یادگیری نیاز دارد. به طور مشابه، شاهد هستیم که رویکرد یادگیری تقویتی کلاسیک به مراحل آموزشی بیشتری برای یادگیری یک خط مشی نیاز دارد. در ابتدا، پاداش یافت شده برای هر سه رویکرد کم است، زیرا عامل به طور موثر یک پیادهروی تصادفی در محیط انجام میدهد. با یادگیری برنامه درسی، هنوز هیچ حالت جریمهای وجود ندارد، بنابراین تنها جریمه از برداشتن گامها ناشی میشود.
در همه نتایچ، همچنین تغییراتی را در پاداش یافت شده مشاهده میکنیم که ناشی از تصادفی بودن ذاتی در روش یادگیری است. برای هر دو رویکرد کوانتومی، این ترکیب حالت-عمل انتخابی برای در نظر گرفتن در آن تکرار است و برای رویکرد کلاسیک این مسیری است که برای کاوش انتخاب شده است. علاوه بر این، هنگامی که محیط را پیچیده می کنیم، شاهد کاهش پاداش یافت شده هستیم. شکل ۲ و ۳ نتایچ را برای محیط 5*3 نشان داده شده در شکل b۱ برای یادگیری مستقیم و یادگیری برنامه درسی نشان میدهد. رویکرد یادگیری تقویتی عمیق کلاسیک یک خط مشی خوب را میآموزد. با این حال، با یادگیری برنامه درسی، عملکرد پایدارتر است. هر دو رویکرد کوانتومی برای یادگیری برنامه درسی یکسان عمل میکنند و سیاست بهینه را نسبتا سریع یاد میگیرند. در یادگیری مستقیم، مشاهده میشود که هر دو رویکرد مسیر بهینه را نمیآموزند زیرا این پاداش ۱۵۰ : ۲۰۰ از هدف و ۵۰ - برای پنچ مرحله را تشکیل میدهد. رویکرد کوانتومی مبتنی بر دروازه در طول زمان بهبود مییابد، در حالیکه رویکرد مبتنی بر بازپخت کوانتومی به سرعت یک خط مشی را یاد میگیرد، اما پس از آن یادگیری را متوقف میکند. یک بازرسی بصری از خط مشی متوجه شد که مسیر یافت شده، عامل را قبل از رسیدن به حالت پایانی، از طریق حالت پنالتی هدایت میکند که در نتیجه یک پاداش کلی تقریبا صفر است. افت عملکرد در رویکردهای کلاسیک به احتمال زیاد ناشی از عدم اطمینان در فرایند یادگیری، یا از دو مسیری است که در ابتدا به یک اندازه خوب به نظر میرسند، اما یک مسیر دارای پاداش قابل توجهی کمتر است. انتظار میرود که دلیل مشابهی باعث افت عملکرد برای رویکردهای کوانتومی مبتنی بر گیت و مبتنی بر بازپخت شود.
حال اگر محیط را پیچیده کنیم، رفتار متفاوتی را میبینیم. شکل ۳ و ۴ نتایچ را برای محیط ۴*۳ نشان داده شده در شکل a1 نشان میدهد. اگرچه این محیط کوچکتر است، اما پیچیدهتر از محیط ۵*۳ است، و از این رو، قبلاً انتظار عملکرد بدتری را داشتیم. هر دو رویکرد کوانتومی در ابتدا با یادگیری برنامه درسی سریعتر از یادگیری مستقیم یاد میگیرند. با یادگیری برنامه درسی، پس از معرفی حالتهای مجازات در محیط، شاهد کاهش شدید پاداش مورد انتظار هستیم. انتظار داریم که این امر از اولین مرحله یادگیری در یادگیری برنامه درسی که در آن خط مشیای آموخته میشود که در محیط پیچیدهتر کمتر از حد مطلوب است و حذف سریع ان بسیار سخت است، دنبال شود. یک بازرسی بصری از خط مشی به دست آمده توسط هر دو رویکرد کوانتومی تحت یادگیری برنامه درسی متوجه شد که تنها یک حالت عملکرد اشتباهی دارد که باعث میشود عامل به صورت دایرهای حرکت کند و پاداش کم پیدا شده را توضیح دهد. در تلاش برای غلبه بر این، عامل گاهی اوقا در حالت پنالتی قرار میگیرد، از این رو پاداش رویکرد مبتنی بر آنیل کوانتومی کاهش مییابد.
کمیکردن تاثیر اعمال تصادفی
در این بخش، عملکرد رویکردهای خود را در تنظیمات تصادفی تحلیل میشود تا ببینیم آیا آنها میتوانند با آن همکاری کنند یا خیر بنابراین، دو دوره مستقل از یادگیری مستقیم را در نظر گرفتیم، یکی با اقدامات قطعی و دیگری با اقدامات تصادفی. این کار را برای هر یک از سه رویکرد انجام داده و پاداش مورد انتظار را در طول زمان مقایسه شده است. از آنجایی که عملکرد مطلق تحت کنشهای تصادفی کمتر است، عمدتاً عملکرد نسبی بین این دو را در نظر گرفته میشود. مدلها در ابتدا پاداش کمی پیدا میکنند، زیرا عامل به طور موثر یک پیادهروی تصادفی را انجام میدهد. برای برخی از محیطها، مدل در یافتن یک خطمشی خوب مشکل دارد و عملکرد در طول مرحله آموزش نسبتا ثابت میماند، به ویژه برای محیطهای بزرگتر که با هر یک از دو رویکرد کوانتومی ترکیب شدهاند. یکی دیگر از تاثیرات تصادفی این است که پاداش در طول زمان واریانس بیشتری را نسبت به اقدامات قطعی نشان میدهد. شکل b۶ و b۷ عملکرد رویکرد یادگیری تقویت عمیق کلاسیک و هر دو رویکرد کوانتومی را برای محیط 8*10 نشان میدهد. این محیط بزرگترین و پیچیدهترین محیط در نظر گرفته شده است. عملکرد با اقدامات تصادفی مشابه عملکرد با اقدامات قطعی برای هر سه رویکرد است. برای هر دو نسخه کوانتومی، پاداش مورد انتظار پایینتر شروع میشود، اما شاهد پیشرفتهایی به دلیل یادگیری هستیم که نشان میدهد پس از مراحل آموزشی کافی، پاداش انتظاری برای اقدامات قطعی و تصادفی همزمان خواهد شد. به عنوان آزمون نهایی، اثر ترکیبی دو پسوند در نظر گرفته میشود: یادگیری برنامه درسی با اقدامات تصادفی. رویهای که برای یادگیری برنامه درسی اعمال میشود به این صورت است که بعد از یک چهارم مراحل آموزشی، حالتهای مجازات را معرفی میکنیم. پس از نیمی از مرحله آموزش، اقدامات تصادفی با مقدار p بالا را معرفی میشود و پس از سه چهارم مراحل آموزش، مقدار p را کاهش میدهیم که منجر به تصادفی بیشتر در اقدامات میشود. تعداد مراحل آموزشی را برای هر یک از محیطهای در نظر گرفته شده دو برابر میکنیم.
شکلهای a۸ و a۹ عملکرد رویکرد یادگیری تقویتی عمیق کلاسیک و دو رویکرد کوانتومی برای محیط ۴x۵ را نشان میدهند که در شکل C۱ نشان داده شده است. مشاهده میشود که رویکرد یادگیری تقویت عمیق کلاسیک به پاداشهای مشابهی میرسد، اما این کار را زودتر انجام میدهد. به طور مشابه، رویکرد مبتنی بر دروازه به عملکرد مشابهی برای هر دو استراتژی یادگیری میرسد، اما با یادگیری برنامه درسی، پاداش پایدارتر است. رویکرد مبتنی بر بازپخت کوانتومی هنگام استفاده از یادگیری برنامه درسی نسبت به یادگیری مستقیم، بهبود قابل توجهی را نشان میدهد، با این حال، عملکرد مطلق کمتر از دو رویکرد دیگر است. یک جنبه جالب این است که با یادگیری برنامه درسی، زمانی که محیط را پیچیده میکنیم، شاهد افت قابل توجهی در عملکرد هستیم. این افت نشان میدهد که خط مشی آموخته شده تاکنون برای محیطهای پیچیدهتر نا بهینه بوده است بنابراین، این رویکرد باید بخشی از سیاست این محیط جدید را دوباره یاد بگیرد.
بررسی عملکرد نتایج
در بخشهای قبل، نتایج آزمایشهای چندگانه برای رویکرد کلاسیک و دو رویکرد کوانتومی برای پیمایش شبکه ارائه شده است. تاثیر یادگیری برنامه درسی و تاثیر اقدامات تصادفی را بر عملکرد روی رویکردها در نظر گرفتیم. دریافتیم که در برخی از محیطها، دو رویکرد کوانتومی به مراحل آموزشی بسیار کمتری نسبت به رویکرد یادگیری تقویت عمیق کلاسیک برای دستیابی به عملکرد مشابه نیاز دارند. در محیطهای دیگر، عملکرد رویکردهای کوانتومی کمی عقبتر بود، با این حال، همچنان از تکرارهای آموزشی کمتری استفاده میکرد. یک راه حل ممکن، تنظیم بهتر فراپارامترها یا تغییر در تنظیمات یادگیری است. از لحاظ زمانی، هیچ مقایسهای بین رویکردهای مختلف نیست، زیرا رویکردهای کوانتومی شبیهسازی شده و از پشتوانههای سختافزاری مختلف برای این شبیهسازیها و نتایچ کلاسیک استفاده شده است. در نتیجه زمان اجرای آزمایشها غیرقابل مقایسه و کنار گذاشته شده است.
اولین بسط از مدلها یک تکنیک یادگیری متفاوت است: یادگیری برنامه درسی. با یادگیری برنامه درسی، به تدریج محیط را به امید یادگیری سریعتر پیچیده میشود. به استثنای محیط ۳x۴ هنگام استفاده از یادگیری برنامه درسی به جای یادگیری مستقیم، همگرایی سریعتر به یک خط مشی با پاداش مورد انتظار بالا را مشاهده میکنیم. مصنوعاتی که در محیطهای کوانتومی مشاهده میشود، زمانی که محیط را پیچیده میکنیم، افت شدید عملکرد است. انتظار داریم که دو رویکرد کوانتومی یک خط مشی را برای محیط ساده یاد بگیرند و در خارج کردن بخشهای بهینه این سیاست در محیط پیچیدهتر مشکل داشته باشند. یک راه حل برای این کار انتقال به یک محیط پیچیدهتر است، به محض اینکه یک سطح عملکرد معین به دست آید، نه پس از تعداد ثابتی از تکرارهای آموزشی. توسعه دوم اجازه اقدامات تصادفی انجام شده توسط عوامل را میداد. با برخی احتمالات، اقدامی متفاوت از آنچه در ابتدا در نظر گرفته شده بود انجام میشود. دریافتیم که برای هر رویکرد، عملکرد تحت کنشهای قطعی نزدیک به عملکرد در کنشهای تصادفی است. هنگام ترکیب هر دو پسوند، میبینیم که به ویژه رویکرد مبتنی بر بازپخت کوانتومی از استراتژی یادگیری برنامه درسی سود میبرد. دو رویکرد دیگر نهایی مشابهی را جهت عملکرد برای هر دو استراتزی یادگیری نشان میدهند. نکته قابل توجه تفاوت در یادگیری بین رویکرد یادگیری تقویتی عمیق کلاسیک و دو رویکرد کوانتومی است. رویکرد کلاسیک به یک عامل اجازه میدهد تا محیط را از حالت شروع بررسی کند و از کل مسیر طی شده برای بهروز رسانی خط مشی برای هر تکرار آموزشی استفاده کند. دو رویکرد کوانتومی تنها ترکیبهای تک حالت-عملی را در هر تکرار آموزشی در نظر میگیرند و سیاست را فقط بر اساس نتایچ آن ترکیب حالت-عمل بهروز میکنند.
نتیجه گیری
در این مقاله، دو رویکرد کوانتومی برای پیمایش شبکه با استفاده از یادگیری تقویتی، یک رویکرد مبتنی بر دروازه و یک رویکرد مبتنی بر آنیل کوانتومی در نظر گرفته شده است. مدلهای قبلی را با گنجاندن اقدامات تصادفی و استفاده از یک تکنیک یادگیری جدید به نام یادگیری برنامه درسی گسترش داده شده است. پاداش مورد انتظار یک خطمشی آموخته شده را با رویکرد کوانتومی با خط مشی آموخته شده با استفاده از یادگیری تقویت عمیق کلاسیک مقایسه و این کار را برای هر دو پسوند انجام شده است. متوجه شدیم که برای برخی از محیطها، رویکردهای کوانتومی سریعتر از رویکرد کلاسیک با ضریب تقریبا صد از نظر تعداد مراحل آموزشی، یاد میگیرند. برای محیطهای دیگر، تفاوت احتمالا کوچکتر است، زیرا عملکرد رویکردهای کوانتومی در سطح عملکرد رویکرد کلاسیک نبود. انتظار میرود که با بالغ شدن سختافزار کوانتومی، بتوانیم این آزمایشها را بر روی سختافزار کوانتومی با عملکرد مشابهی که در شبیهسازیها یافت میشود، اجرا کنیم. در نتیجه، معتقدیم که شکاف بین رویکرد کلاسیک و رویکردهای کوانتومی میتواند برای محیطهای پیچیدهتر و سختافزار کوانتومی بهبود یافته افزایش یابد.
همچنین تفاوت عملکرد بین یادگیری برنامه درسی و یادگیری مستقیم تجزیه و تحلیل شده است. در اولی، پیچیدگی محیط به تدریج افزایش مییابد، در دومی، محیط کامل به طور مستقیم ارائه میشود. دریافتیم که با یادگیری برنامه درسی، پاداش مورد انتظار بالاتر در همه موارد زودتر به دست میآید. رویکرد مبتنی بر بازپخت کوانتومی تفاوتهایی را در عملکرد بین محیطهای مختلف نشان داد. همچنین تاثیر اقدامات تصادفی انجام شده توسط عوامل را در نظر گرفته شده که در آن عوامل فقط با احتمال کمی قدم مورد نظر را بر میدارند و در غیر این صورت به یکی از حالات مجاور حرکت میکنند. مشاهده میشود که مدلهای مورد مقایسه با کنشهای تصادفی، تحت اعمال قطعی به همان اندازه خوب عمل میکنند. یادگیری برنامه درسی در هنگام در نظر گرفتن اقدامات تصادفی پتانسیل خود را نشان داد، زیرا رویکردها میتوانستند قبل از حرکت به سمت اقدامات تصادفی پیچیدهتر، یک خطمشی معقول را تحت اقدامات قطعی بیاموزند.
توجه داشته باشید که مقایسه عملکرد رویکردهای ما با کارهای قبلی، مانند دشوار است. در کار قبلی، برداشتن یک گام هزینهای نداشت. با این حال، هزینه اضافی برداشتن یک قدم را اضافه شده است، در نتیجه مسیرهای کوتاهتر را نسبت به مسیرهای طولانیتر ترجیح دادیم. در نتیجه، پاداش یافت شده در برخی از محیطها کم به نظر میرسد، در حالیکه خط مشی نزدیک به بهینه است. در بیشتر موارد، این پاداش کمتر ناشی از یک یا چند حالت با اقدامات نادرست اختصاص داده شده به آن است که باعث میشود عوامل در دایرهها سرگردان شوند. تغییرات در استراتژی یادگیری برنامه درسی نیز میتواند عملکرد مدلها را با یادگیری سریعتر یک خط مشی بهینه افزایش دهد. در این مقاله، فقط پس از تعداد ثابتی از مراحل اموزشی، محیط پیچیده شده است. در برخی موارد، این امر منجر به یادگیری سریع سیاست و تقویت این سیاست بهینه شد. سیاستی که بدین ترتیب آموخته میشود میتواند در محیطهای پیچیدهتر نا بهینه یا حتی بد باشد. ثابت شد که بهروز رسانی خط مشی برای برخی از محیطها سخت است. یک استراتژی یادگیری برنامه درسی بهبود یافته، پیچیده کردن محیط پس از دستیابی به عملکرد معین است. با این حال، تعیین آستانه عملکرد متناظر در زمانی که محیط را پیچیده میکند، نیازمند دانش بیشتری از محیط در نظر گرفته شده واقعی است. این دانش مورد نیاز با هدف اصلی برای استفاده از مدلها در تنظیمات عملیاتی با ورودی دستی کاربر محدود در تضاد است.
و در آخر:
در این قسمت توضیحاتی آموزنده در مورد بررسی الگوریتمهای پردازش کوانتومی در هوش مصنوعی و یادگیری ماشین گذاشته شد. در آینده مطالب بیشتری را در اختیار شما قرار خواهیم داد، با آرزوی بهترینها برای شما خواننده محترم.
منابع:
حسین کاظمی، "بررسی الگوریتمهای پردازش کوانتومی در هوش مصنوعی و یادگیری ماشین".
دیدگاه خود را بنویسید