نسل جوان ایران

فنی مهندسی فنی مهندسی

تسریع یادگیری مشارکتی در سیستم های چند عاملی بهره گیری از کوتاهترین مسیر تجربه شده

ارسال کننده : سرکار خانم زهرا رحیمی
سطح فعالیت : نویسنده
ایمیل : NJIRAN33[@]GMAIL.COM
تاریخ ارسال : ۳ آبان ۱۳۹۹
دفعات بازدید : 113
زبان نوشتاری : فارسی
تعداد صفحه : 58
فرمت فایل : WORD
حجم فایل : 1.140KB

قیمت فایل : 10,000 تومان
خرید فایل

امتیاز مثبت : 16
امتیاز منفی : 0

دانلود پایان نامه و مقاله
محل سفارش تبلیغات شما

. بر این اساس یادگیری بر اساس تقلید به سه حالت تقليد ساده، تقلید شرطی و تقليد انطباقی تقسیم می‌شود. در تقلید ساده عامل‌ها از همسایگان خود یادگیری می‌نمایند. در این روش عامل‌های همسایه همیشه منتظر یکدیگر می‌مانند. همسایگی در این روش نزدیکی از نظر فاصله محیطی است که با این توجیه که عامل‌های نزدیک در شرایط مشابهی قرار دارند و عملکرد یکان کارایی را افزایش می‌دهد، ارائه می‌شود.

نوع دیگر تقلید، تقلید شرطی است. در تقلید شرطی مشکل انتظار به این صورت حل می‌شود که عامل‌های با کارایی پایین از عامل‌های با کارایی بالاتر تقلید می‌نمایند. محاسبه کارایی نیز بر اساس پاداش‌هایی است که عامل کب نموده است.

تقليد انطباقی شبیه به تقلید شرطی است با این تفاوت که نرخ تقليد قابل تنظیم است. معمولا نرخ تقلید بر اساس کارایی عامل‌های همسایه محاسبه می‌شود. با این روش وزن دهی می‌توان به یک حد بین یادگیری تقویتی و یادگیری مشارکتی رسید که می‌تواند بسیار مفید باشد، زیرا در زمان‌هایی از یادگیری اگر عامل به یادگیری مستقل بپردازد بعد می‌تواند به یادگیری مشارکتی کمک شایانی نماید [۱۰].

2- 3- حافظه جمعی[1]

در علوم اجتماعی شناخت توزیع شده را این گونه تعریف می‌نمایند که شناخت در اجتماع تنها در یک فرد صورت نمی‌گیرد بلکه بین افراد توزیع شده و هر کس شناخت خود را دارد. در [۱۱] با الهام از شناخت توزیع شده‌ایده حافظه جمعی مطرح می‌شود. در یک گروه از عامل‌ها شناخت عامل‌های پر تجربه می‌تواند عامل‌های خام و کم تجربه را برای فعالیت‌های مؤثرتر هدایت نماید. این کار برای عامل‌های پر تجربه نیز مفید خواهد بود زیرا ممکن است عامل کم تجربه راهی برای رد راهکار ارائه شده توسط عامل با تجربه پیدا نماید.

برای حل مشکلات یادگیری مشترک می‌توان از حافظه جمعی استفاده نمود. با این کار تعداد تلاش‌های عامل و تعداد انتقالات اطلاعات بین عامل‌ها کمتر می‌شود. حافظه جمعی را معمولا با دو دیدگاه یادگیری رویه‌های مشترک و یادگیری قابلیت‌های عامل‌ها پیاده سازی می‌نمایند.

در یادگیری رویه های مشترک از حافظه جمعی صرفا برای به یاد آوردن الگوهای حل مسئله استفاده می‌شود و یادگیری قابلیت‌های عامل‌ها با تهیه یک ساختار درختی که نشان دهنده اعمال و احتمال موفقیت آنهاست به فرآیند یادگیری کمک می‌نماید. این احتمالات بر اساس تلاش عامل‌ها بروز رسانی می‌شوند.

ایده‌ی حافظه جمعی را می‌توان به صورت حافظه متمرکز و با حافظه توزیع شده در عامل‌ها پیاده سازی نمود. همچنین نکته دیگری که در مورد این ایده وجود دارد این است که حافظه جمعی را می‌توان همزمان با روش‌های دیگر یادگیری مشارکتی مورد استفاده قرار داده که نحوه ترکیب حافظه جمعی با روش‌های دیگر خود چالش‌هایی را ایجاد می‌نماید [11].

 

[1] .Procedural Knowledge

Contents

فصل‌2. 1

مروری بر کارهای گذشته. 1

2- 1- مشارکت به وسیله اشتراک گذاری.. 2

۲- ۲- تقليد2

2- 3- حافظه جمعی. 3

2-4- پند4

2- 5- یادگیری مشارکتی مبتنی بر خبرگی. 5

2-6- تخته سیاه7

شکل ۲-۱: ساختار یادگیری مشارکتی بر مبنای تخته سیاه [۲۰]9

2-7- یادگیری مشارکتی مبتنی بر پختگی سیاست.. 9

2-8- یادگیری مشارکتی بر مبنای خبرگی چند معیاره9

گام دوم: تهیه جدول مشارکتی بر اساس هر یک از معیارهای خبرگی.10

گام سوم: ساخت جدول مشارکتی عامل‌ها و استفاده از آن. 10

2-‌9- نتیجه گیری.. 12

فصل سوم:12

پیش‌نیاز. 12

۱- ۳- یادگیری تقویتی. 13

3- 2- فرآیند تصمیم‌گیری مارکف.. 14

3-3- یادگیری Q.. 15

شکل ۳-۲: شبه کند یادگیری تقوبتی [3]17

۳-4- برقراری تعادل در اکتشاف و بهره برداری.. 17

۳- -1-4- حریصانه. 17

3-4-2- بهره‌گیری از توزیع بولتزمن (Softmax)18

3-5- مکاشفه در یادگیری.. 19

3-6- محیط‌های یادگیری.. 20

3-7- محیط‌های آزمایشی. 21

3- 7- 1- صید و صیاد21

شکل 3-3: كانون دید صیاد21

شکل ۴-۴: اعمال ممکن برای عامل صياد22

3-7-2- پلکان مارپیچ. 22

6-3-2- پلکان مارپیچ تعمیم یافته. 23

شکل‌۳-5: نمایی از محیط پلکان مارپیچ. 23

3-8- نتیجه‌گیری.. 23

فصل 4. 24

ارائه روش پیشنهادی.. 24

4-1- معیارهای ارائه شده جهت ارزیابی عامل. 24

4-1-1- شوک.. 25

4-1-2- کوتاه ترین مسیر تجربه شده25

شکل 4-1: نمایی از جدول cp. 26

4-۲- افزایش کارایی در انتخاب عمل یادگیری تقویتی. 31

شکل 4-6: معیارهای ارزیابی. 32

جدول 4-1: مقدار پیش فرض پارامترهای یادگیری.. 33

4-2-1- آزمایش اول: بررسی و مقایسه روش پیشنهادی با روش یادگیری تقویتی. 33

جدول ۴-۲: حاصل اجرای روش پیشنهادی در محیطی که پاداش اهداف برابر در نظر گرفته شده34

4-2-2- آزمایش دوم: بررسی حساسیت روش پیشنهادی در برابر پارامتر. 35

4-2-3- آزمایش سوم: بررسی حساسیت روش پیشنهادی در برابر پارامتر. 38

4-2-4- آزمایش چهارم: بررسی حساسیت روش پیشنهادی در برابر پارامتر. 39

4-۳- بررسی و ارائه راهکار در یادگیری مشارکتی. 40

4-4- تشریح کامل روش پیشنهادی.. 41

4-4-1- آزمایش اول: بررسی عملکرد روش پیشنهادی در مقایسه با کارهای گذشته. 43

4-4-2- آزمایش دوم: بررسی عملکرد روش پیشنهادی با تعداد تلاش‌های متفاوت.. 45

4-4-3- آزمایش سوم: بررسی اثر افزایش پارامتر در عملکرد روش پیشنهادی.. 46

4-4-4- آزمایش چهارم: بررسی اثر افزایش دمای تابع بولتزمن در عملکرد روش پیشنهادی.. 47

4-4-5- آزمایش پنجم: بررسی معیار میانگین فاصله تجربه شده48

4-4-6- آزمایش ششم: همگرایی روش پیشنهادی.. 48

4-5- نتیجه‌گیری.. 49

فصل 5. 49

نتیجه گیری.. 49

5-2- نوآوری تحقیق. 50

5-3- نتایج نهایی. 51

5-4- تجربه‌های ناموفق. 52

5-4-1- استفاده از معیار شوک در یادگیری مشارکتی مبتنی بر خبرگی. 52

5-4-2- استفاده از معیار شوکت جهت میانگین‌گیری محلی. 52

5-4-3- استفاده از معیار کوتاه ترین فاصله تجربه شده در wSS. 53

5-5- پیشنهادهایی جهت کارهای آتی. 53

5-5-1-پیشنهاد اول: تعادل در بهره گیری از حداقل فاصله تجربه شده53

5-5-2- پیشنهاد دوم: تقسیم کار مناسب.. 54

5-5-3- پیشنهاد سوم: تولید معیاری جهت سنجش میزان شک و یقین در عامل. 54

5-5-4- پیشنهاد چهار: تهیه معیارهایی مشابه معیار کوتاهترین فاصله تجربه شده54

مراجع:55

 

انسان‌ها به صورت منزوی زندگی نمی‌کنند چرا که اگر این گونه بود شاید یادگیری انسان هنوز در حد اولين انسان‌های روی زمین بود. گروهی زندگی کردن توانسته انسان را به چیزی که هست برساند. یادگیری در انسان بیشتر از آن که بر اساس مکاشفه باشد بر اساس انتقال اطلاعات است. یادگیری مشارکتی نیز بر گرفته از همین واقعیت بوده است؛ معمولا روش‌هایی که برای یادگیری مشارکتی ارائه می‌شود برگرفته از زندگی و روابط گروهی انسان‌ها است. کارهای انجام گرفته در یادگیری مشارکتی را به طور کلی می‌توان به دو دسته تقسیم کرد. در دسته اول به روش‌های انتقال اطلاعات پرداخته شده و به دنبال روشی برای انتقال صحیح اطلاعات هستند. در این کارها محیط را به عنوان یکی مدل مارکوف ساده می بینند. در دسته دوم نقش محیط را پررنگ‌تر می‌بینند و به صورت یک بازی تصادفی در نظر می‌گیرند که عامل ها به دنبال رسیدن به یک تعادل در بازی هستند. معمولا این روش‌ها را بر مبنای نظریه بازی فعالیت می‌نمایند.

همان طور که در فصل قبل گفته شد اکثر روش‌های یادگیری مشارکتی از یادگیری تقویتی بهره می‌برند. اولین تلاش‌ها در یادگیری مشارکتی که در [۴], [۸] آمده‌اند صرفا برای کاهش زمان اجرای یادگیری Q با پیش قدر که یکی از روش‌های یادگیری تقویتی است ارائه شدند. الگوریتم‌های یادگیری تقویتی نوعی جستجو را برای یافتن سیاست بهینه انجام می‌دهند. مکانیزم های مشارکتی می‌توانند به کاهش زمان جستجو در این الگوریتم‌ها کمک نمایند.

در [۸] دو مکانیزم برای یادگیری مشارکتی پیشنهاد شده است. مکانیزم اول یادگیری با وجود یک نقاد خارجی است که بر اساس اعمال عامل به او پاداش یا جریمه‌ای اختصاص می‌دهد و عامل این پاداش را جهت یادگیری سیاست بهینه که بتواند مجموع پاداش‌های او را افزایش دهد، استفاده می‌نماید. در مکانیزم دوم که یادگیری بر اساس مشاهده است عامل بر اساس مشاهده عامل‌های دیگر به یادگیری می‌پردازد. در مکانیزم دوم نیازی به عامل دانشمند بیرونی نبوده و حتی در محیط‌هایی که تمام عامل ها خام هستند نیز می‌تواند به خوبی عمل نماید. پیچیدگی زمانی مکانیسم‌های پیشنهادی خطی است در صورتی که پیچیدگی یادگیری Q بدون پیش قدر نمایی به عمق تعداد حالت‌ها است. این خود نشان دهنده اهمیت استفاده از یادگیری مشارکتی دارد

برای این فایل تا کنون نظری ارسال نشده است

برای ارسال نظر باید عضو سایت باشید

تعداد کاراکتر مجاز:

برچسب های مرتبط


فهرست کتابخانه نسل جوان ایران

نویسندگان برتر و فعال نسل جوان ایران

تاییدیه های سایت


درگاه بانک ملت

شبکه های اجتماعی نسل جوان ایران


فن آوری های روز دنیا


آرشیو فن آوری های روز دنیا

جدیدترین اخبار سایت


پایگاه خبری نسل جوان ایران