ویژگیهای برآوردگر حداکثر راستنمایی
ویژگی اصلی برآوردگرهای راستنمایی ویژگیهای بزرگ نمونهای[۲۰۹]، مجانبی[۲۱۰] آنها است. این ویژگیها تحت شرایط نسبتاً عمومی برقرار میگردند.
سازگاری
نرمال بودن
این ویژگی اشاره بر این دارد که توزیع مجانبی ، توزیعی نرمال با میانگین و ماتریس واریانس کواریانس است. را ماتریس اطلاعات مینامند و به دو صورت هم ارز زیر تعریف میگردد.
در عمل عبارت دوم مرسوم تر است هنگامی که یک بردار K بعدی است، یک بردار ستونی از K مشتق جزئی است که در آن:
هر مولفه از این بردار گرادیان، خودش، تابعی از بردار است. بنابراین می تواند از آن مشتق جزئی نسبت به هر یک از عناصر گرفت. برای مثال
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))
که در آن مشتقهای مرتبه دوم به صورت یک بردار سطری نوشته شده اند. اگر به همین ترتیب مشتق گیری را برای دیگر عناصر بردار ادامه بدهیم یک ماتریس مربع و متقارن از مشتقهای مرتبه دوم را به نام ماتریس هشین[۲۱۱] به دست می آوریم.
توجه داریم که این ماتریس همانند ماتریس نیست. اگرچه این ماتریس نیز مربع و متقارن است. اما عنصر i,j آن حاصل ضرب در است.
کارایی مجانبی
اگر (اسکالر) برآوردگر حداکثر راستنمایی پارامتر ( اسکالر) باشد، این خاصیت بدین معنی است که برای بعضی از مقادیر ثابت متناهی داریم:
اگر هر تخمین زن سازگار و به طور مجانبی نرمال از باشد. آنگاه دارای یک توزیع حدی است که واریانس آن بزرگتر یا مساوی است. برآوردگرهای ML دارای کمترین واریانس در رده تخمین زنهای سازگار، به طور مجانبی نرمال است. منظور از واژه واریانس مجانبی، واریانس توزیع است. به بیان دیگر واریانس برابر با است. اگر برداری از پارامترها و برآوردگر ML آن باشد.
که درآن V یک ماتریس مثبت معین است. اگر ماتریس واریانس هر تخمین زن سازگار و به طور مجانبی نرمال دیگر باشد، آنگاه یک ماتریس شبه مثبت معین است.
پایایی[۲۱۲]
اگر برآوردگر حداکثر راستنمایی و تابعی پیوسته از باشد، آنگاه تخمین زنML تابع است.
مقادیر میانگین و ماتریس واریانس بردار گرادیان
بردار گرادیان (نمره) تابع راستنمایی دارای میانگین صفر، و ماتریس واریانس است.
برای نشان دادن میانگین صفر توجه داریم که انتگرال چگالی مشترک بر روی مقادیر ممکن بردار y مقداری را به دست میدهد که:
با مشتق گیری از طرفین این عبارت نسبت به داریم:
اما ، بنابراین با توجه به داریم:
آنگاه نتیجه میشود که واریانس s (شرایط مرتبه اول) برابر است:
نکته مهمی که باید عنوان شود آنست که در این روش تفاوتی نمیکند که تابع راست نمایی را حداکثر یا لگاریتم آن را حداکثر نمائیم. زیرا لگاریتم یک تبدیل یکنواست. برای بسیاری از مدلها میتوان MLE را به صورت تابعی صریح از داده های مشاهده شده پیدا کرد. اما در بسیاری از مسایل پیدا کردن یک فرم بسته برای تابع راستنمایی ممکن نیست و باید از روش های عددی برای یافتن MLE استفاده کرد. برای برخی مسایل ممکن است تقریبهایی متفاوت موجود باشند که تابع را بیشینه کنند و برای برخی دیگر نیز هیچ تقریب مناسبی وجود ندارد. در گفته های فوق فرض بر این بود که داده ها به طور مستقل و یکنواخت توزیع شدهاند. اما این روش را میتوان به حوزه های وسیعتری نیز گسترش داد. در مسایلی پیچیدهتر چون سریهای زمانی حتی فرض استقلال هم میتواند حذف شود.
در مواردی که محاسبه مستقیم تابع راستنمایی امکان پذیر نیست استفاده از روش های عمومی محاسبات عددی برای محاسبه تخمین زنهای حداکثر راستنمایی ضرورت دارد. در راستای تلاش برای رفع این مشکل، روشهایی ایجاد و ابداع شدهاند که تمامی آنها مبتنی بر الگوریتمهای تکراری میباشند که حداکثر مقدار توسط تابعی از آرگومانهای مختلف را جستجو میکنند. یکی از روش های مذکور که در محاسبات عددی بهینهسازی نامقید برای برآورد حداکثر راستنمایی مدلهای غیر خطی مورد استفاده قرار می گیرد استفاده از الگوریتم برویدن-فلچر-گولدفارب-شانو (BFGS)[213] است که در بخش بعدی بطور مختصر مرور و بررسی خواهد شد.
الگوریتم بهینه سازی BFGS
روش BFGS روشی تکراری در محاسبات عددی بهینهسازی است که برای بهینهیابی مدلهای غیرخطی نامقید مورد استفاده قرار میگیرد. این روش تقریبی برای روش بهینه سازی نیوتون؛ دستهای از تکنیکهای بهینه سازی تپه نوردی که به دنبال یک نقطه ثابت از (ترجیحا از توابع دوبار مشتق پذیر) هستند. برای این گونه مسائل، شرط لازم برای بهینگی آنست که گرادیان تابع برابر صفر باشد.
یکی از روش های بهینه سازی برپایه گرادیان، روش نیوتن است. این روش برای به روز کردن وزن ها و بایاس ها در هر گام، از معکوس ماتریس هشین تابع هزینه به ازای مقادیر وزن ها و بایاس ها در آن گام استفاده میکند. اما محاسبه، معکوس سازی و نگهداری این ماتریس بسیار پیچیده و هزینه بر است. در حقیقت پیچیدگی محاسباتی برای معکوس سازی آن از درجه سه است. با این حال این روش دارای همگرایی بسیار سریعی است و برای مسایل با تعداد پارامترهای کم (در مرتبه ۱۰ پارامتر) بسیار مناسب است.
برای فرار از محاسبات مربوط به ماتریس هشین روشهایی به نام شبه نیوتن مطرح شدهاند که تقریبی از این ماتریس را در هر گام به روز کرده و از آن استفاده میکنند. بروزسازی بر پایه تابعی از گرادیان انجام میشود. پیچیدگی محاسباتی روش شبه نیوتن برای ضرب ماتریس، به دو کاهش مییابد. این روش نیز دارای همگرایی بسیار سریعی است و برای مسایل با تعداد پارامترهای در مرتبه ۱۰۰ بسیار مناسب است. موفقترین روش شبه نیوتن، توسط برویدن و همکاران ارائه شده است که به همین دلیل به الگوریتم BFGS معروف شده است.
روش نیوتن و روش BFGS نیازی به همگرایی ندارند مگر در صورتی که تابع دارای بسط تیلور درجه دوم در نزدیکی نقطه بهینه باشد. هر دو روش مذکور، جهت بهینهیابی از مشتقهای اول و دوم استفاده خواهند کرد. با این حال، تأیید شده است که الگوریتم BFGS عملکرد خوبی حتی برای مسائل بهینه سازی غیر یکنواخت[۲۱۴] دارد (نئوسدال و رایت[۲۱۵]، ۲۰۰۶؛ صفحه ۱۲۶).
در حالت کلی ایده عملکردی الگوریتم بدین صورت است که جهت جستجو در لحظه ی kام توسط پاسخ معادله نیوتون داده میشود.
که در آن تقریبی از ماتریس هشین است که در هر مرحله بروز رسانی میشود و گرادیان تابع به ازای هر است.
مراحل مختلف الگوریتم BFGS بدین صورت است که با شروع از مقدار اولیه و مقدار تقریبی اولیه مراحل زیر تکرار میشوند تا اینکه راه حل مسئله به مقدار بهینه جواب همگرا شود و به تقریب مورد نظر برسیم. این مراحل عبارتند از:
انتخاب جهت با حل معادله
انجام جستجوی خطی برای یافتن بهترین اندازه قدم برای بروزرسانی