ارزیابی مفروضات اساسی مدل رگرسیونی: در این مرحله برای استفاده از مدل رگرسیونی، فرضهای اساسی آن آزمون شده و در صورتی که صدق نکنند باید به مراحل قبلی بازگشت. این مفروضات در بندهای آتی به تفضیل بیان میشوند.
آزمونهای معناداری: برای بررسی هر مدل رگرسیونی و قضاوت در مورد پارامترهای آن، دو گام زیر اساسی است: نخست بررسی معنادار بودن کل مدل و سپس بررسی معنادار بودن تکتک متغیرها. در یک مدل رگرسیونی در صورتی که هیچگونه رابطهای بین متغیرهای مستقل و وابسته وجود نداشته باشد، باید ضرایب تمامی متغیرهای مستقل در مدل مساوی صفر باشند، پس میتوان معنادار بودن معادله را با بهره گرفتن از آماره f و سطح اطمینان مشخص شده مورد بررسی قرار داد. بعد از بررسی معناداری کل مدل، میبایست معنادار بودن تکتک ضرایب را مورد آزمون قرار داد که از طریق آماره t انجام میشود.
استفاده از مدل برای پیشبینی: نهایتاًً اینکه از مدل رگرسیونی برای برآوردهای آتی و پاسخ به سؤالهای تحقیق استفاده میشود.
۳-۷) فرضهای اساسی رگرسیون
در هر مدل رگرسیون باید فرضهای خاصی برقرار باشد که در صورت نقض هریک از آن ها، مشکلاتی درباره مطلوبیت برآورد پارامترهای رگرسیون یا آزمون فرضیهها به وجود میآید. فرضهای اساسی رگرسیون عبارتند از :
الف) میانگین εt مساوی صفر است: به علت تصادفی بودن εt میتوان این فرض را به صورت E(εt)=0 نوشت. معنی این فرض این است که عوامل تشکیل دهنده خطاها، اثرات مثبت و منفی خود را طوری برجا میگذارند که متوسط مقادیر جملهخطاها برابر صفر شود.
ب) جمله خطاها دارای توزیع نرمال است: فرض بر این است که جمله خطاها به نحوی است که پراکندگی آن ها در مجاورت میانگین حداکثر بوده و هر چه از میانگین دورتر شویم، در سمت راست و چپ آن به یک نسبت کاهش مییابد. در نتیجه شکل توزیع، زنگولهای شکل است.
ج) جملات خطاها در مشاهدات مختلف ناهمبستهاند: اگر این فرض نقض شود با مسئلهای موسوم به خود همبستگی[۳۱] مواجه خواهیم بود. به طور کلی هرگاه εtها از نظم خاصی پیروی کنند، فرض ناهمبسته بودن εtها نقض شده و خود همبستگی مثبت، منفی یا تلفیقی ازخود همبستگی مثبت و منفی را خواهیم داشت.
د) واریانسهای جملات خطاها همگی برابرعدد ثابتی مانند δ² هستند: یعنیV(εt)=δ². هرگاه فرض اخیر نقض شود با مسئلهای موسوم به نابرابری (ناهمسانی) واریانسها[۳۲]، مواجه خواهیم بود.
ه) جملات خطاها مستقل از متغیر مستقل هستند: یعنی COV(Xtεt) =0 است. در صورت نقض این فرض، مطالعه دقیق اثرات x بر روی y امکانپذیر نخواهد بود. زیرا εt نیز روی Xt اثر میگذارد.
و) متغیرمستقل(Xt) برخلاف متغیر وابسته (Yt) متغیر غیرتصادفی است.
ز) فرض دیگر که فقط مختص مدل رگرسیون چندمتغیره میباشد، بیانگر آن است که باید تعداد مشاهدات بر تعداد پارامترها فزونی داشته باشد و بین متغیرهای مستقل رابطه خطی کامل وجود نداشته باشد. این فرض شرط لازم برای حصول جواب معادلات نرمال و برآورد ضرایب رگرسیون چندمتغیره است. در هر حال این فرض دال برعدم وجود هم خطی کامل خواهد بود. (فروند, جان;, ۱۳۸۷)
احتیاط در استفاده از رگرسیون و همبستگی
رگرسیون و همبستگی ابزارهایی هستند که در صورت استفاده صحیح از آن ها مفیدند، اما در بعضی مواقع استفاده نادرست از آن ها در پیشبینی، باعث نتایج غیردقیق و تصمیمات نامطلوب میشود. عمدهترین اشتباهات معمول در استفاده از این ابزارها عبارتند از:
تعمیم روند برای خارج از دامنه مشاهدات: از خط رگرسیون معمولاً برای پیشبینی استفاده میشود. یکی از اشتباهات معمول این است که بخواهیم روند را برای موردی تعمیم دهیم که خارج از دامنه مشاهداتی باشد که بر مبنای آن ها خط رگرسیون برآورد شده است.
فقدان رابطه علت و معلولی واقعی (همبستگی مجازی): گاهی همبستگی قوی بین دو متغیر پیدا میشود که واقعاً این دو متغیر هیچ رابطه علت و معلولی با هم ندارند.
تعمیم روند گذشته به آینده: تعمیم روند گذشته به آینده در صورتی معقول است که همان شرایطی که در گذشته موجود بوده در آینده نیز وجود داشته باشد.
تعبیر نادرست از ضرایب تعیین و همبستگی: گاهی تعبیر نادرستی از ضرایب همبستگی میشود. اگر ضریب تعیین را درصد تغییر در متغیر وابستهای بدانیم که بهدلیل تغییر در متغیر مستقل ایجاد شده، راه خطا پیمودهایم، زیرا r2 معیاری است که تنها میگوید یک متغیر چقدر خوب توانسته است متغیر دیگر را توضیح دهد، ولی نمیگوید که چهمیزان تغییر در یک متغیر قابل استناد به متغیر دیگر است (آذر, عادل; مومنی, منصور;, ۱۳۸۰).
در اکثر مدلهای رگرسیونی، معمولاً میخواهیم تغییرات یک متغیر را (y) بر حسب تعدادی از متغیرها (xها) که معتقدیم که باعث تغییرات y میشود توضیح دهیم. اغلب این کار را در قالب یک تابع انجام میدهیم:
k=1، ۲٫ . . N i=1,2… N
اندیس k تعداد متغیرهای توضیحدهنده را نشان میدهد. اغلب برای شروع، شکل این تابع را خطی فرض میکنند: