رگرسیون

رگرسیون خطی ساده

فرض کنید 2 بردار y و x به حجم n وجود دارد و به نظر می‌رسد که بین این دو نمونه رابطه‌ای خطی وجود دارد. با استفاده از تابع ()lm رگرسیون موجود بین این 2 بردار را بدست می‌آوریم.

بطور مثال فرض کنید دو بردار x و y زیر موجودند:

(set.seed(50

(x<-rnorm(1000,0,1

(y<-rnorm(1000,3,1

برای اینکه بخواهیم رگرسیون به شکل زیر را به دست آوریم:

y_i=a+bx_i+e_i

(lm(y~x

را اجرا می‌کنیم که براورد عرض از مبدا (intercept) و شیب خط رگرسیون (که در مدل رگرسیونی فوق به ترتیب مقادیر a و b) هستند به صورت زیر نشان داده می‌شود:

:Call

(lm(formula = y ~ x

:Coefficients

Intercept) x)

0.008005- 3.018635

رگرسیون خطی چندگانه

فرض کنید متغیر پاسخ (y) و چند متغیر پیشگو (برای مثال u، v و w) موجود است و تصور می‌کنیم که بین این متغیرهای پیشگو و متغیر پاسخ ارتباط خطی وجود دارد.

بطور مثال فرض کنید دو بردار u، v، w و y زیر موجودند:

(set.seed(500

(u<-rnorm(1000,1,1

(v<-rnorm(1000,3,1

(w<-rnorm(1000,1,1

(y<-rnorm(1000,10,1

برای اینکه بخواهیم رگرسیون به شکل زیر را به دست آوریم:

y_i=a₀+a₁u_i+ a₂v_i + a₃w_i + e_i

(lm(y~u+v+w

بدست آوردن آماره‌های رگرسیون

فرض کنید درباره رگرسیونی که بدست آورده‌ایم، می‌خواهیم اطلاعاتی چون R₂، آماره F، فواصل اطمینان برای ضرائب رگرسیون، مانده‌ها، جدول ANOVA و... را بدست آوریم.

برای این منظور پس از اجرای رگرسیون و نامگذاری دلخواه آن (مثلاً برای راحتی کار نام متغیر را m در نظر می‌گیریم)، برای

-جدول ANOVA، تابع (anova(m؛

-ضرائب مدل، (coefficient(m یا (coef(m؛

-فواصل اطمینان ضرائب مدل، (confint(m؛

-مجموع مربعات خطا، (deviance(m؛

-بردار اثرات متعامد، (effects(m؛

-بردار مقادیر برازیده شده متغیر پاسخ (y، fitted(m؛

- مانده‌ها، (residuals(m یا (resid(m؛

-خلاصه آماره‌ها چون، R₂، F و خطای استاندارد مانده‌ها، (summary(m؛

-ماتریس واریانس – کوواریانس پارامترهای اصلی، (vcov(m.

تشخیص یک مدل رگرسیون خطی

فرض کنید برای مجموعه داده‌ای رگرسیون را اجرا کرده‌ایم و می‌خواهیم کیفیت مدل را تشخیص دهیم.

برای این منظور ابتدا تابع plot را برای مدل مورد نظر اجرا می‌کنیم که برخی نمودارهای را جهت تشخیص این موضوع ارائه می‌کند.

بعد از نصب پکیج car می‌توان از تابع ()outlierTest برای بررسی مانده‌های مدل استفاده کرد.

با در نظر گرفتن مثال زیر به ارائه مختصری از کار فوق می‌پردازیم.

فرض کنید:

(set.seed(1500

(x<-rnorm(1000,0,1

(y<-rnorm(1000,00,1

(m<- lm(y~x

پس از اجرای تایع:

(plot(m

به طور مثال نمودار اول بیانگر پراکنش مقادیر برازیده شده در برابر مانده‌هاست. همچنین دومین نمودار بیانگر Q-Q plot است که نشان می‌دهد آیا مانده‌ها از تابع توزیع نرمال پیروی می‌کنند یا خیر.

پیشگویی مقادیر جدید

حال با استفاده از مدل رگرسیونی که تایید مناسب بودن آن در بخش قبل انجام شده بود(تشخیص یک مدل رگرسیون خطی)، می‌خواهیم مقادیر جدید را با استفاده از مدل رگرسیونی بدست آوریم. این کار را با استفاده از دستور ()predict انجام می‌دهیم. برای پیشگویی داده‌های مورد نظر با استفاده از مدل رگرسیونی فوق، باید داده‌های مورد نظر را به صورت چارچوب داده در تابع فوق وارد کرد. به این صورت که در آرگومان تابع ()predict بخش اول، مدل رگرسیونی ودر بخش دوم چارچوب داده مربوط به مقادیری که می‌خواهیم با استفاده از مدل پیشگویی شوند را وارد می‌کنیم.

برای مثال اگر:

(set.seed(2500

(x<-rnorm(1000,0,1

(y<-rnorm(1000, 0,1

(m<- lm(y~x

داده‌های مدل رگرسیونی باشد و

(u<-rnorm(1000,0,1

داده‌هایی باشند که می‌خواهیم با استفاده از مدل مقادیر آن پیشگویی شوند، برای پیشگویی ابتدا چارچوب داده مربوط داده‌های فوق را به صورت

(pred<-data.frame(u

ساخته و سپس با استفاده از دستور:

(predict(m,pred

مقادیر را پیشگویی می‌کنیم.

مهدی اولیائی دوشنبه 15 اردیبهشت 1393 ساعت 20:23

ش	ی	د	س	چ	پ	ج
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

برنامه‌نویسی به زبان R

برنامه‌نویسی به زبان R

نظرسنجی

تقویم

رگرسیون

برنامه‌نویسی به زبان R

نظرسنجی

جدیدترین یادداشت‌ها

بایگانی

تقویم

جستجو

رگرسیون