برنامه‌نویسی به زبان R

برنامه‌نویسی به زبان R

دوستان عزیز جهت انجام پروژه‌های آماری و برنامه‌نویسی پایان‌نامه می‌توانید با آدرس الکترونیکی rprogramming.iran@gmail.com تماس حاصل نمائید.
برنامه‌نویسی به زبان R

برنامه‌نویسی به زبان R

دوستان عزیز جهت انجام پروژه‌های آماری و برنامه‌نویسی پایان‌نامه می‌توانید با آدرس الکترونیکی rprogramming.iran@gmail.com تماس حاصل نمائید.

نصب بسته(package) در R

با توجه به استفاده از توابع مختلف، بسته های مختلفی وجود دارند که یا بعد از نصب برنامه R در برنامه وجود دارند یا باید آنها را نصب کرد. اگر بسته مورد نظر در سیستم نصب باشد، برای استفاده باید اول آن را بارگذاری (Load) کرد و سپس استفاده کرد که این کار را با استفاده از دستور ()library انجام می‌دهیم به طوری که داخل آرگومان باید نام بسته مورد استفاده را نوشت و اجرا کرد. همچنین این کار را می‌توان با استفاده از منوی packages در برنامه و گزینه load package انجام داد.

در صورتی که بسته مورد نظر نصب نباشد ابتدا از منوی packages گزینه install package بعد از انتخاب کشور مورد نظر، بسته را انتخاب و آنرا نصب می‌کنیم. سپس با توجه به مطالب بارگذاری بسته، از آن استفاده می‌کنیم.

رگرسیون

رگرسیون خطی ساده

فرض کنید 2 بردار y و x به حجم n وجود دارد و به نظر می‌رسد که بین این دو نمونه رابطه‌ای خطی وجود دارد. با استفاده از تابع ()lm رگرسیون موجود بین این 2 بردار را بدست می‌آوریم.

بطور مثال فرض کنید دو بردار x و y زیر موجودند:

(set.seed(50

(x<-rnorm(1000,0,1

(y<-rnorm(1000,3,1

برای اینکه بخواهیم رگرسیون به شکل زیر را به دست آوریم:

yi=a+bxi+ei

 (lm(y~x

را اجرا می‌کنیم که براورد عرض از مبدا (intercept) و شیب خط رگرسیون (که در مدل رگرسیونی فوق به ترتیب مقادیر a و b) هستند به صورت زیر نشان داده می‌شود:

:Call

(lm(formula = y ~ x

 :Coefficients

Intercept)          x) 

      0.008005-        3.018635

رگرسیون خطی چندگانه

فرض کنید متغیر پاسخ (y) و چند متغیر پیشگو (برای مثال u، v و w) موجود است و تصور می‌کنیم که بین این متغیرهای پیشگو و متغیر پاسخ ارتباط خطی وجود دارد.

بطور مثال فرض کنید دو بردار u، v، w و y زیر موجودند:

(set.seed(500

(u<-rnorm(1000,1,1

(v<-rnorm(1000,3,1

(w<-rnorm(1000,1,1

(y<-rnorm(1000,10,1

برای اینکه بخواهیم رگرسیون به شکل زیر را به دست آوریم:

yi=a0+a1ui+ a2vi + a3wi + ei

 (lm(y~u+v+w

بدست آوردن آماره‌های رگرسیون

فرض کنید درباره رگرسیونی که بدست آورده‌ایم، می‌خواهیم اطلاعاتی چون R2، آماره F، فواصل اطمینان برای ضرائب رگرسیون، مانده‌ها، جدول ANOVA و... را بدست آوریم.

برای این منظور پس از اجرای رگرسیون و نامگذاری دلخواه آن (مثلاً برای راحتی کار نام متغیر را m در نظر می‌گیریم)، برای

-جدول ANOVA، تابع (anova(m؛

-ضرائب مدل، (coefficient(m یا (coef(m؛

-فواصل اطمینان ضرائب مدل، (confint(m؛

-مجموع مربعات خطا، (deviance(m؛

-بردار اثرات متعامد، (effects(m؛

-بردار مقادیر برازیده شده متغیر پاسخ (y، fitted(m؛

- مانده‌ها، (residuals(m یا (resid(m؛

-خلاصه آماره‌ها چون، R2، F و خطای استاندارد مانده‌ها، (summary(m؛

-ماتریس واریانس – کوواریانس پارامترهای اصلی، (vcov(m.

تشخیص یک مدل رگرسیون خطی

فرض کنید برای مجموعه داده‌ای رگرسیون را اجرا کرده‌ایم و می‌خواهیم کیفیت مدل را تشخیص دهیم.

برای این منظور ابتدا تابع plot را برای مدل مورد نظر اجرا می‌کنیم که برخی نمودارهای را جهت تشخیص این موضوع ارائه می‌کند.

بعد از نصب پکیج car می‌توان از تابع ()outlierTest برای بررسی مانده‌های مدل استفاده کرد.

با در نظر گرفتن مثال زیر به ارائه مختصری از کار فوق می‌پردازیم.

فرض کنید:

(set.seed(1500

(x<-rnorm(1000,0,1

(y<-rnorm(1000,00,1

(m<- lm(y~x

پس از اجرای تایع:

(plot(m

به طور مثال نمودار اول بیانگر پراکنش مقادیر برازیده شده در برابر مانده‌هاست. همچنین دومین نمودار بیانگر Q-Q plot است که نشان می‌دهد آیا مانده‌ها از تابع توزیع نرمال پیروی می‌کنند یا خیر.

 پیشگویی مقادیر جدید

 حال با استفاده از مدل رگرسیونی که تایید مناسب بودن آن در بخش قبل انجام شده بود(تشخیص یک مدل رگرسیون خطی)، می‌خواهیم مقادیر جدید را با استفاده از مدل رگرسیونی بدست آوریم. این کار را با استفاده از دستور ()predict انجام می‌دهیم. برای پیشگویی داده‌های مورد نظر با استفاده از مدل رگرسیونی فوق، باید داده‌های مورد نظر را به صورت چارچوب داده در تابع فوق وارد کرد. به این صورت که در آرگومان تابع ()predict بخش اول، مدل رگرسیونی ودر بخش دوم چارچوب داده مربوط به مقادیری که می‌خواهیم با استفاده از مدل پیشگویی شوند را وارد می‌کنیم.

برای مثال اگر:

(set.seed(2500

(x<-rnorm(1000,0,1

(y<-rnorm(1000, 0,1

(m<- lm(y~x

داده‌های مدل رگرسیونی باشد و

(u<-rnorm(1000,0,1

داده‌هایی باشند که می‌خواهیم با استفاده از مدل مقادیر آن پیشگویی شوند، برای پیشگویی ابتدا چارچوب داده مربوط داده‌های فوق را به صورت

(pred<-data.frame(u

ساخته و سپس با استفاده از دستور:

(predict(m,pred

مقادیر را پیشگویی می‌کنیم.

ساخت بافت‌نگار

برای این منظور از تابع ()hist استفاده می‌کنیم. آرگومان مربوط به این تابع نیز مقادیر عددی را در بر می‌گیرد.

برای مثال، فرض کنید نمودار جعبه‌ای مربوط به نمونه‌ای از اعداد نرمال با میانگین 0 و واریانس 1 به حجم1000 را می‌خواهیم رسم کنیم:

(set.seed(100

(x<-rnorm(1000,0,1

(hist(x

می‌توان تعداد ستون‌هایی که در بافت‌نگار مورد نظر است را انتخاب کرد. همچنین می‌توان عنوان نمودار و نام متغیر سطر افقی را می‌توان به ترتیب با استفاده از پارامترهای main و xlab تغییر داد.

به‌طور مثال می‌توان عنوان نمودار و نام متغیر سطر  افقی را به random normal و values تغییر داد. همچنین تعداد ستون‌ها را 100 در نظر گرفت. بنابراین خواهیم داشت:

("hist(x,100,main="random normal", xlab="valuse

برای رسم بافت‌نگار همچنین می‌توانید به تابع histogram از پکیج lattice مراجعه کنید.

ساخت نمودار جعبه‌ای

برای این منظور کافی است از تابع boxplot استفاده کرد. آرگومان مربوط به متغیری که می‌خواهیم نمودار جعبه‌ای آن ترسیم شود از نوع عددی (numeric) است.

برای مثال، فرض کنید نمودار جعبه‌ای مربوط به نمونه‌ای از اعداد نرمال با میانگین 0 و واریانس 1 به حجم1000 را می‌خواهیم رسم کنیم:

(set.seed(100

(x<-rnorm(1000,0,1

(boxplot(x

سطر اول دستور به منظور یکسان بودن نمونه اعداد تصادفی انتخاب شده از جامعه نرمال با میانگین 0 و واریانس 1 است. شکل نمودار جعبه‌ای به صورت زیر است:

در توضیح شکل باید گفت که:

- خط پررنگی که در وسط جعبه وجود دارد، میانه جامعه است.

-در جعبه موجود سطر پایین چارک اول مشاهدات و سطر بالا، چارک سوم مشاهدات است.

-ارتفاع کادری که حول جعبه است نشان‌دهنده دامنه مشاهدات است.

-نقاط دایره‌ای که بین کادر اصلی (دامنه مشاهدات) و خطوط بالا و پایین جعبه، نقاط دورافتاده (outlier) هستند. 1.5 برابر اختلاف ناشی از خطوط بالا و پایین جعبه دامنه میان‌چارکی مشاهدات است که نقاط دورافتاده را مشخص می‌کند.

ساخت نمودار میله‌ای

برای ساخت نمودار میله‌ای از دستور ()barplot استفاده می‌کنیم. برای این منظور مقادیری را که می‌خواهیم نمودار میله‌ای آن رسم شوند، با یک بردار مشخص کرده و آنرا داخل آرگومان تابع قرار می‌دهیم. مثلاً اگر بخواهیم نمودار میله‌ای را برای بردار

(c(3,4,4.5,3.5

رسم کنیم، کافی است دستور زیر را اجرا کنیم:

barplot(c(3,4,4.5,3.5))

در صورتی که بخواهیم نام مقادیر را برای سطر افقی مشخص کنیم،‌ می‌توان پارامتر names.arg را برای هر کدام از این مقادیر مشخص کرد. در مثال قبل اگر بخواهیم عنوان هر یک از مقادیر بردار را مشخص کنیم (با مقادیر A، B، C و D) کافی است دستور زیر را اجرا کنیم:

barplot(c(3,4,4.5,3.5),names.arg=c("A","B","C","D"))

در صورتی که بخواهیم برای محور عمودی یا افقی برچسب مشخص کنیم، به ترتیب پارامتر ylab و xlab را مقداردهی می‌کنیم. در مثال قبل اگر بخواهیم برای محور افقی و محور عمودی به ترتیب برچسب‌های Names و Values را مشخص کنیم خواهیم داشت:

barplot(c(3,4,4.5,3.5),names.arg=c("A","B","C","D"),xlab="Names",ylab="Values")

این مثال‌ها به گونه‌ای بودند که مقادیر مورد استفاده در نمودار میله‌ای گسسته بودند و برداری. حال اگر فرض کنیم بخواهیم برای مقادیر پیوسته نمودار میله‌ای را به گونه‌ای رسم کنیم که این مقادیر نسبت به مقادیر گسسته یک متغیر دیگر تقسیم بندی شده و بر اساس یک شاخص آماری خلاصه شوند، قبل از اجرای تابع رسم نمودار، از دستور ()tapply استفاده می‌کنیم.

فرض کنید در مجموعه داده airquality می‌خواهیم برای مقادیر متغیر Temp با توجه به مقادیر گسسته Month نمودار میله‌ای رسم کنیم. با توجه به دستور ()tapply و با توجه به شاخص آماری میانگین خواهیم داشت:

tapply(airquality$Temp,airquality$month,mean)

حال نمودار میله‌ای را پس از بدست آمدن میانگین مقادیر متغیر Temp با توجه به مقادیر گسسته Month رسم می‌کنیم که دستور آن به صورت زیر است:

barplot(tapply(airquality$Temp,airquality$Month,mean))