تحليل عامل الاستكشاف في R

نشرت: 2017-02-16

عرض جدول المحتويات

ما هو تحليل عامل الاستكشاف في R؟

1. البيانات

2. استيراد بيانات الويب

3. حزمة التثبيت

4. عدد العوامل

تحليل العامل

اختبار كفاية

تسمية العوامل

استنتاج

ما هو تحليل عامل الاستكشاف في R؟

تحليل عامل الاستكشاف (EFA) أو المعروف تقريبًا باسم تحليل العوامل في R هو تقنية إحصائية تُستخدم لتحديد البنية العلائقية الكامنة بين مجموعة من المتغيرات وتضييقها إلى عدد أصغر من المتغيرات. هذا يعني بشكل أساسي أنه يمكن وصف التباين في عدد كبير من المتغيرات من خلال عدد قليل من المتغيرات الموجزة ، على سبيل المثال ، العوامل. فيما يلي نظرة عامة على تحليل العامل الاستكشافي في R.

كما يوحي الاسم ، فإن EFA استكشافية بطبيعتها - لا نعرف حقًا المتغيرات الكامنة ، وتتكرر الخطوات حتى نصل إلى عدد أقل من العوامل. في هذا البرنامج التعليمي ، سنلقي نظرة على EFA باستخدام R. الآن ، دعنا أولاً نحصل على الفكرة الأساسية لمجموعة البيانات.

1. البيانات

تحتوي مجموعة البيانات هذه على 90 إجابة لـ 14 متغيرًا مختلفًا يأخذها العملاء في الاعتبار عند شراء سيارة. تم تأطير أسئلة الاستطلاع باستخدام مقياس ليكرت المكون من 5 نقاط حيث 1 منخفض جدًا و 5 مرتفع جدًا. كانت المتغيرات كالتالي:

سعر
أمان
المظهر الخارجي
المساحة والراحة
تكنولوجيا
خدمة ما بعد البيع
قيمة اعادة البيع
نوع الوقود
كفاءة الوقود
اللون
اعمال صيانة
اختبار القيادة
تعليقات المنتج
الشهادات - التوصيات

انقر هنا لتنزيل مجموعة البيانات المشفرة.

2. استيراد بيانات الويب

سنقرأ الآن مجموعة البيانات الموجودة بتنسيق CSV في R ونخزنها كمتغير.

[لغة الكود = "r"] البيانات & amp ؛ amp ؛ amp ؛ amp ؛ amp ؛ amp ؛ amp ؛ lt ؛ - read.csv (file.choose ( ) ، العنوان = TRUE) [/ code]

ستفتح نافذة لاختيار ملف CSV وسيتأكد خيار "الرأس" من اعتبار الصف الأول من الملف رأسًا. أدخل ما يلي لمشاهدة الصفوف العديدة الأولى لإطار البيانات وتأكيد أن البيانات قد تم تخزينها بشكل صحيح.

[لغة الكود = "r"] head (data) [/ code]

3. حزمة التثبيت

سنقوم الآن بتثبيت الحزم المطلوبة لإجراء مزيد من التحليل. هذه الحزم هي "نفسية" و "GPArotation". في الكود الموضح أدناه ، نقوم باستدعاء `` install.packages () `للتثبيت.

[لغة الكود = "r"] install.packages ('psych') install.packages ('GPArotation') [/ code]

4. عدد العوامل

بعد ذلك ، سنكتشف عدد العوامل التي سنختارها لتحليل العوامل. يتم تقييم ذلك من خلال طرق مثل "التحليل المتوازي" و "القيمة الذاتية" ، إلخ.

التحليل الموازي

سنستخدم الدالة `fa.parallel` الخاصة بالحزمة` Psych` لتنفيذ التحليل الموازي. نحدد هنا إطار البيانات وطريقة العامل ("minres" في حالتنا). نفِّذ ما يلي للعثور على عدد مقبول من العوامل وإنشاء "مؤامرة حصرية":

[لغة الكود = "r"] الموازية & amp ؛ amp ؛ amp ؛ amp ؛ amp ؛ amp ؛ amp ؛ lt ؛ - fa.parallel (data ، fm = 'minres'، fa = 'fa') [/ code]

ستعرض وحدة التحكم الحد الأقصى لعدد العوامل التي يمكننا وضعها في الاعتبار. هنا كيف سيبدو.

"التحليل الموازي يشير إلى أن عدد العوامل = 5 وعدد المكونات = NA"

الموضح أدناه في "scree plot" الذي تم إنشاؤه من الكود أعلاه:

يُظهر الخط الأزرق قيم eigenvalues للبيانات الفعلية ويظهر الخطان الأحمران (الموجودان فوق بعضهما البعض) بيانات محاكية ومُعاد تشكيلها. نحن هنا نلقي نظرة على الانخفاضات الكبيرة في البيانات الفعلية ونحدد النقطة التي يصل فيها المستوى إلى اليمين. أيضًا ، نحدد نقطة الانعطاف - النقطة التي تميل فيها الفجوة بين البيانات المحاكاة والبيانات الفعلية إلى الحد الأدنى.

بالنظر إلى هذه المؤامرة والتحليل الموازي ، سيكون اختيار ما بين 2 إلى 5 عوامل اختيارًا جيدًا.

تحليل العامل

الآن وقد وصلنا إلى عدد محتمل من العوامل ، فلنبدأ بـ 3 على أنها عدد العوامل. من أجل إجراء تحليل العوامل ، سنستخدم وظيفة حزم psych`fa (). فيما يلي الحجج التي سنقدمها:

r - البيانات الأولية أو مصفوفة الارتباط أو التغاير
nfactors - عدد العوامل المطلوب استخلاصها
استدارة - على الرغم من وجود أنواع مختلفة من التدوير ، فإن "Varimax" و "Oblimin" هما الأكثر شيوعًا
fm - إحدى تقنيات استخلاص العوامل مثل "الحد الأدنى المتبقي (OLS)" ، "أقصى قدر من Liklihood" ، "المحور الرئيسي" إلخ.

في هذه الحالة ، سنختار الدوران المائل (rotate = "oblimin") لأننا نعتقد أن هناك ارتباطًا بين العوامل. لاحظ أنه يتم استخدام Varimax rotation بافتراض أن العوامل غير مرتبطة تمامًا. سنستخدم العوملة "العوملة العادية ذات المربعات الصغرى / الدقيقة" (fm = "minres") ، حيث يُعرف أنها تقدم نتائج مشابهة لـ "Maximum Likability" دون افتراض توزيع طبيعي متعدد المتغيرات واستنباط الحلول من خلال التكوُّن المتكرر المتكرر مثل المحور الرئيسي.

قم بتشغيل ما يلي لبدء التحليل.

[لغة الكود = "r"] ثلاثة عوامل & amp ؛ amp ؛ amp ؛ amp ؛ amp ؛ amp ؛ amp ؛ lt ؛ - fa (البيانات ، nfactors = 3 ، استدارة = "oblimin" ، fm = "minres") طباعة (ثلاثة عوامل) [/ code]

هنا هو الإخراج الذي يوضح العوامل والتحميلات:

نحن الآن بحاجة إلى النظر في التحميلات التي تزيد عن 0.3 وعدم التحميل على أكثر من عامل واحد. لاحظ أن القيم السالبة مقبولة هنا. لذلك دعونا أولاً نضع حدًا فاصلًا لتحسين الرؤية.

[لغة الكود = "r"] طباعة (ثلاثة عوامل تحميل بالدولار ، القطع = 0.3) [/ code]

كما ترى ، أصبح متغيرين غير مهمين واثنين آخرين لهما تحميل مزدوج. بعد ذلك ، سننظر في العوامل "4".

[لغة الكود = "r"] أربعة عوامل & amp ؛ amp ؛ amp ؛ amp ؛ amp ؛ amp ؛ amp ؛ lt ؛ - fa (البيانات ، nfactors = 4 ، استدارة = "oblimin" ، fm = "minres") طباعة (أربعة عوامل تحميل $ ، قطع = 0.3) [/ code]

يمكننا أن نرى أنه ينتج عنه تحميل واحد فقط. يُعرف هذا بالبنية البسيطة.

اضغط على التالي لإلقاء نظرة على تعيين العوامل.

[لغة الكود = "r"] مخطط fa.diagram (أربعة عوامل) [/ code]

اختبار كفاية

الآن وقد حققنا هيكلًا بسيطًا ، حان الوقت للتحقق من صحة نموذجنا. دعونا نلقي نظرة على ناتج تحليل العوامل للمتابعة.

الجذر يعني أن مربع القيم المتبقية (RMSR) يساوي 0.05. هذا مقبول لأن هذه القيمة يجب أن تكون أقرب إلى 0. بعد ذلك ، يجب أن نتحقق من مؤشر RMSEA (جذر متوسط الخطأ التربيعي للتقريب). تُظهر قيمته 0.001 نموذجًا جيدًا مناسبًا لأنه أقل من 0.05. أخيرًا ، مؤشر Tucker-Lewis (TLI) هو 0.93 - وهي قيمة مقبولة بالنظر إلى أنها تزيد عن 0.9.

تسمية العوامل

بعد إثبات كفاية العوامل ، حان الوقت لتسمية العوامل. هذا هو الجانب النظري للتحليل حيث نشكل العوامل اعتمادًا على الأحمال المتغيرة. في هذه الحالة ، إليك كيفية إنشاء العوامل.

استنتاج

في هذا البرنامج التعليمي للتحليل في r ، ناقشنا الفكرة الأساسية لـ EFA (تحليل العامل الاستكشافي في R) ، والتحليل الموازي المغطى ، وتفسير مؤامرة scree. ثم انتقلنا إلى تحليل العوامل في R لتحقيق بنية بسيطة والتحقق من صحتها لضمان كفاية النموذج. وصل أخيرا إلى أسماء العوامل من المتغيرات. الآن انطلق ، جربه ، وانشر نتائجك في قسم التعليقات.