A Comparative Study between Linear Discriminant Analysis and Multinomial Logistic Regression


Article info

2013-01-28
2013-12-23
2013-12-23
1525 - 1548

Keywords

Abstract

This paper aimed to compare between the two different methods of classification: linear discriminant analysis (LDA) and multinomial logistic regression (MLR) using the overall classification accuracy, investigating their quality of prediction in terms of sensitivity and specificity, and examining area under the ROC curve (AUC) in order to make the choice between the two methods easier, and to understand how the two models behave under different data and group characteristics. Model performance had been assessed from two special cases of the k-fold partitioning technique, the ‘leave-one-out’ and ‘hold out’ procedures. The performance evaluation for the two methods was carried out using real data and also by simulation. Results show that logistic regression slightly exceeds linear discriminant analysis in the correct classification rate, but when taking into account sensitivity, specificity and AUC, the differences in the AUC were negligible. By simulation, we examined the impact of changes regarding the sample size, distance between group means, categorization, and correlation matrices between the predictors on the performance of each method. Results indicate that the variation in sample size, values of Euclidean distance, different number of categories have similar impact on the result for the two methods, and both methods LDA and MLR show a significant improvement in classification accuracy in the absence of multicollinearity among the explanatory variables.

These articles may interest you also

دراسة مقارنة بين التحليل التمييزي الخطي والانحدار اللوجستي المتعدد


معلومات المقال

2013-01-28
2013-12-23
2013-12-23
1525 - 1548

الكلمات الإفتتاحية

الملخص

هدفت هذه الدراسة إلى إجراء مقارنة بين أسلوبين من أساليب التصنيف و التنبؤ، وهي التحليل التمييزي الخطي وأسلوب الانحدار اللوجستي المتعدد وذلك لفهم كيفية عمل كلا النموذجين في التصنيف والتنبؤ  تحت تأثير الخصائص والصفات المختلفة للبيانات. تم في هذه الدراسة تقييم كلا الأسلوبين من خلال استخدام مجموعة بيانات حقيقية حيث كان المعيار المستخدم للمقارنة بين هذين النموذجين هو دقة التصنيف التي تم حسابها بطريقتين مختلفتين والمساحة تحت المنحنى AUC لتحليل الـROC ، كما تم توليد بيانات باستخدام برامج الحاسوب بحيث تحقق هذه البيانات الافتراضات الأساسية لنموذج التحليل التمييزي الخطي  في أنها تتبع التوزيع الطبيعي المتعدد وتتساوى فيها مصفوفة التباينات المشتركة، وذلك بهدف مقارنة قدرة كل من النموذجين على التصنيف والتنبؤ تحت تأثير الاختلاف في حجم البيانات وعدد فئات المتغير التابع والمسافة بين متوسطات المجموعات التي تحتاج إلى تصنيف والارتباط الداخلي بين المتغيرات المستقلة. عند تطبيق كلا النموذجين على البيانات الحقيقية، فقد وجد أن النتائج كانت متشابهة لكلا النموذجين من حيث المعاملات التي تم تقديرها والتي يمكن استخدامها للتنبؤ بالإصابة أو عدم الإصابة بمرض السكري، ورغم أن دقة التصنيف لأسلوب الانحدار اللوجستي كانت أعلى بقليل من دقة التصنيف لأسلوب التحليل التمييزي، إلا أنه عند أخذ معيار sensitivity و specificity والمساحة تحت المنحنى  AUC لتحليل الـROC فقد وجد أن الفرق بين كلا النموذجين في التصنيف كان ضئيلاً. وفي حالة البيانات المولدة فقد أكدت النتائج أن تأثير الاختلاف في حجم البيانات والاختلاف في عدد فئات المتغير التابع والمسافة بين متوسطات المجموعات كان لها نفس الأثر على أداء كل من النموذجين، وكلا النموذجين كان أداؤهما في التصنيف أفضل في ظل عدم وجود ارتباط داخلي بين المتغيرات المستقلة.

These articles may interest you also

An-Najah National University
Nablus, Palestine
P.O. Box
7, 707
Fax
(970)(9)2345982
Tel.
(970)(9)2345560
(970)(9)2345113/5/6/7-Ext. 2378
E-mail
[email protected]
Dean
Prof. Waleed Sweileh