في غلطة إحصائية واحدة بتتكرر في رسائل الماجستير والدكتوراه أكتر من أي غلطة تانية.
استخدام الـ Linear Regression مع Outcome ثنائي (نعم/لأ — مريض/سليم — مات/عاش).
مش لأن الطالب مش ذكي. لأن أحد ما شرح له ليه ده خطأ أصلاً.
اختيار نوع الـ Regression الغلط بيخليك تبني كل تحليلك على أساس خاطئ — والأرقام بتطلع، بس بتكون misleading.
الفرق الجوهري: إيه طبيعة الـ Outcome بتاعك؟
الـ Linear Regression
للـ Outcome الـ continuous — رقم مستمر بدون حد:
- ضغط الدم (mmHg)
- مستوى الكوليسترول
- وزن الجنين
- درجة الحرارة
بيفترض: الـ outcome normally distributed، العلاقة خطية، الـ residuals ثابتة (homoscedasticity)
الـ Logistic Regression
للـ Outcome الـ binary — نتيجتين بس:
- مريض / غير مريض
- نجح / رسب
- مات / عاش
- حدث / ما حدثش
بيخرج بـ: Odds Ratio لكل متغير — مش coefficient خطي
لماذا الـ Linear Regression غلط مع الـ Binary Outcome؟
لأن الـ linear regression ممكن يتنبأ بقيم أكبر من 1 أو أقل من 0 — وده مش منطقي لو الـ outcome هو احتمال حدوث حاجة.
أنواع تانية لازم تعرفها
Multinomial Logistic Regression
لما الـ outcome عنده أكتر من قيمتين بدون ترتيب (categorical):
مثال: نوع السرطان (A / B / C)
Ordinal Logistic Regression
لما الـ outcome فيه ترتيب (ordinal scale):
مثال: شدة المرض (خفيف / متوسط / شديد)
Poisson Regression
لما الـ outcome هو عدد أحداث (count data):
مثال: عدد نوبات الربو في السنة
Cox Regression (Proportional Hazards)
لما بتدرس الوقت لحين وقوع حدث (survival data):
مثال: الوقت لحين الوفاة أو الانتكاسة
السؤال القاطع: قبل ما تختار
"هل الـ outcome بتاعي رقم مستمر، ولا نتيجتين، ولا أكتر من فئتين، ولا بيانات عدد، ولا وقت لحدث؟"
إجابة السؤال ده بتحدد نوع الـ regression مباشرةً.
مفيش regression صح مع كل البيانات. في regression مناسب لكل نوع بيانات.
طيب إيه اللي تعمله دلوقتي؟
حدد طبيعة الـ outcome بتاعك وتأكد إن نوع الـ regression اللي بتستخدمه متوافق معاه.
لو مش متأكد — Naggar Analytics بتقدم مراجعة للمنهجية الإحصائية بتاعتك وبتحدد الاختبارات المناسبة قبل ما تبدأ التحليل.