רגרסיה לוגיסטית: מודל ושיטות

תוכן עניינים:

רגרסיה לוגיסטית: מודל ושיטות
רגרסיה לוגיסטית: מודל ושיטות
Anonim

נעשה שימוש בשיטות של רגרסיה לוגיסטית וניתוח אבחנה כאשר יש צורך להבדיל בבירור בין המשיבים לפי קטגוריות יעד. במקרה זה, הקבוצות עצמן מיוצגות על ידי רמות של פרמטר אחד עם וריאציה אחת. בואו נסתכל מקרוב על מודל הרגרסיה הלוגיסטית ונגלה מדוע הוא נחוץ.

רגרסיה לוגיסטית
רגרסיה לוגיסטית

מידע כללי

דוגמה לבעיה שבה נעשה שימוש ברגרסיה לוגיסטית היא סיווג המשיבים לקבוצות שקונות ולא קונות חרדל. הבידול מתבצע בהתאם למאפיינים סוציו-דמוגרפיים. אלה כוללים, במיוחד, גיל, מין, מספר קרובי משפחה, הכנסה וכו'. במבצעים יש קריטריונים להבדיל ומשתנה. האחרון מקודד את קטגוריות היעד שאליהן, למעשה, יש לחלק את המשיבים.

ניואנסים

יש לומר שטווח המקרים שבהם מיושמת רגרסיה לוגיסטית הוא הרבה יותר מצומצם מאשר בניתוח מבחין. בהקשר זה, השימוש באחרון כשיטת בידול אוניברסלית נחשבמועדף יותר. יתרה מכך, מומחים ממליצים להתחיל מחקרי סיווג עם ניתוח מבחין. ורק במקרה של אי ודאות לגבי התוצאות, אתה יכול להשתמש ברגרסיה לוגיסטית. צורך זה נובע מכמה גורמים. רגרסיה לוגיסטית משמשת כאשר ישנה הבנה ברורה של סוג המשתנים הבלתי תלויים והתלויים. בהתאם לכך, נבחר אחד מ-3 ההליכים האפשריים. בניתוח אבחנה, החוקר תמיד עוסק בפעולה סטטית אחת. זה כולל משתנים קטגוריים תלויים אחד ומספר בלתי תלויים עם כל סוג של סולם.

צפיות

המשימה של מחקר סטטיסטי המשתמש ברגרסיה לוגיסטית היא לקבוע את ההסתברות שמשיב מסוים ישויך לקבוצה מסוימת. הבידול מתבצע על פי פרמטרים מסוימים. בפועל, על פי ערכים של גורם עצמאי אחד או יותר, ניתן לסווג את הנשאלים לשתי קבוצות. במקרה זה, מתרחשת רגרסיה לוגיסטית בינארית. כמו כן, ניתן להשתמש בפרמטרים שצוינו בעת חלוקה לקבוצות של יותר משניים. במצב כזה מתרחשת רגרסיה לוגיסטית רב-נומית. הקבוצות המתקבלות מבוטאות ברמות של משתנה בודד.

רגרסיה לוגיסטית
רגרסיה לוגיסטית

דוגמה

נניח שיש תשובות של מגיבים לשאלה האם הם מעוניינים בהצעה לרכוש מגרש בפרברי מוסקבה. האפשרויות הן "לא"וכן. יש צורך לברר לאילו גורמים יש השפעה מכרעת על ההחלטה של קונים פוטנציאליים. לשם כך, הנשאלים נשאלים שאלות לגבי תשתית השטח, המרחק לבירה, אזור האתר, נוכחות / היעדר בניין מגורים וכו'. באמצעות רגרסיה בינארית, ניתן להפיץ המשיבים לשתי קבוצות. הראשון יכלול את המעוניינים ברכישה - קונים פוטנציאליים, והשני, בהתאמה, את אלו שאינם מעוניינים בהצעה כזו. עבור כל משיב, בנוסף, תחושב ההסתברות לשיוך לקטגוריה כזו או אחרת.

מאפיינים השוואתיים

ההבדל משתי האפשרויות לעיל הוא המספר השונה של הקבוצות וסוג המשתנים התלויים והבלתי תלויים. ברגרסיה בינארית, למשל, נחקרת התלות של גורם דיכוטומי בתנאי עצמאי אחד או יותר. יתר על כן, האחרון יכול להיות כל סוג של סולם. רגרסיה רב-נומית נחשבת לווריאציה של אפשרות סיווג זו. בו, יותר מ-2 קבוצות שייכות למשתנה התלוי. הגורמים הבלתי תלויים חייבים להיות בעלי סולם סולם או נומינלי.

רגרסיה לוגיסטית ב-spss

בחבילה הסטטיסטית 11-12 הוצגה גרסה חדשה של ניתוח - אורדינל. שיטה זו משמשת כאשר הגורם התלוי שייך לאותו סולם שם (אורדיאלי). במקרה זה, משתנים בלתי תלויים נבחרים מסוג מסוים אחד. הם חייבים להיות רגילים או נומינליים. הסיווג למספר קטגוריות נחשב ביותראוניברסלי. ניתן להשתמש בשיטה זו בכל המחקרים המשתמשים ברגרסיה לוגיסטית. עם זאת, הדרך היחידה לשפר את האיכות של מודל היא להשתמש בכל שלוש הטכניקות.

בדיקת איכות נאותות ורגרסיה לוגיסטית
בדיקת איכות נאותות ורגרסיה לוגיסטית

סיווג רגיל

יש לומר שמוקדם יותר בחבילה הסטטיסטית לא הייתה אפשרות אופיינית לבצע ניתוח מיוחד עבור גורמים תלויים עם סולם אורדינל. עבור כל המשתנים עם יותר מ-2 קבוצות, נעשה שימוש בווריאציה הרב-נומינלית. לניתוח הסידורי שהוצג לאחרונה יחסית יש מספר תכונות. הם לוקחים בחשבון את הפרטים של הסולם. בינתיים, בעזרי הוראה, רגרסיה לוגיסטית סידורית לרוב אינה נחשבת כטכניקה נפרדת. זה נובע מהדברים הבאים: לניתוח אורדינל אין יתרונות משמעותיים על פני מולטינומי. החוקר עשוי בהחלט להשתמש באחרון בנוכחות משתנה תלוי רגיל וגם נומינלי. יחד עם זאת, תהליכי הסיווג עצמם כמעט ואינם שונים זה מזה. המשמעות היא שביצוע ניתוח סידורי לא יגרום לקשיים.

אפשרות ניתוח

בואו נשקול מקרה פשוט - רגרסיה בינארית. נניח, בתהליך של מחקר שיווקי, מוערך הביקוש לבוגרי אוניברסיטה מטרופולינית מסוימת. בשאלון, המשיבים נשאלו שאלות, כולל:

  1. האם אתה עובד? (ql).
  2. הכנס לשנת הסיום (ש' 21).
  3. מהו הממוצעציון סיום (ממוצע).
  4. מגדר (ש22).

רגרסיה לוגיסטית תעריך את ההשפעה של גורמים בלתי תלויים aver, q 21 ו- q 22 על המשתנה ql. במילים פשוטות, מטרת הניתוח תהיה לקבוע את ההעסקה הסבירה של בוגרים בהתבסס על מידע על התחום, שנת הסיום ו-GPA.

מחוון רגרסיה סיגמואידית לוגיסטית
מחוון רגרסיה סיגמואידית לוגיסטית

רגרסיה לוגיסטית

כדי להגדיר פרמטרים באמצעות רגרסיה בינארית, השתמש בתפריט Analyze►Regression►Binary Logistic. בחלון רגרסיה לוגיסטית, בחר את הגורם התלוי מרשימת המשתנים הזמינים משמאל. זה ql. משתנה זה חייב להיות ממוקם בשדה תלוי. לאחר מכן, יש צורך להכניס גורמים בלתי תלויים לעלילה Covariates - ש' 21, ש' 22, ממוצע. לאחר מכן עליך לבחור כיצד לכלול אותם בניתוח שלך. אם מספר הגורמים הבלתי תלויים הוא יותר מ-2, אזי נעשה שימוש בשיטה של הקדמה בו-זמנית של כל המשתנים, המוגדרת כברירת מחדל, אך צעד אחר צעד. הדרך הפופולרית ביותר היא Backward:LR. באמצעות כפתור הבחירה, תוכל לכלול במחקר לא את כל המשיבים, אלא רק קטגוריית יעד ספציפית.

הגדר משתנים קטגוריים

יש להשתמש בכפתור הקטגוריות כאשר אחד המשתנים הבלתי תלויים הוא נומינלי עם יותר מ-2 קטגוריות. במצב זה, בחלון הגדר משתנים קטגוריים, רק פרמטר כזה ממוקם בסעיף משתנים קטגוריים. בדוגמה זו, אין משתנה כזה. לאחר מכן, ברשימה הנפתחת ניגודיות מופיעהבחר בפריט סטייה ולחץ על הלחצן שנה. כתוצאה מכך יווצרו מספר משתנים תלויים מכל גורם נומינלי. המספר שלהם מתאים למספר הקטגוריות של התנאי ההתחלתי.

שמור משתנים חדשים

באמצעות כפתור השמירה בתיבת הדו-שיח הראשית של המחקר, נקבעת יצירת פרמטרים חדשים. הם יכללו את האינדיקטורים המחושבים בתהליך הרגרסיה. בפרט, אתה יכול ליצור משתנים המגדירים:

  1. שייך לקטגוריית סיווג ספציפית (חברות בקבוצה).
  2. הסתברות להקצות משיב לכל קבוצת מחקר (הסתברויות).

כאשר משתמשים בכפתור האפשרויות, החוקר אינו מקבל אפשרויות משמעותיות. בהתאם לכך, ניתן להתעלם ממנו. לאחר לחיצה על כפתור "אישור", תוצאות הניתוח יוצגו בחלון הראשי.

מקדם רגרסיה לוגיסטי
מקדם רגרסיה לוגיסטי

בדיקת איכות להתאמה ורגרסיה לוגיסטית

שקול את טבלת בדיקות אומניבוס של מקדמי מודל. הוא מציג את תוצאות הניתוח של איכות הקירוב של המודל. בשל העובדה שהוגדרה אפשרות שלב אחר שלב, עליך להסתכל על התוצאות של השלב האחרון (שלב 2). תוצאה חיובית תיחשב אם תימצא עלייה במדד צ'י ריבוע בעת מעבר לשלב הבא בדרגה גבוהה של מובהקות (סימון < 0.05). איכות המודל מוערכת בקו המודל. אם מתקבל ערך שלילי, אך הוא אינו נחשב משמעותי עם המהותיות הגבוהה הכוללת של המודל, האחרוןיכול להיחשב מתאים באופן מעשי.

טבלאות

סיכום המודל מאפשר להעריך את מדד השונות הכולל, המתואר על ידי המודל שנבנה (מדד R Square). מומלץ להשתמש בערך Nagelker. פרמטר Nagelkerke R Square יכול להיחשב כאינדיקטור חיובי אם הוא מעל 0.50. לאחר מכן, מוערכים תוצאות הסיווג, שבו המדדים בפועל של השתייכות לקטגוריה זו או אחרת הנבדקת מושווים לאלו החזויים על פי מודל הרגרסיה. לשם כך, נעשה שימוש בטבלת הסיווג. זה גם מאפשר לנו להסיק מסקנות לגבי נכונות ההבחנה עבור כל קבוצה הנבדקת.

מודל רגרסיה לוגיסטית
מודל רגרסיה לוגיסטית

הטבלה הבאה מספקת הזדמנות לגלות את המובהקות הסטטיסטית של הגורמים הבלתי תלויים שהוכנסו לניתוח, כמו גם כל מקדם רגרסיה לוגיסטי לא מתוקנן. על סמך אינדיקטורים אלו, ניתן לחזות את השתייכותו של כל משיב במדגם לקבוצה מסוימת. באמצעות כפתור השמירה, ניתן להזין משתנים חדשים. הם יכללו מידע על השתייכות לקטגוריית סיווג מסוימת (Predictedcategory) ועל ההסתברות להיכלל בקבוצות אלו (Predicted probabilities membership). לאחר לחיצה על "אישור", תוצאות החישוב יופיעו בחלון הראשי של Multinomial Logistic Regression.

הטבלה הראשונה, המכילה אינדיקטורים חשובים עבור החוקר, היא מידע התאמת מודל. רמה גבוהה של מובהקות סטטיסטית תצביע על איכות גבוהה והתאמת השימוש במודל בפתרון בעיות מעשיות. טבלה משמעותית נוספת היא Pseudo R-Square. זה מאפשר לך להעריך את שיעור השונות הכוללת בגורם התלוי, אשר נקבע על ידי המשתנים הבלתי תלויים שנבחרו לניתוח. על פי טבלת מבחני הסבירות, אנו יכולים להסיק מסקנות לגבי המובהקות הסטטיסטית של האחרונים. אומדני פרמטרים משקפים מקדמים לא מתוקננים. הם משמשים בבניית המשוואה. בנוסף, עבור כל שילוב של משתנים, נקבעה המובהקות הסטטיסטית של השפעתם על הגורם התלוי. בינתיים, במחקר שיווקי, לעתים קרובות יש צורך להבדיל את המשיבים לפי קטגוריות לא בנפרד, אלא כחלק מקבוצת היעד. לשם כך, נעשה שימוש בטבלת התדרים הצפויים והחזויים.

יישום מעשי

שיטת הניתוח הנחשבת נמצאת בשימוש נרחב בעבודתם של סוחרים. בשנת 1991 פותח מחוון הרגרסיה הסיגמואידית הלוגיסטית. זהו כלי קל לשימוש ויעיל לניבוי מחירים סבירים לפני שהם "מתחממים יתר על המידה". המחוון מוצג בתרשים כערוץ שנוצר על ידי שני קווים מקבילים. הם מרוחקים באותה מידה מהמגמה. רוחב המסדרון יהיה תלוי אך ורק בטווח הזמן. המחוון משמש כשעובדים כמעט עם כל הנכסים - מצמדי מטבעות ועד מתכות יקרות.

רגרסיה לוגיסטית ב-spss
רגרסיה לוגיסטית ב-spss

בפועל פותחו 2 אסטרטגיות מפתח לשימוש במכשיר: לפריצה ולסיבוב. במקרה האחרון, הסוחר יתמקד בדינמיקה של שינויי מחירים בתוך הערוץ. כאשר הערך מתקרב לקו התמיכה או ההתנגדות, מושם הימור על הסבירות שהתנועה תתחיל בכיוון ההפוך. אם המחיר מתקרב לגבול העליון, אז אתה יכול להיפטר מהנכס. אם זה בגבול התחתון, אז כדאי לחשוב על רכישה. אסטרטגיית הפריצה כוללת שימוש בהזמנות. הם מותקנים מחוץ לגבולות במרחק קטן יחסית. בהתחשב בכך שהמחיר בחלק מהמקרים מפר אותם לזמן קצר, כדאי לשחק בזה בטוח ולהגדיר הפסדים. יחד עם זאת, כמובן, ללא קשר לאסטרטגיה שנבחרה, הסוחר צריך לתפוס ולהעריך את המצב שנוצר בשוק בצורה רגועה ככל האפשר.

מסקנה

לכן, השימוש ברגרסיה לוגיסטית מאפשר לך לסווג במהירות ובקלות את המשיבים לקטגוריות לפי הפרמטרים הנתונים. בעת ניתוח, אתה יכול להשתמש בכל שיטה מסוימת. בפרט, רגרסיה רב-נומית היא אוניברסלית. עם זאת, מומחים ממליצים להשתמש בכל השיטות שתוארו לעיל בשילוב. זאת בשל העובדה שבמקרה זה איכות הדגם תהיה גבוהה משמעותית. זה, בתורו, ירחיב את טווח היישום שלו.

מוּמלָץ: