בדיקת השערות היא הליך הכרחי בסטטיסטיקה. מבחן השערה מעריך שני הצהרות סותרות זו את זו כדי לקבוע איזו משפט נתמך בצורה הטובה ביותר על ידי נתוני המדגם. כשאומרים על ממצא מובהק סטטיסטית, זה נובע מבדיקת השערה.
שיטות אימות
שיטות לבדיקת השערות סטטיסטיות הן שיטות של ניתוח סטטיסטי. בדרך כלל, משווים שתי קבוצות של סטטיסטיקות, או שקבוצת נתונים מדוגמת מושווה לסט נתונים סינתטי ממודל אידאלי. יש לפרש את הנתונים כך שיוסיפו משמעויות חדשות. אתה יכול לפרש אותם על ידי הנחת מבנה מסוים של התוצאה הסופית ושימוש בשיטות סטטיסטיות כדי לאשר או לדחות את ההנחה. ההנחה נקראת השערה, והמבחנים הסטטיסטיים המשמשים למטרה זו נקראים השערות סטטיסטיות.
H0 ו-H1 השערות
יש שניים עיקרייםהמושגים של בדיקה סטטיסטית של השערות - מה שנקרא "השערת אפס" ו"השערה חלופית". הן נקראות גם השערות ניימן-פירסון. הנחת המבחן הסטטיסטית נקראת השערת האפס, ההשערה הראשית או בקיצור H0. זה מכונה לעתים קרובות הנחת ברירת המחדל או ההנחה ששום דבר לא השתנה. הפרת הנחת הבדיקה מכונה לעתים קרובות ההשערה הראשונה, השערה חלופית או H1. H1 הוא קיצור של השערה אחרת, מכיוון שכל מה שאנחנו יודעים עליה הוא שניתן למחוק את נתוני H0.
לפני דחיית או אי דחיית השערת האפס, יש לפרש את תוצאת הבדיקה. השוואה נחשבת מובהקת סטטיסטית אם הקשר בין מערכי הנתונים לא סביר להיות יישום השערת האפס לפי הסתברות הסף - רמת המובהקות. ישנם גם קריטריונים של התאמה טובה לבדיקת השערות סטטיסטיות. זהו שמו של קריטריון מבחן ההשערה, הקשור לחוק כביכול של ההתפלגות הבלתי ידועה. זהו מדד מספרי לאי ההתאמה בין ההתפלגות האמפירית לתיאורטית.
נוהל וקריטריונים לבדיקת השערות סטטיסטיות
שיטות בחירת ההשערות הנפוצות ביותר מבוססות על קריטריון המידע של Akaike או על המקדם הביזיאני. בדיקת השערות סטטיסטית היא טכניקת מפתח הן בהסקה והן בהסקה בייסיאנית, אם כי לשני הסוגים יש הבדלים בולטים. מבחני השערה סטטיסטיתלהגדיר הליך השולט בהסתברות להחלטה שגויה על ברירת מחדל או השערת אפס שגויה. ההליך מבוסס על מידת הסבירות שהוא יעבוד. ההסתברות הזו לקבל החלטה שגויה היא חוסר ההסתברות שהשערת האפס נכונה ושלא קיימת השערה חלופית מסוימת. הבדיקה לא יכולה להראות אם היא נכונה או לא נכונה.
שיטות אלטרנטיביות לתיאוריית החלטות
קיימות שיטות אלטרנטיביות של תורת ההחלטות, שבהן השערות האפס והשערות הראשונות נחשבות בשוויון יותר. גישות אחרות לקבלת החלטות, כמו התיאוריה הבייזיאנית, מנסות לאזן את ההשלכות של החלטות רעות על פני כל האפשרויות במקום להתמקד בהשערת אפס אחת. מספר גישות אחרות להכרעה איזו מההשערות נכונה מבוססות על הנתונים, לאילו מהן יש את התכונות הרצויות. אבל בדיקת השערות היא הגישה הדומיננטית לניתוח נתונים בתחומי מדע רבים.
בודק את ההשערה הסטטיסטית
בכל פעם שקבוצה אחת של תוצאות שונה מקבוצה אחרת, יש להסתמך על בדיקות השערות סטטיסטיות או בדיקות השערות סטטיסטיות. הפרשנות שלהם דורשת הבנה נכונה של ערכי p וערכים קריטיים. חשוב גם להבין שללא קשר לרמת המובהקות, בדיקות עדיין עלולות להכיל טעויות. לכן, ייתכן שהמסקנה לא נכונה.
תהליך הבדיקה מורכב משלבים מרובים:
- נוצרת השערה ראשונית למחקר.
- השערות אפס והשערות חלופיות רלוונטיות מסומנות.
- מסביר הנחות סטטיסטיות לגבי המדגם במבחן.
- קביעה איזה מבחן מתאים.
- בחר את רמת המובהקות ואת סף ההסתברות שמתחתם תידחה השערת האפס.
- התפלגות סטטיסטיקת מבחן השערת האפס מציגה את הערכים האפשריים שבהם השערת האפס נדחית.
- החישוב מתבצע.
- מתקבלת החלטה לדחות או לקבל את השערת האפס לטובת חלופה.
יש חלופה שמשתמשת בערך p.
מבחני מובהקות
נתונים טהורים אינם מועילים בפועל ללא פרשנות. בסטטיסטיקה, כשמדובר בשאילת שאלות על נתונים ופענוח תוצאות, נעשה שימוש בשיטות סטטיסטיות כדי להבטיח את הדיוק או הסבירות לתשובות. כאשר בודקים השערות סטטיסטיות, סוג זה של שיטות נקרא בדיקה סטטיסטית, או מבחני מובהקות. המונח "השערה" מזכיר שיטות מדעיות, שבהן השערות ותיאוריות נחקרות. בסטטיסטיקה, מבחן השערה מביא לכמות בהינתן הנחה נתונה. זה מאפשר לך לפרש אם הנחה נכונה או שנעשתה הפרה.
פרשנות סטטיסטית של מבחנים
מבחני השערהמשמשים כדי לקבוע אילו תוצאות מחקר יובילו לדחיית השערת האפס לרמת מובהקות קבועה מראש. יש לפרש את תוצאות מבחן השערה סטטיסטית כך שניתן יהיה להמשיך לעבוד עליו. ישנן שתי צורות נפוצות של קריטריונים לבדיקת השערות סטטיסטיות. אלו הם ערך p וערכים קריטיים. בהתאם לקריטריון שנבחר, יש לפרש את התוצאות שהתקבלו בצורה שונה.
מהו P-value
פלט מתואר כמובהק סטטיסטית בעת פרשנות ה-p-value. למעשה, אינדיקטור זה אומר את ההסתברות לטעות אם השערת האפס תידחה. במילים אחרות, ניתן להשתמש בו כדי לתת שם לערך שניתן להשתמש בו כדי לפרש או לכמת תוצאת בדיקה, ולקבוע את ההסתברות לטעות בדחיית השערת האפס. לדוגמה, אתה יכול לבצע בדיקת תקינות על מדגם של נתונים ולגלות שיש סיכוי קטן לחרוג. עם זאת, אין צורך לדחות את השערת האפס. מבחן השערה סטטיסטית עשוי להחזיר ערך p. זה נעשה על ידי השוואת הערך של p מול ערך סף קבוע שנקרא רמת המובהקות.
רמת המשמעות
רמת המשמעות נכתבת לרוב באות היוונית הקטנה "אלפא". הערך הכללי המשמש עבור אלפא הוא 5%, או 0.05. ערך אלפא קטן יותר מציע פרשנות אמינה יותר של השערת האפס. ערך p מושווה לערך אלפא שנבחר מראש. התוצאה מובהקת סטטיסטית אם ערך ה-p קטן מאלפא. ניתן להפוך את רמת המובהקות על ידי הפחתה מאחת. זה נעשה כדי לקבוע את רמת הביטחון של ההשערה בהינתן נתוני המדגם שנצפו. כאשר משתמשים בשיטה זו לבדיקת השערות סטטיסטיות, ערך ה-P הוא הסתברותי. המשמעות היא שבתהליך פירוש התוצאה של מבחן סטטיסטי, לא יודעים מה נכון או לא נכון.
תיאוריית בדיקת היפותזה סטטיסטית
דחיית השערת האפס פירושה שיש מספיק ראיות סטטיסטיות לכך שהיא נראית סבירה. אחרת, זה אומר שאין מספיק סטטיסטיקות כדי לדחות את זה. אפשר לחשוב על מבחנים סטטיסטיים במונחים של הדיכוטומיה של דחייה וקבלת השערת האפס. הסכנה בבדיקה סטטיסטית של השערת האפס היא שאם תתקבל, היא עשויה להיראות כנכונה. במקום זאת, יהיה נכון יותר לומר שהשערת האפס אינה נדחית מכיוון שאין מספיק ראיות סטטיסטיות כדי לדחות אותה.
הרגע הזה מבלבל לעתים קרובות ניצבים מתחילים. במקרה כזה, חשוב להזכיר לעצמכם שהתוצאה הסתברותית ושגם לקבל את השערת האפס עדיין יש סיכוי קטן לטעות.
השערת אפס אמיתית או לא נכונה
פירוש הערך של p לא אומר שאפסההשערה נכונה או שקרית. המשמעות היא שנעשתה בחירה לדחות או לא לדחות את השערת האפס ברמה מסוימת של מובהקות סטטיסטית בהתבסס על הנתונים האמפיריים והמבחן הסטטיסטי שנבחר. לכן, ניתן להתייחס לערך ה-p כהסתברות לנתונים שניתנו תחת הנחה קבועה מראש המוטבעת במבחנים הסטטיסטיים. ערך ה-p הוא מדד למידת הסיכוי שדגימת הנתונים ייצפה אם השערת האפס נכונה.
פרשנות של ערכים קריטיים
חלק מהבדיקות לא מחזירות עמ'. במקום זאת, הם עשויים להחזיר רשימה של ערכים קריטיים. תוצאות מחקר כזה מתפרשות בצורה דומה. במקום להשוות ערך p בודד עם רמת מובהקות קבועה מראש, הנתון של הבדיקה מושווה לערך קריטי. אם יתברר שהוא פחות, זה אומר שלא ניתן היה לדחות את השערת האפס. אם היא גדולה או שווה, יש לדחות את השערת האפס. המשמעות של אלגוריתם בדיקת ההשערה הסטטיסטית ופרשנות התוצאה שלו דומה לערך p. רמת המובהקות שנבחרה היא החלטה הסתברותית לדחות או לא לדחות את הנחת מבחן הבסיס בהינתן הנתונים.
שגיאות במבחנים סטטיסטיים
הפירוש של מבחן השערה סטטיסטית הוא הסתברותי. המשימה של בדיקת השערות סטטיסטיות היא לא למצוא אמירה נכונה או שגויה. ראיות בדיקה עשויות להיות שגויות. לדוגמה, אם האלפא היה 5%, זה אומר שלרוב 1 מתוך 20השערת האפס תידחה בטעות. או שזה לא יקרה בגלל הרעש הסטטיסטי במדגם הנתונים. בהינתן נקודה זו, ערך p קטן שבו ניתן לדחות את השערת האפס עשוי לומר שהיא שקרית או שנעשתה שגיאה. אם נעשה שגיאה מסוג זה, התוצאה נקראת חיובי שגוי. ושגיאה כזו היא שגיאה מהסוג הראשון בעת בדיקת השערות סטטיסטיות. מצד שני, אם ערך ה-p גדול מספיק כדי להצביע על דחייה של השערת האפס, ייתכן שזה אומר שהיא נכונה. או אינו נכון, והתרחש אירוע בלתי סביר שבגללו נפלה השגיאה. סוג זה של שגיאה נקרא שגיאה כוזבת.
הסתברות לשגיאות
כאשר בודקים השערות סטטיסטיות, עדיין יש סיכוי לעשות כל אחת מסוגי השגיאות הללו. נתונים כוזבים או מסקנות כוזבות הם די סבירים. באופן אידיאלי, יש לבחור רמת מובהקות שתמזער את הסבירות לאחת מהטעויות הללו. לדוגמה, לבדיקה סטטיסטית של השערות אפס עשויה להיות רמת מובהקות נמוכה מאוד. למרות שרמות מובהקות כגון 0.05 ו-0.01 נפוצות בתחומי מדע רבים, רמת המובהקות הנפוצה ביותר היא 310^-7, או 0.0000003. היא מכונה לעתים קרובות "5-sigma". המשמעות היא שהמסקנה הייתה אקראית עם הסתברות של 1 ל-3.5 מיליון חזרות עצמאיות על הניסויים. דוגמאות לבדיקת השערות סטטיסטיות נושאות לעתים קרובות שגיאות כאלה. זו גם הסיבה שבגללה חשוב לקבל תוצאות עצמאיות.אימות.
דוגמאות לשימוש באימות סטטיסטי
ישנן מספר דוגמאות נפוצות לבדיקת השערות בפועל. אחד הפופולריים ביותר ידוע בשם "טעימת תה". ד"ר מיוריאל בריסטול, עמיתו של מייסד הביומטריה רוברט פישר, טען שהוא מסוגל לדעת בוודאות אם הוא הוסף קודם לכוס תה או חלב. פישר הציע לתת לה שמונה כוסות (ארבע מכל זן) באקראי. נתון המבחן היה פשוט: ספירת מספר ההצלחות בבחירת גביע. האזור הקריטי היה ההצלחה היחידה מתוך 4, אולי בהתבסס על קריטריון ההסתברות הרגיל (< 5%; 1 מתוך 70 ≈ 1.4%). פישר טען שאין צורך בהשערה חלופית. הגברת זיהתה נכון כל כוס, מה שנחשב לתוצאה מובהקת סטטיסטית. ניסיון זה הוביל לספרו של פישר שיטות סטטיסטיות לחוקרים.
דוגמה של הנתבע
הליך המשפט הסטטיסטי דומה לבית משפט פלילי שבו הנאשם נחשב חף מפשע עד שהוכחה אשמתו. התובע מנסה להוכיח את אשמתו של הנאשם. רק כאשר קיימות ראיות מספקות לאישום ניתן למצוא את הנאשם אשם. בתחילת ההליך קיימות שתי השערות: "הנאשם אינו אשם" ו"הנאשם אשם". ניתן לדחות את השערת החפות רק כאשר טעות היא מאוד לא סבירה כי לא רוצים להרשיע נאשם חף מפשע. שגיאה כזו נקראת שגיאה מסוג I, והתרחשותהלעתים רחוקות נשלט. כתוצאה מהתנהגות א-סימטרית זו, טעות מסוג II, כלומר זיכוי של העבריין, שכיחה יותר.
סטטיסטיקה שימושית בעת ניתוח כמויות גדולות של נתונים. זה חל באותה מידה על בדיקת השערות, שיכולות להצדיק את המסקנות גם אם לא קיימת תיאוריה מדעית. בדוגמה של טעימות התה, זה היה "ברור" שאין הבדל בין לשפוך חלב לתוך תה או למזוג תה לחלב.
יישום מעשי אמיתי של בדיקת השערות כולל:
- בודק אם לגברים יש יותר סיוטים מנשים;
- ייחוס מסמך;
- הערכת השפעת הירח המלא על ההתנהגות;
- קביעת הטווח שבו עטלף יכול לזהות חרק באמצעות הד;
- בחירת האמצעים הטובים ביותר להפסקת עישון;
- בודק אם מדבקות הפגוש משקפות את התנהגותו של בעל הרכב.
לבדיקת השערות סטטיסטיות יש תפקיד חשוב בסטטיסטיקה בכלל ובמסק סטטיסטי. בדיקת ערך משמשת כתחליף להשוואה המסורתית של ערך חזוי ותוצאה ניסיונית בליבת השיטה המדעית. כאשר תיאוריה מסוגלת לחזות רק את הסימן של קשר, ניתן להגדיר מבחני השערות מכוונים בצורה כזו שרק תוצאה מובהקת סטטיסטית תומכת בתיאוריה. צורה זו של תיאוריית הערכה היא הנוקשה ביותרביקורת על השימוש בבדיקת השערות.