מידע סטטיסטי: איסוף, עיבוד, ניתוח

תוכן עניינים:

מידע סטטיסטי: איסוף, עיבוד, ניתוח
מידע סטטיסטי: איסוף, עיבוד, ניתוח
Anonim

לאורך ההיסטוריה של הסטטיסטיקה, נעשו ניסיונות שונים ליצור טקסונומיה של רמות מדידה. הפסיכופיזיקאי סטנלי סמית' סטיבנס הגדיר סולמות נומינליים, סידוריים, מרווחים ופרופורציונליים.

למדידות נומינליות אין סדר מובהק של דרגות בין הערכים ומאפשרות כל המרה של אחד לאחד.

למידות רגילות יש הבדלים לא מדויקים בין ערכים עוקבים, אבל יש להם סדר ספציפי של ערכים אלה ומאפשרים כל שינוי שומר סדר.

למדידות מרווחים יש מרחקים משמעותיים בין נקודות, אבל ערך האפס הוא שרירותי (כמו במקרה של מדידות קו אורך וטמפרטורה בצלזיוס או פרנהייט) ומאפשר כל טרנספורמציה ליניארית.

לממדים ליחס יש גם ערך אפס משמעותי וגם מרחקים בין ממדים שונים, והם מאפשרים כל שינוי קנה מידה.

Image
Image

משתנים וסיווג מידע

בגלל המשתניםהתואמות רק למדידות נומינליות או סידוריות לא ניתנות למדידה מספרית באופן סביר, ולעיתים מקובצות כמשתנים קטגוריים. מדידות היחס והמרווחים מקובצים כמשתנים כמותיים, שיכולים להיות בדידים או רציפים בשל האופי המספרי שלהם. הבחנות כאלה קשורות לעתים קרובות באופן רופף לסוג הנתונים במדעי המחשב, מכיוון שמשתנים קטגוריים דיכוטומיים יכולים להיות מיוצגים על ידי ערכים בוליאניים, משתנים קטגוריים פוליטומיים עם מספרים שלמים שרירותיים בסוג נתונים אינטגרלי, ומשתנים רציפים עם רכיבים אמיתיים הכוללים חישוב נקודה צפה. אבל התצוגה של סוגי נתוני מידע סטטיסטי תלויה באיזה סיווג מוחל.

מידע סטטיסטי על עובדים
מידע סטטיסטי על עובדים

סיווגים אחרים

נוצרו גם סיווגים אחרים של נתונים סטטיסטיים (מידע). לדוגמה, מוסטלר וטוקי הבחינו בין ציונים, דרגות, מניות שנספרו, ספירות, סכומים ויתרות. נלדר תיאר בזמנו ספירות רציפות, יחסים רציפים, קורלציה של ספירות ודרכים קטגוריות להעברת נתונים. כל שיטות הסיווג הללו משמשות באיסוף מידע סטטיסטי.

בעיות

השאלה האם ראוי ליישם סוגים שונים של שיטות סטטיסטיות על נתונים המתקבלים באמצעות הליכי מדידה (איסוף) שונים מסובכת בגלל סוגיות הקשורות להמרה של משתנים ולפירוש המדויק של שאלותמחקר. הקשר בין הנתונים לבין מה שהם מתארים פשוט משקף את העובדה שלסוגים מסוימים של הצהרות סטטיסטיות יכולים להיות ערכי אמת שאינם בלתי משתנים תחת טרנספורמציות מסוימות. האם כדאי לשקול את השינוי תלוי בשאלה שאתה מנסה לענות.

דוגמה למידע סטטיסטי
דוגמה למידע סטטיסטי

מהו סוג נתונים

סוג הנתונים הוא מרכיב בסיסי בתוכן הסמנטי של משתנה ושולט באילו סוגי התפלגויות הסתברות ניתן להשתמש באופן לוגי לתיאור המשתנה, הפעולות המותרות עליו, סוג ניתוח הרגרסיה המשמש לניבויו וכו'. הרעיון של סוג נתונים דומה במושג רמת המדידה, אבל יותר ספציפי - למשל, ספירת נתונים דורשת התפלגות שונה (Poisson או בינומי) מאשר עבור ערכים אמיתיים לא שליליים, אבל שניהם נופלים תחת אותו הדבר. רמת המדידה (סולם מקדם).

מידע סטטיסטי על שופטים
מידע סטטיסטי על שופטים

סולמות

נעשו ניסיונות שונים ליצור טקסונומיה של רמות מדידה לעיבוד מידע סטטיסטי. הפסיכופיזיקאי סטנלי סמית' סטיבנס הגדיר סולמות נומינליים, סידוריים, מרווחים ופרופורציונליים. למדידות נומינליות אין סדר מובהק של דרגות בין הערכים ומאפשרות כל המרה אחד לאחד. למדידות רגילות יש הבדלים לא מדויקים בין ערכים עוקבים, אך שונות בסדר המשמעותי של אותם ערכים, ומאפשרותכל שינוי שומר סדר. למדידות מרווחים יש מרחקים משמעותיים בין מדידות, אבל ערך האפס הוא שרירותי (כמו במקרה של מדידות קו אורך וטמפרטורה בצלזיוס או פרנהייט) ומאפשר כל טרנספורמציה ליניארית. לממדים של יחס יש גם ערך אפס משמעותי וגם מרחקים בין ממדים מוגדרים שונים, והם מאפשרים כל שינוי קנה מידה.

דגם דיאגרמה
דגם דיאגרמה

נתונים שלא ניתן לתאר באמצעות מספר בודד נכללים לרוב בוקטורים אקראיים של משתנים אקראיים אמיתיים, אם כי יש מגמה גוברת לעבד אותם בעצמך. דוגמאות כאלה יידונו להלן.

וקטורים אקראיים

רכיבים בודדים עשויים להיות בקורלציה או לא. דוגמאות להתפלגות המשמשות לתיאור וקטורים אקראיים מתואמים הן ההתפלגות הנורמלית רב-משתנית והתפלגות t רב-משתנית. באופן כללי, יכולים להיות מתאמים שרירותיים בין רכיבים כלשהם, אולם לעתים קרובות הדבר הופך לבלתי ניתן לניהול מעל גודל מסוים, מה שמצריך אילוצים נוספים על הרכיבים המתואמים.

תכונות סטטיסטיקות
תכונות סטטיסטיקות

מטריצות אקראיות

ניתן לסדר מטריצות אקראיות באופן ליניארי ולהתייחס אליו כאל וקטורים אקראיים, אולם ייתכן שזו לא דרך יעילה לייצג מתאמים בין אלמנטים שונים. התפלגויות הסתברות מסוימות תוכננו במיוחד עבור מטריצות אקראיות, כגון המטריצה הרגילההפצה והפצת Wishart.

רצפים אקראיים

לפעמים הם נחשבים זהים לוקטורים אקראיים, אבל במקרים אחרים המונח מיושם ספציפית למקרים שבהם כל משתנה אקראי מתאם רק עם משתנים קרובים (כמו במודל של מרקוב). זהו מקרה מיוחד של הרשת הבייסיאנית ומשמש לרצפים ארוכים מאוד, כגון שרשראות גנים או מסמכי טקסט ארוכים. מספר דגמים תוכננו במיוחד עבור רצפים כאלה, כגון רצפים נסתרים של מרקוב.

תרשים טיפוסי
תרשים טיפוסי

תהליכים אקראיים

הם דומים לרצפים אקראיים, אבל רק כאשר אורך הרצף הוא בלתי מוגדר או אינסופי, והאלמנטים ברצף מעובדים אחד אחד. זה משמש לעתים קרובות עבור נתונים שניתן לתאר כסדרות זמן. זה נכון כשמדובר, למשל, למחיר המניה למחרת.

מסקנה

ניתוח המידע הסטטיסטי תלוי לחלוטין באיכות האיסוף שלו. האחרון, בתורו, קשור מאוד לאפשרויות הסיווג שלו. כמובן, ישנם סוגים רבים של סיווג מידע סטטיסטי, אשר הקורא יכול לראות בעצמו בעת קריאת מאמר זה. עם זאת, נוכחותם של כלים יעילים ושליטה טובה במתמטיקה, כמו גם ידע בתחום הסוציולוגיה, יעשו את עבודתם, ויאפשרו לכם לערוך כל סקר או מחקר ללא תיקונים משמעותיים לטעויות. מקורות מידע סטטיסטי בטופסאנשים, ארגונים ונושאים אחרים של סוציולוגיה, למרבה המזל, מיוצגים בשפע רב. ושום קושי לא יכול לעמוד בדרכו של חוקר אמיתי.

מוּמלָץ: