קנה מידה רב מימדי: הגדרה, מטרות, יעדים ודוגמה

תוכן עניינים:

קנה מידה רב מימדי: הגדרה, מטרות, יעדים ודוגמה
קנה מידה רב מימדי: הגדרה, מטרות, יעדים ודוגמה
Anonim

קנה מידה מרובה משתנים (MDS) הוא כלי להמחשת רמת הדמיון של מקרים בודדים במערך נתונים. זה מתייחס לסט של שיטות סמיכה קשורות המשמשות בהדמיה של מידע, במיוחד כדי להציג את המידע הכלול במטריצת מרחק. זוהי צורה של הפחתת מימד לא ליניארית. אלגוריתם ה-MDS שואף למקם כל אובייקט במרחב N-ממדי בצורה כזו שהמרחקים בין אובייקטים יישמרו בצורה הטובה ביותר. לאחר מכן מוקצות לכל אובייקט קואורדינטות בכל אחת מ-N הממדים.

מספר הממדים של גרף ה-MDS יכול לעלות על 2 והוא מצוין מראש. בחירה ב-N=2 מייעלת את מיקום האובייקט עבור תמונת הפיזור הדו-ממדית. ניתן לראות דוגמאות של קנה מידה רב מימדי בתמונות במאמר. דוגמאות עם סמלים ברוסית ממחישות במיוחד.

קנה מידה רב מימדי
קנה מידה רב מימדי

Essence

שיטה של קנה מידה רב-ממדי (MMS,MDS) הוא קבוצה מורחבת של כלים קלאסיים שמכלילים את הליך האופטימיזציה עבור קבוצה של פונקציות אובדן ומטריצות קלט של מרחקים ידועים עם משקלים וכן הלאה. בהקשר זה, פונקציית אובדן שימושית נקראת סטרס, שלעתים קרובות ממוזערת על ידי הליך שנקרא מאמץ עיקרי.

Manual

ישנן מספר אפשרויות לשינוי קנה מידה רב-ממדי. תוכניות MDS ממזערות באופן אוטומטי את העומס כדי לקבל פתרון. הליבה של אלגוריתם MDS הלא-מטרי היא תהליך אופטימיזציה כפול. ראשית, יש למצוא את הטרנספורמציה האופטימלית של הקרבה המונוטונית. שנית, נקודות תצורה חייבות להיות ממוקמות בצורה אופטימלית כך שהמרחקים שלהן יתאימו לערכי הקרבה המותאמים באופן הדוק ככל האפשר.

דוגמה לקנה מידה רב מימדי
דוגמה לקנה מידה רב מימדי

Expansion

הרחבה של קנה מידה רב-ממדי מטרי בסטטיסטיקה שבה מרחב היעד הוא מרחב חלק לא אוקלידי שרירותי. כאשר ההבדלים הם מרחקים על משטח ומרחב המטרה הוא משטח אחר. תוכניות נושאיות מאפשרות לך למצוא קובץ מצורף עם עיוות מינימלי של משטח אחד למשנהו.

צעדים

יש כמה שלבים בביצוע מחקר באמצעות קנה מידה רב-משתני:

  1. ניסוח הבעיה. אילו משתנים אתה רוצה להשוות? כמה משתנים אתה רוצה להשוות? לאיזו מטרה ישמש המחקר?
  2. קבלת נתוני קלט.הנשאלים נשאלים שורה של שאלות. עבור כל זוג מוצרים, הם מתבקשים לדרג את הדמיון (בדרך כלל בסולם ליקרט של 7 נקודות מדומה מאוד לשונה מאוד). השאלה הראשונה יכולה להיות לגבי קוקה קולה/פפסי, למשל, השאלה הבאה לגבי בירה, הבאה לד"ר פפר וכו'. מספר השאלות תלוי במספר המותגים.
קנה מידה למרחקים
קנה מידה למרחקים

גישות חלופיות

ישנן שתי גישות נוספות. ישנה טכניקה שנקראת "תפיסה נתונים: גישה נגזרת" שבה מוצרים מפורקים לתכונות וההערכה נעשית על סולם דיפרנציאלי סמנטי. שיטה נוספת היא "גישת נתוני העדפות", שבה נשאלים המשיבים לגבי העדפות ולא קווי דמיון.

זה מורכב מהשלבים הבאים:

  1. השקת התוכנית הסטטיסטית MDS. תוכנה לביצוע ההליך זמינה בחבילות תוכנה סטטיסטיות רבות. לעתים קרובות יש בחירה בין MDS מטרי (העוסק בנתונים ברמת מרווחים או יחס) לבין MDS לא מטרי (שעוסק בנתונים סידוריים).
  2. קביעת מספר המדידות. על החוקר לקבוע את מספר המדידות שהוא רוצה ליצור במחשב. ככל שיותר מדידות, כך ההתאמה הסטטיסטית טובה יותר, אך קשה יותר לפרש את התוצאות.
  3. הצג תוצאות והגדר מדידות - התוכנית הסטטיסטית (או מודול קשור) יציג את התוצאות. המפה תציג כל מוצר (בדרך כלל בדו מימד).מֶרחָב). הקרבה של מוצרים זה לזה מעידה על הדמיון או העדפתם, תלוי באיזו גישה נעשה שימוש. עם זאת, לא תמיד ברור כיצד מדידות מתאימות למעשה למדידות של התנהגות המערכת. ניתן לעשות כאן הערכה סובייקטיבית של התאמה.
  4. בדוק את התוצאות לגבי מהימנות ותקפות - חשב ריבוע R כדי לקבוע את הפרופורציה של שונות הנתונים בקנה מידה שניתן לקחת בחשבון על ידי הליך MDS. ריבוע R 0.6 נחשב לרמה המינימלית המקובלת. R בריבוע 0.8 נחשב טוב עבור קנה מידה מטרי, בעוד ש-0.9 נחשב טוב עבור קנה מידה לא מטרי.
תוצאות קנה מידה רב משתנים
תוצאות קנה מידה רב משתנים

בדיקות שונות

מבחנים אפשריים נוספים הם מבחני מאמץ מסוג Kruskal, מבחני נתונים מפוצלים, מבחני יציבות נתונים ומבחני אמינות חוזרים. כתבו בפירוט על התוצאות במבחן. יחד עם המיפוי, יש לציין לפחות מדד של מרחק (למשל אינדקס סורנסון, אינדקס ג'קארד) ומהימנות (למשל ערך מתח).

רצוי מאוד גם לתת אלגוריתם (למשל Kruskal, Mather) שנקבע לרוב על ידי התוכנית שבה נעשה שימוש (לפעמים מחליף את דוח האלגוריתם), אם נתת תצורת התחלה או הייתה לך בחירה אקראית, מספר של ריצות מימד, תוצאות מונטה קרלו, מספר איטרציות, ציון יציבות ושונות פרופורציונלית של כל ציר (ריבוע r).

מידע חזותי ושיטת ניתוח נתוניםקנה מידה רב מימדי

הדמיית מידע היא מחקר של ייצוגים אינטראקטיביים (חזותיים) של נתונים מופשטים כדי לשפר את הקוגניציה האנושית. נתונים מופשטים כוללים נתונים מספריים ולא מספריים כמו מידע טקסטואלי וגיאוגרפי. עם זאת, הדמיית מידע שונה מהדמיה מדעית: "זה מידע (הדמיית מידע) כאשר נבחר ייצוג מרחבי, וסיוויס (הדמיה מדעית) כאשר ניתן ייצוג מרחבי."

תחום הדמיית מידע נוצר ממחקר באינטראקציה בין אדם למחשב, יישומי מדעי המחשב, גרפיקה, עיצוב חזותי, פסיכולוגיה ושיטות עסקיות. הוא נמצא יותר ויותר בשימוש כמרכיב חיוני במחקר מדעי, ספריות דיגיטליות, כריית נתונים, נתונים פיננסיים, חקר שוק, בקרת ייצור וכן הלאה.

שיטות ועקרונות

הדמיית מידע מציעה ששיטות הדמיה ואינטראקציה מנצלות את העושר של התפיסה האנושית, ומאפשרות למשתמשים לראות, לחקור ולהבין כמויות גדולות של מידע בו-זמנית. ויזואליזציית מידע שואפת ליצור גישות לתקשורת מידע מופשט, מידע בצורה אינטואיטיבית.

קנה מידה רב ממדי צבע
קנה מידה רב ממדי צבע

ניתוח נתונים הוא חלק בלתי נפרד מכל מחקר יישומי ופתרון בעיות בתעשייה. רובהגישות הבסיסיות לניתוח נתונים הן ויזואליזציה (היסטוגרמות, חלקות פיזור, חלקות פני השטח, מפות עצים, חלקות קואורדינטות מקבילות וכו'), סטטיסטיקה (בדיקת השערות, רגרסיה, PCA וכו'), ניתוח נתונים (התאמה וכו')..d.) ושיטות למידת מכונה (אשכולות, סיווג, עצי החלטות וכו').

בין הגישות הללו, הדמיית מידע או ניתוח נתונים חזותיים הם התלויים ביותר במיומנויות הקוגניטיביות של הצוות האנליטי ומאפשרים גילוי של תובנות בלתי מובנות שניתן לפעול, המוגבלות רק על ידי הדמיון והיצירתיות האנושית. אנליסט לא צריך ללמוד שום טכניקה מורכבת כדי להיות מסוגל לפרש הדמיות נתונים. הדמיית מידע היא גם סכימת יצירת השערות שיכולה ומלווה בדרך כלל בניתוח אנליטי או פורמלי יותר כמו בדיקת השערות סטטיסטית.

Study

המחקר המודרני של ויזואליזציה התחיל בגרפיקה ממוחשבת, ש"מההתחלה שימשה לחקר בעיות מדעיות. עם זאת, בשנים הראשונות, היעדר כוח גרפי לעתים קרובות הגביל את השימושיות שלה. העדיפות בהדמיה החלה להתפתח בשנת 1987, עם שחרור תוכנה מיוחדת עבור גרפיקה ממוחשבת ווויזואליזציה במחשוב מדעי מאז, התקיימו מספר כנסים וסדנאות שאורגנו במשותף על ידי IEEE Computer Society ו-ACM SIGGRAPH".

הם כיסו את הנושאים הכלליים של הדמיית נתונים, הדמיית מידע והדמיה מדעית,כמו גם אזורים ספציפיים יותר כגון עיבוד נפח.

קנה מידה רב מימדי של מותג
קנה מידה רב מימדי של מותג

סיכום

קנה מידה רב-ממדי כללי (GMDS) הוא הרחבה של קנה מידה רב-ממדי מטרי שבו מרחב היעד אינו אוקלידי. כאשר ההבדלים הם מרחקים על משטח, ומרחב המטרה הוא משטח אחר, GMDS מאפשר לך למצוא את הקינון של משטח אחד לתוך משטח אחר עם עיוות מינימלי.

GMDS הוא קו מחקר חדש. נכון לעכשיו, היישומים העיקריים הם זיהוי אובייקטים שניתן לעיוות (לדוגמה, עבור זיהוי פנים תלת מימד) ומיפוי טקסטורה.

מטרת קנה המידה הרב-ממדי היא לייצג נתונים רב-ממדיים. נתונים רב-ממדיים, כלומר נתונים שדורשים יותר משני או שלושה ממדים כדי לייצג, עלולים להיות קשים לפירוש. גישה אחת לפישוט היא להניח שהנתונים המעניינים נמצאים על סעפת לא ליניארית משובצת במרחב בעל ממדים גבוהים. אם לאספן יש ממד נמוך מספיק, ניתן להמחיש את הנתונים במרחב בעל מימד נמוך.

רבות משיטות הפחתת הממדים הלא-לינאריות קשורות לשיטות ליניאריות. שיטות לא ליניאריות יכולות להיות מסווגות באופן רחב לשתי קבוצות: אלו המספקות מיפוי (או ממרחב במימד גבוה להטבעה במימד נמוך, או להיפך), וכאלה שפשוט מספקות הדמיה. בהקשר של למידת מכונה, ניתן לראות בשיטות מיפוישלב ראשוני של מיצוי תכונה, שלאחריו מיושמים אלגוריתמים לזיהוי תבניות. בדרך כלל אלו שרק נותנים הדמיות מבוססות על נתוני קרבה - כלומר מדידות מרחק. קנה מידה רב מימדי נפוץ גם בפסיכולוגיה ובמדעי הרוח אחרים.

קנה מידה רב ממדי אלכסוני
קנה מידה רב ממדי אלכסוני

אם מספר התכונות גדול, אז גם המרחב של מחרוזות אפשריות ייחודיות גדול באופן אקספוננציאלי. לפיכך, ככל שהממד גדול יותר, כך קשה יותר לתאר את החלל. זה גורם להרבה בעיות. אלגוריתמים הפועלים על נתונים בעלי מימד גבוה נוטים להיות בעלי מורכבות זמן גבוהה מאוד. צמצום הנתונים לפחות ממדים הופך את אלגוריתמי הניתוח ליעילים יותר ויכול לעזור לאלגוריתם של למידת מכונה לבצע תחזיות מדויקות יותר. זו הסיבה שקנה מידה רב-ממדי של נתונים הוא כל כך פופולרי.

מוּמלָץ: