שיטת אשכולות: תיאור, מושגים בסיסיים, תכונות יישום

תוכן עניינים:

שיטת אשכולות: תיאור, מושגים בסיסיים, תכונות יישום
שיטת אשכולות: תיאור, מושגים בסיסיים, תכונות יישום
Anonim

שיטת האשכול היא המשימה לקבץ קבוצה של אובייקטים בצורה כזו שהם באותה קבוצה דומים יותר זה לזה מאשר לאובייקטים בתעשיות אחרות. זוהי המשימה העיקרית של כריית נתונים וטכניקת ניתוח סטטיסטי כללי המשמשת בתחומים רבים, כולל למידת מכונה, זיהוי תבניות, זיהוי תמונות, אחזור מידע, דחיסת נתונים וגרפיקה ממוחשבת.

בעיית אופטימיזציה

באמצעות שיטת האשכולות
באמצעות שיטת האשכולות

שיטת האשכולות עצמה אינה אלגוריתם אחד ספציפי, אלא משימה כללית שצריך לפתור. ניתן להשיג זאת באמצעות אלגוריתמים שונים הנבדלים זה מזה באופן משמעותי בהבנת מהי קבוצה וכיצד למצוא אותה ביעילות. השימוש בשיטת clustering ליצירת metasubjects כולל שימוש בקבוצה עםמרחקים קטנים בין איברים, אזורים צפופים של מרחב, מרווחים או התפלגויות סטטיסטיות מסוימות. לכן, ניתן לנסח אשכולות כבעיית אופטימיזציה רב-אובייקטיבית.

ההגדרות המתאימות של השיטה והפרמטרים (כולל פריטים כגון פונקציית המרחק לשימוש, סף הצפיפות או מספר האשכולות הצפויים) תלויות במערך הנתונים האישיים ובשימוש המיועד בתוצאות. ניתוח כשלעצמו אינו משימה אוטומטית, אלא תהליך איטרטיבי של גילוי ידע או אופטימיזציה רב-אובייקטיבית אינטראקטיבית. שיטת אשכולות זו כוללת ניסיונות ניסוי וטעייה. לעתים קרובות יש צורך לשנות עיבוד מקדים של נתונים ופרמטרים של מודל עד שהתוצאה משיגה את המאפיינים הרצויים.

בנוסף למונח "אשכולות", ישנן מספר מילים בעלות משמעויות דומות, כולל סיווג אוטומטי, טקסונומיה מספרית, בוטריולוגיה וניתוח טיפולוגי. הבדלים עדינים נעוצים לעתים קרובות בשימוש בשיטת האשכולות ליצירת קשרי מטה-סובייקט. בעוד שבחילוץ הנתונים יש עניין בקבוצות המתקבלות, בסיווג אוטומטי זה כבר הכוח המפלה שמבצע את הפונקציות האלה.

ניתוח אשכולות התבסס על יצירות רבות של קרובר ב-1932. זה הוכנס לפסיכולוגיה על ידי זובין ב-1938 ועל ידי רוברט טריון ב-1939. ועבודות אלה שימשו את Cattell מאז 1943 כדי לציין את הסיווג של שיטות מקבץ בתיאוריה.

תקופה

נוֹהָגשיטה
נוֹהָגשיטה

לא ניתן להגדיר במדויק את המושג "אשכול". זו אחת הסיבות לכך שיש כל כך הרבה שיטות מקבץ. יש מכנה משותף: קבוצה של אובייקטי נתונים. עם זאת, חוקרים שונים משתמשים במודלים שונים. וכל אחד מהשימושים הללו בשיטות אשכול כרוך בנתונים שונים. הרעיון שנמצא על ידי אלגוריתמים שונים שונה באופן משמעותי במאפיינים שלו.

שימוש בשיטת האשכולות הוא המפתח להבנת ההבדלים בין ההוראות. דפוסי אשכול אופייניים כוללים:

  • Centroid s. זה, למשל, כאשר k-means clustering מייצג כל אשכול עם וקטור ממוצע אחד.
  • מודל קישוריות s. זהו, למשל, אשכול היררכי, שבונה מודלים המבוססים על קישוריות מרחוק.
  • מודל הפצה s. במקרה זה, מודלים של אשכולות באמצעות שיטת האשכולות ליצירת התפלגויות סטטיסטיות של מטא-נושאים. כגון הפרדה נורמלית רב-משתנית, החלה על אלגוריתם מקסום הציפיות.
  • דגם צפיפות s. אלו, למשל, DBSCAN (Algorithm Spatial Clustering with Noise) ו-OPTICS (Order Points for Structure Detection), המגדירים אשכולות כאזורים צפופים מחוברים במרחב הנתונים.
  • Subspace model c. ב-biclustering (הידוע גם כ-co-clustering או שני מצבים), קבוצות מיוצרות עם שני האלמנטים ועם התכונות המתאימות.
  • דגם s. יש אלגוריתמים שלאקשר מעודן עבור שיטת האשכול שלהם כדי ליצור תוצאות מטא-נושאים ופשוט לספק קיבוץ מידע.
  • מודל מבוסס על גרף s. קליקה, כלומר תת-קבוצה של צמתים, כך שכל שני חיבורים בחלק הקצה יכולים להיחשב כאב טיפוס של צורת האשכול. היחלשות הביקוש הכולל מכונה כמעט קליקות. אותו שם בדיוק מוצג באלגוריתם האשכולות של HCS.
  • מודלים עצביים s. הרשת הבלתי מפוקחת המוכרת ביותר היא המפה המארגנת את עצמה. ובדרך כלל ניתן לאפיין את המודלים הללו כדומים לאחת או יותר משיטות האשכול לעיל ליצירת תוצאות מטא-נושא. זה כולל מערכות תת-חלליות כאשר רשתות עצביות מיישמות את הצורה הנחוצה של ניתוח רכיבים עיקריים או עצמאיים.

מונח זה הוא, למעשה, קבוצה של קבוצות כאלה, שבדרך כלל מכילות את כל האובייקטים במערך שיטות אשכול הנתונים. בנוסף, הוא יכול להצביע על היחס של אשכולות זה לזה, כמו היררכיה של מערכות המובנות זו בזו. ניתן לחלק את הקיבוץ להיבטים הבאים:

  • שיטת מקבץ מרכזית קשה. כאן, כל אובייקט שייך לקבוצה או נמצא מחוץ לה.
  • מערכת רכה או מטושטשת. בשלב זה, כל אובייקט כבר שייך במידה מסוימת לאשכול כלשהו. היא נקראת גם שיטת c-means clustering fuzzy.

ואפשריים גם הבדלים עדינים יותר. לדוגמה:

  • אשכול מחיצות קפדני. כאןכל אובייקט שייך בדיוק לקבוצה אחת.
  • צרור מחיצות קפדני עם חריגים. במקרה זה, אובייקטים עשויים גם לא להיות שייכים לאשכול כלשהו ולהיחשב מיותרים.
  • אשכול חופף (גם חלופי, עם תצוגות מרובות). כאן, חפצים יכולים להיות שייכים ליותר מענף אחד. בדרך כלל מעורבים אשכולות מוצקים.
  • שיטות אשכול היררכיות. אובייקטים השייכים לקבוצת צאצא שייכים גם לתת-מערכת האב.
  • יצירת תת-מרחב. למרות שדומה לאשכולות חופפים, בתוך מערכת מוגדרת באופן ייחודי, קבוצות הדדיות לא צריכות להיות חופפות.

הוראות

באמצעות שיטת האשכול ליצירת
באמצעות שיטת האשכול ליצירת

כפי שצוין לעיל, ניתן לסווג אלגוריתמי אשכולות על סמך מודל האשכולות שלהם. הסקירה הבאה תפרט רק את הדוגמאות הבולטות ביותר של הוראות אלו. מכיוון שעשויים להיות יותר מ-100 אלגוריתמים שפורסמו, לא כולם מספקים מודלים עבור האשכולות שלהם ולכן לא ניתן לסווג אותם בקלות.

אין אלגוריתם אשכולות נכון אובייקטיבית. אבל, כפי שצוין לעיל, ההוראה היא תמיד בשדה הראייה של המתבונן. אלגוריתם האשכולות המתאים ביותר לבעיה מסוימת צריך להיבחר בניסוי, אלא אם כן יש סיבה מתמטית להעדפת מודל אחד על פני אחר. יש לציין שאלגוריתם המיועד לסוג בודד בדרך כלל לא עובד איתומערך נתונים המכיל נושא שונה בתכלית. לדוגמה, k-means לא יכול למצוא קבוצות לא קמורות.

אשכול מבוסס-חיבור

שיטת אשכולות
שיטת אשכולות

האיחוד הזה ידוע גם בשמו, המודל ההיררכי. הוא מבוסס על הרעיון הטיפוסי שאובייקטים מחוברים יותר לחלקים שכנים מאשר לאלה שנמצאים הרבה יותר רחוקים. אלגוריתמים אלה מחברים אובייקטים, ויוצרים אשכולות שונים, בהתאם למרחק שלהם. ניתן לתאר קבוצה בעיקר לפי המרחק המקסימלי הדרוש לחיבור בין חלקי האשכול השונים. בכל המרחקים האפשריים, ייווצרו קבוצות אחרות, אותן ניתן לייצג באמצעות דנדרוגרמה. זה מסביר מהיכן מגיע השם הנפוץ "אשכול היררכי". כלומר, אלגוריתמים אלו אינם מספקים מחיצה אחת של מערך הנתונים, אלא מספקים סדר נרחב של סמכות. זה בזכותו שיש ניקוז אחד עם השני במרחקים מסוימים. בדנדרוגרמה, ציר ה-y מציין את המרחק שבו הצבירים מתאחדים. והאובייקטים מסודרים לאורך קו X כך שהקבוצות לא יתערבבו.

אשכול מבוסס חיבור הוא משפחה שלמה של שיטות הנבדלות באופן שבו הן מחשבות מרחקים. בנוסף לבחירה הרגילה של פונקציות מרחק, המשתמש צריך גם להחליט על קריטריון החיבור. מכיוון שאשכול מורכב ממספר אובייקטים, ישנן אפשרויות רבות לחישוב שלו. בחירה פופולרית ידועה בשם קיבוץ מנוף יחיד, זו השיטהקישור מלא, המכיל UPGMA או WPGMA (אנסמבל לא משוקלל או משוקלל של זוגות עם ממוצע אריתמטי, הידוע גם בשם צבירת קישורים ממוצעת). בנוסף, המערכת ההיררכית יכולה להיות אגלומרטיבית (החלה באלמנטים בודדים ושילובם לקבוצות) או חלוקה (החלה ממערך נתונים שלם ומפרקת אותו למקטעים).

אשכול מבוזר

שיטת אשכול ליצירת
שיטת אשכול ליצירת

מודלים אלה קשורים באופן הדוק ביותר לסטטיסטיקה המבוססת על פיצולים. ניתן להגדיר בקלות אשכולות כאובייקטים שסביר להניח שייכים לאותה התפלגות. תכונה שימושית של גישה זו היא שהיא דומה מאוד לאופן שבו נוצרים מערכי נתונים מלאכותיים. על ידי דגימת אובייקטים אקראיים מהתפלגות.

למרות שהבסיס התיאורטי של שיטות אלו מצוין, הן סובלות מבעיה מרכזית אחת, המכונה התאמה יתר, אלא אם מוטלות גבולות למורכבות המודל. שיוך גדול יותר בדרך כלל יסביר את הנתונים טוב יותר, מה שיקשה על בחירת השיטה הנכונה.

דגם תערובת גאוסית

שיטה זו משתמשת בכל מיני אלגוריתמים למקסום ציפיות. כאן, מערך הנתונים בדרך כלל מעוצב עם מספר קבוע (כדי להימנע מעקיפה) של הפצות גאוסיות אשר מאותחלות באופן אקראי ושהפרמטרים שלהן עוברים אופטימיזציה איטרטיבית כדי להתאים טוב יותר למערך הנתונים. מערכת זו תתכנס לאופטימום מקומי. לכן מספר ריצות יכולות לתתתוצאות שונות. כדי לקבל את המקבץ ההדוק ביותר, מאפיינים מוקצים לעתים קרובות להתפלגות גאוסית סביר להניח שהם שייכים אליה. ולקבוצות רכות יותר, זה לא הכרחי.

אשכול מבוסס-הפצה יוצר מודלים מורכבים שיכולים בסופו של דבר לתפוס את המתאם והתלות בין תכונות. עם זאת, אלגוריתמים אלו מטילים עומס נוסף על המשתמש. עבור מערכי נתונים רבים בעולם האמיתי, ייתכן שאין מודל מתמטי מוגדר בצורה תמציתית (לדוגמה, בהנחה שהתפלגות גאוסית היא הנחה חזקה למדי).

אשכול מבוסס צפיפות

מקבץ ליצירת
מקבץ ליצירת

בדוגמה זו, הקבוצות מוגדרות בעצם כאזורים בעלי אטימות גבוהה יותר משאר מערך הנתונים. חפצים בחלקים נדירים אלה, הנחוצים להפרדת כל הרכיבים, נחשבים בדרך כלל לנקודות רעש וקצה.

שיטת האשכולות הפופולרית ביותר מבוססת צפיפות היא DBSCAN (Algorithm Spatial Noise Clustering). בניגוד לשיטות חדשות רבות יותר, יש לה רכיב אשכול מוגדר היטב הנקרא "השגת צפיפות". בדומה לאשכול מבוסס קישור, הוא מבוסס על נקודות חיבור בתוך ספי מרחק מסוימים. עם זאת, שיטה זו אוספת רק את אותם פריטים העומדים בקריטריון הצפיפות. בגרסה המקורית, המוגדרת כמספר המינימלי של עצמים אחרים ברדיוס זה, האשכול מורכב מכלפריטים הקשורים לצפיפות (שיכולים ליצור קבוצה בצורה חופשית, בניגוד לשיטות רבות אחרות), וכל האובייקטים שנמצאים בטווח המותר.

תכונה מעניינת נוספת של DBSCAN היא שהמורכבות שלו נמוכה למדי - היא דורשת מספר ליניארי של שאילתות טווח מול מסד הנתונים. ויוצא דופן הוא שהוא ימצא בעצם את אותן תוצאות (זה דטרמיניסטי עבור נקודות ליבה ורעש, אבל לא עבור אלמנטים גבוליים) בכל ריצה. לכן, אין צורך להפעיל אותו מספר פעמים.

החיסרון העיקרי של DBSCAN ו-OPTICS הוא שהם מצפים לירידה מסוימת בצפיפות כדי לזהות גבולות אשכול. לדוגמה, במערך נתונים עם הפצות גאוסיות חופפות - מקרה שימוש נפוץ עבור אובייקטים מלאכותיים - גבולות האשכולות שנוצרו על ידי אלגוריתמים אלה נראים לעתים קרובות שרירותיים. זה קורה מכיוון שצפיפות הקבוצות יורדת ברציפות. ובמערך נתונים של תערובת גאוסית, האלגוריתמים האלה כמעט תמיד מתעלמים משיטות כמו clustering EM, שמסוגלות לדגמן במדויק את סוגי המערכות האלה.

Mean displacement היא גישת מקבץ שבה כל אובייקט עובר לאזור הצפוף ביותר בשכונה על סמך אומדן של כל הגרעין. בסופו של דבר, האובייקטים מתכנסים למקסימום אטימות מקומיים. בדומה ל-k-means clustering, "משכי הצפיפות" הללו יכולים לשמש כמייצגים עבור מערך נתונים. אבל השינוי הממוצעיכול לזהות אשכולות בעלי צורה שרירותית הדומים ל-DBSCAN. בשל ההליך האיטרטיבי היקר והערכת הצפיפות, התזוזה הממוצעת היא בדרך כלל איטית יותר מ-DBSCAN או k-Means. בנוסף, ישימותו של אלגוריתם ההיסט האופייני לנתונים בעלי ממדים גבוהים היא קשה עקב ההתנהגות הלא אחידה של אומדן צפיפות הגרעין, מה שמוביל לפיצול מוגזם של זנבות האשכול.

דירוג

שיטת אשכול להיווצרות מטא-סובייקט
שיטת אשכול להיווצרות מטא-סובייקט

אימות תוצאות האשכולות קשה כמו האשכול עצמו. גישות פופולריות כוללות ניקוד "פנימי" (כאשר המערכת מצטמצמת למדד יחיד של איכות) וכמובן, ניקוד "חיצוני" (שם מושווה את האשכול לסיווג "אמת קרקע" קיים). והציון הידני והציון העקיף של המומחה האנושי נמצאים על ידי בחינת התועלת של אשכול ביישום המיועד.

מדדי דגל פנימיים סובלים מהבעיה שהם מייצגים תכונות שיכולות להיחשב בעצמן כמטרות מקבץ. לדוגמה, ניתן לקבץ נתונים הניתנים על ידי מקדם Silhouette, אלא שאין אלגוריתם יעיל ידוע לעשות זאת. באמצעות מדד פנימי כזה להערכה, עדיף להשוות את הדמיון של בעיות אופטימיזציה.

לסימן החיצוני יש בעיות דומות. אם יש תוויות כאלה של "אמת קרקע", אז אין צורך לקבץ. וביישומים מעשיים, בדרך כלל אין מושגים כאלה. מצד שני, התוויות משקפות רק מחיצה אפשרית אחת של מערך הנתונים, וזה לא אומרשאין מקבץ אחר (אולי אפילו טוב יותר).

אז אף אחת מהגישות הללו לא יכולה בסופו של דבר לשפוט את האיכות האמיתית. אבל זה דורש הערכה אנושית, שהיא מאוד סובייקטיבית. עם זאת, סטטיסטיקה כזו יכולה להיות אינפורמטיבית בזיהוי אשכולות רעים. אבל אין לבטל את ההערכה הסובייקטיבית של אדם.

סימן פנימי

כאשר התוצאה של אשכול מוערכת על סמך נתונים שנאספו בעצמם, זה מכונה מונח זה. שיטות אלה בדרך כלל מקצות את התוצאה הטובה ביותר לאלגוריתם שיוצר קבוצות עם דמיון גבוה בתוך קבוצות ונמוך בין קבוצות. אחד החסרונות בשימוש בקריטריונים פנימיים בהערכת אשכולות הוא שציונים גבוהים לא בהכרח מובילים ליישומי אחזור מידע יעילים. כמו כן, ציון זה מוטה לאלגוריתמים המשתמשים באותו מודל. לדוגמה, k-means clustering מייעל באופן טבעי מרחקי תכונה, וקריטריון פנימי המבוסס עליו עשוי להעריך יתר על המידה את ה-Clustering המתקבל.

לכן, אמצעי הערכה אלה מתאימים ביותר כדי לקבל מושג על מצבים שבהם אלגוריתם אחד מניב ביצועים טובים יותר מהאחר. אבל זה לא אומר שכל מידע נותן תוצאות אמינות יותר מאחרות. תקופת התוקף הנמדדת על ידי אינדקס כזה תלויה בקביעה שהמבנה קיים במערך הנתונים. לאלגוריתם שפותח עבור סוגים מסוימים אין סיכוי אם הסט מכיל באופן קיצוניהרכב שונה או אם ההערכה מודדת קריטריונים שונים. לדוגמה, clustering k-means יכול למצוא רק אשכולות קמורים, ומדדי ציון רבים מניחים את אותה פורמט. במערך נתונים עם מודלים לא קמורים, זה לא הולם להשתמש באמצעי k ובקריטריוני הערכה טיפוסיים.

הערכה חיצונית

עם סוג זה של בלט, תוצאות מקבץ מוערכות על סמך נתונים שלא שימשו לקיבוץ. כלומר, כגון תוויות מחלקות ידועות ומבחנים חיצוניים. שאלות כאלה מורכבות מסט של פריטים מסווגים מראש ולעתים קרובות נוצרות על ידי מומחים (בני אדם). ככזה, ניתן לראות בערכות התייחסות כסטנדרט הזהב להערכה. סוגים אלה של שיטות ניקוד מודדים עד כמה קרוב האשכול למחלקות התייחסות נתונות. עם זאת, לאחרונה נדון אם זה מתאים לנתונים אמיתיים או רק עבור סטים סינתטיים עם אמת קרקע ממשית. מכיוון שמחלקות עשויות להכיל מבנה פנימי, ויתכן שהתכונות הקיימות לא יאפשרו הפרדה של אשכולות. כמו כן, מנקודת מבט של גילוי ידע, שחזור עובדות ידועות עשוי שלא להניב בהכרח את התוצאה הצפויה. בתרחיש מיוחד של אשכול מוגבל שבו מטא-מידע (כגון תוויות מחלקות) כבר נמצא בשימוש בתהליך הקיבוץ, זה לא טריוויאלי לשמור את כל המידע למטרות הערכה.

עכשיו ברור מה לא חל על שיטות אשכול, ובאילו מודלים משתמשים למטרות אלה.

מוּמלָץ: