בלמידת מכונה, פרספטרון הוא אלגוריתם למידה בפיקוח עבור מסווגים בינאריים. זה נקרא לעתים קרובות גם פרספטרון. מסווג בינארי הוא פונקציה שיכולה להחליט אם קלט, המיוצג על ידי וקטור של מספרים, שייך למחלקה מסוימת. זהו סוג של מסווג ליניארי, כלומר, אלגוריתם סיווג שמבצע את התחזיות שלו על סמך פונקציית מנבא ליניארי המשלבת קבוצה של משקלים עם וקטור תכונה.
בשנים האחרונות, רשתות עצבים מלאכותיות זכו לתשומת לב עקב התקדמות בלמידה עמוקה. אבל מהי רשת עצבית מלאכותית וממה היא מורכבת?
לפגוש את ה-Perceptron
במאמר זה, ניקח מבט מהיר על רשתות עצבים מלאכותיות באופן כללי, לאחר מכן נסתכל על נוירון בודד, ולבסוף (זהו חלק הקידוד) ניקח את הגרסה הבסיסית ביותר של מלאכותי נוירון, הפרצפטרון, ולסווג את הנקודות שלו למטוס.
האם אי פעם תהיתם מדוע יש משימות שכל כך קלות עבור כל אדם, אך קשות להפליא עבור מחשבים? רשתות עצביות מלאכותיות (בקיצור ANN) נוצרו בהשראת מערכת העצבים המרכזית של האדם. כמו המקבילה הביולוגית שלהם, ANNs בנויים על רכיבי עיבוד אותות פשוטים המשולבים לרשת גדולה.
רשתות עצביות חייבות ללמוד
בניגוד לאלגוריתמים מסורתיים, לא ניתן "לתכנת" או "לכוון" רשתות עצביות כך שיפעלו כמתוכנן. בדיוק כמו המוח האנושי, הם חייבים ללמוד להשלים את המשימה. באופן גס, ישנן שלוש אסטרטגיות למידה.
הדרך הקלה ביותר ניתן להשתמש אם יש מקרה מבחן (גדול מספיק) עם תוצאות ידועות. ואז האימון הולך ככה: עבד סט נתונים אחד. השווה את התוצאה לתוצאה הידועה. הגדר את הרשת ונסה שוב. זו אסטרטגיית הלמידה שבה נשתמש כאן.
למידה ללא פיקוח
שימושי אם אין נתוני בדיקה זמינים ואם אפשר לגזור פונקציית עלות כלשהי מההתנהגות הרצויה. פונקציית העלות אומרת לרשת העצבית כמה היא רחוקה מהמטרה. הרשת יכולה לאחר מכן להתאים את הפרמטרים שלה תוך כדי עבודה, תוך עבודה עם נתונים אמיתיים.
למידה מחוזקת
שיטת "גזר ומקל". ניתן להשתמש אם הרשת העצבית יוצרת פעולה מתמשכת. עם הזמן, הרשת לומדת להעדיף את הפעולות הנכונות ולהימנע מהשגויות.
אוקיי, עכשיו אנחנו יודעים קצת עלטבען של רשתות עצביות מלאכותיות, אבל ממה הן עשויות בדיוק? מה נראה אם נפתח את המכסה ונסתכל פנימה?
נוירונים הם אבני הבניין של רשתות עצביות. המרכיב העיקרי של כל רשת עצבית מלאכותית הוא נוירון מלאכותי. לא רק שהם נקראים על שם עמיתיהם הביולוגיים, אלא שהם גם מעוצבים על פי התנהגותם של נוירונים במוח שלנו.
ביולוגיה מול טכנולוגיה
כפי שלנוירון ביולוגי יש דנדריטים לקליטת אותות, גוף תא לעיבוד אותם ואקסון כדי לשלוח אותות לנוירונים אחרים, לנוירון מלאכותי יש מספר ערוצי קלט, שלב עיבוד ופלט אחד שיכול להסתעף לרבים אחרים. נוירונים מלאכותיים.
האם נוכל לעשות משהו מועיל עם פרספטרון בודד? יש סוג של בעיות שפרצפטרון בודד יכול לפתור. ראה את וקטור הקלט כקואורדינטות נקודה. עבור וקטור עם n-אלמנטים, נקודה זו תחיה במרחב n-ממדי. כדי לפשט את החיים (ואת הקוד למטה), נניח שזה דו מימדי. כמו פיסת נייר.
לאחר מכן, דמיינו שאנחנו מציירים כמה נקודות אקראיות במישור הזה ומפצלים אותן לשתי קבוצות על ידי ציור קו ישר על פני הנייר. קו זה מחלק את הנקודות לשתי קבוצות, אחת מעל ואחת מתחת לקו. שתי הקבוצות נקראות אז ניתנות להפרדה ליניארית.
פרספטרון אחד, לא משנה כמה פשוט זה נראה, מסוגל לדעת היכן נמצא הקו הזה, וכשהוא מסיים את האימון, הוא יכול לקבוע אם נקודה נתונה נמצאת מעל או מתחת לקו זה.
היסטוריההמצאות
האלגוריתם לשיטה זו הומצא ב-1957 במעבדת התעופה קורנל על ידי פרנק רוזנבלט (שנקרא לעתים קרובות על שמו), במימון המשרד האמריקאי לחקר הצי. הפרספטרון נועד להיות מכונה, לא תוכנית, ולמרות שהטמעתו הראשונה הייתה בתוכנה עבור ה-IBM 704, הוא יושם לאחר מכן על חומרה שנבנתה בהתאמה אישית בשם "Mark 1 Perceptron". מכונה זו תוכננה לזיהוי תמונה: היה לה מערך של 400 תאי פוטו המחוברים באופן אקראי לנוירונים. המשקולות קודדו בפוטנציומטרים ועדכון המשקל במהלך האימון נעשה על ידי מנועים חשמליים.
במסיבת עיתונאים שערך הצי האמריקני ב-1958, רוזנבלט השמיע הצהרות על הפרספטרון שגרם לוויכוח סוער בקרב קהילת הבינה המלאכותית הצעירה; בהתבסס על טענותיו של רוזנבלט, ה"ניו יורק טיימס" דיווח כי הפרספטרון הוא "המחשב האלקטרוני העוברי שצי מצפה להיות מסוגל ללכת, לדבר, לראות, לכתוב, לשכפל את עצמו ולהיות מודע לקיומו."
התפתחויות נוספות
למרות שהפרספטרון נראה בהתחלה מבטיח, הוכח במהירות שלא ניתן לאמן פרספטרונים לזהות סוגים רבים של דפוסים. זה הוביל לקיפאון בתחום המחקר עם רשתות עצביות פרצפטרון במשך שנים רבות לפני שהוכר כי רשת עצבית הזנה קדימה עם שתי שכבות או יותר (נקראת גםלתפיסרון רב-שכבתי) היה הרבה יותר כוח עיבוד מאשר לתפיסטרונים בשכבה בודדת (הנקראים גם פרספטרונים בשכבה אחת). פרצפטרון חד-שכבתי מסוגל לחקור רק מבנים הניתנים להפרדה ליניארית. בשנת 1969, הספר המפורסם "Perceptrons" מאת מרווין מינסקי וסימור פאפרט הראה כי מחלקות רשתות אלו לא יכלו ללמוד את פונקציית XOR. עם זאת, זה לא חל על פונקציות סיווג לא-לינאריות שניתן להשתמש בהן בתפיסה חד-שכבתית.
השימוש בפונקציות כאלה מרחיב את היכולות של ה-perceptron, כולל יישום פונקציית XOR. לעתים קרובות מניחים (שגוי) שהם גם הניחו שתוצאה דומה תתקיים עבור רשת פרספטרונים רב-שכבתית. עם זאת, זה לא המקרה, מכיוון שגם מינסקי וגם פאפרט כבר ידעו שתפיסטרונים רב-שכבתיים מסוגלים לייצר פונקציית XOR. שלוש שנים מאוחר יותר, סטיבן גרוסברג פרסם סדרה של מאמרים המציגים רשתות המסוגלות לעצב פונקציות דיפרנציאליות, פונקציות שיפור ניגודיות ופונקציות XOR.
עבודות פורסמו ב-1972 וב-1973. עם זאת, הטקסט של מינסקי/נייר שהתעלמו ממנו לעתים קרובות גרם לירידה משמעותית בעניין ובמימון מחקר עם הפרצפטרון של הרשת העצבית. עוד עשר שנים חלפו עד שמחקר רשתות עצביות התחדש בשנות ה-80.
תכונות
The Perceptron Kernel Algorithm הוצג בשנת 1964 על ידי Yzerman et al.מורי ורוסטמיזאדה (2013), שמרחיבים תוצאות קודמות ומעניקים גבולות חדשים L1.
Perceptron הוא מודל פשוט של נוירון ביולוגי. בעוד שהמורכבות של מודלים עצביים ביולוגיים נדרשת לעתים קרובות כדי להבין באופן מלא התנהגות עצבית, מחקר מראה שמודל ליניארי דמוי פרצפטרון יכול לגרום לחלק מההתנהגות הנראית בנוירונים אמיתיים.
ה-Perceptron הוא מסווג ליניארי, כך שהוא לעולם לא יגיע למצב שבו כל וקטורי הקלט מסווגים נכון אם מערך האימון D אינו ניתן להפרדה ליניארית, כלומר. אם לא ניתן להפריד דוגמאות חיוביות מדוגמאות שליליות על ידי מישור היפר. במקרה זה, שום פתרון "בקירוב" לא יעבור צעד אחר צעד דרך אלגוריתם הלמידה הסטנדרטי, במקום זאת הלמידה תיכשל לחלוטין. לכן, אם ההפרדה הליניארית של מערך האימונים אינה ידועה מראש, יש להשתמש באחת מאפשרויות האימון שלהלן.
אלגוריתם כיס
אלגוריתם הכיס הראצ'ט פותר את בעיית חוסן למידת הפרצפטרון על ידי שמירה על הפתרון הטוב ביותר שנמצא עד כה "בכיס". לאחר מכן, אלגוריתם הכיס מחזיר את הפתרון בכיס ולא את הפתרון האחרון. זה יכול לשמש גם עבור מערכי נתונים שאינם ניתנים להפרדה כאשר המטרה היא למצוא תפיסה עם מעט סיווגים שגויים. עם זאת, פתרונות אלו נראים סטוכסטיים ומכאן שאלגוריתם הכיס אינו מתאים להם.בהדרגה במהלך האימון, ולא מובטח שהם יתגלו במשך מספר מסוים של שלבי אימון.
Maxover Algorithm
האלגוריתם של Maxover הוא "חזק" במובן זה שהוא יתכנס ללא קשר לידע על ההפרדה הליניארית של מערך הנתונים. במקרה של פיצול ליניארי זה יפתור את בעיית הלמידה, אופציונלי אפילו עם יציבות מיטבית (מרווח מרבי בין שיעורים). עבור מערכי נתונים שאינם ניתנים להפרדה, יוחזר פתרון עם מספר קטן של סיווגים שגויים. בכל המקרים, האלגוריתם מתקרב לפתרון בהדרגה במהלך תהליך הלמידה, מבלי לזכור מצבים קודמים וללא קפיצות אקראיות. ההתכנסות טמונה באופטימיות גלובלית עבור מערכי נתונים משותפים ואופטימיות מקומית עבור מערכי נתונים שאינם ניתנים להפרדה.
Voted Perceptron
אלגוריתם ה-Vodted Perceptron הוא גרסה המשתמשת במספר פרסטרונים משוקללים. האלגוריתם מתחיל פרספטרון חדש בכל פעם שדוגמה מסווגת בצורה שגויה, מאתחל את וקטור המשקל עם המשקולות הסופיות של ה-perceptron האחרון. כל תפיסה יקבל גם משקל שונה המתאים למספר הדוגמאות שהם מסווגים נכון לפני סיווג שגוי של אחת, ובסוף הפלט יהיה הצבעה משוקללת על פני כל התפיסה.
Application
בבעיות הניתנות להפרדה, אימון פרצפטרון יכול להיות מכוון גם למציאת גבול ההפרדה הגדול ביותר בין שיעורים. מה שנקראניתן לקבוע תפיסת יציבות אופטימלית באמצעות אימון איטרטיבי ותוכניות אופטימיזציה כגון אלגוריתם Min-Over או AdaTron. AdaTron מנצל את העובדה שבעיית האופטימיזציה הריבועית המתאימה היא קמורה. תפיסת היציבות האופטימלית, יחד עם טריק הליבה, הוא הבסיס הרעיוני של מכונת הווקטור התמיכה.
Alternative
דרך נוספת לפתור בעיות לא ליניאריות מבלי להשתמש במספר שכבות היא להשתמש ברשתות מסדר גבוה יותר (גוש סיגמא-פי). בסוג זה של רשת, כל אלמנט של וקטור הקלט מורחב על ידי כל שילוב זוגי של כניסות מוכפלות (סדר שני). ניתן להרחיב זאת לרשת ללא סדר. ה-Perceptron הוא דבר מאוד גמיש.
עם זאת, זכרו שהמסווג הטוב ביותר הוא לא בהכרח זה שמסווג במדויק את כל נתוני האימון. ואכן, אם היה לנו את האילוץ הקודם שהנתונים מגיעים מהתפלגויות גאוסיות שוות-וריאציות, פיצול ליניארי במרחב הקלט הוא אופטימלי, ופתרון לא ליניארי מוחלף.
אלגוריתמים אחרים לסיווג ליניארי כוללים את Winnow, תמיכה בוקטור ורגרסיה לוגיסטית. Perceptron הוא קבוצה אוניברסלית של אלגוריתמים.
ההיקף העיקרי ללמידה בפיקוח
למידה מפוקחת היא משימת למידת מכונה שלומדת פונקציה שממפה קלט לפלטמבוסס על דוגמאות של צמדי קלט/פלט. הם מסיקים תכונה מנתוני אימון מסומנים המורכבים מסט של דוגמאות. בלמידה מפוקחת, כל דוגמה היא זוג המורכב מאובייקט קלט (בדרך כלל וקטור) וערך פלט רצוי (נקרא גם אות בקרה).
אלגוריתם הלמידה בפיקוח מנתח את נתוני האימון ומייצר פונקציה משוערת שניתן להשתמש בה כדי להציג דוגמאות חדשות. התרחיש האופטימלי יאפשר לאלגוריתם לקבוע נכון תוויות מחלקות עבור מופעים בלתי נראים. זה דורש מאלגוריתם הלמידה להכליל את נתוני הלמידה למצבים בלתי נראים בצורה "הגיונית".
המשימה המקבילה בפסיכולוגיה של בני אדם ובעלי חיים נקראת לעתים קרובות למידה מושגית.