כריית נתונים היא מושג, ניתוח אלגוריתמים, מטרה ויישום

2026 מְחַבֵּר: Angel Austin | austin@vogueindustry.com. שונה לאחרונה: 2025-01-23 12:24:58

פיתוח טכנולוגיית המידע מביא לתוצאות מעשיות. אבל משימות כמו איתור, ניתוח ושימוש במידע עדיין לא קיבלו כלי יעיל ואיכותי. יש כלים אנליטיים וכלים כמותיים, הם באמת עובדים. אבל עדיין לא התרחשה מהפכה איכותית בשימוש במידע.

הרבה לפני הופעת טכנולוגיית המחשב, אדם היה צריך לעבד כמויות גדולות של מידע והתמודד עם זה כמיטב ניסיונו ויכולותיו הטכניות הזמינות.

פיתוח הידע והמיומנויות תמיד ענה על צרכים אמיתיים והתאים למשימות הנוכחיות. כריית נתונים הוא שם כולל המשמש להתייחסות למערכת של שיטות לגילוי ידע לא ידוע קודם לכן, לא טריוויאלי, שימושי מעשי ונגיש בנתונים, הדרוש לקבלת החלטות בתחומי פעילות אנושית שונים.

אנושי, אינטליגנציה, תכנות

אדם תמיד יודע איך לפעול בכל מצב.בורות או מצב לא מוכר אינם מונעים ממנו לקבל החלטה. ניתן להטיל ספק באובייקטיביות ובסבירות של כל החלטה אנושית, אך היא תתקבל.

האינטליגנציה מבוססת על: "מנגנון" תורשתי, ידע נרכש ופעיל. הידע מיושם כדי לפתור בעיות המתעוררות בפני אדם.

אינטליגנציה היא קבוצה ייחודית של ידע ומיומנויות: הזדמנויות ובסיס לחיי אדם ולעבודה.
האינטליגנציה מתפתחת כל הזמן, ולפעולות אנושיות יש השפעה על אנשים אחרים.

תכנות הוא הניסיון הראשון לפורמליזציה של ייצוג הנתונים ותהליך יצירת אלגוריתמים.

בינה מלאכותית (AI) היא בזבוז זמן ומשאבים, אבל התוצאות של ניסיונות לא מוצלחים של המאה הקודמת בתחום הבינה המלאכותית נשארו בזיכרון, שימשו במערכות מומחים (תבונות) שונות ושונו, בפרט, אלגוריתמים (כללים) וניתוח נתונים מתמטי (לוגי) וכריית נתונים.

מידע והחיפוש הרגיל אחר פתרון

ספרייה רגילה היא מאגר ידע, והמילה המודפסת והגרפיקה עדיין לא הניבו את כף היד לטכנולוגיית המחשב. ספרים על פיזיקה, כימיה, מכניקה תיאורטית, עיצוב, תולדות הטבע, פילוסופיה, מדעי הטבע, בוטניקה, ספרי לימוד, מונוגרפיות, עבודות של מדענים, חומרי כנסים, דוחות על עבודות פיתוח וכו' תמיד רלוונטיים ומהימנים.

הספרייה היא הרבה מקורות שונים שנבדלים זה מזהצורת הצגה של חומר, מקור, מבנה, תוכן, סגנון הצגה וכו'.

כלפי חוץ הכל גלוי (קריא, נגיש) להבנה ולשימוש. ניתן לפתור כל בעיה, להגדיר נכון את המשימה, לנמק את הפתרון, לכתוב חיבור או עבודה, לבחור חומר לתעודה, לנתח מקורות בנושא עבודת גמר או דו ח מדעי ואנליטי.

ניתן לפתור כל בעיית מידע. בהתמדה ובמיומנות הראויים תתקבל תוצאה מדויקת ומהימנה. בהקשר זה, כריית נתונים היא גישה שונה לחלוטין.

בנוסף לתוצאה, אדם מקבל "קישורים פעילים" לכל מה שנצפה בתהליך של השגת המטרה. ניתן להפנות למקורות בהם השתמש בפתרון הבעיה ואף אחד לא יחלוק על עובדת קיומו של המקור. זו אינה ערובה לאותנטיות, אלא היא עדות בטוחה שהאחריות לאותנטיות "בוטלת" כלפיה. מנקודת מבט זו, כריית נתונים פירושה ספקות גדולים לגבי המהימנות וללא קישורים "פעילים".

בפתרון מספר בעיות, אדם משיג תוצאות ומרחיב את הפוטנציאל האינטלקטואלי שלו ל"קישורים פעילים" רבים. אם משימה חדשה "מפעילה" קישור שכבר קיים, האדם יידע כיצד לפתור אותה: אין צורך לחפש דבר שוב.

"קישור פעיל" הוא שיוך קבוע: איך ומה לעשות במקרה מסוים. המוח האנושי זוכר אוטומטית את כל מה שנראה לו פוטנציאלי מעניין, שימושי.או שסביר שיהיה צורך בעתיד. במובנים רבים זה קורה ברמה התת מודע, אבל ברגע שמתעוררת משימה שניתן לשייך ל"קישור פעיל", היא צצה מיידית בראש ויתקבל פתרון ללא חיפוש מידע נוסף. כריית נתונים היא תמיד חזרה על אלגוריתם החיפוש ואלגוריתם זה אינו משתנה.

חיפוש רגיל: בעיות "אמנותיות"

ספריית מתמטיקה וחיפוש מידע בה היא משימה חלשה יחסית. מציאת דרך כזו או אחרת לפתור אינטגרל, לבנות מטריצה או לבצע את פעולת החיבור של שני מספרים דמיוניים היא מייגעת, אך פשוטה. עליך למיין מספר ספרים, שרבים מהם כתובים בשפה מסוימת, למצוא את הטקסט המתאים, ללמוד אותו ולקבל את הפתרון הנדרש.

עם הזמן, הספירה תהפוך למוכרת, והניסיון המצטבר יאפשר לכם לנווט במידע הספרייה ובבעיות מתמטיות אחרות. זהו מרחב מידע מוגבל של שאלות ותשובות. תכונה אופיינית: חיפוש מידע כזה צובר ידע לפתרון בעיות דומות. חיפוש מידע של אדם משאיר עקבות ("קישורים פעילים") בזיכרונו על פתרונות אפשריים לבעיות אחרות.

בדיוני, מצא את התשובה לשאלה: "איך חיו אנשים בינואר 1248?" קשה מאוד. קשה עוד יותר לענות על השאלה מה היה על מדפי החנויות וכיצד התארגן סחר המזון. גם אם איזה סופר כתב על כך בצורה ברורה וישירה ברומן שלו, אם ניתן למצוא את שמו של הסופר הזה, אז ספקות לגבימהימנות הנתונים שהתקבלו תישאר. אמינות היא מאפיין קריטי של כל כמות מידע. חשובים המקור, המחבר והראיות המוציאות את שקר התוצאה.

נסיבות אובייקטיביות של מצב מסוים

אדם רואה, שומע, מרגיש. חלק מהמומחים שולטים בתחושה ייחודית - אינטואיציה. הצהרת הבעיה דורשת מידע, תהליך פתרון הבעיה מלווה לרוב בשכלול של הצהרת הבעיה. זו הצרה הפחותה שמגיעה עם העברת מידע אל תוך המעיים של מערכת מחשב.

הספרייה והקולגות לעבודה הם משתתפים עקיפים בתהליך ההחלטה. עיצוב הספר (מקור), הגרפיקה בטקסט, תכונות פיצול המידע לכותרות, הערות שוליים לפי ביטויים, מפתח הנושא, רשימת המקורות הראשוניים - הכל מעורר באדם אסוציאציות המשפיעות בעקיפין על תהליך הפתרון. הבעיה.

הזמן והמקום לפתרון הבעיה חיוניים. אדם מסודר עד כדי כך שהוא שם לב בעל כורחו לכל מה שסובב אותו בתהליך פתרון בעיה. זה יכול להסיח את הדעת, או שזה יכול להיות מגרה. כריית נתונים לעולם לא "תבין".

מידע במרחב וירטואלי

אדם תמיד התעניין רק במידע מהימן על אירוע, תופעה, אובייקט, אלגוריתם לפתרון בעיה. האדם תמיד דמיין בדיוק איך הוא יכול להשיג את המטרה הרצויה.

המראה של מחשבים ומערכות מידע היה צריך להקל על האדם, אבל הכל רק הפך להיות יותר מסובך.מידע נדד אל בטן מערכות המחשוב ונעלם מהעין. כדי לבחור את הנתונים הדרושים, עליך ליצור אלגוריתם נכון או לנסח שאילתה למסד הנתונים.

השאלה חייבת להיות נכונה. רק אז תוכל לקבל תשובה. אבל ספקות לגבי האותנטיות נותרו. במובן הזה, כריית נתונים היא באמת "חפירות", היא "חילוץ מידע". ככה זה אופנתי לתרגם את הביטוי הזה. הגרסה הרוסית היא כריית נתונים או טכנולוגיית כריית נתונים.

בעבודותיהם של מומחים סמכותיים, המשימות של כריית נתונים מסומנות כדלקמן:

classification;
clustering;
association;
sequence;
חיזוי.

מנקודת המבט של הנוהג המנחה אדם בעיבוד ידני של מידע, כל העמדות הללו נתונות לוויכוח. בכל מקרה, אדם מעבד מידע באופן אוטומטי ואינו חושב על סיווג נתונים, הידור קבוצות נושאיות של אובייקטים (אשכולות), חיפוש תבניות זמניות (רצף) או חיזוי התוצאה.

כל העמדות הללו במוח האנושי מיוצגות על ידי ידע אקטיבי, המכסה יותר עמדות ומשתמשות באופן דינמי בלוגיקה של עיבוד הנתונים הראשוניים. תת המודע של אדם ממלא תפקיד חשוב, במיוחד כאשר הוא מומחה בתחום ידע מסוים.

דוגמה: סיטונאות של ציוד מחשבים

המשימה פשוטה. יש כמהעשרות ספקים של ציוד מחשוב וציוד היקפי. לכל אחד יש מחירון בפורמט xls (קובץ אקסל), אותו ניתן להוריד מהאתר הרשמי של הספק. נדרש ליצור משאב אינטרנט שקורא קבצי אקסל, ממיר אותם לטבלאות מסד נתונים ומאפשר ללקוחות לבחור את המוצרים הרצויים במחירים הנמוכים ביותר.

בעיות מתעוררות מיד. כל ספק מציע גרסה משלו של המבנה והתוכן של קובץ xls. ניתן לקבל את הקובץ על ידי הורדתו מאתר הספק, הזמנתו בדואר אלקטרוני, או קבלת קישור להורדה דרך חשבונכם האישי, כלומר באמצעות רישום רשמי אצל הספק.

פתרון הבעיה (בהתחלה) הוא פשוט מבחינה טכנולוגית. טעינת קבצים (נתונים ראשוניים), נכתב אלגוריתם זיהוי קבצים לכל ספק והנתונים ממוקמים בטבלה אחת גדולה של נתונים ראשוניים. לאחר שהתקבלו כל הנתונים, לאחר שנקבע מנגנון ההחלפה המתמשכת (יומי, שבועי או עם שינוי) של נתונים טריים:

change assortiment;
שינויים במחיר;
הבהרת הכמות במלאי;
התאמה של תנאי אחריות, מפרטים וכו'.

כאן מתחילות הבעיות האמיתיות. העניין הוא שהספק יכול לכתוב:

notebook Acer;
notebook Asus;
מחשב נייד של Dell.

אנחנו מדברים על אותו מוצר, אבל מיצרנים שונים. כיצד להתאים מחברת=מחשב נייד או כיצד להסיר את Acer, Asus ו-Dell מקו מוצרים?

עבוראנושי היא לא בעיה, אבל איך האלגוריתם "יבין" ש-Acer, Asus, Dell, Samsung, LG, HP, Sony הם סימנים מסחריים או ספקים? איך להתאים "מדפסת" ומדפסת, "סורק" ו-"MFP", "מכונת צילום" ו-"MFP", "אוזניות" ל"אוזניות", "אביזרים" ל"אביזרים"?

בניית עץ קטגוריות המבוסס על נתוני מקור (קובצי מקור) היא כבר בעיה כאשר אתה צריך להגדיר הכל לאוטומטי.

דגימת נתונים: חפירות של "משפך טרי"

המשימה של יצירת מסד נתונים של ספקי ציוד מחשוב נפתרה. נבנה עץ של קטגוריות, טבלה משותפת עם הצעות מכל הספקים פועלת.

משימות כריית נתונים טיפוסיות בהקשר של דוגמה זו:

מצא מוצר במחיר הנמוך ביותר;
בחר את הפריט עם עלות המשלוח והמחיר הנמוכים ביותר;
ניתוח מוצר: מאפיינים ומחירים לפי קריטריונים.

בעבודה האמיתית של מנהל המשתמש בנתונים מכמה עשרות ספקים, יהיו וריאציות רבות של המשימות הללו, ואפילו יותר מצבים אמיתיים.

לדוגמה, יש ספק "A" שמוכר ASUS VivoBook S15: תשלום מראש, משלוח 5 ימים לאחר קבלת הכסף בפועל. יש ספק "B" של אותו מוצר מאותו דגם: תשלום בקבלה, אספקה לאחר כריתת החוזה תוך יום, המחיר גבוה פי אחד וחצי.

כריית נתונים מתחילה - "חפירות". ביטויים פיגורטיביים: "חפירות" או "כריית נתונים" הן מילים נרדפות. זה על איך לקבל סיבה לקבל החלטה.

לספקים "A" ו-"B" יש היסטוריה של משלוחים. כיתהתשלום מראש במקרה הראשון כנגד תשלום בקבלה במקרה השני, בשים לב לכך שכשל המסירה במקרה השני גבוה ב-65%. הסיכון לקנסות מהלקוח גבוה/נמוך יותר. איך ומה לקבוע ואיזו החלטה לקבל?

מצד שני: בסיס הנתונים נוצר על ידי מתכנת ומנהל. אם המתכנת והמנהל השתנו, כיצד לקבוע את המצב הנוכחי של בסיס הנתונים וללמוד כיצד להשתמש בו נכון? תצטרך גם לעשות כריית נתונים. כריית נתונים מציעה מגוון שיטות מתמטיות והגיוניות שלא אכפת להן איזה סוג נתונים נחקר. זה נותן את הפתרון הנכון במקרים מסוימים, אך לא בכולם.

מעבר לוירטואליות ומציאת משמעות

שיטות כריית נתונים הופכות למשמעותיות ברגע שהמידע נכתב במסד הנתונים ונעלם מ"שדה הראייה". מסחר בציוד מחשבים הוא משימה מעניינת, אבל זה רק עסק. עד כמה הוא מאורגן בחברה תלוי בהצלחתה.

שינויי האקלים על פני כדור הארץ ומזג האוויר בעיר מסוימת מעניינים את כולם, לא רק מומחי אקלים מקצועיים. אלפי חיישנים לוקחים קריאות של רוח, לחות, לחץ, נתונים מלוויינים מלאכותיים של כדור הארץ ויש היסטוריה של נתונים במשך שנים ומאות שנים.

נתוני מזג האוויר אינם קשורים רק להחלטה אם להביא מטריה לעבודה או לא. טכנולוגיות כריית נתונים הן טיסה בטוחה של מטוס נוסעים, פעולה יציבה של כביש מהיר ואספקה אמינה של מוצרי נפט דרך הים.

נתוני "גולמיים" נשלחים למידעמערכת. המשימות של Data Mining הן להפוך אותם למערכת שיטתית של טבלאות, ליצור קישורים, להדגיש קבוצות של נתונים הומוגניים ולזהות דפוסים.

שיטות מתמטיות והגיוניות מאז ימי הניתוח הכמותי OLAP (עיבוד אנליטי מקוון) הראו את המעשיות שלהן. כאן, הטכנולוגיה מאפשרת לך למצוא משמעות, ולא לאבד אותה, כמו בדוגמה של מכירת ציוד מחשב.

יתר על כן, במשימות גלובליות:

עסקים בין לאומיים;
ניהול תחבורה אווירית;
מחקר של בטן האדמה או בעיות חברתיות (ברמת המדינה);
מחקר של השפעת תרופות על אורגניזם חי;
חיזוי ההשלכות של הקמת מפעל תעשייתי וכו'.

טכנולוגיות Data Mine והפיכת נתונים "חסרי משמעות" לנתונים אמיתיים המאפשרים לך לקבל החלטות אובייקטיביות היא האפשרות היחידה.

אפשרויות אנושיות מסתיימות במקום שבו יש כמות גדולה של מידע גולמי. מערכות כריית נתונים מאבדות את השימושיות שלהן היכן שהן נדרשות לראות, להבין ולחוש מידע.

חלוקה סבירה של פונקציות ואובייקטיביות

אדם ומחשב צריכים להשלים זה את זה - זו אקסיומה. כתיבת עבודת גמר היא בראש סדר העדיפויות של האדם, ומערכת מידע היא לעזר. כאן, הנתונים שיש לטכנולוגיית Data Mining הם היוריסטיות, כללים, אלגוריתמים.

הכנת תחזית מזג אוויר שבועית היא בראש סדר העדיפויות של מערכת המידע.האדם מנהל את הנתונים, אך מבסס את החלטותיו על תוצאות חישובי המערכת. הוא משלב שיטות כריית נתונים, סיווג נתונים מומחים, שליטה ידנית ביישום האלגוריתמים, השוואה אוטומטית של נתוני עבר, חיזוי מתמטי והרבה ידע ומיומנויות של אנשים אמיתיים המעורבים ביישום מערכת המידע.

תורת ההסתברות וסטטיסטיקה מתמטית אינם תחומי הידע ה"אהובים" והמובנים ביותר. מומחים רבים רחוקים מהם מאוד, אך השיטות שפותחו בתחומים אלו נותנות כמעט 100% תוצאות נכונות. באמצעות יישום מערכות המבוססות על הרעיונות, השיטות והאלגוריתמים של Data Mining, ניתן לקבל פתרונות בצורה אובייקטיבית ומהימנה. אחרת, פשוט בלתי אפשרי להשיג פתרון.

פרעונים ותעלומות של מאות השנים האחרונות

ההיסטוריה נכתבה מחדש מעת לעת:

מדינות - למען האינטרסים האסטרטגיים שלהן;
מדענים סמכותיים - למען האמונות הסובייקטיביות שלהם.

קשה לדעת מה נכון ומה שקר. השימוש ב-Data Mining מאפשר לנו לפתור בעיה זו. לדוגמה, הטכנולוגיה של בניית פירמידות תוארה על ידי כרוניקנים ונחקרה על ידי מדענים במאות שונות. לא כל החומרים הגיעו לאינטרנט, לא הכל ייחודי כאן, וייתכן שאין לנתונים רבים:

נקודת זמן מתוארת;
זמן כתיבת התיאור;
תאריכים שעליהם מבוסס התיאור;
כותבים, דעות (קישורים) נלקחו בחשבון;
אישור של אובייקטיביות.

Bבספריות, מקדשים ו"מקומות בלתי צפויים" ניתן למצוא כתבי יד ממאות שונות ועדויות חומריות של העבר.

מטרה מעניינת: לחבר הכל ולחשוף את "האמת". מאפיין הבעיה: ניתן לקבל מידע מהתיאור הראשון על ידי כרוניקן, במהלך חיי הפרעונים, ועד למאה הנוכחית, שבה בעיה זו נפתרת בשיטות מודרניות על ידי מדענים רבים.

רציונל לשימוש ב-Data Mining: עבודת כפיים אינה אפשרית. יותר מדי כמויות:

מקורות מידע;
שפות ייצוג;
חוקרים המתארים את אותו הדבר בדרכים שונות;
תאריכים, אירועים ותנאים;
בעיות מתאם לטווח;
ניתוח סטטיסטיקה לפי קבוצות נתונים לאורך זמן עשוי להיות שונה וכו'.

בסוף המאה הקודמת, כשפיאסקו נוסף של רעיון הבינה המלאכותית הפך ברור לא רק להדיוט, אלא גם למומחה מתוחכם, הופיע הרעיון: "ליצור מחדש את האישיות".

לדוגמה, לפי יצירותיהם של פושקין, גוגול, צ'כוב, נוצרת מערכת מסויימת של כללים, לוגיקה של התנהגות ונוצרת מערכת מידע שיכולה לענות על שאלות מסוימות כפי שאדם היה עושה: פושקין, גוגול או צ'כוב. תיאורטית, משימה כזו מעניינת, אך בפועל היא קשה ביותר ליישום.

עם זאת, הרעיון של משימה כזו מציע רעיון פרקטי מאוד: "איך ליצור חיפוש מידע אינטליגנטי." האינטרנט הוא הרבה משאבי פיתוח, מסד נתונים ענק וזו הזדמנות מצוינת ליישם Data Mining בשילוב עם אנושיהיגיון במתכונת של פיתוח משותף.

מכונה ואדם בזוג זו משימה מצוינת והצלחה ללא ספק בתחום "ארכיאולוגיה מידע", חפירות איכותיות בנתונים ותוצאות שיעמידו משהו בספק, אך ללא ספק יאפשרו לכם לצבור ידע חדש ויהיה מבוקש בחברה.