לפני כמה עשורים, מדענים יכלו רק לחלום על אוטומציה של מחקר לשוני. העבודה נעשתה בעבודת יד, מספר רב של תלמידים היו מעורבים בה, הייתה סבירות משמעותית לטעות "חוסר תשומת לב", והכי חשוב, הכל לקח הרבה מאוד זמן.
עם התפתחות טכנולוגיית המחשב, אפשר היה לבצע מחקר הרבה יותר מהר, וכיום אחד התחומים המבטיחים בחקר השפה הוא בלשנות הקורפוס. המאפיין העיקרי שלו הוא שימוש בכמויות גדולות של מידע טקסטואלי, מאוחד למסד נתונים אחד, מסומן בצורה מיוחדת ונקרא קורפוס.
כיום, ישנם קורפוסים רבים שנוצרו למטרות שונות, המבוססים על חומרי שפה שונים, המכסים ממיליוני עד עשרות מיליארדי יחידות מיליוניות. כיוון זה מוכר כמבטיח ומוכיח התקדמות משמעותית בהשגת יעדים יישומיים ומחקריים. אנשי מקצוע, כך או אחרת מתעסקיםשפה טבעית, מומלץ להכיר את קורפוסי הטקסט לפחות ברמה בסיסית.
היסטוריה של הבלשנות של הקורפוס
היווצרותו של כיוון זה קשורה להקמת חיל הבראון בארה ב בתחילת שנות ה-60 של המאה הקודמת. אוסף הטקסטים כלל רק מיליון צורות מילים, וכיום קורפוס בנפח כזה יהיה בלתי תחרותי לחלוטין. זה נובע בעיקר מקצב הפיתוח של טכנולוגיית המחשב, כמו גם מהביקוש הגובר למשאבי מחקר חדשים.
בשנות ה-90 התגבשה הבלשנות של הקורפוס לכדי דיסציפלינה מלאה ועצמאית, אוספי טקסטים קובצו וסומנו עבור כמה עשרות שפות. במהלך תקופה זו, למשל, הקורפוס הלאומי הבריטי נוצר עבור 100 מיליון שימושים במילים.
ככל שהכיוון הזה של הבלשנות מתפתח, נפח הטקסטים הופך גדול יותר (ומגיע למיליארדי יחידות אוצר מילים), והסימון נעשה מגוון יותר ויותר. כיום, במרחב האינטרנטי, ניתן למצוא קורפוסים של דיבור בכתב ובעל פה, רב לשוני וחינוכי, המתמקדים בסיפורת או בספרות אקדמית, כמו גם סוגים רבים אחרים.
אילו מקרים יש
סוגי קורפוס בבלשנות הקורפוס יכולים להיות מיוצגים בכמה דרכים. ברור באופן אינטואיטיבי שהבסיס לסיווג יכול להיות שפת הטקסטים (רוסית, גרמנית), מצב גישה (קוד פתוח, מקור סגור, מסחרי), ז'אנר חומר המקור (סיפורתספרות, תיעודי, אקדמיה, עיתונאות).
בצורה מעניינת, היצירה של חומרים המייצגים דיבור בעל פה מתבצעת. מכיוון שההקלטה המכוונת של דיבור כזה תיצור תנאים מלאכותיים עבור המשיבים, ולא ניתן היה לכנות את החומר המתקבל "ספונטני", הלכה הבלשנות המודרנית של הקורפוס לכיוון השני. המתנדב מצויד במיקרופון, ובמהלך היום מוקלטות כל השיחות בהן הוא משתתף. האנשים שמסביב, כמובן, לא יכולים לדעת שבמהלך שיחה יומיומית הם תורמים לפיתוח המדע.
מאוחר יותר, הקלטות האודיו שהתקבלו נשמרות במאגר הנתונים ומלוות בטקסט מודפס כמו תמלול. בדרך זו, הסימון הדרוש ליצירת קורפוס של דיבור יומיומי מדובר הופך לאפשרי.
Application
במקומות שבהם אפשר להשתמש בשפה, אפשר גם להשתמש בקורפוסים של טקסט. מטרת השימוש בשיטות קורפוס בבלשנות יכולה להיות:
- יצירת תוכניות סנטימנט שנמצאות בשימוש נרחב בפוליטיקה ובעסקים כדי לעקוב אחר משוב חיובי ושלילי מבוחרים ולקוחות, בהתאמה.
- חיבור מערכת המידע למילונים ולמתרגמים כדי לשפר את הביצועים שלהם.
- משימות מחקר שונות התורמות להבנת מבנה השפה, ההיסטוריה של התפתחותה ותחזיות השינוי שלה בעתיד הקרוב.
- פיתוח מערכות מיצוי מידע על בסיס מורפולוגי,תכונות תחביריות, סמנטיות ואחרות.
- אופטימיזציה של העבודה של מערכות לשוניות שונות וכו'.
Using shells
ממשק המשאבים דומה למנוע חיפוש טיפוסי ומבקש מהמשתמש להזין מילה כלשהי או שילוב של מילים כדי לחפש במאגר המידע. בנוסף לטופס הבקשה המדויק, ניתן להשתמש בגרסה המורחבת, המאפשרת למצוא מידע טקסטואלי כמעט לפי כל קריטריון לשוני.
הבסיס לחיפוש יכול להיות:
- שייך לקבוצה מסוימת של חלקי דיבור;
- תכונות דקדוקיות;
- סמנטיקה;
- צביעה סגנונית ורגשית.
כמו כן, ניתן לשלב קריטריוני חיפוש עבור רצף מילים: לדוגמה, מצא את כל המופעים של פועל בזמן הווה, גוף ראשון, יחיד ואחריו מילת היחס "in" ושם עצם באישיות. פתרון משימה כל כך פשוטה לוקח למשתמש כמה שניות ודורש רק כמה לחיצות עכבר בשדות הנתונים.
תהליך יצירה
החיפוש עצמו יכול להתבצע הן בכל תת-הגוף, והן באחד, שנבחר במיוחד, בהתאם לצרכים בעת השגת מטרה ספציפית:
- קודם כל, נקבע אילו טקסטים יהוו את הבסיס לקורפוס. למטרות מעשיות, משתמשים לעתים קרובות בחומרים עיתונאיים, עיתונים, הערות אינטרנטיות. בפרויקטי מחקר, הכי הרבהסוגים שונים של קורפוסים, אך יש לבחור את הטקסטים על בסיס משותף כלשהו.
- קבוצת הטקסטים המתקבלת מעובדת מראש, שגיאות מתוקנות, אם ישנן, מוכן תיאור ביבליוגרפי וחוץ-לשוני של הטקסט.
- כל המידע שאינו טקסטואלי מסונן החוצה: גרפיקה, תמונות, טבלאות נמחקות.
- אסימונים, בדרך כלל מילים, מוקצים להמשך עיבוד.
- לבסוף, מתבצע סימון מורפולוגי, תחבירי ואחר של קבוצת האלמנטים המתקבלת.
התוצאה של כל הפעולות שבוצעו היא מבנה תחבירי עם קבוצה של אלמנטים המופצים מעליו, שלכל אחד מהם מוגדרים חלקי דיבור, דקדוקיים ובמקרים מסוימים, תכונות סמנטיות.
קשיים ביצירת תיקים
חשוב להבין שכדי לקבל קורפוס, לא מספיק להרכיב הרבה מילים או משפטים. מצד אחד, אוסף טקסטים חייב להיות מאוזן, כלומר להציג סוגים שונים של טקסטים בפרופורציות מסוימות. מצד שני, יש לסמן את תוכן התיק בצורה מיוחדת.
הנושא הראשון נפתר בהסכמה: לדוגמה, האוסף כולל 60% מהטקסטים הבדיוניים, 20% מהסרטים התיעודיים, שיעור מסוים ניתן להצגה בכתב של דיבור בעל פה, פעולות חקיקה, מאמרים מדעיים וכו' המתכון האידיאלי לקורפוס מאוזן היום לא קיים.
קשה יותר לפתור את השאלה השנייה לגבי סימון תוכן. ישנן תוכנות ואלגוריתמים מיוחדים המשמשים לסימון אוטומטי של טקסטים, אך הם אינם נותנים תוצאה של 100%, עלולים לגרום לכשלים ודורשים חידוד ידני. הזדמנויות ובעיות בפתרון בעיה זו מתוארות בפירוט בעבודתו של V. P. Zakharov על הבלשנות של קורפוס.
סימון טקסט מתבצע במספר רמות, אותן נפרט להלן.
סימון מורפולוגי
מספסל הלימודים אנו זוכרים שבשפה הרוסית ישנם חלקי דיבור שונים, ולכל אחד מהם מאפיינים משלו. לדוגמה, לפועל יש קטגוריות של מצב רוח ומתח שאין לשם עצם. דובר שפת אם מסרב לשמות עצם ומצמיד פעלים ללא היסוס, אך עבודת כפיים אינה מתאימה לסימון קורפוס של 100 מיליון שימושי מילים. כל הפעולות הדרושות יכולות להתבצע על ידי מחשב, עם זאת, לשם כך יש ללמד אותו.
סימון מורפולוגי הכרחי כדי שהמחשב "יבין" כל מילה כחלק מהדיבור שיש לו תכונות דקדוקיות מסוימות. מכיוון שמספר כללים רגילים פועלים ברוסית (כמו בכל שפה אחרת), ניתן לבנות הליך אוטומטי לניתוח מורפולוגי על ידי הכנסת מספר אלגוריתמים למכונה. עם זאת, ישנם חריגים לכלל, כמו גם גורמים מסבכים שונים. כתוצאה מכך, ניתוח מחשב טהור כיום רחוק מלהיות אידיאלי, ואפילו שגיאות של 4% נותנות ערך של 4 מיליון מילים בקורפוס של 100 מיליון יחידות, הדורשות חידוד ידני.
בעיה זו מתוארת בפירוט על ידי ספרו של V. P. Zakharov "Corpus Linguistics".
סימון תחביר
ניתוח או ניתוח תחבירי הוא הליך שקובע את היחס בין מילים במשפט. בעזרת סט של אלגוריתמים, ניתן לקבוע את הנושא, הפרדיקט, הוספות ותפניות דיבור שונות בטקסט. על ידי הבנה אילו מילים ברצף הן עיקריות ואילו תלויות, נוכל לחלץ מידע מהטקסט ביעילות ולאמן את המכונה להחזיר רק את המידע שאנו מעוניינים בו בתגובה לבקשת חיפוש.
אגב, מנועי חיפוש מודרניים משתמשים בזה כדי לתת מספרים ספציפיים במקום טקסטים ארוכים בתגובה לשאילתות רלוונטיות כמו: "כמה קלוריות יש בתפוח" או "מרחק ממוסקבה לסנט פטרסבורג". עם זאת, כדי להבין אפילו את היסודות של התהליך המתואר, תצטרך להכיר את "מבוא לבלשנות קורפוס" או ספר לימוד בסיסי אחר.
סימון סמנטי
הסמנטיקה של מילה היא, במילים פשוטות, המשמעות שלה. גישה ישימה נרחבת בניתוח סמנטי היא ייחוס של תגים למילה, המשקף את השתייכותה לקבוצה של קטגוריות סמנטיות ותת-קטגוריות. מידע כזה הוא בעל ערך עבור אופטימיזציה של אלגוריתמים לניתוח סנטימנטים של טקסט, הפניה אוטומטית וביצוע משימות אחרות תוך שימוש בשיטות של קורפוס בלשנות.
ישנם מספר "שורשים" של העץ, שהם מילים מופשטות שישסמנטיקה רחבה מאוד. כאשר עץ זה מסתעף, נוצרים צמתים המכילים יותר ויותר אלמנטים מילוניים ספציפיים. לדוגמה, המילה "יצור" יכולה להיות קשורה למושגים כמו "אדם" ו"חיה". המילה הראשונה תמשיך להסתעף למקצועות שונים, מונחי קרבה, לאום, והשנייה - לכיתות וסוגים של בעלי חיים.
שימוש במערכות אחזור מידע
תחומי השימוש בבלשנות הקורפוס מכסים מגוון רחב של תחומי פעילות. קורפורה משמשים להידור ותיקון מילונים, יצירת מערכות תרגום אוטומטיות, סיכום, חילוץ עובדות, קביעת סנטימנט ועיבוד טקסט אחר.
בנוסף, משאבים כאלה נמצאים בשימוש פעיל בחקר שפות העולם ומנגנוני תפקוד השפה כולה. גישה לכמויות גדולות של מידע מוכן מראש תורמת למחקר מהיר ומקיף של מגמות בהתפתחות השפות, היווצרותם של ניאולוגיזם וסיבובי דיבור יציבים, שינויים במשמעויות של יחידות מילוניות וכו'.
מכיוון שעבודה עם נפחים כה גדולים של נתונים דורשת אוטומציה, כיום יש אינטראקציה הדוקה בין בלשנות המחשב והקורפוס.
קורפוס הלאומי של השפה הרוסית
קורפוס זה (בקיצור NKRC) כולל מספר תת-קורפוסים המאפשרים שימוש במשאב כדי לפתור מגוון רחב של משימות.
החומרים במסד הנתונים של NCRA מחולקים ל:
- על פרסומים בתקשורת של שנות ה-90 וה-2000שנים, הן מקומיות והן זרות;
- הקלטות של דיבור בעל פה;
- טקסטים מסומנים באופן אקצנולוגי (כלומר עם סימני הדגשה);
- דיאלקט דיאלקט;
- יצירות פיוטיות;
- חומרים עם סימון תחבירי וכו'.
מערכת המידע כוללת גם תת-קורפוסים עם תרגומים מקבילים של יצירות מרוסית לאנגלית, גרמנית, צרפתית ושפות רבות אחרות (ולהיפך).
כמו כן, למאגר יש קטע של טקסטים היסטוריים המייצגים דיבור כתוב ברוסית בתקופות שונות של התפתחותו. ישנו גם קורפוס הדרכה שיכול להיות שימושי עבור אזרחים זרים בשליטה בשפה הרוסית.
הקורפוס הלאומי של השפה הרוסית כולל 400 מיליון יחידות מילוניות ובמובנים רבים מקדים חלק נכבד מהקורפוס של השפות האירופיות.
Prospects
עובדה בעד ההכרה בתחום זה כמבטיח היא נוכחותן של מעבדות לבלשנות של קורפוס באוניברסיטאות ברוסיה, כמו גם באוניברסיטאות זרות. עם השימוש והמחקר במסגרת משאבי אחזור המידע הנחשבים, קשורה פיתוח של כמה תחומים בתחום הטכנולוגיות הגבוהות, מערכות שאלות ותשובות, אך הדבר נדון לעיל.
המשך התפתחות הבלשנות של הקורפוס צפויה בכל הרמות, החל מהטכנית, מבחינת הכנסת אלגוריתמים חדשים המייעלים את תהליכי החיפוש ועיבוד המידע, הרחבת יכולות המחשבים, הגדלת התפעולזיכרון, וכלה במשק הבית, כאשר משתמשים מוצאים יותר ויותר דרכים להשתמש בסוג זה של משאבים בחיי היומיום ובעבודה.
לסיכום
באמצע המאה הקודמת, 2017 נראתה כמו עתיד רחוק, שבו חלליות גולשות על מרחבי היקום ורובוטים עושים את כל העבודה עבור אנשים. אולם במציאות, המדע גדוש ב"נקודות ריקות" והוא עושה ניסיונות נואשים לענות על שאלות שהטרידו את האנושות במשך מאות שנים. שאלות על תפקוד השפה תופסות כאן מקום, ובלשנות קורפוס ובלשנות חישובית יכולות לעזור לנו לענות עליהן.
עיבוד כמויות גדולות של נתונים מאפשר לך לזהות דפוסים שלא היו נגישים בעבר, לחזות התפתחות של תכונות שפה מסוימות, לעקוב אחר היווצרות מילים כמעט בזמן אמת.
ברמה עולמית מעשית, קורפוסים יכולים להיחשב, למשל, ככלי פוטנציאלי להערכת רגשות הציבור - האינטרנט הוא מסד נתונים מתעדכן כל הזמן של טקסטים שונים שנוצרו על ידי משתמשים אמיתיים: אלו הן הערות, ביקורות, מאמרים, וצורות רבות אחרות של דיבור.
בנוסף, העבודה עם קורפוסים תורמת לפיתוח אותם אמצעים טכניים שמעורבים באחזור מידע, המוכרים לנו משירותי גוגל או Yandex, תרגום מכונה, מילונים אלקטרוניים.
ניתן לומר בבטחה שבלשנות הקורפוס עושה רק את צעדיה הראשונים והיא תתפתח במהירות בעתיד הקרוב.