ניתוח טקסט בתדירות: תכונות ודוגמאות

תוכן עניינים:

ניתוח טקסט בתדירות: תכונות ודוגמאות
ניתוח טקסט בתדירות: תכונות ודוגמאות
Anonim

פגשת את המושג הזה יותר מפעם אחת בחייך אם היית צריך לעבוד עם טקסטים. בפרט, אתה יכול לפנות למחשבונים מקוונים שמבצעים בדיוק את ניתוח התדרים של הטקסט. הכלים השימושיים הללו מראים כמה פעמים תו או אות מסוימים מופיעים בכל קטע טקסט. לעתים קרובות מוצג גם אחוז. למה זה נחוץ? כיצד ניתוח תדרים של טקסט תורם ל"פיצוח" של צפנים פשוטים? מה המהות שלו, מי המציא אותו? נשיב על שאלות חשובות אלו ואחרות בנושא במהלך המאמר.

הגדרה

ניתוח תדרים הוא אחד מהזנים של ניתוח הצפנה. הוא מבוסס על ההנחה של מדענים לגבי קיומה של התפלגות סטטיסטית לא טריוויאלית של תווים בודדים והרצפים הקבועים שלהם בטקסט פשוט וגם בטקסט מוצפן.

מאמינים שהפצה כזו, עד להחלפת תווים בודדים, תישמר גם בתהליכי ההצפנה/פענוח.

ניתוח תדרים של מערכות
ניתוח תדרים של מערכות

מאפיין תהליך

עכשיו בואו נסתכל על ניתוח תדרים במילים פשוטות. זה מרמז שמספר המופעים של אותו תו אלפביתי בטקסטים באורך מספיק זהה בטקסטים שונים שנכתבו באותה שפה.

ועכשיו מה לגבי הצפנה חד אלפביתית? ההנחה היא שאם יש דמות עם הסתברות כה דומה להתרחשות בקטע עם טקסט צופן, אז זה ריאלי להניח שזו האות המוצפנת הזו.

עוקבים של ניתוח טקסט תדר מיישמים את אותו הנמקה על דיגרמות (רצפים של שתי אותיות). טריגרמות - זה למקרה של צפנים כבר פולי-אלפביתיים.

היסטוריית השיטה

ניתוח תדרים של מילים אינו ממצא של מודרניות. הוא מוכר לעולם המדעי מאז המאה ה-9. יצירתו קשורה לשם אל-קינדי.

אבל המקרים הידועים של יישום שיטת ניתוח התדרים שייכים לתקופה מאוחרת בהרבה. הדוגמה הבולטת ביותר כאן היא פענוח הירוגליפים מצריים, שהופק בשנת 1822 על ידי J.-F. Champollion.

אם נפנה לסיפורת, נוכל למצוא הרבה התייחסויות מעניינות לשיטת הפענוח הזו:

  • קונאן דויל - "הגברים הרוקדים".
  • Jules Verne - "ילדים של קפטן גרנט".
  • אדגר פו - "באג זהב".

עם זאת, מאז אמצע המאה הקודמת, רוב האלגוריתמים המשמשים בהצפנה פותחו תוך התחשבות בעמידותם לניתוח קריפטי תדר כזה. לכן זהכיום הם משמשים לרוב רק להכשרת קריפטוגרפים עתידיים.

ניתוח תדירות טקסט
ניתוח תדירות טקסט

שיטה בסיסית

בוא נציג כעת את ניתוח תגובת התדירות בפירוט. סוג זה של ניתוח מבוסס ישירות על העובדה שהמבחן מורכב ממילים, ואלו, בתורן, מאותיות. מספר האותיות הממלאות את האלפבית הלאומי מוגבל. אפשר פשוט לרשום מכתבים כאן.

המאפיינים החשובים ביותר של טקסט כזה יהיו גם חזרה על אותיות, ביגרמות שונות, טריגרמות ו-n-גרמים, כמו גם התאימות של אותיות שונות זו לזו, החלפת עיצורים / תנועות ועוד. זנים של סמלים אלה.

הרעיון העיקרי של השיטות הוא לספור מופעים של n-גרם אפשריים (מסומנים ב-nm) בטקסטים פשוטים מספיק ארוכים לניתוח (מסומן ב-T=t1t2…tl) המורכבים מאותיות של האלפבית הלאומי (מסומן על ידי {a1, a2, …, an}). כל האמור לעיל גורם לכמה m-grams עוקבים של הטקסט:

t1t2…tm, t2t3… tm+1, …, ti-m+1tl-m+2…tl.

אם זהו מספר המופעים של m-gram ai1ai2…הכוונה בטקסט מסוים T, ו-L הוא המספר הכולל של m-grams שניתח על ידי החוקר, אז ניתן לקבוע באופן אמפירי שעבור L גדול מספיק, התדרים עבור m-gram כזה יהיו מעט שונים זה מזה.

ניתוח תדרים
ניתוח תדרים

אותיות שכיחות באלפבית הרוסי

אבל לניתוח זמן-תדר, למרות השם הדומה, אין שום קשר לנושא השיחה שלנו. סוג זה של ניתוח מתבצע עבוראותות מתחנות מכ ם ניתנות לצפייה נמוכה באמצעות טרנספורמציה מיוחדת של גלים.

עכשיו בואו נחזור לנושא הראשי. בעת ביצוע ניתוח תדרים, ניתן לגלות אילו אותיות באלפבית הרוסי נמצאות לרוב בטקסטים נפחיים למדי (אחוז מ-0.062 עד 0.018):

  • A.
  • V.
  • D.
  • F.
  • I.
  • K.
  • M.
  • O.
  • R.
  • T.
  • F.
  • T.
  • ש.
  • b.
  • E.
  • I.

אפילו כלל זכרון מיוחד הוכנס, שעוזר ללמוד את האותיות הנפוצות ביותר באלפבית הרוסי. כדי לעשות זאת, מספיק לזכור רק מילה אחת - "מתבן".

במקרים כלליים, תדירות השימוש באותיות באחוזים נקבעת בפשטות: המומחה סופר כמה פעמים האות מופיעה בטקסט, ואז מחלק את הערך המתקבל במספר התווים הכולל בטקסט. וכדי לבטא את הערך הזה באחוזים, מספיק להכפיל אותו ב-100.

חשוב לקחת בחשבון שהתדירות תהיה תלויה לא רק בנפח הטקסט, אלא גם באופי שלו. לדוגמה, במקורות טכניים האות "F" מופיעה הרבה יותר מאשר בדיוני. לכן, לתוצאות אובייקטיביות, על מומחה להקליד טקסטים בעלי אופי וסגנונות שונים לצורך מחקר.

תוכניות לניתוח תדרים של טקסט
תוכניות לניתוח תדרים של טקסט

Bi-, tri-, four-grams

בטקסטים משמעותיים, אתה יכול גם למצוא את הנפוצים ביותר (בהתאמה, הכי הרבהחוזרים) שילובים של שתי אותיות או יותר. מומחים גם ערכו מספר טבלאות, המציינות את התדרים של דיגרמות דומות של אלפביתים שונים.

באשר לרוסית, ניתוח התדירות של מערכות של טקסטים בעלי משמעות רבת עוצמה איפשר להקים את הביגרמות והטריגרמות הנפוצות ביותר:

  • EN.
  • ST.
  • BUT.
  • NOT.
  • ON.
  • RA.
  • OV.
  • KO.
  • VO.
  • STO.
  • NEW
  • ENO.
  • TOV.
  • OVA.
  • OVO.

יחסים מועדפים של אותיות זה לזה

וזה לא כל האפשרויות שניתוח תדרים יכול לספק לחוקרי טקסט. על ידי שיטתיות של מידע מטבלאות דומות של ביגרמות וטריגרמות, ניתן לחלץ נתונים על צירופי האותיות הנפוצים ביותר. או, במילים אחרות, מערכות היחסים המועדפות שלהם זה עם זה.

מחקר נרחב שכזה כבר בוצע על ידי מומחים. התוצאה שלו הייתה טבלה שבה, יחד עם כל אות באלפבית, צוינו שכנותיה. יתר על כן, אותן דמויות שנמצאות לרוב הן מיד לפניו והן אחריו. האותיות בטבלה אינן מאויתות במקרה. קרוב יותר לסמל, מסומנים השכנים השכיחים ביותר, ועוד - נדירים יותר.

שקול דוגמאות:

  • אות "א". כאן נבדלים החיבורים המועדפים הבאים: l-d-k-t-v-r-n-A-l-n-s-t-r-v-to-m. מכאן אנו רואים כי לרוב לפני "A" בטקסטים יש "H" ("NA"). ואחרי "A" לרוב בטקסטים ברוסית נוכל לפגוש את "L"("AL").
  • אות "M". מומחים זיהו קשרים מועדפים כאלה: "I-s-a-i-e-o-M-i-e-o-u-a-n-p-s".
  • אות "ב". החיבורים המועדפים הם כדלקמן: "n-s-t-l-b-n-k-v-p-s-e-o-i".
  • אות "ש". חיבורים מועדפים: "e-b-a-i-u-Sch-e-i-a".
  • אות "P". קשרים מועדפים עם סמל זה של האלפבית הרוסי: "v-s-u-a-i-e-o-P-o-r-e-a-u-i-l".
ניתוח זמן-תדר
ניתוח זמן-תדר

מה מגדיר ניתוח?

תכניות ניתוח טקסט מודרניות של תדרים עוזרות ללמוד כמויות גדולות של מגוון רחב של מאמרים, חיבורים, קטעים וכן הלאה. המידע הבא מסופק לחוקר כסטנדרט:

  • מספר הכולל של תווים בטקסט.
  • מספר הרווחים בשימוש המחבר.
  • מספר ספרות.
  • מידע על סימני פיסוק בשימוש - נקודות, פסיקים וכו'.
  • מספר האותיות בכל אחד מהאלפבית הזמינים - קירילי, לטינית וכו'.
  • מידע על תדירות השימוש בכל אות וסמל בטקסט - מספר האזכורים והאחוזים לעומת הטקסט כולו.

מאבק נגד אופטימיזציה ורווית יתר

מדוע מבוצע ניתוח תדירות טקסט? האם זה רק למטרת סקרנות - לקבוע אילו דמויות בטקסט הכתוב התברר כי נתקלו בתדירות גבוהה? לא, היישום העיקרי של הניתוח הוא מעשי, והוא נמצא במקום אחר.

N-גרם כוללים לא רק ביגרמות וטריגרמות יציבות. לאותו דברהקטגוריות כוללות מילות מפתח (תגיות), קולוציות. כלומר, צירופים יציבים המורכבים משתי מילים או יותר. הם נבדלים בעובדה שחיבורים כאלה מתרחשים יחד בטקסט ובו בזמן נושאים עומס סמנטי מסוים.

זה משחק לידיים של מומחי SEO חסרי מצפון. בעבודתם, הם מנצלים לעתים לרעה את החזרה של תגיות ומילות מפתח בטקסט כדי להגביר באופן מלאכותי את הרלוונטיות של דף אינטרנט מסוים. הם מנסים לרמות את המערכת ב"טריק" כזה: הפיכת שילוב טבעי עם שילוב מילים רגיל, מסורתי לשפה הרוסית ("קנה מעיל מינק") לשילוב לא עקבי. כלומר, מתקבל על ידי סידור מחדש של מילים ב-N-גרם טבעי שכזה ("קנה מעיל מינק").

אבל היום, אלגוריתמי החיפוש למדו לזהות אופטימיזציית יתר ביעילות כמו ספאם יתר - רווית יתר של טקסט במילות מפתח, תגיות שמשפיעות על דירוג התוצאות בדף החיפוש. דפים שעברו אופטימיזציה יתר מדורגים כעת, להיפך, נמוך יותר לפי השאילתה של המשתמש. ואנשים עצמם אינם נוטים לקרוא חסר משמעות, רווי יתר בטקסט של תגים, ומעדיפים מידע שימושי על משאב אחר.

שיטת ניתוח תדרים
שיטת ניתוח תדרים

עזרה בניתוח פרטי עבור מומחי SEO

לכן, מסנני טקסט מודרניים של מנועי חיפוש נותנים היום עדיפות לדפי אינטרנט אלה, שהמידע עליהם לא רק קל לקריאה, אלא גם שימושי למבקרים. כדי לייעל את עבודתם לסטנדרטים חדשים, מומחי SEOולפנות לניתוח התדרים של הטקסט. שירותים פופולריים רבים מספקים את זה היום.

ניתוח תדרים עוזר לסקור את הטקסט המוכן לפרסום לצורך אינפורמטיביות. הסר יתירות מיותרת של תגים וביטויי מפתח. זה גם מאפשר לך להסב את תשומת ליבו של המחבר לצירופי מילים לא טבעיים המעוררים חשד במסנני הטקסט של מנועי החיפוש.

ניתוח תגובת תדר
ניתוח תגובת תדר

ניתוח תדרים של הטקסט עוזר אפוא לקבוע את תדירות האזכור של דמות מסוימת במקור. השיטה משמשת היום להערכת עומס טקסט עם תגים, תמורות לא טבעיות של מילים.

מוּמלָץ: