Анализ на честотата на текста: характеристики и примери

Съдържание:

Анализ на честотата на текста: характеристики и примери
Анализ на честотата на текста: характеристики и примери
Anonim

Срещали сте тази концепция повече от веднъж в живота си, ако ви се е налагало да работите с текстове. По-специално, можете да се обърнете към онлайн калкулатори, които извършват точно честотния анализ на текста. Тези удобни инструменти показват колко пъти се среща определен знак или буква във всеки пасаж от текст. Често се показва и процент. Защо е необходимо това? Как честотният анализ на текста допринася за „разбиването“на прости шифри? Каква е същността му, кой го е измислил? Ще отговорим на тези и други важни въпроси по темата в хода на статията.

Определение

Анализът на честотата е една от разновидностите на криптоанализа. Тя се основава на предположението на учените за съществуването на статистически нетривиално разпределение на отделните знаци и техните редовни последователности както в обикновен, така и в шифрован текст.

Смята се, че такова разпределение, до замяната на отделни знаци, също ще бъде запазено в процесите на криптиране/декриптиране.

честотен анализ на системите
честотен анализ на системите

Характеристика на процеса

Сега нека да разгледаме честотния анализ с прости думи. Това означава, че броят на срещанията на един и същи буквен знак в текстове с достатъчна дължина е еднакъв в различни текстове, написани на един и същ език.

А сега какво ще кажете за едноазбучно криптиране? Приема се, че ако има знак с подобна вероятност за поява в секцията с шифрован текст, тогава е реалистично да се предположи, че това е тази шифрована буква.

Последователите на анализа на честотния текст прилагат същите разсъждения към диграмите (последователности от две букви). Триграми - това е за случая на вече многоазбучни шифри.

История на метода

Анализът на честотата на думите не е откритие на модерността. Той е известен на научния свят от 9 век. Създаването му се свързва с името Ал-Кинди.

Но известните случаи на приложение на метода на честотния анализ принадлежат към много по-късен период. Най-яркият пример тук е дешифрирането на египетски йероглифи, произведени през 1822 г. от J.-F. Шамполион.

Ако се обърнем към художествената литература, можем да намерим много интересни препратки към този метод за декриптиране:

  • Conan Doyle - "The Dancing Men".
  • Жул Верн - "Децата на капитан Грант".
  • Едгар По - "Златен бъг".

Въпреки това, от средата на миналия век повечето от алгоритмите, използвани в криптирането, са разработени, като се вземе предвид тяхната устойчивост на подобен честотен криптоанализ. Следователно тоднес те най-често се използват само за обучение на бъдещи криптографи.

анализ на честотата на текста
анализ на честотата на текста

Основен метод

Нека сега представим анализа на честотната характеристика в детайли. Този вид анализ се основава директно на факта, че тестът се състои от думи, а тези от своя страна от букви. Броят на буквите, които изпълват националните азбуки, е ограничен. Буквите могат просто да бъдат изброени тук.

Най-важните характеристики на такъв текст ще бъдат както повторението на букви, различни биграми, триграми и n-грами, така и съвместимостта на различни букви една с друга, редуването на съгласни / гласни и други разновидности на тези символи.

Основната идея на методите е да преброят появата на възможни n-грама (означени с nm) в открити текстове, достатъчно дълги за анализ (означени с T=t1t2…tl), съставени от букви от националната азбука (означено с {a1, a2, …, an}). Всичко по-горе причинява някои последователни m-грама от текста:

t1t2…tm, t2t3… tm+1, …, ti-m+1tl-m+2…tl.

Ако това е броят на срещанията на m-gram ai1ai2…aim в определен текст T, а L е общият брой на m-grams, анализирани от изследователя, тогава е възможно да се установи емпирично, че за достатъчно голям L, честотите за такъв m-грам ще се различават малко една от друга.

честотен анализ
честотен анализ

Често срещащи се букви от руската азбука

Но анализът време-честота, въпреки подобното име, няма нищо общо с темата на нашия разговор. Този вид анализ се извършва засигнали от ниско наблюдаеми радарни станции, използващи специална вълнова трансформация.

Сега да се върнем към основната тема. Когато извършвате честотен анализ, можете да разберете кои букви от руската азбука най-често се срещат в доста обемни текстове (процент от 0,062 до 0,018):

  • A.
  • V.
  • D.
  • F.
  • I.
  • K.
  • M.
  • O.
  • R.
  • T.
  • F.
  • T.
  • Sh.
  • b.
  • E.
  • I.

Въведено е дори специално мнемонично правило, което помага да се научат най-често срещаните букви от руската азбука. За да направите това, достатъчно е да запомните само една дума - "сенник".

В общи случаи честотата на използване на букви в проценти се задава просто: специалистът преброява колко пъти буквата се среща в текста, след което разделя получената стойност на общия брой знаци в текста. И за да изразите тази стойност като процент, достатъчно е да я умножите по 100.

Важно е да се има предвид, че честотата ще зависи не само от обема на текста, но и от неговия характер. Например, в техническите източници буквата "F" се появява много по-често, отколкото в художествената литература. Следователно, за обективни резултати, специалистът трябва да въвежда текстове от различен характер и стил за изследване.

програми за честотен анализ на текста
програми за честотен анализ на текста

Би-, три-, четириграма

В смислените текстове можете да намерите и най-често срещаните (съответно най-повтарящи се) комбинации от две или повече букви. Специалистите са съставили и няколко таблици, които показват честотите на подобни диаграми от различни азбуки.

Що се отнася до руския, честотният анализ на системите от обемни смислени текстове позволи да се установят най-често срещаните биграми и триграми:

  • EN.
  • ST.
  • НО.
  • НЕ.
  • ON.
  • RA.
  • OV.
  • KO.
  • VO.
  • STO.
  • НОВО
  • ENO.
  • TOV.
  • OVA.
  • OVO.

Предпочитани връзки на букви помежду си

И това не са всички възможности, които честотният анализ може да предостави на изследователите на текст. Чрез систематизиране на информация от подобни таблици на биграми и триграми е възможно да се извлекат данни за най-често срещаните комбинации от букви. Или, с други думи, предпочитаните от тях взаимоотношения помежду си.

Такова обширно проучване вече е извършено от експерти. Резултатът му беше таблица, където наред с всяка буква от азбуката бяха посочени нейните съседи. Освен това тези знаци, които често се срещат както непосредствено преди, така и след него. Буквите в таблицата не са изписани случайно. По-близо до символа са посочени най-честите съседи, по-нататък - по-редките.

Помислете за примери:

  • Буква "А". Тук се разграничават следните предпочитани връзки: l-d-k-t-v-r-n-A-l-n-s-t-r-v-to-m. От тук виждаме, че най-често преди „А” в текстовете стои „Н” („NA”). И след "А" най-често в текстове на руски можем да срещнем "L"("AL").
  • Буква "М". Експертите са идентифицирали такива предпочитани връзки: "I-s-a-i-e-o-M-i-e-o-u-a-n-p-s".
  • Буква "b". Предпочитаните връзки са, както следва: "n-s-t-l-b-n-k-v-p-s-e-o-i".
  • Буква "Sh". Предпочитани връзки: "e-b-a-i-u-Sch-e-i-a".
  • Буква "P". Предпочитани връзки с този символ на руската азбука: "v-s-u-a-i-e-o-P-o-r-e-a-u-i-l".
време-честотен анализ
време-честотен анализ

Какво определя анализа?

Модерните програми за честотен анализ на текст помагат за изучаване на големи обеми от голямо разнообразие от статии, есета, пасажи и т.н. Следната информация се предоставя на изследователя като стандарт:

  • Общ брой знаци в текста.
  • Брой пространства, използвани от автора.
  • Брой цифри.
  • Информация за използваните препинателни знаци - точки, запетаи и др.
  • Броят на буквите във всяка от наличните азбуки - кирилица, латиница и др.
  • Информация за честотата на използване на всяка буква и символ в текста - броя на споменаванията и процента спрямо целия текст.

Борба срещу свръхоптимизацията и пренасищането

Защо се извършва анализ на честотата на текста? Просто с цел любопитство – да се установи кои персонажи в написания текст се оказаха често срещани? Не, основното приложение на анализа е практично и се намира другаде.

N-грама включва не само стабилни биграми и триграми. Към същотокатегориите включват ключови думи (тагове), колокации. Тоест стабилни комбинации, състоящи се от две или повече думи. Те се отличават с факта, че подобни композиции се срещат заедно в текста и в същото време носят определен семантичен товар.

Това играе в ръцете на безскрупулни SEO специалисти. В работата си те понякога злоупотребяват с повторението на тагове и ключови думи в текста, за да увеличат изкуствено уместността на определена уеб страница. Те се опитват да измамят системата с такъв "трик": превръщането на естествена комбинация с обичайната комбинация от думи, традиционна за руския език ("купете норка") в непоследователна. Тоест получено чрез пренареждане на думите в такъв естествен N-грам („купете палто от норка“).

Но днес алгоритмите за търсене са се научили да откриват свръхоптимизацията толкова ефективно, колкото и свръхспама - пренасищане на текст с ключови думи, тагове, които влияят на класирането на резултатите в страницата за търсене. Свръхоптимизираните страници сега, напротив, се класират по-ниско от заявката на потребителя. И самите хора не са склонни да четат безсмислен, пренаситен с етикети текст, предпочитайки полезна информация на друг ресурс.

метод за честотен анализ
метод за честотен анализ

Помощ за частен анализ за SEO специалисти

По този начин съвременните текстови филтри на търсачките днес дават предпочитание на онези интернет страници, информацията на които е не само лесна за четене, но и полезна за посетителите. За да оптимизират работата си за нови стандарти, SEO специалистии се обърнете към честотния анализ на текста. Много популярни услуги го предоставят днес.

Анализът на честотата помага да се прегледа текстът, който се подготвя за публикуване, за информативност. Премахнете ненужния излишък на тагове и ключови фрази. Също така ви позволява да привлечете вниманието на автора към неестествени комбинации от думи, които будят подозрение в текстовите филтри на търсачките.

анализ на честотната характеристика
анализ на честотната характеристика

По този начин анализът на честотата на текста помага да се определи честотата на споменаване на конкретен символ в източника. Методът се използва днес за оценка на претоварването на текста с тагове, неестествени пермутации на думи.

Препоръчано: