Какво е корпусна лингвистика?

Съдържание:

Какво е корпусна лингвистика?
Какво е корпусна лингвистика?
Anonim

Преди няколко десетилетия учените можеха само да мечтаят за автоматизиране на лингвистични изследвания. Работата беше извършена на ръка, голям брой студенти бяха включени в нея, имаше значителна вероятност от грешка „невнимание“и най-важното, всичко отне много, много време.

С развитието на компютърните технологии стана възможно да се провеждат изследвания много по-бързо и днес една от обещаващите области в изучаването на езика е корпусната лингвистика. Основната му характеристика е използването на големи количества текстова информация, консолидирана в единна база данни, маркирана по специален начин и наречена корпус.

Днес има много корпуси, създадени за различни цели, базирани на различен езиков материал, обхващащи от милиони до десетки милиарди лексикални единици. Това направление е признато за обещаващо и демонстрира значителен напредък в постигането на приложни и изследователски цели. Професионалисти, с които се справят по един или друг начинестествен език, препоръчва се да се запознаете с текстовите корпуси поне на основно ниво.

История на корпусната лингвистика

Формирането на това направление е свързано със създаването на Браун Корпус в САЩ в началото на 60-те години на миналия век. Колекцията от текстове се състои само от 1 милион словоформи и днес корпус от такъв обем би бил напълно неконкурентоспособен. Това до голяма степен се дължи на темпото на развитие на компютърните технологии, както и на нарастващото търсене на нови изследователски ресурси.

През 90-те години корпусната лингвистика се оформя в пълноценна и независима дисциплина, колекции от текстове бяха съставени и маркирани за няколко десетки езика. През този период, например, Британският национален корпус е създаден за 100 милиона думи.

корпусна лингвистика
корпусна лингвистика

С развитието на тази посока на лингвистиката обемът на текстовете става все по-голям (и достига милиарди речникови единици), а маркирането става все по-разнообразно. Днес в интернет пространството можете да намерите корпуси от писмена и устна реч, многоезична и образователна, фокусирана върху художествена или академична литература, както и много други разновидности.

Какви случаи има

Корпусните типове в корпусната лингвистика могат да бъдат представени по няколко начина. Интуитивно е ясно, че основата за класификация може да бъде езикът на текстовете (руски, немски), режимът на достъп (отворен код, затворен код, реклама), жанрът на изходния материал (художествена литературалитература, документален филм, академичност, журналистика).

методи на корпусната лингвистика
методи на корпусната лингвистика

По интересен начин се осъществява генерирането на материали, представящи устната реч. Тъй като съзнателното записване на подобна реч би създало изкуствени условия за респондентите, а полученият материал не би могъл да се нарече „спонтанен“, съвременната корпусна лингвистика тръгна по другия път. Доброволецът е снабден с микрофон, а през деня се записват всички разговори, в които участва. Околните, разбира се, не могат да знаят, че в хода на ежедневния разговор те допринасят за развитието на науката.

По-късно получените аудиозаписи се съхраняват в банката с данни и са придружени от отпечатан текст като препис. По този начин маркирането, необходимо за създаване на корпус от говорна ежедневна реч, става възможно.

Заявление

Там, където е възможно да се използва език, също така е възможно да се използват текстови корпуси. Целта на използването на корпусни методи в лингвистиката може да бъде:

  • Създаване на програми за настроения, които са широко използвани в политиката и бизнеса за проследяване на положителни и отрицателни отзиви съответно от гласоподаватели и клиенти.
  • Свързване на информационната система с речници и преводачи за подобряване на тяхната производителност.
  • Различни изследователски задачи, които допринасят за разбирането на структурата на езика, историята на неговото развитие и прогнози за промяната му в близко бъдеще.
  • Разработване на системи за извличане на информация, базирани на морфологични,синтактични, семантични и други характеристики.
  • Оптимизация на работата на различни езикови системи и др.

Използване на черупки

Интерфейсът на ресурсите е подобен на типичната търсачка и подканва потребителя да въведе някаква дума или комбинация от думи, за да търси в информационната база. В допълнение към точния формуляр за заявка, можете да използвате разширената версия, която ви позволява да намерите текстова информация по почти всеки езиков критерий.

компютърна и корпусна лингвистика
компютърна и корпусна лингвистика

Основата за търсене може да бъде:

  • принадлежащ към определена група от части на речта;
  • граматични характеристики;
  • семантика;
  • стилистично и емоционално оцветяване.

Също така, можете да комбинирате критерии за търсене за поредица от думи: например да намерите всички срещания на глагол в сегашно време, първо лице, единствено число, последвано от предлог "в" и съществително в винителен падеж. Решаването на такава проста задача отнема на потребителя няколко секунди и изисква само няколко щраквания с мишката в дадените полета.

Процес на създаване

Самото търсене може да се извърши както във всички подкорпуси, така и в един, специално избран, в зависимост от нуждите при постигане на конкретна цел:

  1. На първо място се определя кои текстове ще формират основата на корпуса. За практически цели често се използват журналистически, вестникарски материали, интернет коментари. В изследователските проекти най-многоразлични видове корпуси, но текстовете трябва да бъдат избрани на някаква обща основа.
  2. Резултантният набор от текстове се обработва предварително, грешките се коригират, ако има такива, изготвя се библиографско и екстралингвистично описание на текста.
  3. Всичката нетекстова информация се филтрира: графики, снимки, таблици се изтриват.
  4. Жетоните, обикновено думи, се разпределят за по-нататъшна обработка.
  5. Накрая се извършва морфологично, синтактично и друго маркиране на получения набор от елементи.

Резултатът от всички извършени операции е синтактична структура с набор от елементи, разпределени върху нея, за всеки от които се дефинират част на речта, граматически и в някои случаи семантични характеристики.

Трудности при създаването на дела

Важно е да разберете, че за да получите корпус, не е достатъчно да съберете много думи или изречения. От една страна, колекцията от текстове трябва да бъде балансирана, тоест да представя различни видове текстове в определени пропорции. От друга страна, съдържанието на кутията трябва да бъде маркирано по специален начин.

Захаров корпусна лингвистика
Захаров корпусна лингвистика

Първият въпрос се решава по споразумение: например колекцията включва 60% художествени текстове, 20% документални филми, определен дял се отделя на писмено представяне на устна реч, законодателни актове, научни трудове и др. Идеалната рецепта за балансиран корпус днес не съществува.

Вторият въпрос относно маркирането на съдържанието е по-труден за решаване. Има специални програми и алгоритми, използвани за автоматично маркиране на текстове, но те не дават 100% резултат, могат да причинят неуспехи и изискват ръчно прецизиране. Възможностите и проблемите при решаването на този проблем са описани подробно в работата на В. П. Захаров по корпусна лингвистика.

Маркирането на текст се извършва на няколко нива, които ще изброим по-долу.

Морфологична маркировка

От училищната скамейка си спомняме, че в руския език има различни части на речта и всяка от тях има свои собствени характеристики. Например, глаголът има категории наклонение и време, които съществителното няма. Говорителят на роден език отхвърля съществителни и спрега глаголи без колебание, но ръчният труд не е подходящ за маркиране на корпус от 100 милиона думи. Всички необходими операции могат да се извършват от компютър, но за това трябва да се научи.

Морфологичното маркиране е необходимо, за да може компютърът да "разбере" всяка дума като част от речта, която има определени граматически характеристики. Тъй като редица редовни правила функционират на руски (както и на всеки друг) език, е възможно да се изгради автоматична процедура за морфологичен анализ чрез поставяне на редица алгоритми в машината. Има обаче изключения от правилото, както и различни усложняващи фактори. В резултат на това чистият компютърен анализ днес е далеч от идеалния и дори 4% грешки дават стойност от 4 милиона думи в корпус от 100 милиона единици, което изисква ръчно прецизиране.

Този проблем е описан подробно от книгата на В. П. Захаров "Корпусна лингвистика".

Синтактично маркиране

Синтактичният анализ или синтактичен анализ е процедура, която определя връзката на думите в изречение. С помощта на набор от алгоритми става възможно да се определи субектът, предикатът, допълненията и различни завои на речта в текста. Като разберем кои думи в последователността са основни и кои са зависими, можем ефективно да извлечем информация от текста и да обучим машината да връща само информацията, която ни интересува в отговор на заявка за търсене.

лаборатории по корпусна лингвистика в руските университети
лаборатории по корпусна лингвистика в руските университети

Между другото, съвременните търсачки използват това, за да дават конкретни числа вместо дълги текстове в отговор на подходящи запитвания като: „колко калории има в една ябълка“или „разстояние от Москва до Санкт Петербург“. Въпреки това, за да разберете дори самите основи на описания процес, ще трябва да се запознаете с „Въведение в корпусната лингвистика“или друг основен учебник.

Семантична маркировка

Семантиката на една дума е, простичко казано, нейното значение. Широко приложим подход в семантичния анализ е приписването на тагове към дума, отразяващо нейната принадлежност към набор от семантични категории и подкатегории. Такава информация е ценна за оптимизиране на алгоритмите за анализ на настроенията на текста, автоматично препращане и изпълнение на други задачи с помощта на методите на корпусната лингвистика.

Има редица "корени" на дървото, които са абстрактни думи, които иматмного широка семантика. Тъй като това дърво се разклонява, се образуват възли, съдържащи все повече и повече специфични лексикални елементи. Например, думата "създание" може да се свърже с понятия като "човек" и "животно". Първата дума ще продължи да се разклонява в различни професии, термини по родство, националност, а втората - в класове и видове животни.

Използване на системи за извличане на информация

Сферите на използване на корпусната лингвистика обхващат голямо разнообразие от области на дейност. Корпусите се използват за компилиране и коригиране на речници, създаване на системи за автоматичен превод, обобщаване, извличане на факти, определяне на настроението и друга обработка на текст.

корпусна лингвистика корпусни типове
корпусна лингвистика корпусни типове

В допълнение, такива ресурси се използват активно при изучаването на езиците на света и механизмите на функциониране на езика като цяло. Достъпът до големи обеми предварително подготвена информация допринася за бързото и цялостно изследване на тенденциите в развитието на езиците, образуването на неологизми и стабилни речеви обрати, промени в значенията на лексикалните единици и др.

Тъй като работата с толкова големи обеми данни изисква автоматизация, днес има тясно взаимодействие между компютърната и корпусната лингвистика.

Национален корпус на руския език

Този корпус (съкратено като NKRC) включва редица подкорпуси, които позволяват използването на ресурса за решаване на голямо разнообразие от задачи.

Материалите в базата данни на NCRA са разделени на:

  • за публикации в медиите от 90-те и 2000-тегодини, местни и чуждестранни;
  • записи на устна реч;
  • акцентологично маркирани текстове (т.е. със знаци за ударение);
  • диалектна реч;
  • поетични произведения;
  • материали със синтактично маркиране и др.

Информационната система включва и подкорпуси с паралелни преводи на произведения от руски на английски, немски, френски и много други езици (и обратно).

Освен това базата данни има раздел от исторически текстове, представящи писмената реч на руски език в различни периоди от нейното развитие. Има и учебен корпус, който може да бъде полезен за чуждестранни граждани при овладяване на руски език.

Националният корпус на руския език включва 400 милиона лексикални единици и в много отношения изпреварва значителна част от корпусите на европейските езици.

Перспективи

Факт в полза на признаването на тази област като обещаваща е наличието на корпусни лингвистични лаборатории в руски университети, както и в чуждестранни. С използването и изследването в рамките на разглежданите ресурси за извличане на информация се свързва развитието на някои области в областта на високите технологии, системите за въпроси и отговори, но това беше обсъдено по-горе.

история на корпусната лингвистика
история на корпусната лингвистика

Предвижда се по-нататъшно развитие на корпусната лингвистика на всички нива, от техническо, по отношение на въвеждането на нови алгоритми, оптимизиращи процесите на търсене и обработка на информация, разширяване на възможностите на компютрите, повишаване на оперативнатапамет и завършвайки с домакински, тъй като потребителите намират все повече и повече начини да използват този тип ресурси в ежедневието и на работа.

В заключение

В средата на миналия век 2017 г. изглеждаше като далечно бъдеще, в което космически кораби сърфират из просторите на Вселената и роботите вършат цялата работа за хората. В действителност обаче науката е пълна с „празни петна“и прави отчаяни опити да отговори на въпроси, които тревожат човечеството от векове. Въпросите за функционирането на езика заемат гордо място тук, а корпусната и компютърната лингвистика могат да ни помогнат да отговорим на тях.

Обработката на големи количества данни ви позволява да откривате модели, които преди това са били недостъпни, да предвиждате развитието на определени езикови характеристики, да проследявате образуването на думи почти в реално време.

На практическо глобално ниво корпусите могат да се разглеждат например като потенциален инструмент за оценка на обществените настроения - Интернет е непрекъснато актуализирана база данни от различни текстове, създадени от реални потребители: това са коментари, рецензии, статии, и много други форми на реч.

В допълнение, работата с корпуси допринася за разработването на същите технически средства, които участват в извличането на информация, познати ни от услугите на Google или Yandex, машинен превод, електронни речници.

Може да се каже, че корпусната лингвистика прави само първите си стъпки и ще се развива бързо в близко бъдеще.

Препоръчано: