КОРПУСНАЯ ЛИНГВИСТИКА В СИСТЕМЕ ЛИНГВИСТИЧЕСКИХ ДИСЦИПЛИН

Опубликовано в журнале: Научный журнал «Интернаука» № 18(194)
Рубрика журнала: 18. Филология
DOI статьи: 10.32743/26870142.2021.18.194.274489
Библиографическое описание
Мелконян Э.А. КОРПУСНАЯ ЛИНГВИСТИКА В СИСТЕМЕ ЛИНГВИСТИЧЕСКИХ ДИСЦИПЛИН // Интернаука: электрон. научн. журн. 2021. № 18(194). URL: https://internauka.org/journal/science/internauka/194 (дата обращения: 26.04.2024). DOI:10.32743/26870142.2021.18.194.274489

КОРПУСНАЯ ЛИНГВИСТИКА В СИСТЕМЕ ЛИНГВИСТИЧЕСКИХ ДИСЦИПЛИН

Мелконян Эгине Азатовна

канд. филол. наук, доц., Ванадзорский государственный университет, Республика Армения, г. Ванадзор

 

CORPUS LINGUISTICS IN THE SYSTEM OF LINGUISTIC DISCIPLINES

Heghine Melkonyan

Candidate of Philological Sciences, Associate Professor, Vanadzor State University,

Republic of Armenia, Vanadzor

 

АННОТАЦИЯ

Статья посвящена дисциплинарной характеристике корпусной лингвистики, ее месту в системе современных лингвистических дисциплин. Как нам кажется, корпусная лингвистика является одним из самых синкретных дисциплин, чем и обусловлена необходимость правильной характеристики дисциплинарной роли и междисциплинарных соотношений этой научной области. Для классификации лингвистических дисциплин в статье принята теория, выдвинутая академиком Г. Джаукяном. Для оценки места корпусной лингвистики был проведен анализ публикаций в данной области, в особенности материалов периодических тематических конференций, организованных СПбГУ, целью которого было выявление того, чем именно на практике занимаются корпусисты.

ABSTRACT

The article is devoted to the disciplinary characteristics of Corpus Linguistics, its place in the system of modern linguistic disciplines. It seems to us that corpus linguistics is one of the most syncretic disciplines, which justifies the need to correctly characterize the disciplinary role and interdisciplinary relations of this scientific field. For the classification of linguistic disciplines, the article adopts the theory put forward by Academician G. Jahukyan. To assess the place of Corpus Lin­guistics, an analysis of publications in this field, especially the materials of periodic thematic conferences  were organized by St. Petersburg State University, was con­ducted, the purpose of which was to identify what exactly cor­pus linguists do in prac­tice.

 

Ключевые слова: лингвистические дисциплины, междисциплинарные соотношения, корпус, текст, корпусология.

Keywords. linguistic disciplines, interdisciplinary relations, corpus, text, Corpu­sology.

 

1.Классификация лингвистических дисциплин по теории Г. Джаукяна [2, с. 38-43]

Классификация лингвистических дисциплин является одним из ключевых моментов лингвистической теории. В данном случае мы применили классификацию, выдвинутую академиком Г. Джаукяном. Сначала выделяются 2 крупные сферы лингвистических учений: макролингвистика (всевозможные дисциплины, занимающиеся лингвопроблематикой и, тем самым, каким-либо образом соотносящиеся с лингвистикой) и микролингвисти­ка//центролингвистика (узко-лингвистические дисциплины). Если макролингвистические дисциплины классифицируются по общенаучным принципам, то микролингвистические – по узко-лингвистическим (1. степень обобщенности, 2. историчность/ неисторичность подхода, 3. инвариантности/ вариантности объекта). В макролингвистике разделяются 4 научных сферы, у каждой из которых намечен отдельный тип отношения с микролингвистикой (рис. 1): отношение к… (пролингвистика), отношение  от… (аполингвистика), отношение  взаимности: и от…, и к… (перилингвистика), отношение  к самому себе – возвратность (металингвистика). Предлагая такую классификацию, Джаукян все же допускает, что могут быть дисциплины, место которых можно оценить неоднозначно, включая их одновременно в разные отрасли данной схемы. Несмотря на то, что свой подход автор оценивает как грубое обобщение, но, по нашему мнению, данная схема, все-таки способна пред­ло­жить самый рациональный путь для ориентации во множестве лингвистических дисциплин.

 

Рисунок 1. Лингвистические дисциплины по Г. Джаукяну

 

Пролингвистика: набор а) естественных, б) общенаучных и синтетичес­ких дициплин, из которых лингвистика черпает знания для решения своих – лингвистических – задач (лингвоакустика, лингвогеография, лингвобиология, лингвоантропология, лингвофилософия, лингвоматематика/ математическая лингвистика, лингвокибернетика/ «лингвоника», лингвосемиотика). Аполинг­вистика: набор прикладных дисциплин (лингвопедагогика/педолингвистика, аполексикология, технолингвистика/ инженерная лингвистика, патолингвистика). Перилингвистика: набор междисциплин (палеолингвистика, социолингвистика, этнолингвистика, психолингвистика, юрислингвитика*[1], когнитивная лингвистика*). Металингвистика: набор дисциплин, не входящих в область микролингвистики и других упомянутых направлений макролингвистики (история лингвистики, лингвистическая тер­ми­нология, лингвистическая методология, лингвистическая структурология).

Множество узко-лингвистических дисциплин можно представить следующим списком: общая Л, частная, отдельная Л, диалектология, стилистика, типология, контрастивная, сопоставительная Л, историко-сравнительная Л, Линг­вистическая текстология, переводоведение, порождающая Л, теория комму­ни­кации.

2. Корпусная лингвистика как научная область

2.1. Что и как?

Что нам говорят эксперты о роли КЛ и о «главном герое сферы» – о корпусе? «Корпусная лингвистика – раздел компьютерной лингвистики, занимающийся разработкой общих принци­пов построения и использования лингвистических корпусов (корпусов текстов) с применением компьютерных технологий. Под лингвистическим, или языковым, корпусом текстов (или обычно просто кор­пусом текстов) понимается большой, представленный в машиночитаемом формате, унифицированный, структурирован­ный, размеченный, филологически компетентный массив языко­вых данных, предназначенный для решения конкретных лингвистических задач» [3, с. 11]. А задаваясь вопросом о месте корпусной лингвистики в лингвистике вообще, там же дается двоякий ответ: а) КЛ – это, скорее всего, методология лингвистического исследования, применимая практически к любой области лингвистики (corpus-based – корпусно-ориентированный подход): корпусы используются для проверки лингвистических тео­рий или гипотез,  с целью их  подкрепления, подтверждения, опровержения или уточнения; б) КЛ – это настоящая научная линг­вистика (corpus-driven – корпусно-управляемый подход): кор­пус сам является главным и единственным ис­точником тео­рий о языке – это теория [3, с. 14].

В нашей предыдущей публикации корпус был оценен как одновременно объект и «продукт» исследования КЛ  со следующей характеристикой: корпус – набор электронных текстов, с поисковыми возможностями и разными фильтрами [5, с. 72-73]. Там же главные миссии КЛ были сведены к следующим: а) обеспечение речевым материалом исследователя (ведь изучать сущность языка, а не его структуру, можно лишь путем изучения языка в действии – в речевых-текстовых материалах), б)разработка меры для оценки узуальности языковых явлений. К указанным миссиям  необходимо добавить еще одну – в) возможность проверки и усовершенствования лингвистических теорий.

Обобщая наше понимание о предмете КЛ, можно зафиксировать, что КЛ сам же создает предмет своего изучения – корпус: сначала создает его, а потом изучает.

Являясь одной из самых синкретных дисциплин, в КЛ мож­но наблюдать применение самых разных по своему происхождению методов: 1)общенаучных, 2)филологических, 3) узко-лингвистических, 4) математических, 5) компьютерных, 6) междисциплинарных/отдельно научных (при междисциплинар­ных исследованиях).

Название КЛ тесно связано особенно с названиями таких дисциплин, как «компьютерная лингвистика», «математическая лингвистика», «прикладная лингвистика». Что касается прикладной лингвистики, то она является самой объемной из вышеупомянутых научных сфер: в нее входят всевозможные лингвистические дисциплины, которые «изучают и разрабатывают способы оптимизации функционирования языка» [1]. КЛ прикладная, компьютерно-лингвистическая дисциплина, в которой активно применяются методы математической лингвистики, особенно при моделировании и при квантитативных задачах.

2.2. Обзор практики современной корпусной лингвистики

К ответу на вопрос Чем же на практике реально занимаются корпусисты? мы решили проанализировать научные пуб­ликации в области КЛ,  и для нас  на этом пути стал приятной находкой сайт периодических конференций «Корпусная лингвистика», проходящих в СПбГУ [6]. В результате наблюдения в общем фонде публикаций выделялись работы, посвященные решению таких задач (список по убыванию встречаемости):    

а) Вопросы моделирования и програмирования: проблемы с разметкой, лемматизацией или токензиацией; аннотация и извлечение имен собственных, биграмм, аналитических форм, нулевых синтаксических явлений; выявление симметричности-асимметричности коллокатов в параллельном корпусе; созда­ние компьютерной онтологии предлогов; обработка машинного перевода; создание частотной грамматики; распознавание авторства; выявление близости языков; объединение открытых корпусов; аннотация текстов со старой графикой; аппроксимация; тематическое моделирование художественного текста; создание поливариантных корпусов (для разных переводов текста на один и тот же язык); выявление структуры нарратива (текстология); автоматическое редактирование текстов; описа­ние опыта создания или эксплуатаций разных корпусов; синхронизация корпуса с электронным словарем; создание и эксплуатация биографической базы данных, авторских корпусов, снятие неоднозначности (омонимия, многозначность, морфологические формы), автоматическое извлечение неологизмов или фразеологизмов, выявление и аннотация эллипсиса, извлечение ключевых слов или терминологии, создание электронных словарей или тезаурусов,  реализация транскрипции устного текста, перекодировка английских слов в МФА, упрощение библиотечного дела и т.д.

б) Узко-лингвистические вопросы: создание индо-европейского тезауруса, выявление коррелятов фонетического слова, изучение контекстов сино­нимии, изучение особенностей детской речи, изучение длины синтаксических связей, изучение параллелей глагольных форм в сопоставляемых языках, выявление вариантности винительного падежа, диахроническ­ое исследова­ние лексико-семантического поля (враги) или кон­верба, количественный анализ предложно-падежных сочетаний; изучение топонимов, структуры научного текста (текстология) пауз хезитации; выявление частотности употребления значений слова (BREXIT) и т.д.  

в) Междисциплинарные вопросы: 1) лингво-культурологическое исследование топонимов, текстов романсов, 2) изу­чение психолингвистических явлений (эмоции, жесты) на материале устных корпусов, 3) обработка лингво-дидактических инновационных технологий: выявление и анализ речевых оши­бок при изучении языка; концепция и методика создания иллюстративно-текстового корпуса учебни­ков языка для начальных классов; мо­ниторинг (!) уровня знания иностранного языка (в Китае), обработка учебного сайта, направленная на изучение языков с применением корпусных техноло­гий (REVITA).

г) Теоретические вопросы: соотношение КЛ и типологии, КЛ и фунда­мен­тальной лингвистики; классификация корпусных текстов, возможности специальных корпусов; роль корпусов в лингвистических исследованиях; КЛ и перевод; КЛ и источниковедение; критерии сопоставимости параллельных кор­пусов[2], корпус как инструмент исследования художественного текста, кон­текст­ная роль интернет ссылок (текстология).

Обобщая весь материал сайта, можно констатировать сле­дую­щие наблю­дения:

  • Содержание статей в большинстве случаев имеет апостериористический, нежели априорный характер. В них представлен опыт создания или эксплуа­тации корпусов.
  • Язык статей часто оснащен узкой метаязычностью, а метаязык этот, чаще всего, информатико-математического содержания, что может создавать некий барьер доступности этих текстов для широко лингвистической аудитории.
  • Языковой материал был извлечен не только из современ­ного литератур­ного языка, но и из древних текстов, из диалек­тов, из авторского текста, из Евангелия, из иностранных языков, разных функциональных стилей языков.
  • Исследования посвящены как одноязычным, так и па­раллельным (мно­гоязычным, поливариантным, вариантным) корпусам.
  • Корпусы могут быть применены не только в лингвистических целях, но и в интересах самых разных научных сфер, что нам дает основание задуматься: Правильно ли считать все корпусные исследования корпусно-лингвистическими? На наш взгляд, можно иметь общую науку о корпусах, под назва­нием Корпусология, в которой могли бы разделятся отдельные поддисциплины, в числе которых КЛ была бы одной из самых обработанных (ср. общие и лингвистические текстология, переводоведение, теория коммуникации, се­миология).
  • Остается главный вопрос – Кого нужно, прежде всего, счи­тать корпус­ным лингвистом?  Того, кто обрабатывает техни­ческую часть корпуса? Того, кто занимается лингвистическим оформлением корпусов? Того, кто активно эксплуатирует кор­пус в своих профессиональных целях? Того, кто зани­ма­ет­ся тео­рией корпуса?
  • Корпусно-лингвистические исследования порой остав­ляют впечатление соавторской работы. И чем глубже размечен корпус, тем учебней он стано­вится и тем выше процент участия «соавтора».
  • Материал данного сайта конференций может быть пере­во­площен в про­фессиональный корпус, для изучения сферы КЛ со своим тезаузусом, поис­ковым аппаратом, прикреп­ленным к терминам, лингвистическим явлениям, к моделям, к схемам, заглавиям, именам деятелей, сайтам, языкам и т.д. И это нам дает основание задуматься о том, что такие про­фессио­нальные корпусы могут быть разработаны для всех профессий, для всех сфер человеческой деятельности.

3. Место корпусной лингвистики в джаукяновской системе лингвистических дисциплин

Если КЛ – это методология, то мы имеем дело с металингвистической дис­циплиной. Металингвистической нужно считать еще и связь с теорией: проверить теорию и возвратить это обрат­но в теорию, по существу и есть воз­вратное отношение к микро­лингвистике. Если же КЛ считать областью обра­ботки и эксплуатации корпусного материала (с лингвистической или лингводи­дактической позиции), с применением взятых у микролингвистики знаний о языке, то это у нас уже аполингвистика, задача которой, как уже было сказано выше о прикладной лингвистике, отвечать за  оптимизацию функционирования языка. Анализируя публикации КЛ, можно сказать, возникает еще и впечатле­ние полулингвистики или полуинформатики: КЛ может претендовать на пери­линг­вистику, но КЛ не может быть оценен  в качестве меж­дисциплины, так как, в отличии от нее, объект исследования од­но­сторонний – лингвистический, а информатика лишь играет вспо­мо­гательную роль, на языковом материале практикуя теории информатики. Если связь КЛ с информатикой односторонна, мо­жет ли КЛ быть отнесен к пролингвистике? Нам так не кажется, так как в про­лингвистических дисциплинах знания других наук имеют долингвистичес­кий характер – в то время как в КЛ линг­вис­тические знания и предшествуют (в виде аннотаций) и со­путст­вуют, и следуют нелингвистическим.

Синкретность КЛ требует неоднозначной оценки его дис­цип­линарного места. Принимая некую условность данной теории и пытаясь разносторонне охарактеризовать КЛ, необходимо все-таки принять, что КЛ, скорее всего, аполингвистическая – при­клад­ная дисциплина.

 

Список литературы:

  1. Баранов А.Н. (2001), Введение в прикладную лингвис­тику, Москва, изд. «Эдиториал УРСС», 360 с.
  2. Джаукян Г.Б. (1978), Общее и армянское языкознание, Ереван, изд. АН АССР, 335 с..
  3. Захаров В.П., Богданова С.Ю. (2020), Корпусная лингвис­тика, Санкт-Петербург, изд. СПбГУ, 234 с..
  4. Захаров В.П, Мелконян Э.А. (2020), Важность и мето­до­логия создания еди­ного корпуса произведений писателя и их переводов (к созданию много­языч­ного корпуса текстов Гранта Матевосяна), «Матевосяновский резонанс – 3», Материалы меж­ду­народной научной  конференции, прошедшей в ВГУ (23.05.2020), Ереван,  изд. «Мис­ма», 2020, 456 стр., СС. 159-182.
  5. Мелконян Э.А. (2019) Соотношение корпусной лингвис­ти­ки и типологии, «Корпусная лингвистика – 2019», Сборник статей международной конферен­ции, СПбГУ, Санкт-Петербург, изд. СпбГУ, 2019, 448 стр., СС. 72-79.
  6. Электронный ресурс: https://events.spbu.ru/events/anons/corpora-2019/previous.html (для 8-и конференций 418 статьи, с широкой географией авторов).

 


[1] Звездочкой мы выделили дисциплины, добавленные нами.

[2] Будучи заинтересованными проблематикой параллельных корпу­сов, в соавторстве мы тoже опубликовали одну статью [4, с. 159-182].