В сети заработал национальный корпус башкирского языка

В интернете заработал сайт Национального корпуса башкирского языка — результат безвозмездного сотрудничества специалистов по компьютерной лингвистике и активистов сообщества «Башкирские проекты». Появление корпуса стало возможным благодаря специальной компьютерной программе, способной делать морфологический анализ башкирской словоформы. Программа создана доцентом Школы лингвистики Национального исследовательского университета «Высшая школа экономики» (Москва) Борисом Ореховым, уроженцем города Уфы.

«Если мы посмотрим на все основные языки мира, то для них такие корпуса уже сделаны, при этом сделаны давно. Идея корпуса в том, что он сохраняет язык в его естественной среде. Можно провести параллель с энтомологией, в которой коллекционируют бабочек. Словари и грамматики извлекают отдельные явления из языка, то есть как бы ловят бабочек и накалывают их на булавки. В словаре написано: вот есть такое слово и такое, это засушенная коллекция. А корпус показывает жизнь слова в реальных текстах, какие есть особенности стилистики слова, его сочетаемости с другими» — рассказал главный разработчик Национального корпуса башкирского языка Борис Орехов.

Кому нужен корпус? В первую очередь, лингвистам для изучения языка. Но не только. Во-первых, это способ сохранения языка. Словари и грамматики не способны учесть и описать все нюансы словоупотребления и стилистики (например, когда одни слова не сочетаются с другими). Зато такие нюансы сохраняются в корпусе.
Во-вторых, это справочный ресурс. Корпус лучше любого словаря ответит на вопрос «можно ли так сказать? говорят ли так?», нужно всего лишь поискать в корпусе слово или оборот, который вызывает вопросы.
В-третьих, с помощью корпуса можно учить языку. Как такой же корпус русского языка используется в образовании, можно посмотреть тут: https://studiorum-ruscorpora.ru/
В-четвертых, корпус — это основа для построения современных интеллектуальных инструментов для работы с языком: систем проверки орфографии, систем автоматического извлечения фактов и других компьютерных инструментов, которые могли бы работать с башкирским языком. Чем корпус больше и лучше, тем лучше будут такие инструменты для башкирского.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *