Ученые и лингвисты Томского политехнического университета начали изучать два исчезающих обско-угорских языка – ваховский хантыйский и сосьвинский мансийский. В будущем они планируют разработать для них алгоритмы языковых моделей и онлайн-словари.
В настоящее время хантыйский и мансийский входят в число 136 исчезающих языков России и имеют статус «серьезно уязвимые». На хантыйском языке говорят около 9,5 тысячи человек, а на мансийском – всего около тысячи. При этом специалисты отмечают, что нарушена естественная передача – от более старших носителей языка к молодежи.
«Мансийский и хантыйский языки делятся на несколько диалектов, которые заметно различаются между собой. Ученые стремятся задокументировать эти языки, чтобы сохранить их для будущих поколений, а также для изучения традиционной культуры, мифологии и фольклора этих народов»,
– рассказала руководитель проекта, доцент отделения иностранных языков Школы общественных наук ТПУ Виктория Воробьева.
В своих исследованиях ученые будут пользоваться данными, собранными в ходе экспедиций в места проживания ваховских и аганских ханты в 2017 – 2020 годах.
По словам ученых, носителей ваховского хантыйского можно пересчитать буквально по пальцам. Это пожилые люди, которые живут в отдаленном и труднодоступном селе Корлики. При этом хантыйский язык – сложный. Молодое поколение говорит, что легче выучить китайский. Считается, что вах-васюганский диалект самый архаичный – в нем только четыре формы прошедшего времени, десять падежей, множество аспектуальных суффиксов, субъектное и объектное спряжение глаголов, нет флексии, морфемы наслаиваются одна за другой.
Во время экспедиций ученые используя разные методы работы с носителями – записывали живую, опрашивали, используя анкеты по заданным темам. Записанные аудиофайлы расшифровывали и обрабатывали в специальной программе с разметкой на глоссы и переводом на русский язык.
«Корпус обско-угорских языков, который будет разработан, позволит уточнить спорные моменты в морфологии и может быть применим при комплексном описании характеристик глагола. В дальнейшем он послужит основой для создания новых продуктов, например, этимологических онлайн-словарей обско-угорских языков, онлайн-тренажеров для обучения и для разработки алгоритмов языковых моделей, которые будут применимы для межъязыкового перевода, генерации текстов»,
– рассказала Виктория Воробьева.
По ее словам, до настоящего времени еще не было ни одной масштабной цифровой корпусной базы данных по этим языкам, позволяющей анализировать, уточнять и верифицировать теоретические положения в режиме онлайн, используя современные инструменты поиска нужной информации.
Проект «Системные характеристики хантыйского и мансийского глагола и его нефинитных форм в свете корпусных и полевых данных» поддержан грантом Русского научного фонда и рассчитан на 2025-2026 годы.
Ранее «НацАкцент» писал, что ученые зафиксировали влияние русского языка на языки коренных народов Камчатки.
«Новости с акцентом» теперь и в Телеграм!