Нейросетевую модель, превосходящую существующие аналоги русско-бурятского перевода, разработали в Новосибирском государственном университете. Ее создали выпускница бакалавриата Института интеллектуальной робототехники НГУ Дари Батурова и выпускница Санкт-Петербургского государственного университета Сарана Абидуева.
Основная сложность состояла в том, что бурятский язык – малоресурсныый. В онлайн-переводчиках он не представлен, говорится в Телеграм-канале университета.
В интернете можно найти разве что электронные словари или разговорники. По этой причине собрать данные для создания параллельного корпуса было затруднительно.
«Молодежь не выражает сильной заинтересованности в сохранении и продвижении бурятского языка, передача его из поколения в поколение, к сожалению, происходит все реже. Согласно переписи населения России, в 2002 году 79% бурят указали, что владеют бурятским языком, в 2020 же году - 63%. А между тем бурятский язык внесен в "Атлас языков мира, находящихся под угрозой исчезновения" ЮНЕСКО со статусом "есть угроза исчезновения",
- говорится в сообщении.
Сарана и Дари познакомились прошлой весной. Оказалось, они занимались схожими проектами по созданию алгоритма машинного перевода, поэтому было решено объединить усилия.
В прошлом году Сарана Абидуева обучила первые нейросетевые модели для русско-бурятского перевода.
Дари Батурова создала русско-бурятский и русско-монгольский параллельный корпус - это собрания текстов на одном языке вместе с переводом на другой язык. Он состоит из пар текстов на двух языках - оригинал и перевод. Помимо этого параллельный корпус может состоять из пар отдельных предложений. Также она обучила две модели для русско-бурятского перевода и сравнила их с лучшей моделью из ранее существовавших для данной задачи.
Выяснилось, что по результатам оценки, одна из моделей, обученных исследовательницей, превзошла другие существующие ранее аналоги. В основу работы вошли более 4 тысяч новостных текстов.
В дальнейшем исследователь намерена преобразовать его в более доступный и удобный формат для будущих пользователей - сайт с русско-бурятским онлайн-переводчиком.
Ранее «НацАкцент» писал о том, что более 20 языков народов России подключат к «Яндекс переводчику».