О появлении языков российских народов в сервисе "Яндекс.Переводчик" рассказал разработчик группы машинного перевода "Яндекса" Антон Дворкович в своей статье на портале N+1.
По его словам, начальный этап работы над языками одинаковый: в машину загружаются все доступные материалы, она проходит по параллельным текстам на разных языках и строит распределение вероятностей перевода для каждого найденного слова. Так система пополняет свой словарный запас и запоминает переводы.
Перевод с малых языков отличается тем, что не может обойтись без своего рода "асессора" — человека, который знает этот язык и может по особым методикам определить, насколько точным оказался перевод.
В этом случае разработчикам пригодилась помощь многочисленных региональных организаций, которые в России занимаются исследованием и сохранением малых языков.
Так, в создании марийско-русского перевода помогли сразу несколько организаций: Марийский научно-исследовательский институт языка, литературы и истории им. В.М. Васильева и Республиканский центр марийской культуры. Они обеспечили лингвистическую поддержку и подготовку эталонных марийско-русских переводов для оценки качества перевода.
В создании переводчика с удмуртского языка помогла группа энтузиастов, которые занимаются составлением его корпуса.
"В регионах вообще достаточно неравнодушных к судьбе своих языков людей, которые готовы помочь в создании корректного переводчика. Учитывая размеры нашей страны и количество разных народностей, которые в ней живут, работы по машинному переводу с других языков еще очень много", — отметил Дворкович.
Сейчас в "Яндекс.Переводчике" доступны несколько языков коренных народов России: башкирский, марийский и горномарийский, татарский, удмуртский.