Останутся ли лингвисты и переводчики без работы? Вредят или помогают нейросети изучению языков? Когда умная колонка заговорит на всех языках народов России и заговорит ли? На заседании Дискуссионно-аналитического клуба по языковой политике в Институте языкознания РАН обсудили искусственный интеллект, цифровизацию и их возможный вклад в защиту языкового многообразия. Спойлер: все пока неоднозначно, но очень интересно!
Нейросеть в помощь
Айгиз Кунафин – программист, языковой активист, один из разработчиков умной колонки на башкирском языке Һомай – помог неспециалистам в IT разобраться, как Һомай или Алиса "понимают" пользователя. Помогает им NLP (natural language processing) – область искусственного интеллекта, которая с помощью разных инструментов позволяет компьютерам распознавать и обрабатывать естественный язык. До эпохи нейросетей процесс "обучения" шел довольно медленно.
- К примеру, для машинного переводчика, чтобы перевод был качественным, раньше нужно было собрать порядка миллиона пар предложений. А это значит, что вам в первую очередь надо было найти специалиста, который одновременно и хорошо знает язык, и понимает технологию. Даже для русского языка таких специалистов можно пересчитать по пальцам, а найти подобного человека для языка, на котором говорит несколько сотен человек, вообще нереально. А это значит, что сделать переводчик для бОльшей части языков России было невозможно. Появление LLM изменило ситуацию, - поясняет Айгиз.
LLM (Large Language Model) – большие языковые модели, алгоритмы по работе с текстами, обученные на огромных массивах данных, взятых из интернета. Тот самый "искусственный интеллект" или "нейросеть", которых старшее поколение все еще слегка опасается, а младшее - активно использует для рефератов и курсовых. На английском, русском, китайском и других широкоиспользуемых языках нейросети могут уже очень многое как в письменной речи (те самые пресловутые дипломы, написанные с помощью ChatGPT), так и в устном общении (Алиса и Һомай рассказывают сказки по запросам, прогнозируют погоду и даже могут поговорить о смысле жизни). А как обстоят дела с другими языками?
- Чем больше текстов и аудозаписей на вашем языке есть в интернете, тем проще и лучше можно обучить языковую модель. На башкирском языке текстов много, на татарском, на марийском. На языках малочисленных народов – существенно меньше. Важно еще и качество этих корпусов. Например, формат PDF в виде картинки, потеря структуры при копировании, – затрудняют работу.
Соответственно, первоочередная задача языкового активиста и/или неравнодушного лингвиста, мечтающего об умной колонке на родном языке, – тщательно собирать, качественно оцфровывать и активно распространять в интернете корпус текстов.
Ну и, конечно, – найти программистов, готовых взяться за проект, и инвесторов, понимающих гуманитарную ценность этой задачи.
Но есть нюанс
Заместитель руководителя проекта «Языки народов России» ООО «Яндекс» Андрей Михеев чуть умерил энтузиазм собравшихся:
- Мои первые слова немного противоречат тому, что вам рассказывал Айгиз. Он
говорил, что современные технологии делают задачи перевода простыми, а я хочу сказать, что это на самом деле долго, дорого и сложно. Да, появление больших языковых моделей прям радикально меняет ситуацию, но нам все еще нужно очень много данных и все еще нужны люди, которые понимают одновременно и в лингвистике, и в программировании, чтобы эти данные собирать. Да, уже не миллион фраз необходим, а 100 тысяч, но это тоже очень много. Еще один очень важный момент: появление языковых моделей и систем машинного перевода для языков народов России – задача, которая очень редко обоснована экономически.
Речь дет о том, что модель может помочь создателю зарабатывать на переводах с китайского или английского, но для менее распространенных языков, в том числе российских, финансовый интерес сомнителен, делать бизнес на переводчике - сложно. Поэтому, считает Андрей, машинный перевод для языков народов России почти никто и не делает.
- Да, есть приятные исключения, когда энтузиасты создают переводчики, но их очень мало. В этом плане в таком разнообразии и количестве как Яндекс с языками народов России не работает никто. К началу лета прошлого года в сервисах Яндекса было представлено 7 языков России: татарский, башкирский, чувашский, якутский, удмуртский и два марийских (и горных, и луговых мари). То есть несколько тюркских, но совсем не было кавказских. И вот летом Яндекс объявил, что в ближайшие три года в переводчике и других сервисах компании появится не менее 20 новых языков народов России, причем не менее, чем для 10 из них будут поддерживаться возможности синтеза и распознавания речи.
Сервисы – это не только переводчик, это и виртуальная клавиатура, и распознавание устной речи, и синтез. Все эти возможности, по словам спикера, постепенно будут появляться все для новых и новых языков, но ожидать, что этот процесс будет быстрым, – не стоит: энтузиастов и филантропов, увы, не так много, как хотелось бы.
Что дальше?
Одним из самых популярных вопросов членов клуба к Андрею Михееву был "А когда Алиса заговорит на моем языке?".
- Скажу осторожно: добавление нового языка в Алису - история непростая. Научить Алису говорить на каком-то языке, так, как она говорит на русском, - это довольно большой, сложный, дорогой проект. Может быть, и я в это верю, с развитием больших языковых моделей появится возможность быстрого обучения существующих сценариев под новые языки, но вот пока обещать что-то преждевременно.
Не приведет ли подобная, пусть и гипотетическая пока, возможность, к тому что лингвисты станут не нужны? Может уже пора получать новую профессию?
- Когда-то весь профильный отдел Яндекса состоял из лингвистов. Сейчас в нем работают IT-специалисты. Задача эксперта в эпоху больших языковых моделей - это умение правильно задать вопрос и выбрать самый удачный ответ. И вот это лингвисты умеют, как никто. Кроме того, собирать тексты, корпусы языков предстоит еще очень долго, – дипломатично ответил Андрей Михеев.
Еще один вопрос, прозвучавший в разных вариантах сразу от нескольких участников дискуссии, а не приведет ли цифровизация языков народов России к тому, что учить их люди перестанут совсем? Ведь если можно будет получить качественный машинный перевод, в том числе устной речи, за несколько минут, зачем годами корпеть над учебниками?
Оба эксперта оказались единодушны: сервисы – это всего лишь инструменты, а вот как их использовать – во благо или во вред – зависит от людей и их мотивации. И здесь программисты бессильны, а вот языковым активистам, педагогам и лингвистам – флаг в руки.