Специальный проект "Языковая среда"
О плохих аргументах и хороших активистах
Поэтом можешь ты не быть, но нейросеть учить обязан!
В Год языков коренных народов "НацАкцент" начинает специальный проект "Языковая среда": цикл интервью с лингвистами, филологами, языковыми активистами и просто неравнодушными к судьбам своих родных языков людьми.
Почему "язык — наше богатство" — не аргумент в споре с IT-менеджером? Зачем переводить в цифровой вид газету "Ҡыҙыл Башҡортостан" за 1941 год? Стоит ли читать девушкам стихи, сочиненные нейросетью? На вопросы "НацАкцента" отвечает компьютерный лингвист Борис Орехов.
Активисты — наше всё!
— Пару лет назад довольно ярко в сети обсуждали ваше исследование презентации коренных языков народов России в интернете...
— Исследование это шло несколько лет. Вместе с магистрантами ВШЭ мы пытались понять насколько разные языки России представлены в интернете. У нас было несколько идеологических проблем, в научном, не политическом смысле. Например, сначала надо было понять сколько вообще в России языков. А это не простой вопрос, на который у каждого есть свой ответ. И у нас он тоже нашелся. После того, как с количеством и перечнем языков определились, стали каждый из них искать в интернете с помощью поисковиков. Для этого пришлось придумать некий секретный список слов для каждого языка, чтобы задав его в поиске, получить тексты и документы только на этом языке.
— Наверное, непросто было составить такой список? Ведь многие слова присутствуют в разных языках.
— Да, работа была сложная и долгая. Список составляли вручную, потому что слова эти должны были отвечать некоторым критериям. В-первых, должны быть уникальны для этого языка, которые только этот язык характеризуют и больше никакой. Т.е. слово "нур" – не подходит. Во-вторых, это должны быть не любые слова, а частотные в этом языке. Потому что если спрашивать слова редкие, то или не получишь вообще никаких документов в поиске, или получишь их слишком мало. И это не всегда будет отражать реальную представленность языка в интернете. Выкладывать эти списки слов в открытый доступ, к сожалению, нельзя, потому что они тут же перестанут быть релевантными. Потом мы получали список сайтов. И в идеальном случае эти сайты выкачивали, т.е. скачивали целиком, а потом анализировали полученные данные. Полностью "снять картинку" удалось не для всех языков, а только для, скажем так, не очень представленных в сети: удмуртский, башкирский, татарский мы скачать полностью не смогли из интернета, смогли только найти и отметить, потому что на этих языках все-таки слишком много сайтов, а наши возможности ограничены. А сейчас мы бы, наверное, не смогли и этого сделать, потому что "интернеты" растут, и растут сильно. Тогда мы скачать не смогли весь удмуртский и башкирский, а сейчас, возможно, даже найти все сайты не смогли бы. И это хорошо.
— А что в этом хорошего? Сайты особенно ценные появились?
— Не в качестве контента дело. Если количество сайтов на каком-то языке растет это значит, что витальность языка, его живучесть, остается на хорошем уровне. И зависит это только от одного: деятельности языковых активистов. На самом деле в плане сохранения языка только на них надежда. Только они что-то полезное делают. Государственная машина – очень неповоротливая. Она плохо и медленно реагирует на запросы жизненные. А люди на местах, которые постоянно этим занимаются, знают, что нужно и пытаются все возможное делать в этом направлении.
— Вы в вашем исследовании насчитали меньше 100 языков народов России, государство — более 200. С чем связано такое существенное расхождение?
— Они считают в том числе и языки других стран. Ведь для государства существенно, что в России живет много украинцев, армян, грузин и др. И эти языки тоже считают языками России, так как это языки россиян. Для нас же было важно понять, что происходит с языками, у которых кроме России дома нет, с языками коренных народов. Например, если есть грузинское государство, то есть и государственная поддержка грузинского языка, которая отражается в том числе на его представленности в интернете. А у чувашского языка никакой поддержки, кроме той, которая есть в России, нет. Вот нас интересовали именно языки, у которых нет другого ресурса, кроме того, что можно изыскать внутри нашего государства.
— А как считали языки коренных малочисленных народов? Например, теленгитский, который сначала государство признавало диалектом южно-алтайского, потом — отдельным языком, потом - снова диалектом?
— В итоге, южно-алтайским. Но споры у нас на эту тему были. На каком-то этапе мы работали с замечательным лингвистом Кириллом Решетниковым, который был уверен, что нужно максимально жестко подходить к этому вопросу и если язык хоть когда-нибудь и кто-нибудь считал языком, а не диалектом, то его нужно выделять. Но потом выяснилось, что те языки или диалекты относительно которых в принципе возникает подобный вопрос чаще всего с интернете просто никак не видны. Оказалось, что с точки зрения конкретно нашего исследования это проблема надумана.
Государственная машина – неповоротливая, она плохо и медленно реагирует на запросы. А люди на местах пытаются все возможное делать для сохранения языка.
— Был язык, который вас удивил? Вы считали, что его в интернете почти не будет, а он был? Или наоборот?
— Да, было такое. До нашего исследования бытовала точка зрения, что можно "мерить" язык в интернете по тому, насколько он представлен в Википедии. То есть не по количеству сайтов на языке или контенту в социальных сетях, а по числу статей посвященных ему в свободной энциклопедии. И казалось, что это разумный подход: никакого другого-то не было. А наше исследование показало, что этот способ не очень правильный. Есть два языка — марийский горный и марийский луговой. Марийский луговой имеет на порядок больше носителей, чем горно-марийский. А вот в Википедии статей на горном марийском больше. И связано это с работой, которую делают активисты. Если же люди пассивные в отношении представления своего языка, хотя, например, в социальных сетях активно на нем общаются, то количественные показатели в Википедии будут меньше.
— Марийцы – ребята активные. Много времени и сил тратили в свое время на разработку клавиатуры на марийском, "переводили" соцсети…
— Да, и этот процесс неизбежен для всех языков. Кто-то прошел этот путь еще в конце 1990-х -начале 2000-х, а другим приходится заниматься этим сейчас. Потому что как происходит развитие интернета? Технологии двигаются вперед крупными компаниями. Компании заинтересованы в прибыли. Деньги могут принести только те люди, которых много. Соответственно, крупные компании обращают в первую очередь внимание на те языки, на которых говорит большое количество состоятельных людей. И крупные компании тогда создают вокруг специальные сервисы, осуществляют языковую поддержку. А на языки, на которых говорит мало людей, обращать внимание крупные компании не будут, ну или будут в самую последнюю очередь. Поэтому что тут остается? Только самим людям проявлять инициативу и делать что-то самим для своего языка. Либо какая-то научная деятельность. Например, в университете собрались и сделали систему проверки орфографии, или ту же клавиатуру языка коми. У нас конечно тоже есть крупная компания, которая пытается этим заниматься, - "Яндекс". Но одной компании на все языки России не хватит. Не нужно считать что они в чем-то виноваты, наоборот, в качестве имиджевых проектов они пытаются чем-то таким заниматься. Но какой-нибудь условный "Гугл" или "Амазон", естественно, не заинтересован ни в якутском языке, ни тем более в языках Дагестана.
Каковы ваши аргументы?
— Какое самое важное открытие в ходе проекта вы сделали для себя?
— Сейчас, когда уже прошло достаточное количество времени, меня впечатляют больше даже не сами результаты исследования, а реакция, которая последовала на них в публичном пространстве. После того, как я опубликовал свое исследование с техническими подробностями на важном для айтишников сайте «Хабр», возникло очень много людей в комментариях к этой записи, которые говорили, что языки вообще-то не нужны. А если, мол, кто-то говорит, что нужны, то он или заблуждается, или врет. Комментаторы довольно активно и даже агрессивно выступили против языкового разнообразия. Говорили, что много языков – это не рационально. Когда есть один язык, мы все понимаем друг друга. Не надо учить другие языки, не надо создавать переводчики. Вообще аргумент «языки нужно сохранять» для людей технического склада не релевантный. Поэтому это довольно важный аспект дела. Лингвисты, которые пропагандируют языковое разнообразие, не понимают, что их аргументы не работают для той аудитории, на которую они рассчитывают: если для лингвиста самоочевидна ценность языка, то для других людей нет. Это было очень эмоциональное обсуждение, люди нападали друг на друга, спорили.
— Аргументировано спорили? Или на уровне противостояния "физиков" и "лириков"?
— Кто как. Среди защитников языкового разнообразия, кстати, наоборот, были более агрессивные люди, не готовые вести дискуссию по правилам. А среди тех, кто против языкового разнообразия, были ребята, которые вполне рационально аргументировали свою точку зрения. Рациональная аргументация со стороны противников очевидно сильнее. А значит надо понимать, что в этой сфере явно нужно вести какую-то разъяснительную работу, причем основанную не на эмоциях, а на разработанной четкой аргументации. Что сложно, потому что мы находимся в уязвимом положении. Вот есть у тебя твой язык. В чем его положительность для экономики, техники? Наоборот, говорят они. Вот есть английский, на котором говорят все технари. Все понимают друг друга и это положительно сказывается на развитии технологий. Для меня это самое сильное впечатление: стало понятно, что с этими людьми сложно спорить, они привыкли спорить на фактах, а у нас какие факты?
Аргумент «языки нужно сохранять» для людей технического склада не релевантный.
— Но это вечный спор гуманитариев и "технарей". Разве он на что-то влияет?
— Да, вечный. Но надо понимать, что есть ресурсы. И ресурсы распределяют определенные люди, которые, я надеюсь, склонны прислушиваться к рациональным аргументам. И если у нас их нет, значит их нужно как-то продумывать. Например, у нас есть правительство какой-нибудь национальной республики. И ему нужно решить, что сделать с некими деньгами: пустить их на развитие родного языка, создание учебных курсов, оцифровку текстов, которые на этом языке есть, или пустить эти деньги на то, чтобы, условно говоря, все учили в большем объеме английский или русский язык. И вот этот выбор, по-прежнему зависит от людей, несмотря на развитие искусственного интеллекта. А что они решат зависит и от того, как тот или другой путь будет аргументирован.
— А политика тут, на ваш взгляд, не замешана? Волевое решение власти региона и ее подход к вопросам национального, в том числе и языкового, самоопределения? Мне кажется более вероятным, что в большем объеме средства на поддержание языка пустят, допустим, в Якутии, чем в Чувашии.
— На мой взгляд, разница тут только в том, что Якутия более богатый регион. Мне не кажется, что в чувашской республике меньше условного языкового патриотизма. Но они более ограничены в ресурсах: у них алмазов нет. Извините, что я рассуждаю, как те самые противники языкового разнообразия, но мне кажется, что мы не должны витать в эмпиреях и считать, что если мы скажем, что языки наше богатство, все сразу в это поверят. Мир устроен, к сожалению, более бесчеловечным образом.
Нейросеть vs Салават
— Ходят слухи, что вы научили искусственный интеллект писать стихи на башкирском языке?
— Сначала — на русском. В компьютерной лингвистике сейчас активно используются специальные компьютерные алгоритмы, которые очень отдаленно, очень приблизительно, моделируют то, что происходит в человеческом мозге. Называются они искусственные нейронные сети и они действительно могут разному выучиваться и потом что-то полезное делать. Одна из задач, которую может выполнять компьютер — это на основе каких-то текстов уже им "прочитанных" порождать текст. Это очень востребованная технология: именно так компьютеры учатся разговаривать не по шаблонам и правилам. Подобную технологию используют сейчас в некоторых интерфейсах, например, когда помощник Алиса вступает в диалог, она это делает во многом с помощью таких нейронных сетей. А если есть такая технология, которая может порождать текст, очень хочется ее попробовать. Технари очень любят пробовать новые технологии! И я тоже такой. И технари, как ни странно, часто пробуют эту технологию на стихах. В том числе потому, что стихи им не кажутся чем-то осмысленным. Кажется, что это что-то, что сказано красиво, а что там именно говорится не важно. Есть такое упражнение: взять стихи, дать их компьютеру прочесть, а потом дать ему сочинить что-то свое. И вроде как они получаются такие же бессмысленные как исходные. И это всем нравится ужасно! Вот когда-то давно, когда это технология только стала входить в нашу жизнь, я ее тоже попробовал на русских стихах. Получилось интересно.
Стихи, которые "написала" нейросеть Нонсенский генератор стихотворной продукции
Технарям стихи не кажутся чем-то осмысленным: это что-то, что сказано красиво, а что там именно говорится не важно. У нейросети вроде как они получаются такие же бессмысленные как исходные. И это всем нравится ужасно!
— Почему перешли с русского на башкирский?
— Давно занимаюсь башкирским языком, у меня есть исследование башкирской поэзии, я решил, что нужно попробовать и на башкирских текстах. К тому же, они есть в оцифрованном виде, а это довольно важно. Если у тебя есть много книг на каком-то языке, но они не оцифрованы, то сделать с этим с помощью компьютерных технологий решительно ничего нельзя. И это очень большая проблема, на которую нужно обращать внимание. Нужно по возможности оцифровывать то, что было издано в советское время, например, национальными издательствами. И это пока не очень активно делается. Но по счастью, благодаря сотрудникам Башкирского государственного университета, поэтические тексты на башкирском есть в электронном виде. Есть даже отдельный ресурс – Башкирский поэтический корпус, где можно по стихам поискать что-то. И вот я заставил компьютер "прочесть" стихи 100 башкирских поэтов, он подумал-подумал и выдал свои. Не все получилось хорошо, но интересно. Вывод: из того, что порождает компьютер, можно и нужно отобрать какие-то хорошие экземпляры. Эти эксперименты происходили несколько лет назад. Но недавно произошло другое событие, уже не научно, а социально значимое. Эти тексты с моим предисловием, переведенным на башкирский язык, были опубликованы на бумаге: не в каком-то там интернете, а в толстым журнале «Ватандаш». Коллеги решились на этот контрконсервативный жест. И это важно: чем больше таких новых, инновационных событий, связанных с каким-то языком происходит, тем больше его витальность и престиж.
— Общественная реакция последовала? Были те, кто кричал "ах, какое святотатство"?
— Публично никто не кричал, разве что в кулуарах. Теоретически я был готов, что выйдет статья какая-нибудь в газете «Башкортостан» или журнале «Агидель», где была бы реакция негативная со стороны поэта или члена союза писателей. Я бы порадовался, если бы так вышло, но увы. На мой взгляд, это некая национальная черта у некоторых наших народов: они стараются вести себя как можно тише. Если что-то происходит неоднозначное, то друг другу они могут свое недоумение высказать. Но в целом считают, что в любой непонятной ситуации лучше промолчать. Мне кажется, реакции не будет, потому что никто не привык подобным образом реагировать.
Если у тебя есть много книг на каком-то языке, но они не оцифрованы, то сделать с этим с помощью компьютерных технологий решительно ничего нельзя.
Оцифруй меня полностью!
— Как вам кажется, какие еще языки народов России готовы к подобному эксперименту? У кого хватает оцифрованных текстов?
— Все очень плохо. Книг издано много на всех языках, а вот оцифровываются эти книги очень медленно. Я думаю, что лучше всех ситуация у татар, лучше даже, чем у башкир. К тому же, тексты не просто должны оцифровываться, они должны выкладываться в открытый доступ. Все боятся некого интеллектуального пиратства. Но если с русским языком в какой-то мере этот разговор еще оправдан, то с национальными все должно быть не так. Наоборот все нужно делать как можно более открытым, как можно менее ограниченным. Насколько я знаю, тексты, которые оцифрованы Национальной библиотекой в Уфе, выкладываются с какими-то ограничениями, т.е. нельзя их просто взять и скачать одной кнопкой. А должно быть можно. Это плодотворно повлияло бы на языковую ситуацию, на создание электронных инструментов. Сейчас компьютерные лингвисты все делают на текстах. Если раньше нам нужны были словари, то теперь — тексты. Мне неизвестно, чтобы старые тексты, которые были когда-то давно написаны, систематически хорошо оцифровывались хоть в одном регионе или национальной республике. И вот как раз это – деятельность, которую не осилят волонтеры, за это нужно взяться государству.
— На это просто рук не хватает? Или умысел есть?
— Есть отличный принцип "бритва Хэнлона": «не подозревай злой умысел, а подозревай головотяпство». Здесь именно оно. Просто никто не понимает, что эти тексты очень ценны. Например, возьмем башкирский язык. На нем написано и напечатано очень много. Если даже брать с 1940-41 года, когда фактически произошел переход на кириллицу. Выходили разные периодические издания, печатались книги. Нет понимания, что все эти тексты несут в себе что-то полезное. Потому что ну они рассказывали о событиях, которые происходили в Башкирии 40-50-60 лет назад. И зачем это сейчас, кому интересно это? А дело в том, что обращать нужно внимание не на содержание текстов, а именно на сам языковой материал. Тут ценен именно башкирский язык и он проявлен в текстах того времени. Теперь создаются новые тексты, прямо сейчас кто-то пишет в социальную сеть на башкирском языке. Но этого мало. Нам, и лингвистам, и языковым активистам, нужно больше. Для последующего устойчивого положения языка его история должна быть сохранена не только в бумажном, но и в электронном виде. Если у нас будет много цифровых текстов, мы сможем сделать векторные модели, хорошие системы проверки орфографии, переводчики, все что угодно. А пока текстов мало, в возможностях мы очень ограничены.
— То есть "кривые" электронные переводчики получаются именно из-за недостатка текстов в цифровом виде и открытом доступе?
— Конечно, сравните, например, машинный перевод с русского на татарский и с русского на английский. Качество будет очень разным. И обусловлено это в первую очередь наличием текстов. Шаблонные тексты с/на европейские языки переводчики уже очень достойно переводят. Все топовые игроки достигли серьезных успехов. Но не на/с языков народов России.
Я не уверен, что такие эксперименты как порождение стихов нейронной сетью стоит переводить на массовые рельсы, скорее это разовый жест, шутка, но если кто-то заинтересуется и захочет продолжить — почему бы нет. Ведь это не только инструмент популяризации, но и отличный научный эксперимент.
Борис Орехов
Компьютерный лингвист
Доцент Школы лингвистики Национального исследовательского университета «Высшая школа экономики», сотрудник Центра цифровых гуманитарных исследований НИУ ВШЭ.
Текст - Юлия Бобкова
Made on
Tilda