— Наверное, непросто было составить такой список? Ведь многие слова присутствуют в разных языках.
— Да, работа была сложная и долгая. Список составляли вручную, потому что слова эти должны были отвечать некоторым критериям. В-первых, должны быть уникальны для этого языка, которые только этот язык характеризуют и больше никакой. Т.е. слово "нур" – не подходит. Во-вторых, это должны быть не любые слова, а частотные в этом языке. Потому что если спрашивать слова редкие, то или не получишь вообще никаких документов в поиске, или получишь их слишком мало. И это не всегда будет отражать реальную представленность языка в интернете. Выкладывать эти списки слов в открытый доступ, к сожалению, нельзя, потому что они тут же перестанут быть релевантными. Потом мы получали список сайтов. И в идеальном случае эти сайты выкачивали, т.е. скачивали целиком, а потом анализировали полученные данные. Полностью "снять картинку" удалось не для всех языков, а только для, скажем так, не очень представленных в сети: удмуртский, башкирский, татарский мы скачать полностью не смогли из интернета, смогли только найти и отметить, потому что на этих языках все-таки слишком много сайтов, а наши возможности ограничены. А сейчас мы бы, наверное, не смогли и этого сделать, потому что "интернеты" растут, и растут сильно. Тогда мы скачать не смогли весь удмуртский и башкирский, а сейчас, возможно, даже найти все сайты не смогли бы. И это хорошо.