Яндекс заговорит на чукотском
29.08.2025

Андрей НОСКОВ
gazeta@ks.chukotka.ru
В Анадыре этим летом развернулась масштабная работа по созданию так называемого корпуса чукотского языка, который необходим для включения его в сервис «Яндекс-переводчик». В настоящее время носители языка на базе Чукотского арктического научного центра заняты формированием свода текстов на чукотском с переводом на русский, что в дальнейшем позволит интегрировать собранный лингвистический материал в переводчик.
По словам директора Арктического научного центра Дениса Литовки, работа непростая. Сначала оцифровывается имеющаяся в наличии литература на чукотском – художественная, историческая, научная, изданная в 40-х – 70-х годах прошлого века. Это переводы текстов классиков русской литературы – Льва Толстого, Александра Пушкина, Сергея Михалкова и других, научные работы Владимира Тана-Богораза и других исследователей. Участники проекта оцифровали и книгу рассказов на чукотском языке для чтения в третьем классе, изданную в 1950 году создателем чукотского алфавита Петром Скориком, которому помогал молодой Юрий Рытхэу.
На втором этапе работы в приложении Eхcel в одной колонке вводят на чукотском предложения за предложением, а в другой – носитель языка осуществляет их переводы на русский. Каждое предложение и его перевод называют словоформой.
В третий раздел корпуса вносится чукотский алфавит, а также специальные знаки и символы.
– В итоге образуется большой массив данных, который привлечённый Центром специалист помещает в облако, чтобы уже специалисты Яндекса могли подгружать данные в переводчик, – продолжил Денис Литовка. – Ещё год назад существовало ограничение в 300 тысяч словоформ, чтобы можно было получить место в Яндекс-переводчике. Однако регионы, где проживают малочисленные народности, в том числе и Чукотка, обратились с просьбой снизить этот порог до 100 тысяч, и были услышаны.
Как сообщила научный руководитель отдела изучения и развития языков Чукотки Арктического научного центра Виктория Кавры, создание корпуса чукотского языка началось в июне. Завершить проект планируют в декабре текущего года.
К работе над корпусом привлекли таких знатоков чукотского языка, как Борис Ыттыгыргын, Вера Грачёва, Антонина Кергитваль, Григорий Ранаврольтын.
– Дело трудоёмкое. Тот же Тан-Богораз чукотскую речь записывал на латинице, поэтому приходится сначала переводить текст в кириллицу, вносить в левую колонку, а затем в правую колонку записывать перевод на русский язык, – рассказал «КС» Григорий Ранаврольтын, который является создателем словаря чукотского языка.
Сам Григорий Иванович внёс уже порядка 3 тысяч словоформ из 100 тысяч необходимых.
Справка «КС»
Проект по созданию корпусов языков народов России инициирован Федеральным агентством по делам национальностей в рамках Международного десятилетия родных языков (2022 – 2032 годы). На Чукотке его поддержал грантом окружной Департамент образования и науки, а также Чукотское отделение Сбербанка. Одно из направлений работы предполагает включение языковых корпусов в Яндекс-переводчик. На сегодняшний день в этом сервисе – 103 языка народов Российской Федерации. На Чукотке три основных языка коренных малочисленных народов: чукотский, эскимосский и эвенский. Работа по созданию корпуса ведётся и с эскимосским. Сложность в том, что у этого языка два диалекта, причём оба находятся на грани исчезновения. С эвенским работа ведётся не только на Чукотке, но и в Магаданской области, а также в ряде других субъектов.