ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ ЗАГОВОРИТ НА ЧУКОТСКОМ
19.06.2020

gazeta@ks.chukotka.ru
Школа лингвистики научно-исследовательского университета Высшей школы экономики начала пристальное изучение чукотского языка в рамках проекта, направленного на обработку так называемых малоресурсных языков с использованием искусственного интеллекта. При этом часть анализируемых текстов составляют статьи проекта «Мургин нутэнут», который выходит на страницах газеты «Крайний Север» с 1995 года.
Как рассказала участник исследовательской группы – лингвист Института языкознания РАН Карина Мищенкова, для автоматической обработки чукотского языка была разработана модель нейронной сети (по сути, это компьютерный искусственный интеллект, приспособленный для решения лингвистических задач). Она осуществляет разложение слов на части-морфемы, их анализ, что позволяет установить синтаксические связи внутри предложения. Подобные разработки лежат в основе создания чат-ботов, систем машинного перевода и распознавания человеческой речи.
«Малоресурсным» чукотский называют потому, что он относительно малоизучен и на нём трудно найти достаточное количество общедоступных текстов. Например, довольно сложно обнаружить в Интернете статьи на чукотском языке, а если они и попадаются, то в небольшом количестве. Другие примеры малоресурсных языков – эскимосский, эвенский, сардинский, крымскотатарский.
В случае успешного завершения проекта планируется создание автоматизированным способом массива параллельных текстов на чукотском и русском языках. Затем будет осуществлена выгрузка обработанных чукотских материалов в виде синтаксических «деревьев» и морфологических моделей в международном некоммерческом банке языков Universal Dependencies. По этим образцам можно будет наглядно увидеть структуру чукотских высказываний.
– Для тестирования модели нейронной сети мы используем тексты на чукотском языке. Часть корпуса анализируемых текстов составляют статьи проекта «Мургин нутэнут» газеты «Крайний Север», – отметила Карина Мищенкова. – В этой связи учёные-лингвисты благодарят редакцию газеты «Крайний Север» за большой вклад в поддержку чукотского языка. Особую ценность имеет наличие в «Мургин нутэнут» параллельных переводов. Двуязычный формат помогает читателям преодолеть возможные трудности в понимании статей на чукотском языке.
Лингвистическим проектом руководит преподаватель Высшей школы экономики Университета Индианы (Блумингтон, США) Францис Таерз. В исследовательскую группу, кроме Карины Мищенковой, входят языковеды Никита Сыхранов и Елизавета Ежергина.
Кстати
Это второй проект университета, который направлен на техническую поддержку и сохранение чукотского языка. Ранее другая исследовательская группа ВШЭ создала мультимедийный интернет-ресурс «Chuklang» (chuklang.ru), на котором размещены материалы и исследования амгуэмского говора чукотского языка. На сайте выложены 65 текстов с аудиозаписями, лингвистической разметкой, избранной библиографией по чукотско-камчатским языкам и краткие сведения о селе Амгуэма и его жителях, носителях чукотского языка.