В Яндекс-переводчике стал доступен мансийский - язык одного из коренных малочисленных народов Севера России. Пользователи могут переводить тексты с мансийского на более чем сто других языков и обратно. Сделать это можно на сайте и в приложении сервиса, а также в тематическом блоке перевода в Поиске.
На данный момент функция произношения слов недоступна, пользователям доступен только перевод без транскрипции и словарных статей.
Для запуска новых языков в Переводчике использовались данные, собранные Обско-угорским институтом прикладных исследований и разработок совместно с Югорским научно-исследовательским институтом информационных технологий (ЮНИИТ).
По информации РИЦ "Югра", в 2023 году Правительство округа поддержало инновационный проект "Цифровой корпус мансийского языка". В феврале 2023 года была представлена платформа YugraTranslate, разработанная IT-специалистами ЮНИИИТа. Она позволяет собирать массивы текстов на языках коренных народов и переводить их в цифровую форму. Осенью того же года началась работа с носителями мансийского языка в Саранпауле, Хулимсунте и Ханты-Мансийске, а в конце 2023 года было подписано соглашение между Правительством Югры и компанией "Яндекс" о включении мансийского языка в цифровые сервисы.
Переводчики - в основном непрофессиональные носители языка - переводили предложения с русского на мансийский и обратно, формируя корпус данных для машинного обучения. За 2023 год было переведено 120-140 тысяч пар предложений, а к 2025 году их общее число достигло 300 тысяч, что является значительным объёмом для малоресурсного языка, на котором говорят менее тысячи человек. Часть корпуса - 140 тысяч пар предложений - была передана "Яндексу" для обучения нейросетей. Машинные переводы проверялись и корректировались.
Параллельно ЮНИИИТ создал этнопортал родных языков, где уже размещён корпус мансийского языка, а также сервис по озвучиванию текстов - озвучено около 30 тысяч предложений. На сегодняшний день сформировалось около 65-70 языковых активистов из числа народа манси, готовых продолжать свою работу. Проект будет развиваться дальше - как в части расширения цифрового корпуса мансийского языка, так и в оцифровке хантыйского языка разных диалектов.
Яндекс развивает проект по сохранению языков народов РФ совместно с Домом народов России при поддержке Федерального агентства по делам национальностей. Мансийский язык является родным почти для 3 тысяч жителей России. Появление языка в сервисах перевода позволит расширить круг пользователей, упростит изучение языка, сделает его доступным широкой аудитории и укрепит национальную идентичность народа.
Источники:
Центр народов Севера Югорского государственного университета,
Пресс-служба Яндекс,
РИЦ "Югра"