Дипломница разработала алгоритм машинного русско-бурятского перевода
Работа в этом направлении продолжается
Выпускница бакалавриата института интеллектуальной робототехники Новосибирского госуниверситета Дари Батурова в ходе выполнения выпускной квалификационной работы разработала алгоритм машинного перевода с русского языка на бурятский.
Как сообщили в пресс-службе НГУ, Дари создала русско-бурятский и русско-монгольский параллельный корпус. Параллельный корпус — собрание текстов на одном языке вместе с переводом на другой язык. Он состоит из пар текстов на двух языках — оригинал и перевод. Помимо этого, параллельный корпус может состоять из пар отдельных предложений.
Также она обучила две модели для русско-бурятского перевода и сравнила их с лучшей моделью из ранее существовавших для данной задачи. Выяснилось, что по результатам оценки, одна из моделей, обученных молодой исследовательницей, превзошла другие существующие ранее аналоги.
- Основная сложность состояла в том, что бурятский язык является малоресурсным. В онлайн-переводчиках он не представлен. В Интернете можно найти разве что электронные словари или разговорники. По этой причине собрать данные для создания параллельного корпуса было затруднительно. Молодёжь не выражает сильной заинтересованности в сохранении и продвижении бурятского языка, передача его из поколения в поколение, к сожалению, происходит все реже. Согласно переписи населения России, в 2002 году 79% бурят указали, что владеют бурятским языком, в 2020 же году – 63%. А между тем бурятский язык внесён в «Атлас языков мира, находящихся под угрозой исчезновения» ЮНЕСКО со статусом «есть угроза исчезновения», — пояснила Дари Батурова.
Девушка убеждена, что для сохранения и продвижения бурятского языка необходимо внедрить его в цифровое пространство. Машинный перевод представляет собой один из способов цифровизации, но из-за ограниченности данных на бурятском языке возникает такая проблема, как сдвиг данных. Сдвиг данных происходит, когда модель машинного перевода обучается на наборе данных, который не охватывает все особенности семантики, лексики и синтаксиса данного языка, из-за чего модель может выдавать неточный перевод. Для решения данной проблемы необходимо исследовать методы оценивания неопределённости нейросетевой модели для обнаружения некорректных переводов.
- После выявления лучшей обученной модели, которая была основана на модели NLLB (No Language Left Behind), я проанализировала её поведение при сдвиге данных с помощью методов оценивания неопределённости модели. Для этого был создан русско-бурятский параллельный корпус с аннотированными предложениями по типам ошибок, которые совершила данная модель при переводе текстов, содержащих специфические термины из научных областей. Он помог выделить лучшую метрику для определения уверенности модели в своих переводах и выявления возможных ошибок и галлюцинаций, — рассказала Дари Батурова.
Созданию алгоритма машинного перевода с русского языка на бурятский предшествовала серьёзная подготовительная работа. Первыми помощниками стали родители студентки. Они поддерживали её на всех этапах работы. Тему своей дипломной работы Дари Батурова выбрала ещё в начале третьего курса и сразу занялась созданием русско-бурятского параллельного корпуса. За основу было решено взять тексты новостного информационного жанра. Благодаря гранту Республики Бурятия, который она получила ровно год назад, был заключён договор с тремя специалистами, которые с осени прошлого года занимались переводом новостных текстов. На сегодняшний день было переведено более 4 тысяч текстов, и работа в этом направлении продолжается. Ведётся поиск новых переводчиков, сбор и обработка новых данных, а также дообучение нейросети.
Также помимо переводческой деятельности в рамках гранта проводился поиск уже существующих параллельных текстов. В результате было заключено сотрудничество с некоторыми организациями, находящимися в Бурятии, такими как Государственная служба языкового перевода Бурятии, Бурятский научный центр и другими. Они поделились имеющимися данными, которые были добавлены в параллельный корпус.
- В рамках дипломной работы алгоритм, разработанный Дари Батуровой, представлен в виде кода. Однако девушка намерена преобразовать его в более доступный и удобный формат для будущих пользователей - сайт с русско-бурятским онлайн-переводчиком. С этой целью она объединила свои усилия с выпускницей Санкт-Петербургского университета Сараной Абидуевой, которая создала первую нейросетевую модель для русско-бурятского перевода в рамках своей дипломной работы. Благодаря совместной работе они создали первый в открытом доступе русско-бурятский параллельный корпус, состоящий из собранных данных в интернете и полученных текстов от различных организаций. В дальнейшем они планируют усовершенствовать алгоритм для русско-бурятского перевода и разместить сайт с ним. Дари Батурова уверена, что этот ресурс будет полезен для носителей бурятского языка и людей, изучающих его, а также исследователей языка и культуры, лингвистов, переводчиков и всех, кто заинтересован в сохранении и продвижении бурятского языка, - отметили в пресс-службе НГУ.
Выпускница бакалавриата института интеллектуальной робототехники Новосибирского госуниверситета Дари Батурова в ходе выполнения выпускной квалификационной работы разработала алгоритм машинного перевода с русского языка на бурятский.
Как сообщили в пресс-службе НГУ, Дари создала русско-бурятский и русско-монгольский параллельный корпус. Параллельный корпус — собрание текстов на одном языке вместе с переводом на другой язык. Он состоит из пар текстов на двух языках — оригинал и перевод. Помимо этого, параллельный корпус может состоять из пар отдельных предложений.
Также она обучила две модели для русско-бурятского перевода и сравнила их с лучшей моделью из ранее существовавших для данной задачи. Выяснилось, что по результатам оценки, одна из моделей, обученных молодой исследовательницей, превзошла другие существующие ранее аналоги.
- Основная сложность состояла в том, что бурятский язык является малоресурсным. В онлайн-переводчиках он не представлен. В Интернете можно найти разве что электронные словари или разговорники. По этой причине собрать данные для создания параллельного корпуса было затруднительно. Молодёжь не выражает сильной заинтересованности в сохранении и продвижении бурятского языка, передача его из поколения в поколение, к сожалению, происходит все реже. Согласно переписи населения России, в 2002 году 79% бурят указали, что владеют бурятским языком, в 2020 же году – 63%. А между тем бурятский язык внесён в «Атлас языков мира, находящихся под угрозой исчезновения» ЮНЕСКО со статусом «есть угроза исчезновения», — пояснила Дари Батурова.
Девушка убеждена, что для сохранения и продвижения бурятского языка необходимо внедрить его в цифровое пространство. Машинный перевод представляет собой один из способов цифровизации, но из-за ограниченности данных на бурятском языке возникает такая проблема, как сдвиг данных. Сдвиг данных происходит, когда модель машинного перевода обучается на наборе данных, который не охватывает все особенности семантики, лексики и синтаксиса данного языка, из-за чего модель может выдавать неточный перевод. Для решения данной проблемы необходимо исследовать методы оценивания неопределённости нейросетевой модели для обнаружения некорректных переводов.
- После выявления лучшей обученной модели, которая была основана на модели NLLB (No Language Left Behind), я проанализировала её поведение при сдвиге данных с помощью методов оценивания неопределённости модели. Для этого был создан русско-бурятский параллельный корпус с аннотированными предложениями по типам ошибок, которые совершила данная модель при переводе текстов, содержащих специфические термины из научных областей. Он помог выделить лучшую метрику для определения уверенности модели в своих переводах и выявления возможных ошибок и галлюцинаций, — рассказала Дари Батурова.
Созданию алгоритма машинного перевода с русского языка на бурятский предшествовала серьёзная подготовительная работа. Первыми помощниками стали родители студентки. Они поддерживали её на всех этапах работы. Тему своей дипломной работы Дари Батурова выбрала ещё в начале третьего курса и сразу занялась созданием русско-бурятского параллельного корпуса. За основу было решено взять тексты новостного информационного жанра. Благодаря гранту Республики Бурятия, который она получила ровно год назад, был заключён договор с тремя специалистами, которые с осени прошлого года занимались переводом новостных текстов. На сегодняшний день было переведено более 4 тысяч текстов, и работа в этом направлении продолжается. Ведётся поиск новых переводчиков, сбор и обработка новых данных, а также дообучение нейросети.
Также помимо переводческой деятельности в рамках гранта проводился поиск уже существующих параллельных текстов. В результате было заключено сотрудничество с некоторыми организациями, находящимися в Бурятии, такими как Государственная служба языкового перевода Бурятии, Бурятский научный центр и другими. Они поделились имеющимися данными, которые были добавлены в параллельный корпус.
- В рамках дипломной работы алгоритм, разработанный Дари Батуровой, представлен в виде кода. Однако девушка намерена преобразовать его в более доступный и удобный формат для будущих пользователей - сайт с русско-бурятским онлайн-переводчиком. С этой целью она объединила свои усилия с выпускницей Санкт-Петербургского университета Сараной Абидуевой, которая создала первую нейросетевую модель для русско-бурятского перевода в рамках своей дипломной работы. Благодаря совместной работе они создали первый в открытом доступе русско-бурятский параллельный корпус, состоящий из собранных данных в интернете и полученных текстов от различных организаций. В дальнейшем они планируют усовершенствовать алгоритм для русско-бурятского перевода и разместить сайт с ним. Дари Батурова уверена, что этот ресурс будет полезен для носителей бурятского языка и людей, изучающих его, а также исследователей языка и культуры, лингвистов, переводчиков и всех, кто заинтересован в сохранении и продвижении бурятского языка, - отметили в пресс-службе НГУ.
Уважаемые читатели, все комментарии можно оставлять в социальных сетях, сделав репост публикации на личные страницы. Сбор и хранение персональных данных на данном сайте не осуществляется.