Ии Говорит По-Черкесски: Битва За Цифровое Возрождение Языка

#12117 Ekleme Tarihi 18/10/2025 11:47:55

Черкесский (Адыгский) язык — один из самых древних языков мира, но, к сожалению, в современном технологическом пространстве он всё ещё представлен очень слабо. В наших телефонах, компьютерах или в интернете мы почти никогда не находим опцию Черкесского языка. Именно в этот момент на сцену выходят проекты Кунаша Анзора. Выросший в нальчике черкесский юноша Анзор выстраивает свою связь с идентичностью через технологии. Благодаря его работе Черкесский язык стал заметнее в переводах с использованием искусственного интеллекта, в онлайн-словарях и приложениях

Мы, «Жьабзэ» Zhabze и «Молодёжь Черкесии» Çerkesya Gençliği , поговорили с ним о цифровизации Черкесского языка, об искусственном интеллекте и о роли молодежи в этой сфере.

Хьахъу Нарт (ХН): Для начала расскажи нам о себе. Кто такой Къунаш Анзор?

Къунаш Анзор (КА) Я родился и вырос в Нальчике. После окончания школы поступил в технический университет в Москве и учился и жил там более 10 лет. Работаю в сфере IT, но всегда интересовался языками и лингвистикой. Точнее сказать, меня всегда увлекало и завораживало разнообразие языков. Хотелось изучать все языки, историю их развития, связи между ними, происхождение слов и всё, что с этим связано. Конечно, среди этих языков всегда был и родной черкесский язык и его диалекты.

ХН: Что подтолкнуло тебя заниматься технологическими проектами, связанными с черкесским языком? Что стало главным мотивом?

КА: Я занимаюсь разработкой мобильных приложений, и моим первым успешным приложением был переводчик между разными языками. Это было около 10 лет назад, и тогда я мечтал, что когда-нибудь в списке поддерживаемых языков онлайн-переводчиков появится и черкесский. Тогда это казалось несбыточной мечтой.

Несколько лет назад, когда начала активно развиваться сфера нейронных сетей, я в качестве хобби экспериментировал с ними. В какой-то момент просто из любопытства я решил попробовать научить нейросеть переводить с русского на черкесский. На скорую руку собрал небольшой корпус параллельных текстов из словаря и запустил обучение.

Я не ожидал особо хороших результатов, но, к моему удивлению, модель научилась довольно неплохо переводить отдельные слова и короткие фразы. Это произвело на меня большое впечатление, ведь на тот момент онлайн-переводчиков для черкесского языка еще не существовало. Тогда я понял, что этим делом необходимо заняться всерьез. Так мои интересы в IT и лингвистике естественным образом сошлись и со временем переросли в проект adiga.ai. Главной целью проекта является расширение присутствия черкесского языка во всех сферах цифрового пространства.

ХН: Я сам постоянно пользуюсь Adiga.ai и Zedzek.com. Это действительно очень важная работа. Какова история этих проектов? Как они начались и как развивались?

КА: После того первого удачного эксперимента стало ясно, что для качественного перевода нужен большой объем данных. С тех пор, за прошедшие несколько лет вместе с волонтерами удалось собрать и обработать несколько сотен тысяч параллельных слов и предложений. На основе этих данных были обучены несколько версий моделей перевода, что в итоге привело к запуску сайта zedzek.com – онлайн-переводчику между русским и обоими диалектами черкесского языка.

Позже, на сайте adiga.ai, был запущен чат-бот наподобие ChatGPT, с виртуальным помощником по имени Нарт, который умеет общаться на черкесском языке.

Самая трудоемкая часть работы – это сбор и обработка данных: параллельных текстов, аудиозаписей, видео. С самого начала работы над проектом моей целью была открытая публикация всех собранных данных и активное сотрудничество со всеми, кто заинтересован в их использовании. В особенности с крупными IT-компаниями, которые могут использовать эти данные для обучения своих моделей. Поэтому после завершения работы над первой версией набора параллельных текстов и его публикации я связался с представителями Яндекс, Google и Meta* (Facebook) с предложением использовать эти данные для обучения моделей, используемых в переводчиках Яндекса и Гугла, в Инстаграме, Фейсбуке и других сервисах. К счастью, крупные компании сегодня заинтересованы в поддержке слабо представленных языков, поэтому они с радостью приняли данные и уже используют их для обучения своих моделей.

ХН: Добавление черкесского языка в Яндекс.Переводчик – это большое событие. Какова была твоя роль в этом процессе и планируется ли добавить западный диалект?

КА: Яндекс действительно стал первой крупной компанией, добавившей поддержку черкесского языка в своем переводчике. Это стало возможным благодаря совместным усилиям. В конце прошлого года сотрудники Карачаево-Черкесского института гуманитарных исследований и общественная организация «Черкесский ренессанс» из КБР передали Яндексу первый набор данных – около 125 тысяч русско-черкесских предложений на кабардинском диалекте.

Затем, около двух месяцев назад, я связался с Яндексом и передал им данные, собранные в рамках проекта adiga.ai: еще около 100 тысяч русско-черкесских и 160 тысяч черкесско-русских предложений на кабардинском, а также 150 тысяч предложений на западном («адыгейском») диалекте.

Инженеры Яндекса отметили, что обучение на полученных данных позволило добиться неплохого качества перевода. В течение следующего месяца я консультировал их по качеству перевода, они принимали во внимание все замечания, сравнивали перевод своей модели с переводчиком zedzek.com, дорабатывали и улучшали свою модель. В итоге в конце сентября кабардинский диалект был добавлен в Яндекс.Переводчик в тестовом режиме.

Так как данные, переданные мной в Яндекс, включали тексты и на западном диалекте, переводчик Яндекса уже умеет переводить и с него на русский, но официально он пока не добавлен. Насколько мне известно, сейчас сотрудники Адыгейского государственного университета работают над составлением дополнительного набора текстов для передачи его Яндексу. Скорее всего, после окончания этой работы западный диалект будет добавлен официально.

ХН: Работать с черкесским языком через искусственный интеллект, наверное, непросто. С какими трудностями ты столкнулся и получал ли поддержку?

КА: Бытует миф о том, что черкесский язык является каким-то невероятно сложным по сравнению с другими языками. Но на самом деле это обычный человеческий язык, как и все другие языки мира. Конечно, в нем есть некоторые особенности, но особенности есть у всех языков, именно этим они и отличаются друг от друга. А для нейросетей вообще не имеет значения, с каким языком работать – они видят не грамматику и морфологию, а только наборы чисел. Главная и единственная реальная трудность – это слабое представление языка в интернете. Нейросети обучаются на гигантских объемах текстов, а доля черкесского в них ничтожно мала. Именно эту проблему мы и решаем, собирая и публикуя данные в открытом доступе.

Что касается поддержки, то я её получаю постоянно. Проект нашел большой отклик как у черкесов на родине, так и в диаспоре. Многие люди помогают в сборе данных, информационном освещении или просто выражают слова поддержки.

ХН: Как ты думаешь, какую роль может сыграть ИИ в будущем таких языков, находящихся под угрозой, как черкесский?

КА: Конечно, технологии ИИ – это мощный инструмент. Полноценная поддержка языка в переводчиках, голосовых помощниках и операционных системах, безусловно, повысит его статус и престиж. Появятся новые возможности для изучения: автоматический перевод контента, общение с виртуальными ассистентами на родном языке и т.д.

Но важно понимать, что это всего лишь инструменты. Угроза исчезновения – это системная проблема, которая существует практически для всех языков, лишенных полноценной государственной поддержки. Язык живет и развивается только тогда, когда он незаменим в ключевых сферах жизни: в образовании, профессиональной деятельности, медиа, индустрии развлечений и т.д. Если язык вытеснен исключительно на бытовой уровень, его угасание неизбежно. Поэтому, на мой взгляд, нельзя перекладывать вину в исчезновении языка на родителей, которые якобы мало говорят с детьми на родном, – бытовая сфера одна не в состоянии противостоять огромному давлению всех остальных сфер жизни. Сохранение и развитие языка – это системная проблема, и ее решение также требует системного подхода. Это тема для отдельного большого обсуждения.

ХН: Что бы ты хотел сказать черкесской молодежи? Какие советы дашь тем, кто хочет заниматься технологиями и языком?

КА: У нас очень много талантливой и способной молодежи. Сегодня технологии развиваются так стремительно, что то, что 5-10 лет назад требовало огромных ресурсов и целых команд, теперь под силу одному человеку. Поэтому мой главный совет: не бояться браться за реализацию своих идей, какими бы амбициозными они ни казались.

ХН: Что дальше? Какие планы по продвижению черкесского языка в цифровом пространстве?

КА: Планов много. Сейчас идет работа по интеграции черкесского языка в Google Переводчик и сервисы Meta*. Я также активно собираю аудиоданные для обучения моделей распознавания и синтеза речи – уже обработано около 150 часов аудиозаписей на обоих диалектах. Параллельно аналогичную работу ведет большая группа волонтеров в рамках проекта Mozilla Common Voice, они записали уже около 200 часов аудиозаписей.

Конечно, я продолжу улучшать и существующие проекты. Сайтом переводчика zedzek.com сейчас ежедневно пользуются около 300 человек, и количество пользователей постоянно растет. В планах – обновить модель для повышения качества перевода и добавить озвучивание текста.

У чат-бота adiga.ai также уже более 1000 зарегистрированных пользователей. Планирую обновить модель, чтобы ассистент Нарт лучше владел языком и разбирался в тонкостях черкесской культуры.

В планах много различных проектов, но основной задачей по прежнему является сбор и публикация данных, связанных с черкесским языком. Все данные публикуются в свободном доступе на hf.co/adiga-ai, и я призываю всех желающих использовать их в своих проектах.

ХН: Есть ли что-то, что ты хотел бы добавить напоследок?

КА: Спасибо за возможность рассказать о своей работе. Надеюсь, это интервью привлечет к проектам по развитию черкесского языка еще больше заинтересованных людей.

* Компания Meta признана экстремистской организацией на территории РФ.

  • facebook sharing buttonFacebook
  • twitter sharing buttonTwitter
  • pinterest sharing buttonPinterest
  • linkedin sharing buttonLinkedin
  • tumblr sharing buttonTumblr
  • vk sharing buttonvk
  • odnoklassniki sharing buttonOdnoklassniki
  • reddit sharing buttonReddit
  • whatsapp sharing buttonWhatsapp
  • googlebookmarks sharing buttonGoogle Bookmarks