
Çerkes (Adıge) dili, dünyanın en eski dillerinden biridir, ancak ne yazık ki modern teknolojik ortamda yeterince temsil edilememektedir. Telefonlarımızda, bilgisayarlarımızda veya internette neredeyse hiç Çerkes dili seçeneği bulamıyoruz. Kunash Anzor'un projeleri tam da bu noktada devreye giriyor. Nalçik'te büyüyen genç bir Çerkes olan Anzor, teknoloji aracılığıyla kimliğiyle bağını kuruyor. Çalışmaları sayesinde Çerkes dili, yapay zeka destekli çevirilerde, çevrimiçi sözlüklerde ve uygulamalarda daha görünür hale geldi.
Biz, "Zhabze" Zhabze ve "Çerkesya Gençliği" Çerkesya Gençliği olarak, Çerkes dilinin dijitalleşmesi, yapay zeka ve bu alandaki gençliğin rolü hakkında kendisiyle konuştuk.
Hakhu Nart(HN): Öncelikle bize kendinden bahseder misin? Kıvanç Anzor kimdir?
Kunash Anzor (КА): Ben Nalçik'te doğdum ve büyüdüm. Liseden sonra Moskova'da bir teknik üniversiteye girdim ve 10 yıldan fazla bir süre orada okudum ve yaşadım. IT sektöründe çalışıyorum ama her zaman diller ve dilbilimle ilgilendim. Daha doğrusu, dillerin çeşitliliği beni her zaman cezbetmiş ve büyülemiştir. Tüm dilleri, onların gelişim tarihini, aralarındaki bağlantıları, kelimelerin kökenini ve bununla bağlantılı her şeyi öğrenmek istedim. Elbette bu diller arasında her zaman anadilim Çerkesce ve onun lehçeleri de vardı.
HN: Seni Çerkes diliyle ilgili teknolojik projeler üretmeye iten ne oldu? Ana motivasyonun neydi?
КА: Mobil uygulama geliştiriyorum ve ilk başarılı uygulamam farklı diller arasında çeviri yapan bir sözlüktü. Bu yaklaşık 10 yıl önceydi ve o zaman online çeviri uygulamalarının desteklediği diller arasında bir gün Çerkesçenin de yer almasını hayal ediyordum. O zamanlar bu ulaşılmaz bir hayal gibi görünüyordu.
Birkaç yıl önce yapay sinir ağları alanı aktif şekilde gelişmeye başlayınca ben de hobi olarak onlarla deneyler yapıyordum. Bir noktada merakımdan, bir sinir ağını Rusçadan Çerkesçeye çeviri yapması için eğitmeyi denemeye karar verdim. Aceleyle sözlüklerden küçük bir paralel metin derlemesi oluşturdum ve eğitimi başlattım.
Açıkçası iyi bir sonuç beklemiyordum ama şaşırtıcı şekilde model tek tek kelimeleri ve kısa cümleleri oldukça iyi çevirmeyi öğrendi. Bu beni çok etkiledi çünkü o dönemde Çerkesçe için hiçbir online çeviri aracı yoktu. O an bu işle ciddi şekilde ilgilenmek gerektiğini anladım. Böylece IT ve dilbilime olan ilgim doğal bir şekilde birleşerek zamanla adiga.ai projesine dönüştü. Projenin ana amacı Çerkesçenin dijital alandaki varlığını genişletmek.
HN: Ben kendim de http://hf.co/adiga-ai ve http://zedzek.com/'u sürekli kullanıyorum. Bu gerçekten çok önemli bir çalışma. Bu projelerin hikâyesi nedir? Nasıl başladılar ve nasıl geliştiler?
КА: O ilk başarılı deneyden sonra kaliteli çeviri için büyük miktarda veriye ihtiyaç olduğu ortaya çıktı. O zamandan bu yana, birkaç yıllık süre zarfında gönüllülerle birlikte yüz binlerce paralel kelime ve cümle topladık ve işledik. Bu verilere dayanarak birkaç çeviri modeli eğitildi ve sonunda zedzek.com – Rusça ile Çerkesçenin her iki lehçesi arasında çeviri yapabilen çevrimiçi çeviri sitesi – hayata geçti.
Daha sonra adiga.ai sitesinde ChatGPT benzeri bir sohbet botu yayınlandı. Adı Nart olan bu sanal asistan Çerkesçe konuşabiliyor.
Çalışmanın en zahmetli kısmı veri toplama ve işleme: paralel metinler, ses kayıtları, videolar. Projenin başından beri hedefim toplanan tüm verileri açık şekilde yayınlamak ve bunları kullanmaya ilgi duyan herkesle aktif işbirliği yapmak oldu. Özellikle de bu verileri modellerini eğitmek için kullanabilecek büyük IT şirketleriyle. Bu nedenle ilk paralel metin setinin tamamlanıp yayınlanmasından sonra Yandex, Google ve Meta* (Facebook) temsilcileriyle iletişime geçtim ve bu verileri Yandex ve Google çeviri sistemlerinde, Instagram, Facebook ve diğer servislerde kullanılmak üzere eğitimde kullanmalarını teklif ettim. Şanslıyız ki bugün büyük şirketler az temsil edilen dillere destek vermekle ilgileniyorlar, bu yüzden verileri memnuniyetle kabul edip modellerinin eğitiminde kullanmaya başladılar.
HN: Çerkesçenin Yandex Çeviri’ye eklenmesi büyük bir olaydı. Bu süreçte senin rolün neydi ve Batı lehçesinin eklenmesi planlanıyor mu?
КА: Yandex gerçekten çeviri aracına Çerkesçeyi ekleyen ilk büyük şirket oldu. Bu ortak çabaların sonucu. Geçen yılın sonunda Karaçay-Çerkes Beşeri Araştırmalar Enstitüsü çalışanları ve KBC’den “Çerkes Rönesansı” sivil toplum örgütü Yandex’e ilk veri setini – yaklaşık 125 bin Rusça-Çerkesçe cümle (Kabardey lehçesi) – ilettiler.
Yaklaşık iki ay önce ise ben Yandex’le iletişime geçtim ve adiga.ai projesi kapsamında toplanan verileri ilettim: Kabardey lehçesinde yaklaşık 100 bin Rusça-Çerkesçe ve 160 bin Çerkesçe-Rusça cümle; ayrıca Batı (“Adığeyce”) lehçesinde 150 bin cümle.
Yandex mühendisleri bu verilerle yapılan eğitimin çeviri kalitesine iyi bir katkı sağladığını belirtti. Takip eden ay boyunca çevirilerin kalitesi konusunda onlara danışmanlık yaptım, tüm yorumları dikkate aldılar, kendi modellerinin çevirisini zedzek.com ile karşılaştırarak iyileştirmeler yaptılar. Sonuç olarak Eylül ayı sonunda Kabardey lehçesi test modunda Yandex Çeviri’ye eklendi.
Yandex’e ilettiğim veriler Batı lehçesindeki metinleri de içerdiği için sistem aslında halihazırda Batı lehçesinden Rusçaya da çevirebiliyor, fakat resmi olarak henüz eklenmedi. Bildiğim kadarıyla şu anda Adıgey Devlet Üniversitesi çalışanları Yandex’e iletilmek üzere ek bir metin seti hazırlıyor. Muhtemelen bu çalışma tamamlandıktan sonra Batı lehçesi de resmi olarak eklenecek.
HN: Yapay zekâ ile Çerkesçe üzerinde çalışmak zor olmalı. Hangi zorluklarla karşılaştın ve destek aldın mı?
КА: Çerkesçenin diğer dillere kıyasla inanılmaz derecede zor olduğu yönünde bir mit var. Ama aslında o da dünyadaki diğer tüm diller gibi sıradan bir insan dili. Elbette bazı özellikleri var ama her dilin kendine has özellikleri vardır – onları farklı kılan da budur. Zaten sinir ağları için hangi dille çalıştığının bir önemi yok – onlar ne gramer ne morfoloji görür, sadece sayı dizileri görürler. Ana ve tek gerçek zorluk, dilin internette çok az temsil ediliyor olması. Sinir ağları devasa metin yığınları üzerinde eğitilir; Çerkesçenin bu yığınlardaki payı ise yok denecek kadar az. Bizim çözmeye çalıştığımız sorun da zaten bu – verileri toplayıp açık erişime sunmak.
Destek konusuna gelince, sürekli destek alıyorum. Proje hem anavatandaki hem diasporadaki Çerkeslerden büyük ilgi gördü. Birçok kişi veri toplamada, tanıtımda yardımcı oluyor ya da sadece destek sözleriyle motive ediyor.
HN: Sence Çerkesçe gibi tehlike altındaki dillerin geleceğinde yapay zekânın rolü ne olabilir?
КА: Elbette yapay zekâ teknolojileri güçlü bir araç. Çeviri sistemlerinde, sesli asistanlarda ve işletim sistemlerinde dilin tam desteklenmesi kesinlikle onun statüsünü ve prestijini artırır. Öğrenme için yeni imkânlar doğar: içeriklerin otomatik çevirisi, ana dilde sanal asistanlarla sohbet vb.
Ama unutmamak gerekir ki bunlar sadece araçlar. Yok olma tehdidi – devlet tarafından tam destekten yoksun bırakılmış hemen her dilde olduğu gibi – sistematik bir sorundur. Dil, ancak hayatın temel alanlarında vazgeçilmez olduğunda yaşar ve gelişir: eğitim, mesleki faaliyet, medya, eğlence sektörü vb. Eğer dil sadece ev içi kullanım alanına sıkışmışsa onun sönüşü kaçınılmazdır. Bu yüzden bence dilin yok oluşu konusunda “ebeveynler çocuklarıyla yeterince konuşmuyor” suçlaması doğru değil – sadece ev içi kullanım alanı, hayatın diğer tüm alanlarının güçlü baskısına karşı duramaz. Dilin korunması ve geliştirilmesi sistematik bir sorundur ve çözümü de sistematik yaklaşım gerektirir. Bu ayrıca ayrıca uzun bir tartışmanın konusu.
HN: Çerkes gençliğine ne söylemek istersin? Teknoloji ve dille ilgilenmek isteyenlere ne tavsiye verirsin?
КА: Çok yetenekli ve becerikli gençlerimiz var. Bugün teknoloji öyle hızlı gelişiyor ki 5-10 yıl önce devasa kaynaklar ve koca ekipler gerektiren şeyler artık tek bir kişinin yapabileceği hale geldi. Bu yüzden en önemli tavsiyem: fikirleriniz ne kadar iddialı görünürse görünsün, onları hayata geçirmekten korkmayın.
HN: Peki sırada ne var? Çerkesçenin dijital alanda yaygınlaşması için hangi planların var?
КА: Plan çok. Şu anda Çerkesçeyi Google Çeviri ve Meta* servislerine entegre etme çalışmaları sürüyor. Ayrıca konuşma tanıma ve ses sentezi modellerini eğitmek için ses verileri topluyorum – her iki lehçede yaklaşık 150 saatlik ses kaydı işlendi. Paralel olarak Mozilla Common Voice projesi kapsamında büyük bir gönüllü grup benzer bir çalışma yürütüyor, onlar da yaklaşık 200 saatlik ses kaydı yaptı.
Elbette mevcut projeleri de geliştirmeye devam edeceğim. Zedzek.com çeviri sitesini şu anda günde yaklaşık 300 kişi kullanıyor ve kullanıcı sayısı sürekli artıyor. Çeviri kalitesini artırmak için modeli güncellemeyi ve metin okuma özelliği eklemeyi planlıyorum. Adiga.ai sohbet botunun da 1000’den fazla kayıtlı kullanıcısı var. Nart’ın dili daha iyi kullanabilmesi ve Çerkes kültürünün inceliklerini daha iyi anlaması için modeli güncellemeyi planlıyorum.
Çeşitli projeler planlanıyor ama ana görev hâlâ Çerkesçe ile ilgili verilerin toplanması ve yayımlanması. Tüm veriler hf.co/adiga-ai adresinde açık erişimde yayınlanıyor ve herkesi bunları kendi projelerinde kullanmaya davet ediyorum.
HN: Son olarak eklemek istediğin bir şey var mı?
КА: Çalışmamdan bahsetme fırsatı verdiğiniz için teşekkür ederim. Umarım bu röportaj Çerkesçe’nin gelişimi için yapılan projelere daha fazla ilgili insan çeker.
* Meta şirketi RF sınırları içinde aşırıcı örgüt olarak kabul edilmiştir.



