türk lehçeleri arasında yapılacak makine …...türk lehçeleri arasında yapılacak makine...
TRANSCRIPT
Sosyal Araştırmalar ve Davranış Bilimleri Dergisi Journal of Social Research and Behavioral Sciences
ISSN:2149-178X
469
Türk Lehçeleri Arasında Yapılacak Makine Çevirisine Kısa Bir Bakış:
Başkurt Morfolojisinin İki Seviyeli Tanımı Örneğinde1
Dr. Kalmamat KULAMSHAEV2
Özet
Adriyatik’ten Çin seddine kadar uzanan topraklarda Türk dilini konuşan halkların yaşadığı bir
gerçektir. Bu coğrafyada yaşayan topluluklar, herşeyiyle Türk Dünyasını oluşturur. Türk
Dünyası üzerine yapılan çalışmalar, önce batılı bilginler tarafından yürütüldüyse de günümüzde
Türk Dünyası mensuplarınca çok çeşitli boyutlarda yürütüldüğü aşikardır. 1990’lı yıllardan bu
yana dil, tarih, kültür vb. alanlarda gerek Türkiye’de, gerekse Türk Dünyasında bu tür
çalışmaların var hızıyla devam ediyor olması elbette gurur vericidir. Bu çalışmaların, Oğuzhan
Aydın’ın “Bağımsızlıklarının 25. yılında TÜRKSOY’un Türk Topluluklarına Yapmış Olduğu
Katkılar” adlı yazısında belirttiği gibi, Türk Dünyası üzerine her alanda yapılan faaliyetlerin
resmini çıkararak ilgili tüm birimlerin konuya yönelik planlamalarına büyük katkı sağlayacağı
kesindir. Böylece, 1990’lı yıllardan itibaren yapılan faaliyetlerin içinde zayıf kalan yönün, Türk
dilleri ve Türkçe üzerinde Doğal Dil İşleme alanında yapılan çalışmaların başlangıç seviyesinde
olduğunu görüyoruz. Her ne kadar Türkçe için Türkiye’de önde gelen üniversitelerde Bilgisayar
Mühendisliği Bölümlerinde bilimsel araştırmalar yapılıyor olsa da, Türkî Dillerde yapılan
çalışmalar dar bir kapsamda kalmıştır. Bunun temel nedenlerinden bir tanesi bu dillerde yetkin
araştırmacıların olmaması ve Türk Lehçelerini öğreten Çağdaş Türk Lehçeleri Bölümleri ile
Bilgisayar Mühendisliği Bölümleri arasında bilimsel iş birliği ve ortak proje çalışmalarının
yeterince yapılamamış olmasıdır. Bu bildiride, üzerinde çalışmakta olduğum daha büyük bir
Başkurtça-Türkçe Makine Çevirisi projesi olarak düşündüğüm programın bir parçası olan,
Oflazer’in iki seviyeli Doğal Dil İşleme açısından Başkurtçanın orthografysine/ imla yapısına ve
morphotactic/ morfolojik çözümlenmesine kısa bir bakış sunulacaktır.
Anahtar Kelimeler: Türk Dünyası, Türk Dilleri, Makine çevirisi, Doğal dil işleme, Sonlu
durum makinesi.
A Brief Overview On The Machine Translation Among Turkic Dialects: In
The Example Of Two Level Description Of Bashkır Morphology
Abstract
It is a fact that the territories from Adriatic through The Great Walls of China are inhabited by
Turkic speaking people. These communities with their everything belong to Turkish World.
1 Bu makale 21–23 Ekim 2018 tarihleri arasında Antalya’da düzenlenen II. Uluslararası Sosyal
Araştırmalar ve Davranış Bilimleri Sempozyumu’nda sunulan özet bildirinin geliştirilmiş halidir.
2 Kırgız Cumhuriyeti Yazarlar Birliği Üyesi, Türkolog, tercüman, şair, [email protected]
Sosyal Araştırmalar ve Davranış Bilimleri Dergisi, 2019, Cilt 5, Sayı 8, s. 469-483.
470
Although the studies on the Turkish World initially were conducted by the western scholars, it is
known that currently different studies about its various aspects have been carried out by the
members of the Turkish World. Certainly, it is a pride to see that from 1990s the researches in
the fields of language, culture, history and etc. continue to be carried out at full steam as in
Turkey, as well as in the Turkish World. Of course, as Oğuzhan Aydın mentioned in his writing
“The Contribution of TURKSOY to Turkic Communities in its 25th Anniversary”, these works
will make a great contribution to the planning of all the bodies regarding the subject by showing
the big picture of all the works done in every field in Turkish World. Thus, we can see that the
weakness of the studies carried out from 1990s up to nowadays is that the level of the studies in
the field of Natural Language Processing of Turkic languages and Turkish is at a beginner level.
Although different scientific researches are being carried out on Turkish by the Computer
Engineering Departments of the leading universities in Turkey, the studies on Turkic
Languages remain narrow. One of the reasons for this is the lack of the competent researchers
on these languages and insufficiency of the cooperation and joint studies between Modern
Turkic Dialects Departments and Computer Engineering Departments.
In this paper, a brief review of the orphographic and morphotactic analysis of Bashkir in terms
of Oflazer’s Two Level Language Processing, which is a part of the the program I am currently
working on and planning to present as a bigger Bashkir –Turkish Machine Translation, will be
introduced.
Key Words: Turkish World, Turkic Languages , Machine Translation, Natural Language
Processing, Finite State Machine
Giriş
Son zamanlarda Türk ve Türk dünyası kavramları büyük önem kazanan ve önem arz
eden birer kavramlar haline gelmiştir.
Günümüzde, Adriyatik’ten Çin seddine kadar uzanan topraklarda Türk dilini konuşan
halkların yaşadığı bir gerçektir. Bu coğrafyada yaşayan topluluklar, herşeyiyle Türk
Dünyasını oluşturur. Türk Dünyası üzerine yapılan çalışmalar, önce batılı bilginler
tarafından yürütüldüyse de, günümüzde Türk Dünyası mensuplarınca çok çeşitli
boyutlarda araştırmaların yapıldığı aşikardır. 1990’lı yıllardan bu yana dil, tarih, kültür
vb. alanlarda gerek Türkiye’de, gerekse Türk Dünyasında Türklük bilgisi üzerine
yapılan çeşitli çalışmaların var hızıyla devam ediyor olması elbette gurur vericidir. Bu
tür çalışmaların saptanması, Aydın (2017)’de belirtildiği gibi, Türk Dünyası üzerine her
alanda yapılan faaliyetlerin resmini çıkararak ilgili tüm birimlerin konuya yönelik
planlamalarına büyük katkı sağlayacağı kesindir. Böylece, 1990’lı yıllardan itibaren
yapılan faaliyetlerin içinde zayıf kalan yönün, Türk dilleri ve Türkçe üzerinde Doğal Dil
İşleme alanında yapılan çalışmaların başlangıç seviyesinde olduğunu görüyoruz. Her ne
kadar Türkçe için Türkiye’de önde gelen üniversitelerde Bilgisayar Mühendisliği
Türk Lehçeleri Arasında Yapılacak Makine Çevirisine Kısa Bir Bakış: Başkurt Morfolojisinin İki Seviyeli Tanımı Örneğinde
471
Bölümlerinde bilimsel araştırmalar yapılıyor olsa da, Türkî Dillerde yapılan çalışmalar
dar bir kapsamda kalmıştır.
Aslında “Kyrgyz Orthography and Morphotactics with Implementation in NUVE.”
başlıklı bir bildiride, konuyla ilgili dar kapsamda da olsa yapılan çalışmalardan şu
şekilde bahsetmektedir:
Türk dilleri arasında çeviri amaçlı bir çok projeler ve çalışmalar
yapılmıştır. Onlardan bir tanesi Azerbaycanca–Türkçe arasında Hamzaoğlu
tarafından gerçekleştirilmiştir. Bir diğer çevri sistemi ise Kırım Tatarcası ve
Türkçe arasında Altıntaş tarafından geliştirilmiştir. DILMAC başlangıçta
Türkmence-Türkçe için üretilmiş olan bir Türk Dilleri makine çeviri
sistemidir. Tantuğ tarafından geliştirilen Türkmence -Türkçe bir başka
makine çevirisi de mevcuttur. DILMAC içerisinde Uygurca -Türkçe makine
çevirisi Keskin tarafından yapılmıştır. (GÖRMEZ Z. v., 2016)
Ancak Başkurtça-Türkçe üzerine benzeri bir projenin olmadığı görülmektedir;
dolayısıyla bu bildiride, üzerinde çalışmakta olduğum daha büyük bir Başkurtça-Türkçe
Makine Çevirisi projesi olarak düşündüğüm programın bir parçası olan, Oflazer’in iki
seviyeli Doğal Dil İşleme (NLP) açısından Başkurtçanın orthografysine/ imla yapısına
ve morphotactic/ morfolojik çözümlenmesine kısa bir bakış sunulacaktır.
Başkurtlar
Başkurt etnonimi ІХ.-ХІ. yy’daki kaynaklarda başkard, başgird, başkerd, baskart,
bacgard, başcart, bascert vb. şekillerde geçmektedir. Bir efsaneye göre, Ergenekon
destanında olduğu gibi, düşmanın soykırımına uğrayıp, dağda mahsur kalan Türk
boyunu, bir kurt baş (kılavuz) olmuş ve yol göstererek kurtarmıştır. Bu kurtuluştan
sonra, kurtulan Türk boyu, Başkurt adıyla anılmaya başlamıştır (ЮЛДАШЕВ, 1997.).
Başkurtlar, günümüzde Rusya Federasyonu Başkurdistan Özerk Cumhuriyeti başta
olmak üzere Rusya’nın çeşitli bölgelerinde yaşayan Türk halklarıdır.
1989 istatistiklerine göre, Başkurtların nüfusu 1 milyon 449 bin olup, Başkurtistan’da
Ana dilini konuşanların sayısı ise 1 milyon 75 bin kişidir (a.g.k.).
Başkurt Kiril Alfabesi
Başkurtların İslamiyetin kabul edilişine kadar Run alfabesini, İslamiyetin kabul
edilmesiyle birlikte Arap alfabesini, Sovyetlerin kuruluşundan sonra 1928-1939 yılları
arasında Latin, 1940'dan bu yana Kiril asıllı Başkurt alfabesini kullandığını biliyoruz.
Sosyal Araştırmalar ve Davranış Bilimleri Dergisi, 2019, Cilt 5, Sayı 8, s. 469-483.
472
1. Tablo: Kiril Asıllı Başkurt Alfabesi ve Latince Transkripsiyonu
Kiril Latin Kiril Latin Kiril Latin Kiril Latin
А а a И и i Р р r Ш ш sh
Б б b Й й y С с s Щ щ şç
В в v К к k Ҫ ҫ ŝ / ś Ъ ъ ’
Г г g Ҡ ҡ ḳ/q Т т t Ы ы I
Ғ ғ ġ/ Л л l У у u, w Ь ь ‘
Д д d М м m Ү ү ü, w Э э é, e
Ҙ ҙ ẕ / ź Н н n Ф ф f Ә ә ä
Е е é, ye-, e Ң ң ñ Х х ħ/x Ю ю yu
Ё ё ö, yo- О о ǔ Һ һ h Я я ya
Ж ж j Ө ө ǚ Ц ц ts
З з z П п p Ч ч ch
Başkurtça
Başkurt dili, Ural-Altay dil ailesinin bir kolu olan Türk Dili’nin Kıpçak grubunun
Kıpçak-Bulgar alt grubunda yer alır. Başkurtçaya Kıpçak lehçeleri arasında en yakın
olanı Tatarca’dır. Eklerin varyantlılığı açısından Kazakça ve Kırgızca’ya, dudak uyumu
açısından yine Kırgızcaya yakındır (a.g.k.). Sonuç olarak Başkurtça sondan eklemeli bir
dil olup, yeni kelimelerin türetilmesi için köklere ekler gelerek yapılır. Ekler köklere
gelirken belirli ses değişiklerine uğrar. Elbette ses değişmeleri gelişigüzel rastgele
değişiklikler değildir. Her dilde olduğu gibi Başkurtçanın da kendine özgü ses yapısı,
belirli kanunları, kuralları vardır: kök ve eklerin bir araya gelmesi, ünlü ünlü uyumu,
ünlü ünsüz uyumu, ünsüz ünsüz uyumu vb.
Dilin aslında iki görünümü vardır: birincisi eki almadan önceki, diğeri ek aldıktan
sonraki görünümü. Mesela Türkçede sonu /p/, /ç/, /t/, /k/ ünsüzleriyle biten kelimelere
ünlüyle başlayan bir kelime geldiğinde istisnaları dışında bu ünsüzlerde tonlulaşma
meydana gelecektir.
O halde, sözcüklerin, ek almadan önceki görünümü, sözcük(sel), ek aldıktan sonraki
görünümü ise yüzey(sel) görünümleri olarak karşımıza çıkmakta, bu da iki seviyeli
morfolojik modellemeyi gerektirmektedir (OFLAZER, 1994; bk. Ayrıca: GÖRMEZ Z.
v., GÖKGÖZ, 2011; ÖZTOPRAK, 2015). Konuyla ilgili makalelerde, “İki seviyeli
morfoloji, doğal dillerin morfolojik kurallarını kodlamak için dilden bağımsız bir
yöntem, olduğu “Bu kodlama kelimelerin sözcük ve yüzey olarak iki biçimde temsil
edildiği; İki seviyeli kuralların da dönüşümü tanımladığı (ÖZTOPRAK, 2015; bk.
Ayrıca: OFLAZER, 1994; GÖRMEZ Z. v., GÖKGÖZ, 2011) belirtilmektedir. Burada
Türk Lehçeleri Arasında Yapılacak Makine Çevirisine Kısa Bir Bakış: Başkurt Morfolojisinin İki Seviyeli Tanımı Örneğinde
473
kök ve eklerin, seslerin sıralanışındaki dilin doğal işleyişindeki koşulları3 sağ ve sol
koşul olarak belirtilerek, hangi koşulda ne tür dönüşüm olacağı kuralı tanımlanmıştır.
Oflazer (1994) Türkçenin fonetik kurallarını 22 iki-seviyeli kurallara göre kodladığını,
şekil yapısını da fiil yapımı, isim yapımı ve çekim örnekleriyle, sonlu durum
makinelerine uygun olarak (finite-state) kodlanabilirliğini örneklerle kanıtlamıştır.
Kodlamalarda elbette bizim bildiğimiz gramer kurallarından biraz farklı yöntemler
kullanıldığını söyleyebiliriz. Ama yine de bu kodlamalar dilin fonetik ve morfonolojik
yapısının doğal işleyişine uygun olarak düzenlenmesi gerekir.
Başkurtça Sesler
Ünlüler Ve Ünlülerin Sınıflandırılması
Kiril asıllı Başkurt alfabesinde ünlüler için kullanılan 10 harf vardır: а, ә, о, ө, у, ү, е,
э, и, ы. Yuldaşev (1997) ünlüleri şu şekilde sınıflandırmıştır:
2. Tablo. Başkurtça Ünlülerin Sınıflandırılması.
Çen
enin
du
rum
a g
öre
Teşekkül noktasına
göre
Sıra
Ön Arka
Dudağın durumuna
göre
Düz Dudak Düz Dudak
Dar и (i) ү (ü) у (u)
Yarı dar е (é) ы (ı)
Yarı geniş ө (ǚ) o (ŭ)
Geniş ә (ä) а (a)
Ünsüzler Ve Sınıflandırılması
Başkurt Türkçesinde 26 ünsüz vardır. Bu ünsüzlerin, Yuldaşev (1997)’de yapılan
sınıflandırılması, biraz değişiklik yapılarak aşağıdaki tabloda gösterilmektedir:
3. Tablo. Başkutça Ünsüzlerin Sınıflandırılması.
TEŞEKKÜL TARZINA GÖRE
(TEMAS DERECESİNE
TEŞEKKÜL NOKTASINA GÖRE
Dudak Ön damak
3 Örneğin: /t/ ve /d/ ile başlayan eklerin ne zaman /t/ ne zaman /d/ olacağı geleneksel dil öğretiminden de
bildiğimiz üzre, geldikleri kelime tabanının, fıstıkçışahap’tan biriyle bitmesi koşuluna; /p/, /ç/, /t/, /k/ ile
biten kelimelerde bu son seslerin yumuşamasının istisnaları dışında yumuşası, bu seslerle biten
kelimelerden sonra ünlü ile başlayan bir morfemin gelmesi koşuluna bağlıdır.
Sosyal Araştırmalar ve Davranış Bilimleri Dergisi, 2019, Cilt 5, Sayı 8, s. 469-483.
474
GÖRE)
Çif
t dud
ak
Diş
dud
ak
Dil
üst
ü
Diş
ara
sı
Diş
- d
iş e
ti
Ön
dam
ak
Ort
a d
amak
Ort
a d
il
Dil
ard
ı
Kü
çük
dil
Bo
ğaz
Ha
va
ak
ışın
a g
öre
Patlamalı sedalı б (b) т (t) д (d) г (g)
sedasız п (p) ч (ç) к (k) ҡ (ķ/q)
Sızıcı
Tek
fok
uslu
sedalı у~ү (w) в (v) з (z) ҙ (z) с (s) ғ (ġ/ğ) h (h)
sedasız ф (f) ҫ (s) x (ħ)
Çift
foku
slu
sedalı ж (j)
sedasız ш (ş)
so
nor
Akıcı й (y)
Patlayıcı Geniz м (m) н (n) ң (ñ)
Sürekli Avurt л (l)
Titrek p (r)
NOT: y’eleşen harfler olarak bildiğimiz, “Ё ё” harfi /y/ ve /o/, “Ю ю” harfi /y/
ve /u/, “Я я” harfi ise /y/ ve /a/ seslerinden oluşan birleşik sestir. Ayrıca çift ses olarak
“Ц ц” harfi /t/ ve /s/, “Щ щ” harfi de /ş/ ve /ç/ seslerinden oluşmaktadır ve ödünç alınan
kelimelerde kullanılmaktadır. Bunların dışında Rusça ve Rusça vasıtasıyla geçen
kelimelerde görülen ayırma/ kalınlaştırma işareti “Ъ ъ” ile inceltme işareti “Ь ь”
Ses Uyumları
4. Tablo. Ünlü Uyumu.
Kelimenin son
hecesindeki ünlü ekin ünlüsü
Örnek kelimeler
а, у, ы, ю, я a, ы барыу, барлыҡтан, ҡулдан, юғарыға, һораны
е, и, ү, ә е,ә күтәрелгәнең, күрсетеп, күмләкте, көлгә, сине,
миндән , тәгәрәгәндәр
о о, а бороу, ҡоролдо, бойорғанда ,ҡоштоҡомы
ө ө, ә өйөнә , теләгән, өшөнө ,
5. Tablo. Ünsüz Uyumu
Kelimenin son
ünsüzü
Ekin başındaki
ünsüz
Örnek kelimeler
-ж, -з, -л, -м, -н, -ң д-, г-, ғ- багаждары, ихтыяждан, персонаждар, репортажды,
тиражға, колхозда, билде, миндә, һиндә, туғанда,
закондар
-ҙ , -и, -й, -р, -у, -ү ҙ-, г-, ғ- беҙҙеке , сүҙгә, тигән, йәйгән, ҡуйҙы, торҙо,
асыуҙан , килеүгә
-ҡ , -к, -п, -с, - ҫ, -т, -
ф, -х, -ш ҡ -, к-, т- халыҡҡа, ҡунаҡта , аҫҡыстағы, курста, хәрефкә,
шкафка, тарихты, ожмахтан, юлдашҡа
NOT: Ünsüz-ünsüz uyumuna isimden isim yapma eki olan –lIk, soru eki –mI ve
olumsuzluk eki -mA uymaz; ayrıca kilterew “getirmek” fiilinde görülen -DIr eki de bu
bağlamda -her ne kadar kalıplaşmış olsa da- istisna olarak bu uyum dışındadır.
Türk Lehçeleri Arasında Yapılacak Makine Çevirisine Kısa Bir Bakış: Başkurt Morfolojisinin İki Seviyeli Tanımı Örneğinde
475
İki Seviyeli Kurallar
Başkurtçada, görüldüğü gibi, ünlü uyumları da, ünsüz uyumu da güçlüdür. Bu da,
bildirinin başında bahsedildiği gibi, Başkurtçada eklerin çok varyantlı olduğuna işaret
etmektedir. Bu da, Başkurtçanın morfolojisinin iki seviyeli kodlanmasında, dilin fonetik
ve morfonolojik yapısının doğal işleyişine uygun olarak, ünlü ve ünsüz uyumlarına göre
değişen seslerin çok dikkat edilerek kodlanmasını, kodlanması için de seslerin
özelliklerinin net olarak programa tanıtılmasını gerektirmektedir:
Dar ünlüler : и /i/, ү /ü/, у /u/
Yarı dar : е /é/, ы (ı)
Yarı geniş : ө (ǚ), o (ŭ)
Geniş : ә (ä), а (a)
Sedalı konsonantlar : б, г, ғ, д, ҙ , ж, з, й, л, м, н, ң р, у, ү,
Sedasız konsonantlar: к, ҡ, п, с, ҫ, т, ф, ц, х, ш, щ
Kiril asıllı alfabe olmasından dolayı Başkurt alfabesindeki çift sesi karşılayan
harfler ise (ё /yo/, я /ya/, ю /yu/, ц /ts/, щ /şç/), bünyesindeki harflerin özelliklerine
göre aşağıda resimde görüldüğü gibi sınıflandırılacaktır (bkz. 1. Resim). Yine hem ünlü
у /u/, ү /ü/, hem ünsüzü (у, /w/ kalın, ү /w/ ince) karşılayan harfler ise sadece ünlüler
kümesinde yer alacaktır. Programa gerektiği yerlerde eklenecektir.
Başkurtçada daha önce bahsedildği üzre, eklerin çok varyantları vardır. Bu da aynı ek
olup, ünlü ve ünsüz uyumlarına göre değişen seslerin büyük harflerle kodlanmasını
gerektirmektedir; ki, bu kodlanan harfler ortography.xml dosyasındaki alfabe
tanımlamasına konulacak (bk. 1. Resim) ve kodlanan harflerin dönüşüm kuralları
yazılacaktır. Mesela çokluk ekinin Başkurtçada ünlüsü iki, ünsüzü dört şekilli olmak
üzere 8 varyantı vardır. Görüldüğü gibi hem ünsüzü hem ünlüsünde değişiklik vardır. O
halde ortography.xml dosyasında kodlanan seslerin Başkurtça ünsüz uyumu
çerçevesinde dönüşüm L kuralı, tanımlanacaktır; ayrıca ünlü uyumu çerçevesinde de
dönüşüm A kuralı da yazılacaktır. Bu dönüşüm hangi eklerde görülüyorsa, suffix.txt
dosyasında, gerekli eklerin karşısında (rules/dönüşüm sütununda) belirtilecektir (bk. 2.
Resim).
1. RESİM. Ortography.xml dosyası
Sosyal Araştırmalar ve Davranış Bilimleri Dergisi, 2019, Cilt 5, Sayı 8, s. 469-483.
476
2. RESİM. suffix.txt dosyası.
Böylece ortography.xml dosyasında değişen seslerinin dönüşüm kuralları tanımlanan ve
sözcüksel düzeyde LAr olarak kodanan ek, surfaces/ yüzeysel kolonunda görülen
dönüşüm varyantları olarak gerçeklenmesini sağlayacaktır, ancak kelimelerin de root.txt
dosyasında işlenmiş olması gerekmektedir (bk. 3 Resim).
3. RESİM. Root.txt dosyası.
Sözcüksel : китап+LAr isim(kitap)+ IC_COGUL_Lar
Yüzeysel : китап0тар китаптар
Bu bütün benzer kodlu ekler için geçerli olacaktır.
Elbette bu bildiride, Başkurtçanın imla yapısını (ortography) ve şekilsel işleyiş
döngüsünü (morphotactic) sığdırmak mümkün değildir; dolayısıyla, üzerinde çalışmakta
olduğum daha büyük bir Başkurtça-Türkçe Makine Çevirisi projesi olarak düşündüğüm
programın bir parçası olan, Oflazer’in iki seviyeli Doğal Dil İşleme açısından
Başkurtçanın orthografysine/ imla yapısı ile morphotactic/ morfolojik çözümlenmesine
kısa bakış sunulabilmek için birkaç kural verilecektir.
Türk Lehçeleri Arasında Yapılacak Makine Çevirisine Kısa Bir Bakış: Başkurt Morfolojisinin İki Seviyeli Tanımı Örneğinde
477
Yumuşama Kuralı
1. k:g <=> V __ +:0 (@:0)V
2. q:ğ <=> V __ +:0 (@:0)V 3. 3. p:b <=> V __ +:0 (@:0)V
Bu kural, önceki morfemin к /k/, ҡ /q/, п /p/ sesleri ile bitmesi, sonraki
morfemin ünlü ile başlaması koşulunu gerektirmektedir (bk. ZAFER, 2011; ayrıca bk.
OFLAZER, 1994). Bu kuralda, bir ekin gelmesiyle kelime tabanında eşzamanlı olarak
gerçekleşen bir ses olayı tanımlanmaktadır.
YUMUSAMA_кг
Sözcüksel : күлдәк+Uң ISIM (gömlek)+ IC_SAHIPLIK_SEN_(U)n
Yüzeysel : күлдег0ем күлдәгем (gömleğim)
YUMUSAMA_ҡғ
Sözcüksel: тараҡ+sU+минән ISIM (tarak)+IC_SAHIPLIK_O_(s)U +
IC_HAL_VASITA_minän
Yüzeysel : тарағ00ы_минән тарағы минән (tarağıyla, tarağı ile)
YUMUSAMA_пб
Sözcüksel : китап+Uм ISIM (kitap)+IC_SAHIPLIK_BEN_(U)m
Yüzeysel : китаб0ым китабым (kitabım)
Kelime tabanında gerçekleşen ses olayları için ses olayının adı ile değişen
seslerin harf karşılıkları girilerek kural yazılır ve root.txt dosyasında adı geçen ses
olayının gerçekleştiği kelimelerin surface/ yüzesyel kolonuna değiştiği hali yazılacaktır
(bk. 3.Resim). Kelime tabanının son sesine göre gelen ekin de değişime uğradığı
durumlar için dönüşüm kuralları tanımlanmıştır.
Dönüşüm Kuralları
DONUSUM_L
1. L:д л | м, н | ң | з | ж (‘:’) +:0 __
2. L:т б | в | г | д | к | ҡ | п | ҫ | с | т | ф | х | һ | ц | ч | ш | щ (‘:’) +:0
3. L:ҙ L:т<=> ҙ | й | р | у | ү | и | ю (‘:’) +:0
Yukarıdaki dönüşüm kuralının tamımına göre, sözcüksel L’nin dönüşümü,
belirtilen koşullarda yüzeyde, sırasıyla L=>д, L=>т, L=>ҙ olarak, diğer durumlarda
L=>л olarak gerçekleneceği anlaşılmaktadır.
Sosyal Araştırmalar ve Davranış Bilimleri Dergisi, 2019, Cilt 5, Sayı 8, s. 469-483.
478
Sözcüksel : һан+LAр ISIM (sayı)+IC_COGUL_LAr
Yüzeysel : һан0дар һандар (sayılar)
Sözcüksel : мәктәп+LAр ISIM (mektep)+ IC_COGUL_LAr
Yüzeysel : мәктәп0тәр мәктәптәр
Sözcüksel : тоҙ ISIM (tuz)+ IY_SIFAT_sUz+IC_COGUL_LAr
Yüzeysel : тоҙ0һоҙ0ҙар тоҙһоҙҙар (tuzsuzlar, beceriksizler)
Sözcüksel : һоло+LAр ISIM(yulaf)+ IC_COGUL_LAr
Yüzeysel : һололар һололар (yulaflar)
Bu kural, DONUSUM_L koşulları doğrultusunda dönüşüm yapan ekler için de
uygulanabilir. Mesela:
Sözcüksel : мин+LA ZAMIR(ben)+IC_HAL_BULUNMA_LA
Yüzeysel : мин0дә миндә
Sözcüksel : ҡош+LA ISIM (kuş)+IC_HAL_BULUNMA_LA
Yüzeysel : ҡош0та ҡошта (kuşta)
Sözcüksel : күҙ+LA ISIM (göz) IC_HAL_BULUNMA_LA
Yüzeysel : күҙ0ҙә күҙҙә (gözde)
Sözcüksel : ҡала+LA ISIM(şehir)+IC_HAL_BULUNMA_LA
Yüzeysel : ҡала0ла ҡалала (şehirde)
Sözcüksel : кеше+LA ISIM (kişi)+IC_HAL_BULUNMA_LA
Yüzeysel : кеше0лә кешелә (kişide)
DONUSUM_I
I : ы => а | о | у | ы | ю | я (‘:’) +:0
I : е => ә | е | и | ө | ү (‘:’) +:0
Yukarıdaki dönüşüm kuralının tamımına göre, sözcüksel I’nın döşnüşümü,
belirtilen koşullarda yüzeyde, sırasıyla I=>ы, I=>е olarak gerçekleneceğini
anlatmaktadır. Bu kuralı ortography.xml dosyasındaki tanımlanması, 4. Resimde
gösterilmektedir.
Sözcüksel : юҡ +hIн +Gaн ISIM(yok)+IY_FIIL_sIn+
FC_ZAMAN_GORULEN_UZAK_GECMIS_GAn
+SAHIS_ZAMIR_BEN_mUn
Yüzeysel : юҡ0һын0ған0мын юҡһынғанмын (sıkılmıştım, özlemiştim)
Türk Lehçeleri Arasında Yapılacak Makine Çevirisine Kısa Bir Bakış: Başkurt Morfolojisinin İki Seviyeli Tanımı Örneğinde
479
4. RESIM. DONUSUM_I kuralı otrografy.xml.
Düşme Kuralları
DUSME_UNLU
A | U : 0 = > V+:0__@*
Bu düşme kuralının tamımına göre, sözcüksel A | U kodlarının karşıladıkları
sesler, belirtilen koşullarda yüzeyde düşer. Düşen sesler suffix.txt dosyasında parantez
içine alınarak kodlanacaktır (bk. 2. Resim).
Sözcüksel : ҡала+Uң ISIM (şehir)+IC_SAHIPLIK_SEN_(U)n
Yüzeysel : ҡала00ң ҡалаң (şehrin).
DUSME_UNSUZ
s : 0 = > V+:0__@*
Bu düşme kuralının tamımına göre, sözcüksel (s), belirtilen koşullarda yüzeyde
düşer.
Sözcüksel : күҙ+sU ISIM (göz)+IC_SAHIPLIK_O_(s)U
Yüzeysel : күҙ00е күҙе (gözü)
Başkurtçanın Şekilsel İşleyiş Yapısı
Kelimeler; kök ve eklerden oluşur. Kök ile ekin her biri, birer morfemdir. Morfemler
ise, asıl ve yardımcı morfemler olarak ikiye ayrılır. Asıl morfemler kelime tabanıdır,
yardımcı morfemler ise yapım ve çekim ekleridir. Her morfem bir gramatikal şekli
oluşturur. Her gramatikal şeklin gramatikal anlamı vardır. Mesela “dil” asıl morfemdir
ve bir gramatikal şekildir, gramatikal anlamı da isimdir; Çekim eki, asıl morfemlere
gelerek, sadece gramatikal şeklini değiştirirken, yapım ekleri ise gramatikal şeklin
Sosyal Araştırmalar ve Davranış Bilimleri Dergisi, 2019, Cilt 5, Sayı 8, s. 469-483.
480
gramatikal anlamlarına da etki ederler; Mesela, dil kelimesinin, +de hâl eki aldığındaki
gramatikal anlamı yine isimdir, sadece bulunma hâli ile çekimlenmiş isimdir; -e
yapım eki gelince ise, gramatikal anlamı fiil oluyor. Artık, dile- fiili olarak, kendisinden
sonra fiil çekim ve fiil yapım ekleri alacaktır. Bildiri konusunun bir yönünü oluşturan,
Başkurtçadaki bu işleyiş döngüsü, sonlu durum makinelerine uygun iki seviyeli
kurallarla tanıtılmış, test edilmiştir.
5. RESİM. Morfemlerin sıralanışının şematik gösterimi.
5. Resim’de şemada gösterildiği gibi yapım ekleri ise asıl morfemlere gelerek,
yeni bir gramatikal şekil oluşturur. Yeni gramatikal şekil demek yeni bir gramatikal
anlamdır. Bunları, sonlu durum makinalarına tanımlamak için her bir gramatikal şekli,
yani morfemi, tanımlayan birer “id” tanımlanacaktır; Örneğin: ISIM: isimlerin genel
“id”sidir; SIFAT: sıfatların genel “id”sidir; FIIL: fiillerin genel “id”sidir vb.. Yardımcı morfemlere de fonksiyonlarına göre IC (isim çekim eklerin genel “id”si), IY
(isimden isim yapan eklerin genel “id”si), FC (fiil çekim eklerinin genel “id”si) vb.
“id”ler verilmesi gerekir (bk. 2. ve 3. Resim). Çekim ve yapım eklerinin ise, önce
grulandırılmaları gerekir; HAL (ad durum eklerinin grup id’si), IYELIK (sahiplik
eklerinin grup id’si), IY_ISIM (isimden isim yapım eklerinin grup id’si), FC_ZAMAN
(bildirme kiplerinin grup id’si), ZAMIR_IYELIK (iyelik menşeli şahıs eklerinin grup
id’si) vb. olarak Grup id’lerinin de kodlanması gerekir. Yani her gramatikal şeklin
Türk Lehçeleri Arasında Yapılacak Makine Çevirisine Kısa Bir Bakış: Başkurt Morfolojisinin İki Seviyeli Tanımı Örneğinde
481
gramatikal anlamları için birer “id” oluşturacak ve bu gramatikal şekillerin listelendiği
.xml ve .txt dosyalarında bu “id”ler kullanılacaktır. (bk. 2. ve 3 Resim).
Mesela;
байҙыҡынан (zengininkinden) kelimesi, her birisi birer gramatikal anlama sahip
üç gramatikal şekilden -yani üç morfemden- oluşmaktadır. Gramatikal anlamı, sırasıyla
genel aitlik eki ve çıkma hali ile çekimlenmiş isimdir. Yani, -ҙыҡы (-nın-ki) genel aitlik
ekli бай “zengin” kelimesinin ayırılma hali ile çekimlenmiş halidir. Sonlu durum
makinesinde bu çekimin gerçeklenmesi aşağıdaki gibi test edilmiştir ve kusursuz sonuç
elde edilmiştir:
Sözcüksel : бай ISIM(zengin)+IC_AITLIK_NUQU
+IC_HAL_AYRILMA_DAn
Yüzeysel : бай0ҙыҡы0нан байҙыҡынан (zengininkinden)
İsimden fiil yapım eki almış тел “dil” isminin çoğul birinci şahıs görülen uzak
geçmiş zaman çekiminin sonlu durum makinesinde çekimlenmesi de test edilmiş olup
aşağıdaki gibi kusursuz şekilde gerçeklenmiştir.
Sözcüksel :тел ISIM (dil)+IY_FIIL_A+
FC_ZAMAN_GORULEN_UZAK_GECMIS_GAn
+SAHIS_ZAMIR_BIZ_bUz]
Yüzeysel : тел0ә0гән0беҙ теләгәнбеҙ (dilemişiz)
Sonuç
Bu çalışmada Oflazer’in uyguladığı iki seviyeli morfoloji kuralları çerçevesinde
Başkurtça’nın morfonolojik yapısı incelenmiştir. Çalışmanın neticesinde Başkurtçanın
morfonolojik yapısı, sonlu durum makinaları (FSM) için iki seviyeli kurallarla
tanımlanması mümkün olduğu ispat edilmiştir. Başkurtçanın morfonolojik yapısından
hareketle, sonlu durum makinaları için uygun imla kuralları oluşturulmuş olup, bunlar
hazır çatı üzerinde denenmiş ve başarılı olduğu kanıtlanmıştır. Bu projenin nihayi hedefi
Başkurtça ve Türkçe başta olmak üzere, diğer Türk lehçeleri arasında karşılıklı
elektronik çeviri gerçekleştirmektir. Dolayısıyla Başkurtça’nın iki seviyeli morfonolojik
kuralları oluştulurken, Türkçe ve diğer Türk lehçeleri de göz önünde bulundurulmuştur.
Dilin iki seviyeli morfonolojik kurallarının çıkartılmasında, elektronik çeviri
programlarına yapay zeka kazandırılabileceği de ön görülmüştür. Çünkü sonlu durum
Sosyal Araştırmalar ve Davranış Bilimleri Dergisi, 2019, Cilt 5, Sayı 8, s. 469-483.
482
makinelerinde, Türk lehçelerinin iki seviyeli morfonolojisinin tanımlanmış olmasıyla
kaynak ve hedef dillerdeki kelimeler, sadece sözlükteki karşılıklarıyla
eşleştirilmeyecektir; aldığı eklerin eşleştirilmesine, hatta fonksiyonlarının bile
eşleştirilmesine imkan doğacaktır.
Çalışmalarımı sonlu durum makinasında (NUVE) test edebilmem için benimle bu yazılımı
paylaşan sayın Harun Reşit Zafer’e, bu programın online versiyonunu yapan değerli Ahmet Eralp
Küçük’e teşekkür ederim.
Kaynakça
AYDIN, O. (2017). Bağımsızlıklarının 25.Yılında Türksoy’un Türk Topluluklarına
Yapmış Olduğu Katkılar. В Uluslararası Sosyal Bilimler Kongresi:
Türkistan Forumu III “Küreselleşme Sürecinde Türk Dünyasının
Geleceği” (стр. 955-967).
GÖKGÖZ, E. v. (2011). Two-Level Qazan Tatar Morphology. В 1st International
Conference on Foreign Language Teaching and Applied Linguistics May
5-7 2011 Sarajevo (стр. 428-431). Saraevo.
GÖRMEZ, Z. v. (2016). Kyrgyz Orthography and Morphotactics with
Implementation in NUVE. INTERNATIONAL CONFERENCE ON
ENGINEERING AND NATURAL SCIENCE. SARAJEVO.
GÖRMEZ, Z. v. (б.д.). An Overview of Two Level Finite State Kyrgyz
Morphology. The 2. International Symposium on Computing in Science &
Engineering (ISCSE .
OFLAZER, K. (1994). Two-level Desctiption of Turkish Morphology. Literary and
Linguistic Computing Volume9, Is-sue2, 137-148.
ÖZTOPRAK, S. v. (2015). An Implementation of Tatar Orthography Using The
Nüve Framework. В 3rd International Conference on Computer
Processing In Turkic Languages (TURKLANG 2015) (стр. 127-137).
Kazan: Akademi of Sciences of the Republic Tatarstan Press.
Türk Lehçeleri Arasında Yapılacak Makine Çevirisine Kısa Bir Bakış: Başkurt Morfolojisinin İki Seviyeli Tanımı Örneğinde
483
ZAFER, H. R. (2011). 1st International Conference on Foreign Language
Teaching and Applied Linguistics May 5-7 2011 Sarajevo. Two-Level
Description of Kazakh Morphology, (стр. 506-564). Sarajevo.
ЮЛДАШЕВ, А. (1997.). Башкирский язык. В Языки Мира: Тюркские Языки
(стр. 206-224.). Бишкек.