türk lehçeleri arasında yapılacak makine …...türk lehçeleri arasında yapılacak makine...

Sosyal Araştırmalar ve Davranış Bilimleri Dergisi Journal of Social Research and Behavioral Sciences

ISSN:2149-178X

469

Türk Lehçeleri Arasında Yapılacak Makine Çevirisine Kısa Bir Bakış:

Başkurt Morfolojisinin İki Seviyeli Tanımı Örneğinde1

Dr. Kalmamat KULAMSHAEV2

Özet

Adriyatik’ten Çin seddine kadar uzanan topraklarda Türk dilini konuşan halkların yaşadığı bir

gerçektir. Bu coğrafyada yaşayan topluluklar, herşeyiyle Türk Dünyasını oluşturur. Türk

Dünyası üzerine yapılan çalışmalar, önce batılı bilginler tarafından yürütüldüyse de günümüzde

Türk Dünyası mensuplarınca çok çeşitli boyutlarda yürütüldüğü aşikardır. 1990’lı yıllardan bu

yana dil, tarih, kültür vb. alanlarda gerek Türkiye’de, gerekse Türk Dünyasında bu tür

çalışmaların var hızıyla devam ediyor olması elbette gurur vericidir. Bu çalışmaların, Oğuzhan

Aydın’ın “Bağımsızlıklarının 25. yılında TÜRKSOY’un Türk Topluluklarına Yapmış Olduğu

Katkılar” adlı yazısında belirttiği gibi, Türk Dünyası üzerine her alanda yapılan faaliyetlerin

resmini çıkararak ilgili tüm birimlerin konuya yönelik planlamalarına büyük katkı sağlayacağı

kesindir. Böylece, 1990’lı yıllardan itibaren yapılan faaliyetlerin içinde zayıf kalan yönün, Türk

dilleri ve Türkçe üzerinde Doğal Dil İşleme alanında yapılan çalışmaların başlangıç seviyesinde

olduğunu görüyoruz. Her ne kadar Türkçe için Türkiye’de önde gelen üniversitelerde Bilgisayar

Mühendisliği Bölümlerinde bilimsel araştırmalar yapılıyor olsa da, Türkî Dillerde yapılan

çalışmalar dar bir kapsamda kalmıştır. Bunun temel nedenlerinden bir tanesi bu dillerde yetkin

araştırmacıların olmaması ve Türk Lehçelerini öğreten Çağdaş Türk Lehçeleri Bölümleri ile

Bilgisayar Mühendisliği Bölümleri arasında bilimsel iş birliği ve ortak proje çalışmalarının

yeterince yapılamamış olmasıdır. Bu bildiride, üzerinde çalışmakta olduğum daha büyük bir

Başkurtça-Türkçe Makine Çevirisi projesi olarak düşündüğüm programın bir parçası olan,

Oflazer’in iki seviyeli Doğal Dil İşleme açısından Başkurtçanın orthografysine/ imla yapısına ve

morphotactic/ morfolojik çözümlenmesine kısa bir bakış sunulacaktır.

Anahtar Kelimeler: Türk Dünyası, Türk Dilleri, Makine çevirisi, Doğal dil işleme, Sonlu

durum makinesi.

A Brief Overview On The Machine Translation Among Turkic Dialects: In

The Example Of Two Level Description Of Bashkır Morphology

Abstract

It is a fact that the territories from Adriatic through The Great Walls of China are inhabited by

Turkic speaking people. These communities with their everything belong to Turkish World.

1 Bu makale 21–23 Ekim 2018 tarihleri arasında Antalya’da düzenlenen II. Uluslararası Sosyal

Araştırmalar ve Davranış Bilimleri Sempozyumu’nda sunulan özet bildirinin geliştirilmiş halidir.

2 Kırgız Cumhuriyeti Yazarlar Birliği Üyesi, Türkolog, tercüman, şair, [email protected]

Sosyal Araştırmalar ve Davranış Bilimleri Dergisi, 2019, Cilt 5, Sayı 8, s. 469-483.

470

Although the studies on the Turkish World initially were conducted by the western scholars, it is

known that currently different studies about its various aspects have been carried out by the

members of the Turkish World. Certainly, it is a pride to see that from 1990s the researches in

the fields of language, culture, history and etc. continue to be carried out at full steam as in

Turkey, as well as in the Turkish World. Of course, as Oğuzhan Aydın mentioned in his writing

“The Contribution of TURKSOY to Turkic Communities in its 25th Anniversary”, these works

will make a great contribution to the planning of all the bodies regarding the subject by showing

the big picture of all the works done in every field in Turkish World. Thus, we can see that the

weakness of the studies carried out from 1990s up to nowadays is that the level of the studies in

the field of Natural Language Processing of Turkic languages and Turkish is at a beginner level.

Although different scientific researches are being carried out on Turkish by the Computer

Engineering Departments of the leading universities in Turkey, the studies on Turkic

Languages remain narrow. One of the reasons for this is the lack of the competent researchers

on these languages and insufficiency of the cooperation and joint studies between Modern

Turkic Dialects Departments and Computer Engineering Departments.

In this paper, a brief review of the orphographic and morphotactic analysis of Bashkir in terms

of Oflazer’s Two Level Language Processing, which is a part of the the program I am currently

working on and planning to present as a bigger Bashkir –Turkish Machine Translation, will be

introduced.

Key Words: Turkish World, Turkic Languages , Machine Translation, Natural Language

Processing, Finite State Machine

Giriş

Son zamanlarda Türk ve Türk dünyası kavramları büyük önem kazanan ve önem arz

eden birer kavramlar haline gelmiştir.

Günümüzde, Adriyatik’ten Çin seddine kadar uzanan topraklarda Türk dilini konuşan

halkların yaşadığı bir gerçektir. Bu coğrafyada yaşayan topluluklar, herşeyiyle Türk

Dünyasını oluşturur. Türk Dünyası üzerine yapılan çalışmalar, önce batılı bilginler

tarafından yürütüldüyse de, günümüzde Türk Dünyası mensuplarınca çok çeşitli

boyutlarda araştırmaların yapıldığı aşikardır. 1990’lı yıllardan bu yana dil, tarih, kültür

vb. alanlarda gerek Türkiye’de, gerekse Türk Dünyasında Türklük bilgisi üzerine

yapılan çeşitli çalışmaların var hızıyla devam ediyor olması elbette gurur vericidir. Bu

tür çalışmaların saptanması, Aydın (2017)’de belirtildiği gibi, Türk Dünyası üzerine her

alanda yapılan faaliyetlerin resmini çıkararak ilgili tüm birimlerin konuya yönelik

planlamalarına büyük katkı sağlayacağı kesindir. Böylece, 1990’lı yıllardan itibaren

yapılan faaliyetlerin içinde zayıf kalan yönün, Türk dilleri ve Türkçe üzerinde Doğal Dil

İşleme alanında yapılan çalışmaların başlangıç seviyesinde olduğunu görüyoruz. Her ne

kadar Türkçe için Türkiye’de önde gelen üniversitelerde Bilgisayar Mühendisliği

Türk Lehçeleri Arasında Yapılacak Makine Çevirisine Kısa Bir Bakış: Başkurt Morfolojisinin İki Seviyeli Tanımı Örneğinde

471

Bölümlerinde bilimsel araştırmalar yapılıyor olsa da, Türkî Dillerde yapılan çalışmalar

dar bir kapsamda kalmıştır.

Aslında “Kyrgyz Orthography and Morphotactics with Implementation in NUVE.”

başlıklı bir bildiride, konuyla ilgili dar kapsamda da olsa yapılan çalışmalardan şu

şekilde bahsetmektedir:

Türk dilleri arasında çeviri amaçlı bir çok projeler ve çalışmalar

yapılmıştır. Onlardan bir tanesi Azerbaycanca–Türkçe arasında Hamzaoğlu

tarafından gerçekleştirilmiştir. Bir diğer çevri sistemi ise Kırım Tatarcası ve

Türkçe arasında Altıntaş tarafından geliştirilmiştir. DILMAC başlangıçta

Türkmence-Türkçe için üretilmiş olan bir Türk Dilleri makine çeviri

sistemidir. Tantuğ tarafından geliştirilen Türkmence -Türkçe bir başka

makine çevirisi de mevcuttur. DILMAC içerisinde Uygurca -Türkçe makine

çevirisi Keskin tarafından yapılmıştır. (GÖRMEZ Z. v., 2016)

Ancak Başkurtça-Türkçe üzerine benzeri bir projenin olmadığı görülmektedir;

dolayısıyla bu bildiride, üzerinde çalışmakta olduğum daha büyük bir Başkurtça-Türkçe

Makine Çevirisi projesi olarak düşündüğüm programın bir parçası olan, Oflazer’in iki

seviyeli Doğal Dil İşleme (NLP) açısından Başkurtçanın orthografysine/ imla yapısına

ve morphotactic/ morfolojik çözümlenmesine kısa bir bakış sunulacaktır.

Başkurtlar

Başkurt etnonimi ІХ.-ХІ. yy’daki kaynaklarda başkard, başgird, başkerd, baskart,

bacgard, başcart, bascert vb. şekillerde geçmektedir. Bir efsaneye göre, Ergenekon

destanında olduğu gibi, düşmanın soykırımına uğrayıp, dağda mahsur kalan Türk

boyunu, bir kurt baş (kılavuz) olmuş ve yol göstererek kurtarmıştır. Bu kurtuluştan

sonra, kurtulan Türk boyu, Başkurt adıyla anılmaya başlamıştır (ЮЛДАШЕВ, 1997.).

Başkurtlar, günümüzde Rusya Federasyonu Başkurdistan Özerk Cumhuriyeti başta

olmak üzere Rusya’nın çeşitli bölgelerinde yaşayan Türk halklarıdır.

1989 istatistiklerine göre, Başkurtların nüfusu 1 milyon 449 bin olup, Başkurtistan’da

Ana dilini konuşanların sayısı ise 1 milyon 75 bin kişidir (a.g.k.).

Başkurt Kiril Alfabesi

Başkurtların İslamiyetin kabul edilişine kadar Run alfabesini, İslamiyetin kabul

edilmesiyle birlikte Arap alfabesini, Sovyetlerin kuruluşundan sonra 1928-1939 yılları

arasında Latin, 1940'dan bu yana Kiril asıllı Başkurt alfabesini kullandığını biliyoruz.


472

1. Tablo: Kiril Asıllı Başkurt Alfabesi ve Latince Transkripsiyonu

Kiril Latin Kiril Latin Kiril Latin Kiril Latin

А а a И и i Р р r Ш ш sh

Б б b Й й y С с s Щ щ şç

В в v К к k Ҫ ҫ ŝ / ś Ъ ъ ’

Г г g Ҡ ҡ ḳ/q Т т t Ы ы I

Ғ ғ ġ/ Л л l У у u, w Ь ь ‘

Д д d М м m Ү ү ü, w Э э é, e

Ҙ ҙ ẕ / ź Н н n Ф ф f Ә ә ä

Е е é, ye-, e Ң ң ñ Х х ħ/x Ю ю yu

Ё ё ö, yo- О о ǔ Һ һ h Я я ya

Ж ж j Ө ө ǚ Ц ц ts

З з z П п p Ч ч ch

Başkurtça

Başkurt dili, Ural-Altay dil ailesinin bir kolu olan Türk Dili’nin Kıpçak grubunun

Kıpçak-Bulgar alt grubunda yer alır. Başkurtçaya Kıpçak lehçeleri arasında en yakın

olanı Tatarca’dır. Eklerin varyantlılığı açısından Kazakça ve Kırgızca’ya, dudak uyumu

açısından yine Kırgızcaya yakındır (a.g.k.). Sonuç olarak Başkurtça sondan eklemeli bir

dil olup, yeni kelimelerin türetilmesi için köklere ekler gelerek yapılır. Ekler köklere

gelirken belirli ses değişiklerine uğrar. Elbette ses değişmeleri gelişigüzel rastgele

değişiklikler değildir. Her dilde olduğu gibi Başkurtçanın da kendine özgü ses yapısı,

belirli kanunları, kuralları vardır: kök ve eklerin bir araya gelmesi, ünlü ünlü uyumu,

ünlü ünsüz uyumu, ünsüz ünsüz uyumu vb.

Dilin aslında iki görünümü vardır: birincisi eki almadan önceki, diğeri ek aldıktan

sonraki görünümü. Mesela Türkçede sonu /p/, /ç/, /t/, /k/ ünsüzleriyle biten kelimelere

ünlüyle başlayan bir kelime geldiğinde istisnaları dışında bu ünsüzlerde tonlulaşma

meydana gelecektir.

O halde, sözcüklerin, ek almadan önceki görünümü, sözcük(sel), ek aldıktan sonraki

görünümü ise yüzey(sel) görünümleri olarak karşımıza çıkmakta, bu da iki seviyeli

morfolojik modellemeyi gerektirmektedir (OFLAZER, 1994; bk. Ayrıca: GÖRMEZ Z.

v., GÖKGÖZ, 2011; ÖZTOPRAK, 2015). Konuyla ilgili makalelerde, “İki seviyeli

morfoloji, doğal dillerin morfolojik kurallarını kodlamak için dilden bağımsız bir

yöntem, olduğu “Bu kodlama kelimelerin sözcük ve yüzey olarak iki biçimde temsil

edildiği; İki seviyeli kuralların da dönüşümü tanımladığı (ÖZTOPRAK, 2015; bk.

Ayrıca: OFLAZER, 1994; GÖRMEZ Z. v., GÖKGÖZ, 2011) belirtilmektedir. Burada


473

kök ve eklerin, seslerin sıralanışındaki dilin doğal işleyişindeki koşulları3 sağ ve sol

koşul olarak belirtilerek, hangi koşulda ne tür dönüşüm olacağı kuralı tanımlanmıştır.

Oflazer (1994) Türkçenin fonetik kurallarını 22 iki-seviyeli kurallara göre kodladığını,

şekil yapısını da fiil yapımı, isim yapımı ve çekim örnekleriyle, sonlu durum

makinelerine uygun olarak (finite-state) kodlanabilirliğini örneklerle kanıtlamıştır.

Kodlamalarda elbette bizim bildiğimiz gramer kurallarından biraz farklı yöntemler

kullanıldığını söyleyebiliriz. Ama yine de bu kodlamalar dilin fonetik ve morfonolojik

yapısının doğal işleyişine uygun olarak düzenlenmesi gerekir.

Başkurtça Sesler

Ünlüler Ve Ünlülerin Sınıflandırılması

Kiril asıllı Başkurt alfabesinde ünlüler için kullanılan 10 harf vardır: а, ә, о, ө, у, ү, е,

э, и, ы. Yuldaşev (1997) ünlüleri şu şekilde sınıflandırmıştır:

2. Tablo. Başkurtça Ünlülerin Sınıflandırılması.

Çen

enin

du

rum

a g

öre

Teşekkül noktasına

göre

Sıra

Ön Arka

Dudağın durumuna

göre

Düz Dudak Düz Dudak

Dar и (i) ү (ü) у (u)

Yarı dar е (é) ы (ı)

Yarı geniş ө (ǚ) o (ŭ)

Geniş ә (ä) а (a)

Ünsüzler Ve Sınıflandırılması

Başkurt Türkçesinde 26 ünsüz vardır. Bu ünsüzlerin, Yuldaşev (1997)’de yapılan

sınıflandırılması, biraz değişiklik yapılarak aşağıdaki tabloda gösterilmektedir:

3. Tablo. Başkutça Ünsüzlerin Sınıflandırılması.

TEŞEKKÜL TARZINA GÖRE

(TEMAS DERECESİNE

TEŞEKKÜL NOKTASINA GÖRE

Dudak Ön damak

3 Örneğin: /t/ ve /d/ ile başlayan eklerin ne zaman /t/ ne zaman /d/ olacağı geleneksel dil öğretiminden de

bildiğimiz üzre, geldikleri kelime tabanının, fıstıkçışahap’tan biriyle bitmesi koşuluna; /p/, /ç/, /t/, /k/ ile

biten kelimelerde bu son seslerin yumuşamasının istisnaları dışında yumuşası, bu seslerle biten

kelimelerden sonra ünlü ile başlayan bir morfemin gelmesi koşuluna bağlıdır.


474

GÖRE)

Çif

t dud

ak

Diş

dud

ak

Dil

üst

ü

Diş

ara

sı

Diş

- d

iş e

ti

Ön

dam

ak

Ort

a d

amak

Ort

a d

il

Dil

ard

ı

Kü

çük

dil

Bo

ğaz

Ha

va

ak

ışın

a g

öre

Patlamalı sedalı б (b) т (t) д (d) г (g)

sedasız п (p) ч (ç) к (k) ҡ (ķ/q)

Sızıcı

Tek

fok

uslu

sedalı у~ү (w) в (v) з (z) ҙ (z) с (s) ғ (ġ/ğ) h (h)

sedasız ф (f) ҫ (s) x (ħ)

Çift

foku

slu

sedalı ж (j)

sedasız ш (ş)

so

nor

Akıcı й (y)

Patlayıcı Geniz м (m) н (n) ң (ñ)

Sürekli Avurt л (l)

Titrek p (r)

NOT: y’eleşen harfler olarak bildiğimiz, “Ё ё” harfi /y/ ve /o/, “Ю ю” harfi /y/

ve /u/, “Я я” harfi ise /y/ ve /a/ seslerinden oluşan birleşik sestir. Ayrıca çift ses olarak

“Ц ц” harfi /t/ ve /s/, “Щ щ” harfi de /ş/ ve /ç/ seslerinden oluşmaktadır ve ödünç alınan

kelimelerde kullanılmaktadır. Bunların dışında Rusça ve Rusça vasıtasıyla geçen

kelimelerde görülen ayırma/ kalınlaştırma işareti “Ъ ъ” ile inceltme işareti “Ь ь”

Ses Uyumları

4. Tablo. Ünlü Uyumu.

Kelimenin son

hecesindeki ünlü ekin ünlüsü

Örnek kelimeler

а, у, ы, ю, я a, ы барыу, барлыҡтан, ҡулдан, юғарыға, һораны

е, и, ү, ә е,ә күтәрелгәнең, күрсетеп, күмләкте, көлгә, сине,

миндән , тәгәрәгәндәр

о о, а бороу, ҡоролдо, бойорғанда ,ҡоштоҡомы

ө ө, ә өйөнә , теләгән, өшөнө ,

5. Tablo. Ünsüz Uyumu

Kelimenin son

ünsüzü

Ekin başındaki

ünsüz

Örnek kelimeler

-ж, -з, -л, -м, -н, -ң д-, г-, ғ- багаждары, ихтыяждан, персонаждар, репортажды,

тиражға, колхозда, билде, миндә, һиндә, туғанда,

закондар

-ҙ , -и, -й, -р, -у, -ү ҙ-, г-, ғ- беҙҙеке , сүҙгә, тигән, йәйгән, ҡуйҙы, торҙо,

асыуҙан , килеүгә

-ҡ , -к, -п, -с, - ҫ, -т, -

ф, -х, -ш ҡ -, к-, т- халыҡҡа, ҡунаҡта , аҫҡыстағы, курста, хәрефкә,

шкафка, тарихты, ожмахтан, юлдашҡа

NOT: Ünsüz-ünsüz uyumuna isimden isim yapma eki olan –lIk, soru eki –mI ve

olumsuzluk eki -mA uymaz; ayrıca kilterew “getirmek” fiilinde görülen -DIr eki de bu

bağlamda -her ne kadar kalıplaşmış olsa da- istisna olarak bu uyum dışındadır.


475

İki Seviyeli Kurallar

Başkurtçada, görüldüğü gibi, ünlü uyumları da, ünsüz uyumu da güçlüdür. Bu da,

bildirinin başında bahsedildiği gibi, Başkurtçada eklerin çok varyantlı olduğuna işaret

etmektedir. Bu da, Başkurtçanın morfolojisinin iki seviyeli kodlanmasında, dilin fonetik

ve morfonolojik yapısının doğal işleyişine uygun olarak, ünlü ve ünsüz uyumlarına göre

değişen seslerin çok dikkat edilerek kodlanmasını, kodlanması için de seslerin

özelliklerinin net olarak programa tanıtılmasını gerektirmektedir:

Dar ünlüler : и /i/, ү /ü/, у /u/

Yarı dar : е /é/, ы (ı)

Yarı geniş : ө (ǚ), o (ŭ)

Geniş : ә (ä), а (a)

Sedalı konsonantlar : б, г, ғ, д, ҙ , ж, з, й, л, м, н, ң р, у, ү,

Sedasız konsonantlar: к, ҡ, п, с, ҫ, т, ф, ц, х, ш, щ

Kiril asıllı alfabe olmasından dolayı Başkurt alfabesindeki çift sesi karşılayan

harfler ise (ё /yo/, я /ya/, ю /yu/, ц /ts/, щ /şç/), bünyesindeki harflerin özelliklerine

göre aşağıda resimde görüldüğü gibi sınıflandırılacaktır (bkz. 1. Resim). Yine hem ünlü

у /u/, ү /ü/, hem ünsüzü (у, /w/ kalın, ү /w/ ince) karşılayan harfler ise sadece ünlüler

kümesinde yer alacaktır. Programa gerektiği yerlerde eklenecektir.

Başkurtçada daha önce bahsedildği üzre, eklerin çok varyantları vardır. Bu da aynı ek

olup, ünlü ve ünsüz uyumlarına göre değişen seslerin büyük harflerle kodlanmasını

gerektirmektedir; ki, bu kodlanan harfler ortography.xml dosyasındaki alfabe

tanımlamasına konulacak (bk. 1. Resim) ve kodlanan harflerin dönüşüm kuralları

yazılacaktır. Mesela çokluk ekinin Başkurtçada ünlüsü iki, ünsüzü dört şekilli olmak

üzere 8 varyantı vardır. Görüldüğü gibi hem ünsüzü hem ünlüsünde değişiklik vardır. O

halde ortography.xml dosyasında kodlanan seslerin Başkurtça ünsüz uyumu

çerçevesinde dönüşüm L kuralı, tanımlanacaktır; ayrıca ünlü uyumu çerçevesinde de

dönüşüm A kuralı da yazılacaktır. Bu dönüşüm hangi eklerde görülüyorsa, suffix.txt

dosyasında, gerekli eklerin karşısında (rules/dönüşüm sütununda) belirtilecektir (bk. 2.

Resim).

1. RESİM. Ortography.xml dosyası


476

2. RESİM. suffix.txt dosyası.

Böylece ortography.xml dosyasında değişen seslerinin dönüşüm kuralları tanımlanan ve

sözcüksel düzeyde LAr olarak kodanan ek, surfaces/ yüzeysel kolonunda görülen

dönüşüm varyantları olarak gerçeklenmesini sağlayacaktır, ancak kelimelerin de root.txt

dosyasında işlenmiş olması gerekmektedir (bk. 3 Resim).

3. RESİM. Root.txt dosyası.

Sözcüksel : китап+LAr isim(kitap)+ IC_COGUL_Lar

Yüzeysel : китап0тар китаптар

Bu bütün benzer kodlu ekler için geçerli olacaktır.

Elbette bu bildiride, Başkurtçanın imla yapısını (ortography) ve şekilsel işleyiş

döngüsünü (morphotactic) sığdırmak mümkün değildir; dolayısıyla, üzerinde çalışmakta

olduğum daha büyük bir Başkurtça-Türkçe Makine Çevirisi projesi olarak düşündüğüm

programın bir parçası olan, Oflazer’in iki seviyeli Doğal Dil İşleme açısından

Başkurtçanın orthografysine/ imla yapısı ile morphotactic/ morfolojik çözümlenmesine

kısa bakış sunulabilmek için birkaç kural verilecektir.


477

Yumuşama Kuralı

1. k:g <=> V __ +:0 (@:0)V

2. q:ğ <=> V __ +:0 (@:0)V 3. 3. p:b <=> V __ +:0 (@:0)V

Bu kural, önceki morfemin к /k/, ҡ /q/, п /p/ sesleri ile bitmesi, sonraki

morfemin ünlü ile başlaması koşulunu gerektirmektedir (bk. ZAFER, 2011; ayrıca bk.

OFLAZER, 1994). Bu kuralda, bir ekin gelmesiyle kelime tabanında eşzamanlı olarak

gerçekleşen bir ses olayı tanımlanmaktadır.

YUMUSAMA_кг

Sözcüksel : күлдәк+Uң ISIM (gömlek)+ IC_SAHIPLIK_SEN_(U)n

Yüzeysel : күлдег0ем күлдәгем (gömleğim)

YUMUSAMA_ҡғ

Sözcüksel: тараҡ+sU+минән ISIM (tarak)+IC_SAHIPLIK_O_(s)U +

IC_HAL_VASITA_minän

Yüzeysel : тарағ00ы_минән тарағы минән (tarağıyla, tarağı ile)

YUMUSAMA_пб

Sözcüksel : китап+Uм ISIM (kitap)+IC_SAHIPLIK_BEN_(U)m

Yüzeysel : китаб0ым китабым (kitabım)

Kelime tabanında gerçekleşen ses olayları için ses olayının adı ile değişen

seslerin harf karşılıkları girilerek kural yazılır ve root.txt dosyasında adı geçen ses

olayının gerçekleştiği kelimelerin surface/ yüzesyel kolonuna değiştiği hali yazılacaktır

(bk. 3.Resim). Kelime tabanının son sesine göre gelen ekin de değişime uğradığı

durumlar için dönüşüm kuralları tanımlanmıştır.

Dönüşüm Kuralları

DONUSUM_L

1. L:д л | м, н | ң | з | ж (‘:’) +:0 __

2. L:т б | в | г | д | к | ҡ | п | ҫ | с | т | ф | х | һ | ц | ч | ш | щ (‘:’) +:0

3. L:ҙ L:т<=> ҙ | й | р | у | ү | и | ю (‘:’) +:0

Yukarıdaki dönüşüm kuralının tamımına göre, sözcüksel L’nin dönüşümü,

belirtilen koşullarda yüzeyde, sırasıyla L=>д, L=>т, L=>ҙ olarak, diğer durumlarda

L=>л olarak gerçekleneceği anlaşılmaktadır.


478

Sözcüksel : һан+LAр ISIM (sayı)+IC_COGUL_LAr

Yüzeysel : һан0дар һандар (sayılar)

Sözcüksel : мәктәп+LAр ISIM (mektep)+ IC_COGUL_LAr

Yüzeysel : мәктәп0тәр мәктәптәр

Sözcüksel : тоҙ ISIM (tuz)+ IY_SIFAT_sUz+IC_COGUL_LAr

Yüzeysel : тоҙ0һоҙ0ҙар тоҙһоҙҙар (tuzsuzlar, beceriksizler)

Sözcüksel : һоло+LAр ISIM(yulaf)+ IC_COGUL_LAr

Yüzeysel : һололар һололар (yulaflar)

Bu kural, DONUSUM_L koşulları doğrultusunda dönüşüm yapan ekler için de

uygulanabilir. Mesela:

Sözcüksel : мин+LA ZAMIR(ben)+IC_HAL_BULUNMA_LA

Yüzeysel : мин0дә миндә

Sözcüksel : ҡош+LA ISIM (kuş)+IC_HAL_BULUNMA_LA

Yüzeysel : ҡош0та ҡошта (kuşta)

Sözcüksel : күҙ+LA ISIM (göz) IC_HAL_BULUNMA_LA

Yüzeysel : күҙ0ҙә күҙҙә (gözde)

Sözcüksel : ҡала+LA ISIM(şehir)+IC_HAL_BULUNMA_LA

Yüzeysel : ҡала0ла ҡалала (şehirde)

Sözcüksel : кеше+LA ISIM (kişi)+IC_HAL_BULUNMA_LA

Yüzeysel : кеше0лә кешелә (kişide)

DONUSUM_I

I : ы => а | о | у | ы | ю | я (‘:’) +:0

I : е => ә | е | и | ө | ү (‘:’) +:0

Yukarıdaki dönüşüm kuralının tamımına göre, sözcüksel I’nın döşnüşümü,

belirtilen koşullarda yüzeyde, sırasıyla I=>ы, I=>е olarak gerçekleneceğini

anlatmaktadır. Bu kuralı ortography.xml dosyasındaki tanımlanması, 4. Resimde

gösterilmektedir.

Sözcüksel : юҡ +hIн +Gaн ISIM(yok)+IY_FIIL_sIn+

FC_ZAMAN_GORULEN_UZAK_GECMIS_GAn

+SAHIS_ZAMIR_BEN_mUn

Yüzeysel : юҡ0һын0ған0мын юҡһынғанмын (sıkılmıştım, özlemiştim)


479

4. RESIM. DONUSUM_I kuralı otrografy.xml.

Düşme Kuralları

DUSME_UNLU

A | U : 0 = > V+:0__@*

Bu düşme kuralının tamımına göre, sözcüksel A | U kodlarının karşıladıkları

sesler, belirtilen koşullarda yüzeyde düşer. Düşen sesler suffix.txt dosyasında parantez

içine alınarak kodlanacaktır (bk. 2. Resim).

Sözcüksel : ҡала+Uң ISIM (şehir)+IC_SAHIPLIK_SEN_(U)n

Yüzeysel : ҡала00ң ҡалаң (şehrin).

DUSME_UNSUZ

s : 0 = > V+:0__@*

Bu düşme kuralının tamımına göre, sözcüksel (s), belirtilen koşullarda yüzeyde

düşer.

Sözcüksel : күҙ+sU ISIM (göz)+IC_SAHIPLIK_O_(s)U

Yüzeysel : күҙ00е күҙе (gözü)

Başkurtçanın Şekilsel İşleyiş Yapısı

Kelimeler; kök ve eklerden oluşur. Kök ile ekin her biri, birer morfemdir. Morfemler

ise, asıl ve yardımcı morfemler olarak ikiye ayrılır. Asıl morfemler kelime tabanıdır,

yardımcı morfemler ise yapım ve çekim ekleridir. Her morfem bir gramatikal şekli

oluşturur. Her gramatikal şeklin gramatikal anlamı vardır. Mesela “dil” asıl morfemdir

ve bir gramatikal şekildir, gramatikal anlamı da isimdir; Çekim eki, asıl morfemlere

gelerek, sadece gramatikal şeklini değiştirirken, yapım ekleri ise gramatikal şeklin


480

gramatikal anlamlarına da etki ederler; Mesela, dil kelimesinin, +de hâl eki aldığındaki

gramatikal anlamı yine isimdir, sadece bulunma hâli ile çekimlenmiş isimdir; -e

yapım eki gelince ise, gramatikal anlamı fiil oluyor. Artık, dile- fiili olarak, kendisinden

sonra fiil çekim ve fiil yapım ekleri alacaktır. Bildiri konusunun bir yönünü oluşturan,

Başkurtçadaki bu işleyiş döngüsü, sonlu durum makinelerine uygun iki seviyeli

kurallarla tanıtılmış, test edilmiştir.

5. RESİM. Morfemlerin sıralanışının şematik gösterimi.

5. Resim’de şemada gösterildiği gibi yapım ekleri ise asıl morfemlere gelerek,

yeni bir gramatikal şekil oluşturur. Yeni gramatikal şekil demek yeni bir gramatikal

anlamdır. Bunları, sonlu durum makinalarına tanımlamak için her bir gramatikal şekli,

yani morfemi, tanımlayan birer “id” tanımlanacaktır; Örneğin: ISIM: isimlerin genel

“id”sidir; SIFAT: sıfatların genel “id”sidir; FIIL: fiillerin genel “id”sidir vb.. Yardımcı morfemlere de fonksiyonlarına göre IC (isim çekim eklerin genel “id”si), IY

(isimden isim yapan eklerin genel “id”si), FC (fiil çekim eklerinin genel “id”si) vb.

“id”ler verilmesi gerekir (bk. 2. ve 3. Resim). Çekim ve yapım eklerinin ise, önce

grulandırılmaları gerekir; HAL (ad durum eklerinin grup id’si), IYELIK (sahiplik

eklerinin grup id’si), IY_ISIM (isimden isim yapım eklerinin grup id’si), FC_ZAMAN

(bildirme kiplerinin grup id’si), ZAMIR_IYELIK (iyelik menşeli şahıs eklerinin grup

id’si) vb. olarak Grup id’lerinin de kodlanması gerekir. Yani her gramatikal şeklin


481

gramatikal anlamları için birer “id” oluşturacak ve bu gramatikal şekillerin listelendiği

.xml ve .txt dosyalarında bu “id”ler kullanılacaktır. (bk. 2. ve 3 Resim).

Mesela;

байҙыҡынан (zengininkinden) kelimesi, her birisi birer gramatikal anlama sahip

üç gramatikal şekilden -yani üç morfemden- oluşmaktadır. Gramatikal anlamı, sırasıyla

genel aitlik eki ve çıkma hali ile çekimlenmiş isimdir. Yani, -ҙыҡы (-nın-ki) genel aitlik

ekli бай “zengin” kelimesinin ayırılma hali ile çekimlenmiş halidir. Sonlu durum

makinesinde bu çekimin gerçeklenmesi aşağıdaki gibi test edilmiştir ve kusursuz sonuç

elde edilmiştir:

Sözcüksel : бай ISIM(zengin)+IC_AITLIK_NUQU

+IC_HAL_AYRILMA_DAn

Yüzeysel : бай0ҙыҡы0нан байҙыҡынан (zengininkinden)

İsimden fiil yapım eki almış тел “dil” isminin çoğul birinci şahıs görülen uzak

geçmiş zaman çekiminin sonlu durum makinesinde çekimlenmesi de test edilmiş olup

aşağıdaki gibi kusursuz şekilde gerçeklenmiştir.

Sözcüksel :тел ISIM (dil)+IY_FIIL_A+

FC_ZAMAN_GORULEN_UZAK_GECMIS_GAn

+SAHIS_ZAMIR_BIZ_bUz]

Yüzeysel : тел0ә0гән0беҙ теләгәнбеҙ (dilemişiz)

Sonuç

Bu çalışmada Oflazer’in uyguladığı iki seviyeli morfoloji kuralları çerçevesinde

Başkurtça’nın morfonolojik yapısı incelenmiştir. Çalışmanın neticesinde Başkurtçanın

morfonolojik yapısı, sonlu durum makinaları (FSM) için iki seviyeli kurallarla

tanımlanması mümkün olduğu ispat edilmiştir. Başkurtçanın morfonolojik yapısından

hareketle, sonlu durum makinaları için uygun imla kuralları oluşturulmuş olup, bunlar

hazır çatı üzerinde denenmiş ve başarılı olduğu kanıtlanmıştır. Bu projenin nihayi hedefi

Başkurtça ve Türkçe başta olmak üzere, diğer Türk lehçeleri arasında karşılıklı

elektronik çeviri gerçekleştirmektir. Dolayısıyla Başkurtça’nın iki seviyeli morfonolojik

kuralları oluştulurken, Türkçe ve diğer Türk lehçeleri de göz önünde bulundurulmuştur.

Dilin iki seviyeli morfonolojik kurallarının çıkartılmasında, elektronik çeviri

programlarına yapay zeka kazandırılabileceği de ön görülmüştür. Çünkü sonlu durum


482

makinelerinde, Türk lehçelerinin iki seviyeli morfonolojisinin tanımlanmış olmasıyla

kaynak ve hedef dillerdeki kelimeler, sadece sözlükteki karşılıklarıyla

eşleştirilmeyecektir; aldığı eklerin eşleştirilmesine, hatta fonksiyonlarının bile

eşleştirilmesine imkan doğacaktır.

Çalışmalarımı sonlu durum makinasında (NUVE) test edebilmem için benimle bu yazılımı

paylaşan sayın Harun Reşit Zafer’e, bu programın online versiyonunu yapan değerli Ahmet Eralp

Küçük’e teşekkür ederim.

Kaynakça

AYDIN, O. (2017). Bağımsızlıklarının 25.Yılında Türksoy’un Türk Topluluklarına

Yapmış Olduğu Katkılar. В Uluslararası Sosyal Bilimler Kongresi:

Türkistan Forumu III “Küreselleşme Sürecinde Türk Dünyasının

Geleceği” (стр. 955-967).

GÖKGÖZ, E. v. (2011). Two-Level Qazan Tatar Morphology. В 1st International

Conference on Foreign Language Teaching and Applied Linguistics May

5-7 2011 Sarajevo (стр. 428-431). Saraevo.

GÖRMEZ, Z. v. (2016). Kyrgyz Orthography and Morphotactics with

Implementation in NUVE. INTERNATIONAL CONFERENCE ON

ENGINEERING AND NATURAL SCIENCE. SARAJEVO.

GÖRMEZ, Z. v. (б.д.). An Overview of Two Level Finite State Kyrgyz

Morphology. The 2. International Symposium on Computing in Science &

Engineering (ISCSE .

OFLAZER, K. (1994). Two-level Desctiption of Turkish Morphology. Literary and

Linguistic Computing Volume9, Is-sue2, 137-148.

ÖZTOPRAK, S. v. (2015). An Implementation of Tatar Orthography Using The

Nüve Framework. В 3rd International Conference on Computer

Processing In Turkic Languages (TURKLANG 2015) (стр. 127-137).

Kazan: Akademi of Sciences of the Republic Tatarstan Press.


483

ZAFER, H. R. (2011). 1st International Conference on Foreign Language

Teaching and Applied Linguistics May 5-7 2011 Sarajevo. Two-Level

Description of Kazakh Morphology, (стр. 506-564). Sarajevo.

ЮЛДАШЕВ, А. (1997.). Башкирский язык. В Языки Мира: Тюркские Языки

(стр. 206-224.). Бишкек.

türk lehçeleri arasında yapılacak makine …...türk lehçeleri arasında yapılacak makine...

Documents