Ana səhifə

Uygur diLİ ve makineli ÇEVİRİ


Yüklə 120.76 Kb.
tarix01.05.2016
ölçüsü120.76 Kb.

Akademik Bilişim 2008

Çanakkale Onsekiz Mart Üniversitesi, Çanakkale, 30 Ocak - 01 Şubat 2007. Uygur Dili ve Makineli Çeviri



UYGUR DİLİ VE MAKİNELİ ÇEVİRİ
Murat ORHUN*, Eşref Adalı**, A.Cüneyd TANTUĞ**,
(*) İstanbul Bilgi Üniversitesi, Bilgisayar Bilimleri Bölümü, İSTANBUL

(**) İstanbul Teknik Üniversitesi, Bilgisayar Mühendisliği Bölümü, İSTANBUL



muratmehmet@cs.bilgi.edu.tr, {adali,cuneyd}@cs.itu.edu.tr,

ÖZET



Bu makalede, Uygur dilinin gramer yapısı, Uygur dilinde kullanılan alfabeler hakkında kısaca bilgi verilecektir. Uygur dili üzerinde yapılan son araştırmalar ve gelişmeler özetlenecektir. Özellikle, Uygur dili ile ilgili yapılan Doğal dil çakışmaları ve Makineli çeviri üzerinde elde edilen sonuçlar özetlenecektir. Makineli çeviride kullanılan yöntemlerin Uygurca için nasıl kullanılabileceği hakkında yaptığımız araştırmalarımız ve önerimiz verilecektir. Sonunda, Uygurca ile Türkçe arasında makineli çevrinin nasıl yapılabileceği hakkında sistem yapısı verilecektir.
Anahtar Kelimeler: Makineli Çeviri, Uygurca Gramer, Uygur dili, Kural Tabanlı Çeviri.
UYGUR LANGUAGE AND MACHINE TRANSLATION
ABSTRACT
This paper gives some information about the structure of the Uygur Grammar and Uygur Alphabets. Summarizes the resent researches about the language and some results achieved so far. Mainly, we discuss the researches and achievements about the Natural Language Processing and the Machine Translation of the Uygur Language, which are done so far. We explain some rules which used for Machine Translations in general, and give our suggestions about these rules which could be used for the Uygur Language. At last, we suggest a system which implements the machine translation between Turkish and Uygur.

Keywords: Machine Translations, Uygur Grammar, Uygur Language, Rule Based Translation.

1. GİRİŞ

Uygur dili yaygın olarak, Doğu Türkistan’da kullanılmaktadır. Bunlar Hariç, Orta Asya, Afganistan, Türkiye gibi Ülkelere bile birçok kişiler tarafından kullanılmaktadır. Uygurlar günümüze kadar birçok alfabe kullanmıştır. Günümüzde Uygurlar yaşadığı bölgelere göre farklı alfabeler kullanmaktadır. Orta Asya da yaşayan Uygurlar Kırıl alfabesini kullanırken, Afganistan da yaşayanlar ise, Araf alfabesini kullanmaktadır.

Doğu Türkistan’da yaşayan Uygurlar ise, 80 - yıllara kadar Latin Alfabesini temel alan alfabe kullanırken, günümüzde ise Araf alfabesini temel alan 32 harften oluşan alfabe kullanmaktadırlar. Araf Alfabesine geçiş yakın tarihlerde gerçekleştirildiğinden dolayı, birçok kişiler, halen Latin Alfabesini temel alan Uygur alfabesini kullanmaktadır. Resmi yazışmalarda, okullarda, Araf alfabesini temel alan alfabe kullanılırken, bilgisayarlı yazışmalarda ise, Latin alfabeli yazışmalar yasal olması bile kullanılmaktadır.

Bilgisayar kullanımın yaygınlaşmasıyla, Latin alfabesini standartlaşma çabaları yapılmıştır. Bu işlemleri yürütmek için UKIJ[1] adında bir kurum kurulmuştur. Hatta Araf alfabesi ile Latin alfabesi arasında unikodlu[2] çevri yapan ücretsiz yazılımlar geliştirilmiştir [1]. Uygurcada kullanılan Araf alfabesi ile Latin alfabesinin karşılaştırılması Tablo1’de verilmiştir [1]. Bu makalede gösterilen örneklerde Latin alfabesinde kullanılan harfleri temel almıştır.


2.1 UYGUR ALFABESİNDE KULLANILAN HARFLER
Uygur dili alfabesi,8 sesli,24 sessiz toplam 32 harften oluşmaktadır.

Sesli harfler ise:

A, Ĕ, E, İ, O, Ö, U, Ü

Sesli harfler, telaffuz edilirken, dil yerine göre üç türe ayrılır.

1. Dil aldı sesli harfler: Ĕ, Ö, Ü

2. Dil Arka sesli harfler: A, O, U

3. Dil Ortası sesli harfler: E, İ

Sesli harfler, telaffuz edilirken dudak şekline göre iki türe ayrılır.


1. Yuvarlak dudaklı sesli harfler: O, U, Ö, Ü

2. Yuvarlak dudaklı olmayan sesli harfler: A, Ĕ, E, İ

Uygurcada kullanılan sessiz harlar ise:

B, P, T, J, CH, X, D, R, Z, J, S, SH, GH, F, Q, K, G, NG, L, M, N, H, W, Y


Sessiz haralarda iki türe ayrılırlar ünlü, ünsüz diye.

1. Ünlü sessiz harfler: B, J, D, R, Z, J, GH, G, NG, L, M, N, H, W, Y

2. Ünsüz sessiz harfler: P, T, CH, X, S, SH, F, Q, K

Uygurcada tüm sesli harfler ünlü sessiz türüne dâhil edilebilinilmektedir [3].


Uygurca başka Türkî dilleri gibi bir bitişen dildir. Bir kök sözcüğe eklerin eklenmesi ile farklı anlam veren sözcükler oluşturulabilmektedir. Köklere ekler eklenirken, sesli ve sessiz uyumu sağlanması gereklidir. Bunlar hariç, bazen harflerin telaffuz edildiği andaki sese göre, bazı eklerin eklenme şeklide değişmektedir. Bundan dolayı Uygurcada eklerin eklenmesi başka Türk dillerine göre daha karmaşıktır. Özellikle, Farsça, Rusça, Çince ve Arapça sözcüklerin içermesi, kuralların daha çok karmaşık olmasına neden oluşturmaktadır.

2.2 UYGURCADA SESLİ HARFLERİN UYUMU
Uygurcada, sözcüklerin son hecesinde yer alan sesli harflerin, dil aldı ya da dil arkası olmasına göre ekler ekleniyorlar. Yanı son hecelerde yer alan sesli harlar belirtici rolü üsteleniyor.

Mesela: kitap + lar

mektep+ ler
Ama son hecelerde yer alan sesli harfler, dil orta türüne dâhil ise, farklı durumlar söz konusu oluyor. Böyle durumlarda, bu heceleri oluşturan sessiz harflere, hatta tüm sözcüğe bakılması gerekiyor[4], [5].

Mesela: pilik +ler

it+ lar

Uygurcada, sözcüklere ekler eklendikten sonra, kök sözcüğünde bulunan bazı sesli ve sessiz harflerde da değişikler oluyor.



1.Sözcükleri oluşturan sesli harflerin sırası " Ĕ - İ ", " Ü - E - İ "," E - İ - İ " şeklinde ise, ekler eklenirken, son hecelere değil, bir önceki eklerde yer alan "Ĕ" harfine bakılacaktır.
2. "A, Ĕ" ile harfleri ile oluşan, bir ve çok heceli sözcüklere "i" harfi ile oluşan ekler eklenerek, o sözcüklerde, eskiden yer alan "A,Ĕ" harfleri "E, İ" lere değişirse bile, yeniden ekler eklenecekse, o sözcüklerin eski orijinal durumu göz ününe alınacaktır.
3. Yuvarlak dudaklı sesli harlar ile oluşan tek heceli sözcüklere ve, son hecesi yuvarlak dudaklı sesli harf ile sonlanan çok heceli sözcüklere ekler eklenirken, eklerde yuvarlak dudaklı sesli harlardan oluşan ekler eklenecektir.

Mesela: qol + um

yüz +üm

4: Yuvarlak dudaklı olmayan sesli harlar ile oluşan tek heceli sözcüklere ve son hecesi yuvarlak dudaklı olmayan sesli harf ile sonlanan çok heceli sözcüklere ekler eklenirken, eklerde yuvarlak dudaklı olmayan sesli harlardan oluşan ekler eklenecektir.



Mesela: ügen + is

en +is
5: " A " harfi ile oluşan tek heceli sözlere "i" ile başlanan ekeler eklendiğinde, o hece açık hece halinde kalır. Ve "A" harfi ise, "i" harfi ile değişecektir.

Mesela:

Al + ip = ilip


6: " E " harfi ile oluşan tek heceli sözcüklere ekler eklenirken, "E" harfi ise "i" harfine değişecektir.

Mesela: Kel + er = Kiler


7: Bazı iki heceli sözcüklerin ikin hecesindeki yüksek sesli harfler, o sözcüklere ekler eklenirken, kendi vurgusunu kayıp eder. Yanı o sesli harf kayıp olacaktır.

Mesela: köngül + i = köngli

Burada "ü" harfi kayıp oldu.
2.3 UYGURCADA SESSİZ HARFLERİN UYUMU
1. " D, B, H" den başka ünlü sessiz harfler ile sonlanan sözcüklere, ünlü sessiz harfler ile başlanan ekler, ünsüz harfler ile sonlanan sözcüklere, ünsüz harfler ile başlanan ekler ekleneceklerdir.

Mesela: baj + din

al+ dim

Tablo1. Uygurcada kullanılan Arap alfabesi ile Latin alfabesinin karşıcılaştırılması.




Araf Alfabesi

Latin Alfabesi

Türkçe Anlamı

Harfler

Örnekler

Harfler

Örnekler





a

at

at





e

eynek

ayna





b

beliq

balık





p

paqa

kurbağa





t

toshqan

tavşan





j

juwa








ch

cheynek

çaydan





x

xoraz

horoz





d

dap

def





r

rawap

revap





z

zenjir

zincir





j

jurnal

jurnal





s

saat

saat





sh

shir

aslan





gh

ghaz

gaz





f

fontan

fıskiye





q

qoy

koyun





k

kala

inek





g

gül

gül





ng

yangaq

ceviz





l

lampa

ampul





m

müshük

kedi





n

nan

ekmek





h

harwa








o

oghaq

orak





u

uwa

yuva





ö

öy

ev





ü

üzüm

üzüm





w

welespit

bisiklet





é

éyiq

ayı





i

it

it





y

yolwas

kaplan


2. Son hecesi açık hece olan sözcüklere, birinci, ikinci şahıs ekleri eklendiğinde, eklerin

Mesela: imla +yim

imla + ying

imla + si

su +süyüm

su + süyüng



2.4 UYGURCADA BAĞIMSIZ VE TÜRETİLMİŞ SÖZCÜKLERİN YAZILMASI
Uygurcada bir birinden bağımsız iki ya da daha fazladan sözcükler birleşerek, yeni anlam veren sözcükler oluştururlar. Bunlara Türetilmiş sözcükler denir. Türetilmiş sözcükleri oluşturan bağımsız sözcükler,

bazen hiç bir değişime uğramadan bir-biriyle birleşebilirken, bazı durumlarda değişmektedir.

Mesela: aş + tahta = aştahta ( burda değişme olmadı)

beng + bash = bengwash

(burada, ikinci sözcükte gecen "b" harfi ise "w" ile değişti.)
Yani, ikinci sözcük "b" ile başlanan bazı sözcüklerde (hepsinde değil) , "b" harfi ise "w" ile değişecektir , "w" sesi ile okunacaktır.
2.5 YARDIMCI SÖZCÜKLERİN YAZILMASI
"al , qal, chal, sal, bol, k€l, " gibi filler, dolaylı geçmiş zaman anlamında kullanıldığında , "l" harfı ortalıktan kalkacaktır.

Mesela: al+di -> Aptu

qal+di -> qaptu,

sal + di -> saptu


Ama bu filler, geçmiş zamanda, dolaysız anlamında kullanılırsa, "l" harfi olduğu gibi kullanılacaktır.

Mesela:


eliwaldi. seliwaldi.
Burada, harflerin düşüp ya da düşmeyeceği ise, sözcüğün anlamına göre yapılmaktadır.

Bunlar hariç, Çince, Rusça den gelen sözcükler içinde özel yazama kuralları kullanılmaktadır.


3.1 MAKİNELİ ÇEVİRİ
Makineli çevri ise, Doğal Dili çalışmalarının bir alt dalıdır. Genelde bilgisayara dayanır. Çeşitli yazılımlar kullanarak, bir doğal dili bir başka doğal dile çevrime işlemidir.[6].

Bilgisayar teknolojisinin gelişmesi ve bilgisayarın yaygınlaşmasıyla, Makineli Çevri baya yaygınlaşmıştır. Şimdiye kadar Türk dilleri için yapılan çalışmalar Türkiye Türkçesi üzerinde yapılmıştır [7][8][9][10].

En son yapılan çakışma ise, Türkiye Türkçesi ile Türkmence arasında geliştirilen çeviri sistemidir. Ayni anda bu çeviri sistemi İstanbul Teknik Üniversitesi Doğal Diller Çalışma Grubunda, Tüm Türk dilleri arsında Makineli çeviri geliştirme ponjesinde geliştirilmektedir. Bundan daha önce, ZEMBİREK[11] adında açık kaynaklı biçimbirimsel çözümleyici çalışması bulunmaktadır. Bu yazılım ise TÜBİTAK tarından geliştirilmiş olan, açık kaynaklı bir sistemdir. Bu sistem Şimdi Türkçe ve Azerice, Diller üzerinde çözümleme yapabilmektedir.

Dolaysıyla, Uygurca üzerinde araştırma yapmak gerçekten çok önemlidir. Ama Uygurca için yapılan doğal dil ile ilgili az sayıda çalışma bulunmamaktadır.[12].

Yapılmış olan çalışmalarda[2], belirsizliği giderme hakkında çalışma yapılmamıştır. Uygurcada kullanılan kelimeler ve yapısı yönünden karmaşık kelimeler içerin bir dildir. Eş anlamlı bir çok kelimeleri içermektedir.

Mesela:


yüz ,isim, nesnelerin yüzü

yüz ,sayı, 100

yüz ,fiil, suda yüz

yüz ,fiil kafasını yüz



3.2 İKİ DÜZEYLİ BİÇİMBİRİMDE KURAL TÜRLERİ
Uygurca çok ekler içerin ve eklerin eklenmesi ile yeni sözcükler üreten bilen bir dildir. Bundan dolayı, Uygurcacının biçimbirimsel yapısını analız etmek, için, Biçim birimsel çözümlemede en çok kullanılan yöntemlerden[13], [14], [15], [16], iki düzeyli biçimbirimsel kural yöntemi kullan ılınabilinir[17] .

İki düzeyli biçimbirimde kural yöntemi ise, yapısal(lexicon) biçim ve görünen(surface) biçimden oluşuyor. Görünen biçimde bazı kurallar uygulanarak, yazıların görünme şekli kontrol edile bilinir. Bunun ili ilgili sonlu durum-otomat tabanlı yazılımlar geliştirilmiştir. Mesela, XEROX[19], KIMMO[20] . Bu yazılımlar herhangi bir dilden bağımsızdır.

Her dilini kendi yapısına göre kurallar tanımlana bilinir, alfabesi verilebilinir. Bu kurallar iki yönü çalışmaktadır. Yani, verdigimiz yazılım ve biçimbirimsel kurallar göre normal kelimeler üretebilirken, ayni anda, verdiğimiz düzgün bir kelimenin biçim birimsel yapısın çöze bilmektedir.

Bu yazılımlardan Ya da bunun tarzda yazılımlar geliştirerek, farklı diller aralarında makineli çeviri sistemi geliştirilmiştir. [21],[22][23][24][25]. Genelde İki düzenli çözümleyicilerde kullanılan kurallar altta verilmiştir

.

a:b => LC _ RC


Yapısal gösterimdeki bir ‘a’ sesi, kendinden önce ve sonra belirtilen bağlamlar varsa (LC -

left context ve RC – right context) görünen biçimde ‘b’ sesine dönüşebilir, (ancak bu dönüşüm zorunlu değildir).


a:b <= LC _ RC

Yapısal gösterimdeki bir ‘a’ sesi, kendinden önce ve sonra belirtilen bağlamlar varsa (LC -left context ve RC – right context) görünen biçimde ‘b’ sesine mutlaka dönüşür (bu dönüşüm zorunludur, koşullar sağlandığında

gerçeklenmelidir).
a:b <=> LC _ RC

Yapısal gösterimdeki bir ‘a’ sesi, kendinden önce ve sonra belirtilen bağlamlar varsa (LC-left context ve RC – right context) görünen biçimde ‘b’ sesine mutlaka dönüşür, (bu dönüşüm zorunludur) ve başka hiçbir bağlamda bu dönüşüm olmaz.


a:b /<= LC _ RC

Yapısal gösterimdeki bir ‘a’ sesi, kendinden

önce ve sonra belirtilen bağlamlar varsa (LC - left context ve RC – right context) görünen

biçimde ‘b’ sesine kesinlikle dönüşemez.


Tablo 2 de iki düzenli biçimbirimsel kural karşılaştırılmıştır ve örnekler verilmiştir.

Tablo 2. İki düzenli biçimbirimsel kurallar ve örnekler[17]



a:b =>l _ r

lar

lbr


Lar

lar


lbr

lbr


xay

xby (olamaz)

a:b <=l _ r

lar

lbr


Lar

lar(olamaz)

lbr

lbr


xay

xby


a:b <=>l _ r

lar

lbr


Lar

lar(olamaz)

lbr

lbr


xay

xby(olamaz)

a:b / <=l _ r

lar

lbr(olamaz)

Lar

Lar


lbr

lbr


xay

xby







  1. UYGURCA CÜMLELERİN YAPISI VE TÜRKÇE CÜMLELER İLE KARIŞSILAŞTIRILMASI

Uygurca ile Türkçe cümle yapısı yanı söz dizimi olarak yönünden benziyor, ayni anda çok sayıda farklar bulunmaktadır. Türkçe ile Orta Asya da konuşulan Türkçenin ayni lehçe olup olmadığı yönde tartışmalar bulunmaktadır. [26] .

Altta, Uygurca ve Türkçe cümleler verilmiştir.

Men bazargha kettim.

Ben pazara gittim.
Sen su ichting mu?

Sen su içtin mi?


Qoylar taghqa ketti.

Koyunlar dağa gitti.


Bu cümleler bir-birine cok benziyor. Hatta bazı kelimeler ayni anlam veiyor .

Ama bazen, tam tersin durumlar söz konusu oluyor.


Men bazargha badim ve sebze aldim.

Ben pazara gittim ve havuç aldım.


Bundan dolayı, Uygurca ile Türkçenin cümle yapısı ne kadar benzese bile, doğrudan çeviri yapmak çok yanlış sonuçlar getirebilmektedir. Dolaysıyla, biçim birimsel analız yaptıktan sonra, kesin olarak belirsizlik, karşılıkları gidermek çalışması yapılması gerekmektedir.
4. KISALTMALAR
UKIJ Uygur Komputer Ilmi Jemiyeti
5. KAYNAKLAR
[1]. http://www.ukij.org

[2]. http://unicode.org

[3]. Hamit T. Modern Uygur Grammar

(Morphology). Yıldız Teknik

Üniversitesi, Fen-Ed Fak. T.D.E

Bölümü. Istanbul 2003.(İngilizce baskı).

[4]. Mirsultan Osmanof, "Hazirqi Zaman

Uyghur Edebiy Tilining İmla ve

Teleppuz Lughiti". Shin Jiang Xeliq

Neshiryatı. Ocak 1997. (Uygurca baskı)

[5]. Yi Shen Xiu Gao Xhi Ju, "Uyghur Dili

Grammatkası". Çin Halik Cumhuriyeti

Merkezi Milletler Üniversitesi Baskısı,

Şubat 1998. (Çince baskı).

[6]. http://www.aaai.org/AITopics/html/ma

chtr.html

[7]. Tantuğ A:C, Adalı E, Oflazer K.,2006.

“Computer Analysis of The Turkmen Language Morphology” Proceeding of the 5th International Conference on Natural Language Processing,Fin TAL 2006 , Turku, Finland.


[8]. Gülşen Eryiğit and Eşref Adalı. "An

Affix Stripping Morphological

Analyzer for Turkish"

[9]. İ. Hamzaoğlu, "Machine translation

from Turkish to other Turkic

languages and an implementation for

the Azeri languages," in Institute for

Graduate Studies in Science and

Engineering. vol. MSc Thesis

İstanbul: Bogazici University, 1993.

[10]. K. Altıntaş, "Turkish to Crimean

Tatar Machine Translation System,"

in Bilgisayar Mühendisliği Bölümü.

vol. MSc Ankara: Bilkent

Üniversitesi, 2000.

[11]. https://zemberek.dev.java.net/

[12]. Muhtar Mahsut, Yasuhiro Ogawa,

Kazeu Sugino, Katsuhiko Tuyama, ans

Yasuyoshi Inagaki , "An Experiment

on Japanese- Uighur Machine

Translation and Its

Evalutation" AMTA 2004, LNAI

3265,pp.208-216 2004

[13]. K. Koskenniemi, "Two-Level

Morphology : A General

Computational Model

for Word Form Recognition and

Production," Department of General

Linguistics, University of Helsinki

1983.


[14]. L. Karttunen, "KIMMO : A General

Morphological Processor," in Texas

Linguistic Forum, Texas, USA,

1983, pp. 163-186.

[15]. E. L. Antworth, "PC-KIMMO: A

Two-Level Processor for

Morphological Analysis," Summer

Institute of Linguistics, Dallas,

Texas, USA 1990.

[16]. R. Sproat, Morphology and

Computation: MIT Press 1992.

[17]. Two Level Morphology.

http://www.ling.helsinki.fi/~koskenni/

esslli-2001-karttunen/

[19]. PC-KIMMO.

http://www.sil.org/pckimmo/

pc-kimmo.html

[20]. http://www.xrce.xerox.com/

competencies /content-analysis/fst/

[21]. K. Oflazer, "Two-level Description

of Turkish Morphology," Literary

and Linguistic Computing, vol. 9,

pp. 137-148, 1995.

[22]. L. Karttunen and K. Wittenburg,

"A Two-Level Morphological

Analysis of English," in Texas

Linguistic Forum, Texas, USA,

1983, pp. 217-228.

[23]. R. Khan, "A Two-Level

Morphological Analysis of

Rumanian," in Texas Linguistic

Forum, Texas, USA, 1983, pp. 253-

270.
[24]. K. Koskenniemi, "An Application

of the Two-Level Model to Finnish,"

University of Helsinki Department

of General Linguistics (1985.

104
[25]. S. Lun, "A Two-Level

Morphological Analysis of French,"

in Texas Linguistic Forum, Texas,

USA, 1983, pp. 271-278.

[26]. Ahmet Cüneyd Tantuğ, "Türk

Dilleri Arasında Sonlu Durum

Modeli Tabanlı Metin Aktarımı".

Doktora Tezi. Mayıs 2007.








Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©anasahife.org 2016
rəhbərliyinə müraciət