RSS

tspell: Java tabanlı Türkçe Doğal Dil İşleme Projesi

24 Aug

İlk kez bir e-posta listesinde görmüştüm tspell projesinin adresini, sanırım Mart ayı civarıydı, gidip baktığımda ortada henüz bir şey yoktu. Geçen hafta uğradığımda ise Java ile geliştirilmiş ve hiç de küçümsenmeyecek bir sistem ve güzel bir web sayfası karşıladı beni. Bilişsel bilim (cognitive science) ve doğal dil işleme (NLP – Natural Language Processing) konuları ile uğraşan biri olarak heyecanlandığımı inkâr edemem.

İki Türk programcı tarafından başlatılan ve Türk diline ciddi bir teknolojik hizmet olarak gördüğüm böyle bir projenin varlığı, açık kodlu olması ve paylaşıma açık olarak sunulması beni çok sevindirdi.

Bir hayli iddialı olan projenin 0.2 numaralı sürümü hem doğrudan çalışabilir hem de istenirse Java kodları ile birlikte Internet´ten çekilebiliyor. Geliştiricilerin Eclipse yazılım geliştirme platformunu önermeleri ve tspell Java kaynak kodlarının Eclipse üzerinden nasıl çekilip derlenebileceğini anlatan teknik bir makale yazmış olmaları ise benim gibi konuya hızlı bir giriş yapmak isteyen ancak Eclipse ve Java konusunda çok deneyimli olmayan programcılar için çok ciddi bir artı puan.

Proje şu anda bünyesindeki sözlük ve algoritmalarla sözlük oluşturma, sözcük denetleme, sözcük çözümleme, Türkçe harf kullanılmadan yazılmış yazıları tam olarak Türkçe yazıya dönüştürme (deASCIIfier) ve tersi işlemleri (ASCIIfier), heceleme işini yapıyor.

Proje kurucu/yöneticileri olan geliştiriciler her türlü katkıya, desteğe ve eleştiriye açıklar. Destek vermeye çalışanları da gayet sıcak karşılıyor ve ellerinden geldiğince yardımcı oluyorlar her türlü konuda. Ben de elimden geldiğince katkıda bulunmaya çalışacağım, şimdilik elimdeki Java kodlarını incelemek ve sistemin algoritmalarını, veriyapılarını anlamakla meşgulüm. Yazılımcılardan biri Porto Riko´da profesyonel programcı olarak çalışırken diğeri de TÜBİTAK´ta araştırmacı olarak görev alıyor, bir diğer katılımcı da yine bilgisayarla ilgili ve değişik konularda uygulama geliştirmiş biri. İlk kez böyle dağıtık çalışma modelinin bir parçası olmak üzereyim, hadi hayırlısı 🙂 Görebildiğim kadarı ile Eclipse, CVS işlevselliği de dahil olmak üzere her türlü aracı bünyesinde sunuyor. Son 4.5 sene Internet programlama ile uğraştıktan sonra Java ile “uygulama” programlamaya da el atmak güzel bir deneyim olacak gibi.

Advertisements
 
2 Comments

Posted by on August 24, 2004 in CogSci, Genel

 

2 responses to “tspell: Java tabanlı Türkçe Doğal Dil İşleme Projesi

  1. BitirmeTalihsizi

    May 7, 2017 at 14:06

    Merhaba;
    Yukarıda projenin açık kaynak kod olduğundan bahsetmişsiniz.Acaba kodlar nerede paylaşıldı?
    İyi çalışmalar…

     
  2. Emre Sevinç

    May 7, 2017 at 19:26

    13 sene sonra gelen yorum için tesekkurler. Bildigim kadari ile tspell’i yapan ekip Zemberek ismi ile devam ettiriyor çalismalari. Asagidaki adreslerde detaylar mevcut:

    https://github.com/ahmetaa/zemberek-nlp
    https://fazlamesai.net/posts/turkce-dogal-dil-isleme-kitapligi-zemberek-nlp-v-0-10-0-cikti

     

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

 
%d bloggers like this: