RSS

Semantik Web ile Türkiye – ABD Kıyaslaması: Ursula K. LeGuin ve Oğuz Atay

28 Jan

Basit bir soru: X ülkesinin vatandaşı olan yazarları ve her birisinin kitaplarının listesini getir.

Süre: 2 dakika.

Yukarıdaki işi bir programcı olarak nasıl yapardınız? Mesela X = Türkiye.

Çok basit bir soru gibi görünüyor.

Acaba gerçekten öyle mi? İsterseniz bir deneyin. 😉

İsterseniz süreyi 20 dakikaya çıkaralım. Yahut 2 saate. Kaç yazarın kaç kitabını getirebilirsiniz? Ne kadarlık bir bilgisayar kodu yazmanız gerekir, o kod hangi kaynaklara bağımlı olur, ne kadar sürede çalışır?

Şimdi siz bunu düşünedurun, dbpedia.org’a SPARQL sorgulama dili ile birkaç soru soralım ve sonuçlarına bakalım:

‘American’ ‘writer’ olan kişileri listele (500 tane ile sınırla) (epey bir yazarı barındıran listemiz hazır).

– Yukarıdaki listeden bir yazar seçelim, mesela Ursula K. LeGuin, şimdi LeGuin’in kitaplarını listeleyelim (epey bir kitap gelir).

‘Turkish’ ‘writer’ olan kişileri listele (500 tane ile sınırla) (sadece 4 yazarlık bir liste gelir)

Oğuz Atay’ın kitaplarını listele (sadece tek bir kitap gelir, hangisi tahmin edin).

Sonuç-1: Teşekkürler semantik web, teşekkürler Türkiye.

Sonuç-2: Daha 40 fırın ekmek yememiz gerekiyor gibi görünüyor.

Sonuç-3: Buna da şükür, dbpedia.org, vs. sağolsun insanlar yemiyor içmiyor yığınla metin verisini ele avuca gelir ve semantik olarak otomatik işlenebilir şekilde kodlayıp kamunun erişimine açıyorlar. Semantik web ne işe yarıyor ve neden desteklenmeli ki acaba diye soranlara verilebilecek güzel bir örnek.

Advertisements
 
12 Comments

Posted by on January 28, 2009 in General, Programlama

 

12 responses to “Semantik Web ile Türkiye – ABD Kıyaslaması: Ursula K. LeGuin ve Oğuz Atay

  1. Altan Tanrıverdi

    January 28, 2009 at 19:32

    Ben sorunu doğrudan bizim insanların bilgi koruma güdüsünde ve bıkkınlık hissinde görüyorum. Paylaşmayı bilmeyen, aklı üretileni çoğaltmak yerine üstüne çullanmakta gören bir anlayışa sahibiz.

    Diğer taraftan veri girişinin yoğun şekilde gerçekleştiği projeler üzerinde çalışmama ve sözde paylaşımın gücüne inanan biri olmama rağmen oturup iki tane API yazmaya üşeniyorum.

    Birazda çalışma mantığımız ile ilgili tabi. Adamlar bu tür projeleri ana işleri olarak görüyorlar, bizde ise ancak yetenekli bir kaç yazılımcı vs. boş vakit bulursa “mesai”den sonra yapıyor.

    Türkiye’de zaten devlet tarafında hiç bir umudum yok. İş üniversiteler ve “akıllı” firmalarda bitiyor.

    Verileri bir saçalım ortaya demekle başlayabilsek.

    Çok mu havada kaldı dediklerim acaba bilmiyorum.

     
  2. Emre Sevinc

    January 28, 2009 at 20:36

    Bilgi koruma güdüsünün burada söz konusu olduğunu düşünmüyorum. Yani kim neden Türk yazarlarını ve onların kitap listesini korusun? Şaka bir yana şu anda gerçekten de bir proje için Türk yazarlarının kitap listesine ihtiyacım var ve bunun için yoğun parsing işlemleri gerçekleştirmeden (ki o durumda dahi problem yaratan veriler söz konusu) veriye ulaşmak mümkün değil.

    Bu gibi konularda zaten devletten bir şey beklemeyi anlamlı bulmuyorum, ABD’deki Silikon Vadisi devlet desteği ile mi kuruldu? Ekonomi ve ölçek ve senin de belirttiğin gibi ‘akıllı firma’ meselesi diye düşünüyorum.

     
  3. Altan Tanrıverdi

    January 28, 2009 at 20:53

    http://tr.wikipedia.org/wiki/Kategori:T%C3%BCrk_yazarlar

    veya

    http://mksun.mkutup.gov.tr/F/8JP2NCTY1931CP2HGGSGSIJIUM9DKILVATRGECSEAJBYVX9FFM-00815?func=scan&scan_start=000025608&scan_code=AUT&scan_op=PREV

    sanırım işinizi en iyi görecek yerler. Vakit bulamazsanız ben parse ederim. Hatta parse edip bir proje olarak sunulanabilinir.

    Devlet konusunda ise ABD’den farklı bir noktamız var. Verinin çoğu devlet organlarımızın veya yarı resmi kurumların elinde (Odalar, Birlikler, Sendikalar vs.). Bugün nöbetçi eczane bilgisini bile 50 ayrı siteden çekmek zorunda kalıyorum ki yarısı yanlış. Diğer taraftan e-devlet diye yutturulan sitede malumunuz.

    Ama dediğiniz gibi bu tür verileri artık biraz samanlıkta iğne arar gibi toplayıp derlemek gerekiyor, devletin yardımcı olup olmamasına bakmadan.

     
  4. Emre Sevinc

    January 28, 2009 at 21:12

    O verdiğiniz adreslerin farkındayım ve hatta ben de kolaylıkla şurayı önerebiliyorum (Milli Kütüphane ve başka yerlerden veri çekip getiriyor):

    http://tokat.ulakbim.gov.tr/

    Mesele şu ki

    1- Wikipedia’yı parse etmek gerekiyor (bunda çok sorun yok, çok basitçe halledilir)ç

    2- Milli Kütüphane ya da TOKAT’ın verisini parse etmek gerekiyor. Bunda sorun var çünkü imla hataları barındıran kitap başlıkları geldiği gibi aynı kitabın farklı farklı baskılarının gelme durumu (yahut her ikisi birden, buna kabus senaryosu diyoruz) olabiliyor. Kitap derken benim kast ettiğim ve talep ettiğim ise soyut eser, yani filanca yayınevinin falanca yıldaki filanca baskısı değil.

    3- Bütün bunları bildiğim için parse etme işine girişmenizi tavsiye etmem şu anda çünkü epey bir efor sarf edersiniz ve sonuçta yine elinizde bir yığın çöp veri olur. Başa dönmüş oluruz.

    4- Tüm bunlara rağmen “ben bu işin altından kalkar, tüm bahsedilen o sorunları da çözer, sonra da bunu semantik web standartlarına uygun olarak sunan bir sunucuya koyarım, isteyen gani gani kullanır” derseniz o zaman ceketimi ilikler saygı duruşuna geçerim (ayrıca bizden sonraki nesiller de faydalanır, lakin ben faydalanamam çünkü benim biraz acelem var). 🙂

    Devlet meselesine gelecek olursak, ABD yazarlarına dair epey veriyi 2 satırlık semantik web standartları ile uyumlu olan dbpedia.org’dan çekmemi sağlayan dbpedia.org işinde ABD devletinin katkısı ne kadar acaba? Yahut FreeBase’e hangi devletin ne kadar katkısı var?

    Nöbetçi eczane verisini sağlıklı (!) olarak çekme işinde kolay gelsin der ve tüm ilahi güçlerden cümle programlama ekibine sabır dilerim! 🙂 (Programcının halinden programcı anlar, Tim Berners-Lee semantic web diye bir tarafını yırttığında bazıları ona gülüyordu, o gülümsemelerin yerini bazen acı yutkunuşlar alabiliyor).

     
  5. Emre Sevinc

    January 28, 2009 at 21:15

    Meraklısına egzersiz: 1900 – 1940 arasında doğmuş, halen yaşayan, Kanada doğumlu sinema sanatçıları içinden Vietnam Savaşı karşıtı olup aynı zamanda Vietnam’la ilgili filmlerde rol almış olanları getir çevirdikleri filmlerle birlikte. 😉 (SPARQL ısınma turları)

     
  6. Altan Tanrıverdi

    January 28, 2009 at 21:56

    Tokat id veya herhangi bir tekil değer ile listeleme yapmıyor. Http request ile işi daha da zorlaştırmışlar. Parse yapılabileceğini sanmıyorum. Milli kütüphanede ise

    http://mksun.mkutup.gov.tr/F/?func=find-b&find_code=SYS&request=000009759

    şeklinde id bazlı ulaşım mümkün. ancak tokat datası daha geniş ve 20 civarında ana kütüphaneden data çekiyor. İncelediğim kadarıyla hepsinin ortak sunduğu datalar şunlarla sınırlı:

    Yazar Materyal Türü Eser Adı Yer Numarası Basım Bilgileri

    Milli kütüphaneyi bu gece parse edip json olarak verebilirim bu datalar yeterliyse. Diğerleri içinde Allah kerim.

     
  7. Emre Sevinc

    January 28, 2009 at 22:56

    Evet yeterli. Yarın sabaha dek JSON ya da CSV (comma seperated value) dosyası olarak

    Yazar ismi, eser ismi, materyal türü, basım bilgileri

    şeklinde bir içeriği Vikipedi’deki ismi geçen tüm Türk yazarların tüm kitapları için oluşturup (yani Milli Kütüphane veri tabanında olduğu kadarı ile tabii) download edebileceğim bir yere koyarsanız sevinirim. Bu arada tabii Sait Faik Abasıyanık’ın Mahalle kahvesi ; Havada bulut ve Mahalle kahvesi ; gibi eserlerinin aynı eser olup olmadığı, Aziz Nesin’in el-A?malü?l-mesr haytu?l-kâmile isimli kitabı ile al-A?mâlü?l-mesr hayat?ül-Kâmile.kitaplarının aynı eser olup olmadığı, aynı eser ise mükerrer kayıt olarak söz konusu dosyaya girilmemesi gerektiği gibi noktalara da dikkat etmek gerekecek (bunlar göze çarpan ilk birkaç örnek, tahmin edebilirsiniz ki örnekler çoğaltılabilir).

     
  8. Ert

    January 29, 2009 at 10:37

    alakasız olacak belki, DB hazırsa sql ile 10 sn lik iş , üstüne bir de ufak php kodu işlem tamamdır.Hani 2 dk süre vermişsiniz ya o açıdan cvp vermek istedim 🙂

     
  9. Emre Sevinc

    January 29, 2009 at 11:32

    “DB hazırsa” lafı burada kritik. Ne DBsi, ne hazırı. Amerikan yazarları için DB hazır mıydı mesela? Bir yani ile evet, hazırdı, nasıl mı, Wikipedia’daki yılların emeğinin yine bir emekle dbpedia.org’a aktarılması ile 10 sn.de SPARQL sorgusu halledebildim. Elimin altında bir veri tabanı olmasına gerek yoktu, standartlara uygun şekilde veriye ulaşabilmem yeterli idi. Türkçe için bu veriler girilmiş durumda değil. NLP (Natural Language Processing) alanında olduğu gibi burada da görüyoruz ki İngilizce için iş yapmaya geldi mi elimde yığınla veri ve araç var, Türkçe söz konusu olduğunda ise kağnı hızı ile ilerliyoruz ve hep geriden, dezavantajlı olarak başlamamız gerekiyor. Denebilir ki “madem o kadar şikayetçisin git Türk yazarlarını ve kitap listelerini Wikipedia’ya ve dbpedia.org’a işle” bu durumda da derim ki şu anda buna enerjim ve vaktim yok, en kestirme yöntemle o veriyi elde edip üzerinde bazı denemeler yapmam gerekiyor.

     
  10. Elif Kuş

    February 6, 2009 at 19:13

    dbpedia.org 2 üniversite ve bir açık kaynak yazılımlarla ilgili çalışan şirket yapmış. Asıl işi anladığım kadarıyla üniversiteler yapmış.

    Şirketin çıkarı yoksa niye yapsın. Muhtemelen o şirket de bu işten para kazanacak bir şekilde.

     
  11. Özer Kavak

    July 27, 2012 at 13:51

    Bir anımı paylaşayım. anlamsal ağ teknolojileri (uygulama kısmı) yapılandırılmış (veya yapılandırabileceği) veriye ihtiyaç duyar. Üyesi olduğum X ili ticaret odasında evrak işim vardı, firma bilgilerimi de güncellemek istedim. Bilgi işlem müdürü ile sohbet etme fırsatım oldu.

    Bu ticaret odası, Web sitesinde üye bilgilerini .xls olarak paylaşıyordu. Telefon numaralarının çoğu eksik, olanlar güncel değildi. 4000’e yakın üyenin sadece 300’ünün e-posta adresi vardı ki muhtemelen yarısı çalışmıyordu, NACE kodları tanımlanmış sadece 40 üye vardı vs.

    Bilgi işlem müdürüne bu verileri güncelleyebilirlerse, aklıma ilk gelen en hızlı sonuç alabileceğim çözümü söyledim.

    * ücretsiz bir cms (joomla) ile tüm üyelerine ait bilgileri (contacts) otomatik olarak yükleyebileceğimi,

    * sayfalardaki bilgileri RDFa veya microdata ile işaretleyebileceğimi (template override),

    * mevcut hosting firmalarından bir tomcat sunucu veya java tabanlı bir hizmet alırlarsa, veriyi Tomcat üzerindeki bir Sesame veri deposuna yükleyebileceğimi

    * Sesame 2.x üzerindeki hazır SPARQL endpoint hizmeti verilebileceğini,

    * Tüm bunları 2-3 gün içinde hazır edebileceğimi,

    * Mevcut veritabanı ile Sesame + Joomla (MySQL) güncelleme scriptini de birkaç günde yazabileceğimi, haftada veya ayda bir güncellemeyi de benim yapabileceğimi,

    * Ticaret odasının bir üyesi olarak para istemediğimi, hem tecrübe hem referans olacağını söyledim.

    Çok heyecanlandı. Kartımı aldı, telefonumu kaydetti, günlerden salı idi. Cumartesi ofisime gelmek istediğini söyledi. Genel sekreter ile gelebileceğini söyledi (akrabasıydı sanırım).

    Bu diyalog üzerinden 9 ay geçti 🙂

    Bir ticaret odasının üyelerine yapabileceği en teknolojik kıyak, herhalde üyelerinin anlamlı bilgilerini yayınlamak olurdu (Linked Data).

    Sonuç: 4 yazar + 5-10 kitap aslında iyi sonuç.

     

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

 
%d bloggers like this: