OpenAI’ın şubat ayının sonlarında tanıttığı yeni metinden video üretimi modeli Sora tanıtım videoları ile epey merak konusu olmuştu. Sora’nın tanıtım videoları yakından bakıldığında dikkatsiz bir gözden kolayca kaçabilecek çeşitli hatalar içerse de metinden video üretimi modelleri açısından dikkate değer bir ilerlemeydi. OpenAI’ın Baş Teknoloji Sorumlusu (CTO) Mira Murati, Wall Street Journal’dan (WSJ) Joanna Stern’e verdiği röportajda Sora’nın “bu yıl, belki de birkaç ay içinde” genel kullanıma açılacağını duyurdu. Röportajda Sora’ya dair “ses üretimi eklemeyi planladıkları” gibi epeyce yeni bilgi var. Ancak tüm görüşmenin en can alıcı kısmı Stern’in Sora’yı eğitmek için kullanılan veri kümesini sorduğu kısımdı:

Stern: Sora’yı eğitmek için hangi verileri kullandınız?

Murati: Kamuya açık verileri ve lisanslı verileri kullandık.

S: Yani, YouTube videoları mı?

M: Emin değilim.

S: Instagram’dan, Facebook’tan videolar mı?

M: Bilirsiniz, eğer kamuya açıklarsa, evet kamunun kullanımına açıklarsa, veri olabilirler, emin değilim. Bu konuda emin değilim.

S: Peki ya Shutterstock? Onlarla bir anlaşmanız olduğunu biliyorum.

M: Kullanılan verilerin ayrıntılarına girmeyeceğim ama kamuya açık ya da lisanslı verilerdi.

Eğitim verilerinin kaynağı, geniş dil modellerinin (LLM) geleceğini belirleyecek kritik tartışmalardan biri. OpenAI başta olmak üzere çeşitli LLM geliştiricilere verilerin ticari amaçlarla, izinsiz ve kendileri ile rekabet edecek şekilde kullandıkları gerekçesi ile veri sahipleri tarafından açılmış epeyce dava var. Basın yayın alanından, daha büyük yayınlardan Newyork Times, The Intercept ve Raw Story OpenAI’ı dava eden kuruluşlar arasında. Hal böyle iken OpenAI’ın baş teknoloji sorumlusunun veri kaynaklarını bilmemesi pek mümkün değil. Ancak gerek bocalayan kaçamak yanıtları gerekse de yanıtlarken mimikleri ve yüz ifadeleri böyle bir soruya hazırlanmadığına da işaret eder nitelikte.Murati’nin ağzından kaçırdığı kısım OpenAI’ın veri kaynaklarına yaklaşımına dair ciddi bir fikir veriyor. Murati’nin eveleyip gevelediklerini “Kamuya açıksa ticari olarak kullanabiliriz” şeklinde özetlenebilir. Telif hakları ve fikri mülkiyet konularına az çok aşina olan herhangi biri bu cümlenin ne kadar yanlış olduğunu söyleyebilir. Zaten tahmin edilen ancak Murati’nin ifadeleri ile bu kez itiraf edilmiş olan OpenAI’ın olası sonuçlarına katlanmayı göze alarak dört bir koladan yağmaladığı veriyi kullandığı gerçeğidir.

OpenAI’ın bu kadar pervasızca davranabilmesinin sebeplerinden biri telif hukukunun ta kendisi. Mevcut telif hukuku büyük telif sahiplerini korumak üzere kurulu. Tam da bu yüzden OpenAI ve diğer LLM’lere telif veya fikri mülkiyet davası açanlara baktığınızda karşınıza büyük şirketlerden oluşan bir tablo çıkıyor. “Küçük” içerik üreticisinin, “küçük” sanatçının vs. OpenAI gibi bir şirkete dava açmasının olanağı pek yok. Böyle bir davayı açanın da harcayacak milyonları yoksa OpenAI’ın avukat ordusu ile başa çıkıp davayı sonuca ulaştırma olanağı zayıf. Bütün bu sürecin sonunda OpenAI ile davacı büyük şirketlerin al takke ver külah anlaştığı; bir davayı sürdürecek kadar olanağı olmayanların ürettikleri içeriklerin ise OpenAI ve LLM geliştiren şirketler tarafından tepe tepe kullanıldığı bir tabloyla karşılaşabiliriz. LLM’lerin eğitimi için kullanılan veri kümelerinin açıklanmasının zorunlu tutulması böyle bir tabloyu engellemenin ilk adımı olabilir.

QOSHE - Veri yağmacıları - İsmail Gökhan Bayram
menu_open
Columnists Actual . Favourites . Archive
We use cookies to provide some features and experiences in QOSHE

More information  .  Close
Aa Aa Aa
- A +

Veri yağmacıları

11 22
16.03.2024

OpenAI’ın şubat ayının sonlarında tanıttığı yeni metinden video üretimi modeli Sora tanıtım videoları ile epey merak konusu olmuştu. Sora’nın tanıtım videoları yakından bakıldığında dikkatsiz bir gözden kolayca kaçabilecek çeşitli hatalar içerse de metinden video üretimi modelleri açısından dikkate değer bir ilerlemeydi. OpenAI’ın Baş Teknoloji Sorumlusu (CTO) Mira Murati, Wall Street Journal’dan (WSJ) Joanna Stern’e verdiği röportajda Sora’nın “bu yıl, belki de birkaç ay içinde” genel kullanıma açılacağını duyurdu. Röportajda Sora’ya dair “ses üretimi eklemeyi planladıkları” gibi epeyce yeni bilgi var. Ancak tüm görüşmenin en can alıcı kısmı Stern’in Sora’yı eğitmek için kullanılan veri kümesini sorduğu kısımdı:

Stern: Sora’yı eğitmek için hangi verileri kullandınız?

Murati: Kamuya açık verileri ve lisanslı verileri kullandık.

S: Yani, YouTube videoları mı?

M: Emin değilim.

S: Instagram’dan, Facebook’tan videolar mı?

M: Bilirsiniz, eğer kamuya açıklarsa, evet kamunun kullanımına açıklarsa, veri olabilirler, emin........

© Evrensel


Get it on Google Play