Geniş dil modelleri (LLM) alanında son birkaç yılda alınan yol kusurlu ancak tüm kusurlarına rağmen oldukça güçlü çeşitli araçları mümkün kıldı. Metin üretimi ve işlenmesinden kod yazımına; ses, görsel ve video üretiminden çeşitli dokümanların analizine pek çok işi artık LLM’lerin sunduğu olanakları görmezden gelerek tartışmak mümkün değil. Ancak LLM’lerin eksiklerini ve kusurlarını görmezden gelmeye yatkın bir eğilimin pek çok tartışmada baskın olduğu da tartışmaları takip edenlerin kolayca görebildiği bir durum. Bu propagandanın başını çeken LLM araçlarından doğrudan mali çıkarı olan kesimi bir yana bırakalım, bu araçlar sayesinde bir anda iyi bir yazar, iyi bir grafik sanatçısı, iyi bir video kurgucusu, iyi bir yazılımcı vb. olabileceği hayalleri ile söz konusu propagandanın rüzgarına kapılan geniş bir kitle de mevcut.

Kabaca tarif edecek olursak LLM’ler temel olarak verili bir sorgu için birbiri ardına gelmesi gereken ‘şeyleri’ istatistiki modellere göre art arda dizen sistemler. Söz konusu ‘şey’ ister kelime olsun ister piksel, isterse de görüntü karesi; LLM’ler eğitimleri için kullanılan veri kümeleri üzerinden ürettikleri istatistiki modellere dayanarak verili bir sorgu için kelimeleri, pikselleri vb. diziyor. Bu modellere dair veri kümesinin taraflılığı, yetersiz ya da hatalı veri kümeleri, hatalı istatistiki modeller, modelde hatalı ağırlıklandırmalar gibi daha teknik olarak niteleyebileceğimiz epeyce problemden bahsetmek mümkün. Ancak bu teknik ‘sorunlardan’ daha büyük olan sorun LLM’lerin varoluşuna ve yapısına içkin, çözülemez bir sorun: Yapıları ve çalışma şekillerinin zorunlu bir sonucu olarak LLM’lerin verili herhangi bir olgunun bağlamını kavrama olasılığı ya da gerçek bir dünya algısına sahip olma olasılığı yok. Zaten tam da bu sebeple insana eş değer bilişsel yetilere sahip genel yapay zekaya (AGI) gidilecek yolun LLM’lerden geçmeyeceği uzun süredir tartışılıyor. Ancak bu tartışmaların yazının başında bahsettiğimiz yapay zeka hayalperesti kitleyi pek ikna edemediği de ortada.

LLM’lerin potansiyelini ve eksiklerini bilen ve alanı yakından takip eden bir yazar, grafik sanatçısı, kurgucu ya da yazılımcıya kendi alanları üzerinden LLM’ler yardımı ile bir anda kendi alanlarında iyi hale gelmenin ne kadar mümkün olduğunu sorarsanız çoğunluğu “LLM’lerin sihirli değnek olmadığını” ve “Kendi alanlarında iyi olabilmenin LLM’lerin yapabildiğinden çok daha fazlasını gerektirdiğini” uzun uzadıya anlatacaktır. Ancak bu haftanın gelişmeleri böyle anlatımlar ile de ikna olmayacak yapay zeka hayalperestlerinin kafalarını karıştıracak cinstendi.

OpenAI, yeni metinden videoya modeli Sora’yı ilk bakışta oldukça gerçekçi ve başarılı görünen videolarla tanıttı. Sora’nın metinden video üretimi alanında kısa süre öncenin başarısız videolarına kıyasla büyük bir sıçrama. Ancak tanıtım için muhtemelen hazırlanan yüzlerce video içinden seçilen videolara biraz daha yakından bakıldığında çok sayıda hata kolayca tespit edilebiliyor. Geçen haftanın bir diğer vakası Google’ın yeni metinden görsele modeli Gemini’ın -muhtemelen veri kümesinin çeşitlilik ve kapsayıcılık açısından yanlılığını azaltmaya dönük olarak modelin ağırlıklarına müdahale edilmiş olması nedeni ile- Vikingleri siyah tenli çizmek gibi tarihi ve coğrafi yanlışlar yapması nedeni ile geçici olarak modelin insan çizimlerinin durdurulmasıydı. Geçen haftanın son vakası ise ChatGPT’nin bir süreliğine tümüyle anlamsız yanıtlar vermeye başlaması oldu.

LLM’lere dayalı araçların bu hataları geliştirme sırasında gözden kaçan hatalar değil. Aksine mevcut modellerin yapılarının zorunlu olarak getirdiği olağan sonuçlar. LLM’ler kusurlu istatistiki modeller ve bu modellerle yapılabileceklerin sınırları var. Kusursuz istatistiki modeller olsalardı dahi bir istatistiki model sanatsal bir şaheser üretebilecekleri oldukça şüpheli. Bütün bunların farkındalığıyla LLM’leri kullanmak ile bir anda her şeyi değiştirecek bir sihirli değnek hayali kurmak arasında epey fark var.

QOSHE - Geniş dil modelleri ve olağan hataları - İsmail Gökhan Bayram

account_circle info brightness_medium cancel view_agenda grid_view

expand_moreexpand_less

Bosnia & Herzegovina

World

favourites

archive

Columnists

Actual . Favourites . Archive

We use cookies to provide some features and experiences in QOSHE

More information . Close

Aa Aa Aa

- A +

Geniş dil modelleri ve olağan hataları

İsmail Gökhan Bayram

Evrensel

16

3
24.02.2024

Geniş dil modelleri (LLM) alanında son birkaç yılda alınan yol kusurlu ancak tüm kusurlarına rağmen oldukça güçlü çeşitli araçları mümkün kıldı. Metin üretimi ve işlenmesinden kod yazımına; ses, görsel ve video üretiminden çeşitli dokümanların analizine pek çok işi artık LLM’lerin sunduğu olanakları görmezden gelerek tartışmak mümkün değil. Ancak LLM’lerin eksiklerini ve kusurlarını görmezden gelmeye yatkın bir eğilimin pek çok tartışmada baskın olduğu da tartışmaları takip edenlerin kolayca görebildiği bir durum. Bu propagandanın başını çeken LLM araçlarından doğrudan mali çıkarı olan kesimi bir yana bırakalım, bu araçlar sayesinde bir anda iyi bir yazar, iyi bir grafik sanatçısı, iyi bir video kurgucusu, iyi bir yazılımcı vb. olabileceği hayalleri ile söz konusu propagandanın rüzgarına kapılan geniş bir kitle de mevcut.

Kabaca tarif edecek olursak LLM’ler temel olarak verili bir sorgu için birbiri ardına gelmesi gereken ‘şeyleri’ istatistiki modellere göre art arda dizen sistemler. Söz konusu ‘şey’ ister kelime olsun ister piksel, isterse de görüntü karesi; LLM’ler eğitimleri için kullanılan veri kümeleri üzerinden ürettikleri istatistiki modellere dayanarak verili bir sorgu için kelimeleri, pikselleri vb. diziyor. Bu modellere dair veri kümesinin taraflılığı, yetersiz ya da hatalı veri kümeleri, hatalı istatistiki........

© Evrensel