Üretken Yapay Zeka Çağında Veri Kaynakları – veritabanimimari.com

Üretken yapay zeka heyecanıyla karşılaşmadan LinkedIn’i açamayacağınız, bir teknoloji veya iş blogunu okuyamayacağınız veya 30 saniyeden fazla bir konferansa katılamayacağınız konusunda haklı mıyım? OpenAI’nin ChatGPT’yi (çoğunlukla) hiçbir şeyden haberi olmayan bir dünyaya serbest bıraktığı geçen sonbahardan beri bu böyle.

Kimi okuduğunuza veya dinlediğinize bağlı olarak üretken yapay zeka insanlığı kurtaracak veya yok edecek; işleri ortadan kaldırmak, yaratmak veya bunlar üzerinde mütevazı bir etki yaratmak; sınırlı olsa da yararlı bir araç olabilir; ya da Büyük Teknoloji’nin kârını en üst düzeye çıkarması için bir araç daha olabilir. En azından bu makalede bu tartışmaya girmeyeceğim, ancak Parix Marx, Emily Bender ve Timnit Gebru ve diğerleri aydınlatıcı yorumlar sunuyorlar.[1]

Birçoğu, üretken yapay zeka için veri ve veri yönetiminin önemi hakkında düşünceli bir şekilde yazıyor veya sunum yapıyor. Kurucu yayıncımız Bob Seiner bu konu hakkında yazdı ve ana noktalarından biri, üretken yapay zeka için verileri yönetmenin ve yönetmenin herhangi bir veriyi yönetmekten veya yönetmekten çok da farklı olmadığıdır. Bob’un “Non-Invasive Data Governance Strikes Again: Gaining Experience and Perspective” adlı yeni kitabında yazdığı gibi, “LLM’lerin sunduğu veri zorlukları, veri yönetimine yönelik tüm yaklaşımlarda tutarlıdır.”[2] Bu zorluklar her veri yönetimi uygulayıcısının aşina olduğu zorluklardır ve veri yönetimini, veri riskini, mahremiyet ve güvenliği, veri kalitesini ve bu senaryoyla son derece alakalı olan veri dokümantasyonunu içerir.[3]

Veri dokümantasyonunun, yapay zeka ile diğer ortamlara göre daha belirgin bir şekilde eşleştirildiğini duyduğum bir yönü var. Bu veri kaynağı. Veri kaynağı nedir? Veri yönetişimi sözlüğündeki pek çok terim gibi, çok sayıda farklı tanım vardır. Benim favorim ve bu makalenin konusuyla alakalı olanı Avustralya Araştırma Verileri Ortaklarından:

“Veri kaynağı, bir veri parçasının nereden geldiğinin ve üretildiği süreçlerin ve metodolojinin belgelenmesidir. Basitçe söylemek gerekirse, kaynak, verilerin neden ve nasıl üretildiğinin yanı sıra nerede, ne zaman ve kim tarafından üretildiği sorularına da yanıt verir. Veri kaynağı, o verinin gerçekliğini doğrulayan ve yeniden kullanılmasını sağlayan meta verilerdir.”[4]

Licenses.IO’nun blog yazısı Veri Kaynaklılığı Makine Öğrenimi Riskini ve Değerini Nasıl Artırıyor?Jillian Bommarito’nun yazdığı, veri yönetiminin üretken yapay zekanın kalbindeki verilere, yani büyük dil modellerini eğitmek için kullanılan verilere uygulanabilirliğine dair mükemmel bir genel bakış sunuyor. Bommarito ayrıca karşı konulamaz bulduğum sağlıklı dozda bir kelime saçmalığı da sunuyor:

“Kaynak, bir şeyin nereden geldiğini bilmektir. Hatta veni’yi, Julius Caesar’ın ünlü ‘veni, vidi, vici’sindeki ‘veni’ olarak Latince biçimi provenire’de tanıyabilirsiniz. Dolayısıyla teknik terim köken olsa da çoğu konuşmada ‘köken’ veya ‘soy’ yerine kullanabilirsiniz.”

Bir kelimenin etimolojisi konusunda yetkili kaynağım Oxford İngilizce Sözlüğü’dür ve OED, kökenini “köken” veya “neden” anlamına gelen Eski Fransızca kelimeye (1294 yılına kadar uzanan eski!) kadar izler.[5]

Bir kelimenin tanımını kökenine kadar takip etme kavramının tamamı kökenle ilgilidir ve Bommarito bunun veriler için neden önemli olduğunu açıklıyor:

“Teknolojinin önceden toplanmış veya oluşturulmuş verilere daha fazla dayanması ve bu verilerin kendisi de daha hacimli hale gelmesi nedeniyle, veri kökeni veya veri kaynağı giderek daha önemli hale geldi. Verinin nereden geldiği, nasıl elde edildiği ve veriye ne yapıldığı hakkında bilgi olmadan, söz konusu verinin kullanıcıları kendilerini ve kuruluşlarını olumsuz mali, hukuki ve itibari sonuçlar riskine maruz bırakır.”

Yüksek Lisans eğitiminde kullanılan verilerin kaynağı ve Yüksek Lisans eğitimcilerinin bu verileri yaratıcılara ücret ödemeden kullanma hakları sorunu teorik değildir. Sanatçılar, stüdyolar ve programcılar açık yapay zekaya ve diğer üretken yapay zeka liderlerine dava açıyor. Sheera Frenkel ve Stuart Thompson bunu yakın zamanda New York Times’ta yayınlanan bir makalede özetlediler:

“Bu yıl AI şirketlerine karşı, sistemlerini sanatçıların yaratıcı çalışmaları konusunda izinsiz eğitmekle suçlanan en az 10 dava açıldı. Geçtiğimiz hafta, Bayan Silverman ile yazarlar Christopher Golden ve Richard Kadrey, ChatGPT’nin yapımcısı OpenAI’ye ve diğerlerine, yapay zekanın çalışmalarını kullanması nedeniyle dava açtılar.”

Düzenleyicilerin mücadeleye yavaş yavaş dahil olduğu bir ortamda, bu davaların nasıl sonuçlanacağı herkes tarafından merak ediliyor. Teknoloji şirketleri Adil Kullanım doktrini kapsamında koruma talep etmeye çalışacak ancak bu, o alan için keşfedilmemiş bir alan.

Ancak satılabilir raporlar, resimler ve diğer ürünleri oluşturmak (veya çalışanlar tarafından eklenen son rötuşlarla birlikte oluşturmak) için üretken yapay zekayı kullanmaya istekli bir işletmeyseniz, telif hakkı davalarına tabi olamayacağınızı düşünmeyin. Bu algoritmaların eğitim verilerine nelerin girdiğine dair hiçbir fikriniz olmasa bile durum budur. Dr. Lance B. Elliot bunu muhteşem Forbes makalesinde açıklıyor: Yapay Zeka Etiği ve Yapay Zeka Hukuku, Üretken Yapay Zeka Çıktılarınızın Telif Hakkı Risklerine Karşı Güvenli Olduğunu Garanti Eden Yapay Zeka Üreticilerinin Düşündüğünüzden Çok Daha Az Doyurucu Olabilir. (Aslında başlık bu.) Telif hakkı yasasının kullanıcı tarafından oluşturulan içeriğe uygulanabilirliğine ilişkin kapsamlı analizinin, bu teknolojiyi kullanmayı düşünen herkesin mutlaka okuması gereken bir kitap olduğunu düşünüyorum, ancak Dr. Elliott, argümanının özünü şu şekilde özetliyor: açılış paragrafları:

“Evet, açık olmak gerekirse, üretken yapay zekanın kullanıcısı siz olabilirsiniz ve büyük olasılıkla, başka birinin Fikri Mülkiyet (IP) haklarını ihlal eden çıktılar üretip kullanmaya dayalı telif hakkı ihlaline maruz kalan kişi de sizsiniz.”

İşletmeniz telif hakkı ihlali nedeniyle tehlikedeyse, bu bizi veri kaynağı kavramına geri götürür. Bommarito’nun makalesi sanatın kökeniyle bir paralellik kuruyor: “Tarihsel olarak, köken en çok sanat bağlamında uygulanmıştır. Sanat dünyasında, dürüst hatalar ve kötü niyetli sahtekarlıklar, uzun süredir kayıp olan şaheserler veya haksız kazanılan servetlerle ilgili birçok ünlü hikayenin ortaya çıkmasına neden olmuştur. Ve II. Dünya Savaşı’ndan sonra, Avrupa kıtasındaki devasa boyutlardaki tahsisat hâlâ müzayede evlerinde ve özel satışlarda yankılanıyor.”[6]

Bu konuyla ilgili birçok makale gibi Bommarito’nun makalesi de mükemmel. Peki, bu tartışmaya benzersiz bir şekilde katkıda bulunabilmem için neye ihtiyacım var? Sanat kaynağını veri kaynağıyla ilişkilendirmeye ve kullanıcıların oluşturulan içeriği besleyen verilerin kaynağına ilişkin akılda tutması gereken hususlara gelince, kötüye kullanılan eserler alanında uzman olan bir erkek kardeşim var. Dünya çapında müzeler ve sanat koleksiyonları.

Bradley J. Gordon Kamboçya’da avukatlık yapan bir avukattır. On yılı aşkın bir süre boyunca, Kızıl Kmerlerin terör yönetimine kadar, bu dönemde ve sonrasında ülkeden çalınan paha biçilmez eserleri bulmak için çalıştı. Bunların çoğu, yağmacılardan vicdansız sanat tüccarlarına ve bu nesnelerin menşei hakkında kapsamlı bir araştırma yapma konusunda çoğu zaman rahatlıkla başarısız olan müzelere kadar gitti. CNN, Bloomberg, New York Times ve birçok süreli yayın Brad ve ekibinin çalışmalarına yer verdi. Discovery Channel’ın Sefer Bilinmiyor ve Avustralya Yayın Şirketi’nin Hazine Avcıları
Son bölümlerde Brad’in ekiplerinin çabalarına yer verildi. Tabii ki kardeşimin yaptığı en harika şeyin John Oliver’ın danışmanlığını yapmak olduğunu düşünüyorum. Geçen Hafta Bu Gece Müzeler ve menşe ile ilgili bölüm.[7]

Kısa bir süre önce kardeşimle konuştum ve ona sanatın kaynağını doğru yapan müzelerle bunu yapmayan müzeler arasındaki farkın ne olduğunu sordum. İlk durumda, Brad ve ekibiyle işbirliği yapan birçok müzenin kadrosunda bir sanat kaynağı uzmanı bulunuyor. Bu müzeler ödevlerini yapmıştı; bunlardan biri ekibin, eserlerin kökenini belgeleyen yüz yıl öncesine ait yazışmaları görmesine olanak tanıdı. Bu müzeler sahip oldukları her şeyi göstermeye istekliydi, hatta ekibin heykelleri yağmacıların söktüğü kaidelerle eşleştirmesine yardımcı olmak için 3 boyutlu görüntülemeye izin veriyorlardı.

Ancak çoğu müze bu araştırmalara hazır değildi ve özel sanat kaynağı uzmanları yoktu ve hatta bazı önemli kurumlar duvar örerek yanıt verdi. British Museum ve Metropolitan Museum artık ciddi bir inceleme ve itibar riskiyle karşı karşıya. Graham Bowley’nin New York Times’ta yazdığı gibi, “Bugün birçok ABD müzesi geçmişteki saldırgan taktikleri nedeniyle hesaplaşmayla karşı karşıya. Tutumlar değişti, Indiana Jones dönemi sona erdi ve koleksiyonculuğun dikkatsiz olabildiği ve ödüllerin zaman zaman vicdanı gölgede bıraktığı günlerde edinilen yağmalanmış eserleri iade etmeleri için müzeler üzerinde muazzam bir baskı var.”

Bu baskı Kamboçya gibi yabancı ülkelerden ve aynı zamanda “hem yerel hem de federal olarak yağmalanan kültürel mirasın iadesini daha çok diplomatik ve hukuki bir öncelik haline getiren ABD yetkililerinden geliyor. ABD İç Güvenlik Soruşturmaları, 2007’den bu yana büyük oranda satıcılardan ve koleksiyonculardan ele geçirilen, aynı zamanda Amerika’nın en prestijli müzelerinin çoğunda bulunan 20.000’den fazla eşyanın iade edildiğini bildirdi.[8] Müzeler; gümrük kanunları, yabancı ülkelerin mülkiyeti ve kültürel miras kanunları ve “ulusların çalıntı eşyaların ithalatını engellemek için işbirliği yapma ve en iyi uygulamaları takip etme sözü verdiği” 1970 UNESCO sözleşmesi nedeniyle yasal işlemlere tabidir.[9]” ABD’deki bazı müzeler de federal yetkililer tarafından ele geçirilme tehlikesiyle karşı karşıya.

Dolayısıyla, siz veya işletmeniz içerik oluşturmak, dağıtmak ve satmak için üretken yapay zekayı kullanmayı düşünüyorsanız, kendinize bir veri kaynağı uzmanı (veri meraklıları için yeni bir kariyer yolu!) tutmak isteyebilirsiniz. Üretken yapay zeka modellerini eğitmek için kullanılan verilerin nereden ve hangi koşullar altında geldiğini anlayın; aksi takdirde kendinizi programın bir bölümünde öne çıkarılmış halde bulabilirsiniz. Geçen Hafta Bu Gece ve telif hakkı avukatlarının kapınızı çalmasını sağlayın.

Geç gelen son dakika haberi! Bu makaleyi editörüm için hazırlarken Joshua Hawkins’in makalesini okudum: OpenAI, ChatGPT’yi Silip Yeniden Başlamak Zorunda Olabilir. Hawkins, bu raporda “Ars Technica’dan Ashley Belanger tarafından hazırlanan yeni bir rapora göre, New York Times, yapay zekanın dil modellerini eğitmek için makalelerini ve resimlerini kazımasını yasaklayacak şekilde hizmet şartlarını güncelledikten sonra şu anda OpenAI’ye dava açmayı tartışıyor” diyor. Bunun nasıl sonuçlanacağını göreceğiz, ancak bu, ChatGPT gibi LLM’lerin çıktılarıyla çalışırken güçlü veri kaynağının önemini güçlendiriyor.


[1] Paris Marx, techwontsave.us; Timnit Gebru, twitter.com/timnitGebru; Emily Bender, nymag.com/intelligencer/article/ai-artificial-intelligence-chatbots-emily-m-bender.html.

[2]

Seiner, Robert. İstilacı Olmayan Veri Yönetişimi Yine İş Başında: Deneyim ve Perspektif Kazanma(s. 337). Teknik Yayınları. Kindle Sürümü.

[3]

Age, s. 337-343.

[4] ardc.edu.au/resource/data-provenance/

[5] menşei, n. anlamlar, etimoloji ve daha fazlası | Oxford İngilizce Sözlüğü (oed.com)

[6] Bommarito, Veri Kaynaklılığı Makine Öğrenimi Riskini ve Değerini Nasıl Artırıyor?.

[7] youtube.com/watch?v=eJPLiT1kCSM

[8] NYT, Yağmalanan Sanatla ABD Müzeleri İçin Ibid, Indiana Jones Dönemi Bitti – The New York Times (nytimes.com).

[9]

NYT Age.

Bir yanıt yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir