ChatGPT’mi İstiyorum – veritabanimimari.com

Dünya, ChatGPT ve Google’ın Bard’ı gibi diğer Büyük Öğrenim Modelleri hakkındaki makalelerle çalkalanıyor. Bu makalelerin tonu ve içeriği körü körüne abartıdan sefil korkuya kadar uzanıyor. Aldatmacalardan bazıları Dire Straits’in kötü bir yorumu gibi geliyor:

Şu zavallılara bak, böyle yapıyorsun. İşinizi ChatGPT’de yürütmek.

Hatta birkaç hafta önce bu cazibeye yenik düştüm ve şirketim için bununla ilgili bir blog yazısı yazdım. Siteye gelen trafikte çok ani bir artış olduğu için, barındırma sağlayıcımız trafiği buradan bir Google önbelleğine yönlendirmek zorunda kaldığından, bu gönderi kelimenin tam anlamıyla internetimizi bozdu.

Benim bakış açım: Bu araçlar oldukça basit bir şekilde sadece araçlardır. Bu nedenle, diğer veri yönetimi teknolojileriyle aynı potansiyel zayıflıklarla doludurlar. Kariyerimizin ilk günlerinden beri organizasyonlarda veya projelerde hepimizin yerine getirdiğimiz angarya görevleri ortadan kaldırarak günlük çalışma hayatımızın bazı yönlerini basitleştirme potansiyeline sahiptirler. Ancak, özünde kaynak verileri (eğitim verileri, istemler) alan ve bir çıktı üreten bir veri yönetimi süreci oldukları için.

Pragmatik gerçek şu ki, tıpkı e-posta, mesajlaşma ve ilişkisel veritabanlarının günlük hayatımızın bir parçası haline gelmesi gibi, bu araçlar da önümüzdeki yıllarda günlük çalışma hayatımızın bir parçası olacak.

Ve bu noktada, O Brien’in Üçüncü Proses Otomasyonu Yasasına (“işe uygun” versiyon) başvurmam gerekiyor.

Kötü anlaşılan bir süreci kötü bir şekilde otomatikleştirmek, kötü şeylerin muhtemelen onlara ayak uydurabileceğinizden daha hızlı gerçekleşmesine neden olabilir.

Unutmayın: “Çöp Giriyor, Çöp Çıkıyor”, evrenin temel (veri kalitesi) yasalarından biri olmaya devam ediyor.

Stokastik Papağanlar

En basit haliyle, LLM’ler büyük metin gövdelerini alır ve bunlar üzerinde eğitilir (ChatGPT, 2021’e kadar tüm internet üzerinde eğitildi) ve bir cümlede bir sonraki kelimenin ne olması gerektiğini tahmin etmeyi öğrenirler. Bilgi istemindeki anahtar sözcükler (ve bu aşırı basitleştirmedir), modelin dizine eklediği eğitim verilerinden oluşturulan modele dayalı olarak beklenen bir sonucun veya çıktının ne olacağını anlamak için kullanılır.

Yani çöpün sisteme girebileceği üç potansiyel alan vardır.

  1. Altta yatan eğitim verileri, kaynak metinlerdeki bir dizide bir temanın, konunun veya anahtar kelime kümesinin ne sıklıkla bir arada göründüğüne bağlı olarak sosyal ve toplumsal önyargıları kodlayabilir ve kodlayacaktır. Modelleri yeni kaynak girdilerle yeniden eğitmek veya güncellemek pahalı olabileceğinden, temel alınan modelin sosyal veya toplumsal değişiklikleri doğru bir şekilde temsil etmesi veya yansıtması yavaş olabilir. Yapabileceği en iyi şey ne olduğunu tahmin etmektir.
  2. LLM’nin işlenmesini tetiklemek için kullanılan bilgi istemi, kullanıcının yanlılıklarını kodlayabilir veya nasıl ifade edildiklerine bağlı olarak, LLM tarafından üretilen yanıtların oluşturulmasına bir ağırlık katabilir.
  3. LLM’nin çıktısını istemimize nasıl tepki verdiğimiz ve yorumladığımız, kendi bilişsel önyargılarımızdan etkilenebilir. Ne de olsa, doğrulama yanlılığı, bir konudaki kendi görüşlerimiz veya fikirlerimizle eşleşen verileri veya ifadeleri kabul etme olasılığımızın daha yüksek olduğu veri analitiğinde ve veriye dayalı karar vermede önemli bir sorundur.

Son olarak, LLM’nin modelden üretilen metin çıktılarını sıralamak ve ince ayar yapmak için RLHF (insan geri bildiriminden pekiştirmeli öğrenme) kullanılarak eğitildiği bir başka potansiyel Çöp In kaynağı ortaya çıkabilir. Geri bildirim modelinin gözden geçirenlerden önyargıları devralma potansiyeli vardır. Bu önyargı, geçmişlerinden (sosyal/kültürel), eğitimlerinden, motivasyonlarından ve teşviklerinden veya LLM’nin çıktısında geri sunulan konuyu anlamalarından kaynaklanabilir.

Değişen Maliyetler

ChatGPT gibi araçların vaadi, araştırma ve yazmamıza yardımcı olarak maliyeti düşürmeye ve zamandan tasarruf etmeye yardımcı olmalarıdır. Ve bu inkar edilemez bir şekilde doğrudur. Ancak, geçmişin derslerini öğrenmeli ve teknolojiden bir an için geri adım atmalı ve bir LLM’yi kuruluşumuzun süreçlerine dahil ettiğimizde genel ‘toplam sahip olma maliyetinin’ ne olabileceğini düşünmeliyiz.

Çevresel Maliyetler

Çevresel maliyetler göz ardı edilemez. İster LLM eğitiminin enerji tüketimi, ister bir bilgi istemini işlerken tüketilen enerji olsun, bunların hepsi birbirini tamamlar. Eğitim ChatGPT’nin 1200 MWh’den fazla elektrik kullandığı tahmin edilmektedir. Bu yaklaşık 300 İrlandalı hanenin toplam yıllık enerji tüketimine tekabül ediyor. İklim değişikliği risklerinin kendini göstermeye başladığı bir dönemde bu göz ardı edebileceğimiz bir konu değil. Bir tahmin, ChatGPT’yi çalıştırmanın günlük karbon ayak izinin günde 24 tondan fazla CO2 yaydığını veya yılda yaklaşık 9000 ton CO2 olduğunu gösteriyor.

Bilgi Maliyetleri

Blog yazım, özellikle düşük kaliteli ve yanlış LLM çıktılarının çevrimiçi olarak yayınlanması ve LLM’ler için eğitim veri külliyatının bir parçası haline gelmesi durumunda, kuruluşlarda ve toplumda öğrenme ve bilgi kaybı potansiyeline baktı. İki konuyu vurguladım:

  1. Çöp girişi, Çöp Çıkışı eğitim verileri için geçerlidir. Düşük kaliteli/yanlış çıktılar, LLM’lerin bir sonraki yinelemesinde girdi haline gelirse, daha yeni modeller hataları birleştirir çünkü hatayı tekrarlar ve çıktı almaları gereken metni tahmin etmek için temel olarak kullanırlar. Bu, çıktılar yayınlanmadan veya bir ‘üretim’ bağlamında kullanılmadan önce sıkı kalite kontrol kontrolleri ve doğruluk kontrolleri uyguladığımızdan emin olmamız gerektiği anlamına gelir. Bu, çıktılardaki hataları tanımlayabilmek ve bunları kullanıma koymadan önce doğrulayabilmek için kuruluşların ve kuruluşlardaki kişilerin uzmanlığını gerektirecektir. Ayrıca, daha iyi soruların nasıl sorulacağını anlamak ve güvenebileceğimiz yanıtlar alabilmemiz için sihirli kutuya daha iyi istemler sağlamak için uzmanlık gerektirecektir.
  2. Bilgi ve uzmanlığın geliştirilmesi, tarihsel olarak, çıktılar üretirken veya projeler sunarken insanların yaparak ve hata yaparak öğrenmesini içermiştir. Soruların yanıtlarını hızlı bir şekilde bulabilen bir aracın piyasaya sürülmesi (bir arama motorunun yaptığı gibi, potansiyel yanıt kaynaklarına bağlantılar bulmanıza yardımcı olmanın aksine), iş yerinde insanın öğrenme sürecinin bu öğesini baltalama riskimiz olduğu anlamına gelir. . Bu, özellikle ofis tabanlı çalışma ortamının geleneksel ‘izleyerek öğrenme’ veya mentorluk yaklaşımlarının olduğu bir uzaktan çalışma/bağlantılı çalışma düzeninde çalışan kuruluşlarda geçerlidir. Şu anda, kuruluşlarda bir ChatGPT çıktısına bakabilen ve verilen yanıtın bariz bir saçmalık olup olmadığını belirleyebilen ve sihire iyi yapılandırılmış ve tarafsız istemler sunacak uzmanlığa ve deneyime sahip bir veya iki nesil insanımız var. kutusu, böylece daha kaliteli yanıtlar alabilirler. Tarihsel olarak sorgusuz sualsiz kabul ettiğimiz ‘yaparak öğrenme’ fırsatına sahip olmadıklarında, organizasyonlarımıza katılan sonraki iki kuşakta ne olur?
Sosyal ve Etik Maliyetler

ChatGPT gibi sistemlerin dikkate almamız gereken sosyal ve etik maliyetleri de vardır. En azından, eğitim sırasında modelin çıktılarını etiketleme ve puanlandırmaya yönelik RLHF görevlerini gerçekleştirmek için düşük maliyetli işgücü kullanımı konusunda endişelenmeliyiz. OpenAI’nin, ChatGPT’nin daha az kabul edilebilir ve saldırgan çıktılarını engellemek için Kenyalı işçilere saatte 2 dolardan daha az ödeme yaptığı bildirildi.

Veri işleme sistemlerini sihirli bir şekilde çalıştırmak için gereken seksi olmayan insan çabasını dışarıdan temin etme sorunu yeni değil. Ancak verileri işlemek için daha güçlü yetenekler geliştirirken, tıpkı Bulut’un “Başka Birinin Bilgisayarı” olduğu gibi, AI’nın da genellikle “Başka Bir İnsanın zekası” olduğunu hatırlamak önemlidir. Ve çoğu zaman, diğer insanlar düşük maaşlı ve yüksek stresli koşullarda çalışıyorlar.

Aynı şekilde, tarihi metinler üzerinde eğitilen ve bundan sonra ne olacağını tahmin etmeye dayalı yeni çıktılar üreten LLM’ler için zorluk, gerçek veya şüpheli intihal sorunlarına yol açacaktır. Akademi zaten bu konuyla ilgileniyor, ancak daha geniş bağlamda, başka birinin içeriğini ticari bir bağlamda kopyalama riski de göz ardı edilemez. Modern müzik tarihi öğrencilerinin, bir şarkı yazarının, bilinçli ya da bilinçsiz olarak başka bir şarkının melodisini taklit eden ya da kopyalayan bir melodi yarattığı yıllar boyunca ortaya çıkan çeşitli vakalardan başka bir yere bakmalarına gerek yoktur. Bu olayların en ünlülerinden biri George Harrison’ın Benim güzel efendim.

Piper’a ödeme yapmak

ChatGPT gibi LLM’lerle cin şişeden çıktı. Veri yönetimi profesyonelleri olarak şimdi yapmamız gereken şey, şu anda bizim için oynayan kavalcıya ödeme yapılması gerekeceğini anlamak. Veri işleme teknolojilerinin önceki yinelemelerinde ve gelişimlerinde, yıllar boyunca tekrar tekrar devrettiğimiz teknik ve veri borçlarına katlandık.

ChatGPT ve benzeri LLM’ler gibi araçların potansiyel faydalarıyla, artık gelecek nesillerin ihtiyaç duyacağı maliyetlere katlanmadan işletmelere ve topluma kaliteli sonuçlar sunabilmemiz için kaliteli veri ve kaliteli veri yönetiminin temellerinin derslerini öğreneceğimizi umuyoruz. kuruluşlarımızda, toplumlarımızda ve çevremizde hesap sormak için.

Bir yanıt yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir