Yapay Zeka Veri İyileştirmenin Çözümü mü? – veritabanimimari.com

Şu ana kadar yapay zekanın, özellikle de üretken yapay zekanın hakkında yazmanıza izin verilen tek konu olduğu herkes için açık. Bilgi teknolojisinin her alanını etkilemiş gibi görünüyor, bu yüzden üzerime düşeni yapmak için elimden geleni yapacağım. Ancak veri iyileştirme ve veri kalitesi yönetimi söz konusu olduğunda bir tür ikilem var gibi görünüyor.

Bir yandan, başarılı yapay zeka modellerine sahip olmak için kaliteli verilere sahip olmanın şart olduğunu iddia eden birçok kişi var. Örneğin, TechTarget’te yayınlanan “Veri Kalitesi Makine Öğrenimini ve Yapay Zeka Sonuçlarını Nasıl Şekillendiriyor” başlıklı bir makale, “veri kalitesinin makine öğrenimi modellerinin ve yapay zeka girişimlerinin başarısını doğrudan etkilediğini” iddia ediyor.

Yapay zeka hakkındaki konuşmaların çoğu, neredeyse tüm bilgi süreçlerini nasıl daha iyi hale getirebileceğinden bahsederken, görünen o ki veri kalitesi, yapay zekanın daha iyi çalışmasını sağlamanın anahtarlarından biri olarak öne çıkıyor. Bilgi Haftası’nda yakın zamanda yayınlanan “Üretici Yapay Zeka ve Veri Kalitesi Bir Arada Var Olabilir mi?” başlıklı bir makale Yapay zeka için girdi olarak kaliteli veriye olan ihtiyacı, insanların sağlıklı yiyecekler yemekten elde ettiği faydanın aynısına, yani yapay zeka için gıda olarak veriye benzetiyor. Forbes’taki benzer bir makale, yapay zekanın benimsenmesinde veri kalitesinin gerçek darboğaz olduğunu belirterek, veri hazırlama, model eğitiminde veri hata ayıklama ve konuşlandırılmış modeller için veri kalitesi izleme ile ilgili sorunlara dikkat çekiyor.

Yapay zeka modelleri, birkaç yıl önce iş dünyasının ve BT yöneticilerinin radarında bile olmayan, örneğin model yanlılığı gibi yeni veri kalitesi sorunlarını da ortaya çıkardı. Önyargılı verilerle eğitilen modeller önyargılı sonuçlar verebilir. Rich Wang ve Diane Strong’un 1996 yılında yaptıkları araştırmada doğruluk, tamlık ve tutarlı temsil gibi daha geleneksel boyutlara ek olarak İnanılırlık, Nesnellik ve İtibar’ı veri kalitesinin esas boyutları olarak tanımladığında ne kadar ileri görüşlü olduklarını dikkate değer buluyorum (Doğruluğun Ötesinde) : Veri Tüketicileri için Veri Kalitesi Ne İfade Ediyor, Yönetim Bilişim Sistemleri Dergisi, Cilt 12, Sayı 4). Peki tam tersine, yapay zeka modelleri için yeni veri kalitesi boyutlarına ve ölçümlerine ihtiyacımız var mı?

Yakın zamanda Tom Davenport ve Randy Bean, Harvard Business Review’da yürüttükleri bir anketin sonuçlarını yayınladılar. Genel sonuçları, üretken yapay zekanın şirketleri daha veri odaklı hale getirdiği yönündeydi. Ancak aynı zamanda Wavestone 2024 Veri ve Yapay Zeka Liderlik ve Yönetici Araştırması, ankete katılan şirketlerin yalnızca %37’sinin veri kalitesini iyileştirme çabalarının başarılı olduğuna inandığını ortaya çıkardı. Aynı anket, yanıt verenlerin yalnızca %63’ünün, model yanlılığı ve veri sızıntısı gibi sorunları yönetecek üretken yapay zekaya yönelik koruma ve korkuluklara sahip olduğunu bildiriyor.

Öte yandan birçok kişi yapay zekanın, özellikle de üretken yapay zekanın veri kalitesini artırmanın yanıtı olduğunu söylüyor. Nasıl baktığınıza bağlı olarak bu ya bir bilmecedir ya da harika bir olumlu geri bildirim döngüsünün başlangıcıdır. Peki, veri kalitesinin iyileştirilmesi daha iyi yapay zeka modelleri sağlıyorsa ve daha iyi yapay zeka modelleri de veri kalitesini artırıyorsa, bunlar hiç birleşecek mi? Biraz daha derine inelim.

Üretken yapay zeka çok etkileyici olsa da çoğu şirketin bunu maaş bordrolarını işlemek için kullanmak isteyeceğini düşünmüyorum. Hepimizin bildiği gibi mevcut üretken yapay zeka modellerinin en iyi kullanımı rutin hesaplamalar için değil, niteliksel değerlendirme içindir. Ve bazen bir şeyler uyduruyor ya da dedikleri gibi halüsinasyon görüyor. Peki, verileri profillemek veya diğer veri kalitesi araçlarını kullanmak için kullanmayacaksanız, veri kalitesini nasıl artıracaksınız?

Eh, bazı yollar var. Üretken bir yapay zeka modeli, bir veri dosyasının profilini oluşturma konusunda iyi bir iş çıkarmayabilir ancak profil oluşturma kodunu hızlı bir şekilde oluşturup çalıştırabilir. Bu, bu temel veri kalitesi sürecini teknik olmayan personel tarafından daha erişilebilir ve kullanılabilir hale getirebilir, belki de veri okuryazarlığı araç kutusunda bir araç haline gelebilir. Başka bir yol da veri profili oluşturma sonuçlarını değerlendirmesini istemek olabilir. Satıcılar, sayısal bir alan için hangi düzeydeki sayısal sapmanın aykırı değer olarak kabul edilmesi gerektiği veya alanlar arasında geçersiz kategori değeri veya değer kombinasyonlarının ne olabileceği gibi şeyleri önererek veri kalitesi doğrulama kuralları oluşturmak için bu tekniği zaten kullanıyor. Yakın zamanda üretken yapay zekanın veri kalitesine nasıl yardımcı olabileceği hakkında bir sunum gördüm ve hemen hemen her öneri onu profil oluşturma, aykırı değer tespiti, ayrıştırma veya standardizasyon gibi standart bir veri kalitesi sürecini yürütmek için kod oluşturmak amacıyla kullanıyordu.

Bu çok faydalı olsa da, üretken yapay zekanın, verileri doğrudan düzeltmek yerine geleneksel veri kalitesi süreçlerini iyileştirerek veya artırarak veri kalitesini artırmak için çoğunlukla dolaylı olarak kullanıldığının altını çiziyor. Ancak bu kuralın ortaya çıkan bazı istisnaları vardır.

Bu alanlardan biri yapılandırılmamış verilerle ilgilidir. Genel olarak iddia edildiği gibi bir kuruluşun verilerinin %80’inin yapılandırılmamış belgelerde olduğu doğruysa, o zaman üretken yapay zekanın veri kalitesine doğrudan katkıda bulunan bir faktör olarak parladığı yer burası olabilir. Potansiyel olarak, adlandırılmış varlık tanımayı (NER) mevcut kural tabanlı modellerden daha doğru ve kapsamlı bir şekilde gerçekleştirecek yapay zeka modelleri oluşturulabilir. NER sistemi, bir belgede adı geçen varlıkları (kişiler, yerler, nesneler) tanımlar ve bunları belirli rollerine göre etiketler. Örneğin, ABC Inc.’in yalnızca bir şirket olarak değil aynı zamanda alıcı olarak da belirtildiği serbest metinli bir iş haber akışını analiz ettiğimizde, DEF LLC satın alınan şirket olarak etiketlenmiş bir şirkettir ve tarih 16 Haziran’dır., 2020, satın alma tarihi olarak etiketlenmiştir. Daha doğru ve kapsamlı NER sistemleri, raporlarda, sözleşmelerde, anlaşmalarda ve diğer belge türlerinde gizlenmiş bir bilgi hazinesini ortaya çıkarabilir.

Diğer bir yol ise sistem testi ve doğrulaması için gerçekçi sentetik veriler oluşturmaktır. İsim, adres, doğum tarihi, sosyal güvenlik numaraları ve diğer kişisel kimlik bilgileri (PII) gibi hassas verileri işleyen sistemleri tasarlarken ve test ederken, test ve doğrulama için gerçek dünya verilerini elde etmek zor olabilir. Bu benim ana veri yönetimi alanımda her zaman bir sorun olmuştur. Verilen adlar ve takma adlar, kızlık soyadları ve evli adlar arasında geçiş yapma, yazım yanlışları, yazım hataları, OCR hataları, bireysel ve hane halkı adres değişiklikleri ve belirli bir durumu taklit eden ad dağılımları gibi gerçek hayat senaryolarını taklit eden verileri sentezlemek de zordur. nüfus. Bunun gibi veriler üretebilen yapay zeka modelleri, test süresinde ve çabasında büyük bir azalma sağlayabilir ve daha sağlam ve dayanıklı sistemlerin geliştirilmesine yol açabilir.

Bunlar, yapay zekanın veri kalitesinin iyileştirilmesine yardımcı olabileceği yollardan yalnızca birkaçıdır. Diğerleri arasında duyarlılık analizi, veri sınıflandırması, yinelenen veri tespiti ve kullanıcı iletişimleri yer alır. Pek çok profesörün keşfettiği gibi, üretken yapay zeka yazma konusunda gerçekten çok iyi. Daha okunaklı veri kalitesi değerlendirme raporları veya veri kalitesi politikaları ve standartları oluşturmak için kullanılabilir.

Liste uzayıp gidebilir ama başlıktaki sorunun cevabının her ikisinin de doğru olduğunu düşünüyorum. Veri kalitesinin iyileştirilmesi yapay zeka için önemlidir ve yapay zeka, veri kalitesinin iyileştirilmesine önemli bir katkıda bulunma potansiyeline sahiptir. Henüz birleşmediler ancak olumlu, simbiyotik bir ilişki yaşıyorlar. Genel olarak bu, veri liderleri olarak hepimiz için iyi bir haber. Yapay zeka, veri kalitesi yönetiminin önceliğini yükseltiyor ve organizasyonda ona yeni bir hayat veriyor. Ve önceki sütunlarda defalarca bahsettiğim gibi, veri yönetişim programınıza takmaya hazır, hazır bir veri kalitesi yönetimi standardı var, ISO 8000 Bölüm 61, Veri Kalitesi Yönetimi: Süreç Referans Modeli. Geri bildiriminizi memnuniyetle karşılarım.

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir