
Muhtemelen önceki yazılarımdan da anlayabileceğiniz gibi, son zamanlarda düşüncelerim veri iyileştirme ve veri yönetişim otomasyonu konusuna odaklandı. Veri yaşam döngüsünün neredeyse tüm aşamalarında gereken manuel çaba miktarı beni her zaman rahatsız etmiştir. Kasım 2023 tarihli yazımda, Neredesin?, Denetimsiz veri bağlama, kümeleme ve temizleme ve dijital veri yönetişimi politikaları gerçekleştirmek için yöntemler ve teknikler geliştirmeye odaklanan, finanse edilen araştırmalardan bazılarından bahsettim. Veri kaynaklarımızın tam potansiyel değerini ortaya çıkarmak için gereken anahtarın daha fazla otomasyon olduğuna yürekten inanıyorum. Soru şu ki, oraya nasıl gideceğiz?
Genel olarak konuşursak, iki farklı yol izleyen araştırma görüyorum. Birinci yol, insan yerine koyma yaklaşımıdır. Yapay zekanın mantrası gibi, eğer bir kişi yapabiliyorsa, bir makine de yapabilir. Bu yol, verilerin değişmeyeceği varsayımıyla başlar. Her zaman kirli, gürültülü ve açıklamasız olacak. Bu yolda amaç, zamanını verileri profillemeye, değerlendirmeye, temizlemeye ve organize etmeye harcayan veri analistlerini, aynı görevleri otomatik olarak gerçekleştirebilen yapay zeka sistemleriyle değiştirmektir.
Açıkçası, bu yaklaşımla gidecek çok yolumuz var. Birincisi, makine öğrenimi ile yapılan çalışmaların neredeyse tamamı, modeller eğitilmeden önce birisinin verileri hazırlamak için zaten zaman ve çaba harcadığını varsayar. Veri bilimcilerin, zamanlarının %80’inin veri hazırlamaya ve yalnızca %20’sinin verileri analiz etmeye harcandığına dair evrensel şikayetini hepimiz duymuşuzdur. Ancak veri bilimi, bu durumun suçunun bir kısmını paylaşmalıdır çünkü odağını içe çevirmek ve yapay zeka tekniklerini veri hazırlama probleminin kendisine uygulamakta yavaş kalmıştır.
İkincisi, en başarılı AI ilerlemelerinden bazıları denetimli makine öğrenimine yanıt verir. Bu, sistemin öğrenebilmesi için muhtemelen doğru örneklerle eğitilmesi gerektiği ve çoğu durumda, işlenen veriler zamanla değiştikçe eğitimin tekrarlanması gerektiği anlamına gelir. Denetim, tam otomatik veri iyileştirme fikrinden hâlâ bir adım uzakta. Eğitim verilerinin geliştirilmesi ve eğitimin her ikisi de analist katılımını gerektirir. Bu sorunu yeterince çözmek için daha fazla denetimsiz yönteme ihtiyaç vardır.
Başka bir yol var, daha az gidilen bir yol. Verilerin her zaman kirli, gürültülü ve açıklamasız olacağı önermesini kabul etmek değildir. Veri çöplüğü makalemde belirttiğim gibi, sistemlerin tamamen derlenmiş verileri ürettiği ve değiş tokuş ettiği bir dünya hayal etmek mümkündür. Bu, çok daha sağlam (aynı zamanda tam otomatik) veri yönetişimi yoluyla gerçekleşebilir. Örneğin, daha fazla insan veri alışverişi için ISO 8000 Kısım 110 standardı gibi yerleşik standartları takip ederse, manuel veri iyileştirme çabası önemli ölçüde azalır. Ancak çoğu veri sorunu gibi, bu uygulamaların benimsenmesi teknolojide bir değişiklikten çok bireylerin tutumunda ve kuruluşun kültüründe bir değişiklik gerektirir.
ISO 8000-110 standardı temelde bir meta veri standardıdır. Tamamen seçilmiş verileri üretmenin ve değiş tokuş etmenin anahtarı, gömülü meta veri ve anlamsal kodlama kavramıdır. Meta veri yönetimiyle ilgili en büyük sorun, verilerin ve onu tanımlayan meta verilerin genellikle farklı sistemlerde bulunması ve yalnızca gevşek bir şekilde birleştirilmesi veya hiç bağlanmamasıdır.
Kanımca, kuruluşlar veri kümeleri üretmemeli ve değiş tokuş etmemelidir. Bunun yerine, hem verileri hem de tanımlayıcı meta verileri bir araya getiren veri nesneleri (akıllı veriler) üretmeli ve değiş tokuş etmelidirler. XML ve JSON betik dillerinin her ikisi de bunu yapma kapasitesinden daha fazladır. Verileri meta verileriyle kapsüllemek, yalnızca ISO standartlarını takip etmekle kalmaz, aynı zamanda sistemlerin meta verilere dayalı olmasına izin vererek veri işleme otomasyonunun seviyesini de artırır. Günümüzde kullanımda olan veri işleme yazılımı tasarımının çoğu, birincil amacın depolamayı en aza indirmek olduğu ve yazılım geliştiricilerin her zaman girdi verilerinin tüm veri kalitesi ve format gereksinimlerini karşıladığını varsaydığı geçen yüzyılda hala takılıp kalmıştır.
Bu eski tasarımlar genellikle, bir girdi kaydının belirli bir sıralı konumunda bulunan veri öğelerinin belirli bir türde olduğu ve belirli bir işleme türü gerektirdiği sonucuna varmak için donanımsal olarak bağlanır. Bu tür sistemler, giriş biçiminde veya veri öğesinin anlamında beklenmeyen bir değişiklik olduğunda başarısız olacaktır. Depolama alanından tasarruf etmek için verileri meta veri ek açıklamasından ayırma kararı, veri sorunlarının hata ayıklamasını da çok daha zorlaştırır. Kodu çözebilmek ve her bir öğenin nasıl işlendiğine dair mantığı izleyebilmek için bir veri analistinin olması gerekir. Bu, özellikle kod karmaşıksa, iyi belgelenmemişse ve orijinal yazılım geliştiricisi uzun zaman önce devam etmişse sorunlu olabilir.
Bu sistem tasarımları, programdaki (işlemdeki) meta verileri dolaylı olarak gizler ve onu verilerden ayırır. Daha iyi bir yaklaşım, her bir veri öğesini meta veri etiketiyle birlikte bir veri nesnesinden okumak ve ardından sistemin meta veri içeriğine göre uygun eylemleri gerçekleştirmesine izin vermektir. Katıştırılmış meta veriler, veri yönetişiminde daha fazla otomasyonu da teşvik edebilir. Veri işleme eylemleri yalnızca kaynak veri nesnelerindeki meta veriler tarafından yönlendirilmemeli, aynı zamanda bu işlemler çıktı olarak veri nesneleri de üretmelidir. Çıktı veri nesneleri, yalnızca girdi meta verilerini ileriye taşımakla kalmamalı, aynı zamanda onu, süreç tarafından üretilen dönüşümleri ve yeni veri öğelerini tanımlayan yeni meta verilerle zenginleştirmelidir. Bu, kendi başına, veri kökeni veri içeriği keşfinin veri yönetişim işlevini büyük ölçüde basitleştirecek ve otomatikleştirmeye yardımcı olacaktır.
Tüm bu fikirler, veri ürünleri üretme verimliliğini engelleyen veri akışlarındaki sistemi ve organizasyonel engelleri kaldırmaya çalışan yeni DataOps düşüncesiyle uyumludur. Ancak, akıllı veri yolu ile ilgili bir sorun, artık daha az şirketin özel kod geliştirmesidir. Bu, yazılım satıcılarına akıllı, meta veri odaklı veri araçları geliştirme ve dağıtma sorununu bırakıyor. Ancak satıcılar sadece piyasaya cevap verir. Şirketler daha fazla meta veriye dayalı veri yönetişimi ve süreçleri talep etmedikçe ve talep etmedikçe, kuruluşlar bunu kendileri yapmaya bırakılır.
Kanımca, aynı anda her iki yolda da hareket edersek, otomatikleştirilmiş veri iyileştirme ve veri yönetişiminin geleceğine doğru çok daha hızlı ilerleyebiliriz. Gömülü meta veriler, veri bilimcilerin verileri analiz için bulmasını, düzenlemesini ve hazırlamasını çok daha kolay hale getirir. Bu da, veri dönüştürme süreçlerini otomatikleştirmek için yeni yöntem ve tekniklerin geliştirilmesini hızlandıracaktır. Dijital dönüşümde başarıya ulaşmak, herkesin veri, meta veri ve veri dönüşümü hakkında yeni bir şekilde düşünmesini gerektirecek.