Veri Katalogları ve Üretken Yapay Zeka Dalgası – veritabanimimari.com

Yüksek Lisans “Gelgiti” Kıyılarımıza Ulaştı

Bir kariyer veri uzmanı olarak ve son 10 yılın çoğunu Collibra, Alation’da geçirmiş biri olarak ve şimdi bağımsız olarak, büyük dil modellerinin (LLM) verileri tamamen bozacağını ve değiştireceğinin biraz acı verici ama heyecan verici bir farkına vardım. bildiğimiz haliyle kataloglama!

Bu çılgınca bir iddia gibi görünebilir, ancak dünyanın bizim köşemiz (meta veriler, yönetişim, idare, veri kalitesi vb. dünyası) “farklı” olmayacak ve dokunulmadan kalacaktır.

Aslında kökten değişecek.

Veri Kataloğu Değer Teklifini Yeniden İnceleme

Bir veri kataloğunun temel amacı, veriler ve verilerle ilgili varlıklar için yetkili bir referans sistemi ve bilgi tabanı görevi görmek olmuştur. Temel değer teklifi, varlıklar, varlıkların nasıl ilişkilendirildiği ve varlıkların kullanımına nasıl izin verildiği hakkındaki bağlamsal bilgileri (meta veriler) paylaşarak geniş bir aktör kümesinin verimliliğini artırmak olmuştur. Bu aktörler, iş liderleri, analistler, veri mühendisleri, veri bilimcileri ve risk profesyonelleri dahil herkesi içerir.

Bu temel değer önerisine ulaşmak için katalogların sürekli olarak doldurulması, düzenlenmesi ve en önemlisi benimsenmesi gerekir.

Veri Kataloglarının Başarısını Nasıl Derecelendirmeliyiz?

Son 20 yılda birkaç nesil katalog gördük. İlk olarak, oldukça teknik meta veri odaklı platformlardan oluşan bir nesil vardı, ardından veri yönetişimi merkezli platformlardan oluşan bir nesil vardı. Son zamanlarda analist ve veri tüketicisi odaklı katalog platformlarını görüyoruz.

Büyük resim perspektifinden bakıldığında, veri ve analitik kullanımını kendi kültürlerine yerleştirmeye çalışan liderleri destekleyen, temel bir bilgi tabanı olarak hizmet veren bir katalog vizyonunu gerçekleştirmek için büyük adımlar atıldı. Ancak teknolojik evrim, ezici bir başarıya veya kalıplaşmış bir yaklaşımın ortaya çıkışına eşit olmamıştır.

Bir kuruluş genelinde geniş çapta benimsenmeyi başarmak hala oldukça nadirdir ve bunu başarmanın yolu, insan fizyolojisinin kara sanatı, birinci sınıf iletişim, yoğun bir eğitim oryantasyonu ve net bir vizyona ilham veren ve yönlendiren sağlıklı dozda üst düzey liderliktir.

Başarının neden bu kadar zor liderlik ve sosyal beceriler iğnesine bu kadar bağlı olduğunu kendimize sormamızın önemli olduğunu düşünüyorum. Bunun nedeni kısmen işletmelerin hâlâ veri ve analitik olgunluk eğrisinde yukarı doğru ilerlemesi. Bu iyi ve normaldir, ancak aynı zamanda katalogların, ne kadar iyi olursa olsun, verileri bulmayı, anlamayı, keşfetmeyi, güvenmeyi ve yönetmeyi hâlâ yeterince kolaylaştırmamasından kaynaklanmaktadır.

“Kolay” için benim basit turnusol testim, bir dosyayı, e-tabloyu veya raporu açabilmek ve ona ait verilerin kaynağı, terimlerin ve ölçümlerin iş tanımları, güvenilirliğinin değerlendirilmesi ve nasıl yapılabileceğine ilişkin talimatlarla ilgili içgörü sunulabilmesidir. Kataloglar bu teste dayalı olarak D+ alır, çünkü günlük işlerini yapmaya çalışan kişilerin ilgilendikleri veri varlıklarını aramak/bu öğelere gitmek için bağlamı kataloğa değiştirmelerini gerektirir. Çoğu insan için, bir meslektaşına sohbette hızlı bir soru sormak ve insan “ağının” bir yanıt üretmesine izin vermek hala çok daha kolaydır.

Veri mühendisleri, veri analistleri ve veri bilimcileri gibi daha teknik ve veri odaklı roller için veri kataloglarının çok daha yüksek, muhtemelen B- not aldığını ekleyeceğim. Bunun nedeni, katalogları bir sürtüşme olarak değil, daha derin bilgi edinmenin hızlandırıcısı olarak görmeleridir.

Katalog Ön Uçları ve Arka Uçları

Modern katalogların temel yeteneklerini ayrıştırmak için biraz zaman ayıracağım. Bu, üretken yapay zekanın öğle yemeğini nasıl yiyeceğini anlamak açısından önemlidir.

Modern katalog platformu ilginç bir canavar ve benim düşündüğüm çoklu kişilik bozukluğuna sahip. İlk kişiliği, bir koleksiyoncu ve varlık ‘dikicisidir’. Bulut, şirket içi ve hibrit ortamlardaki veri depolarında, raporlama sistemlerinde ve uygulamalarda bulunan çok çeşitli veri varlıklarına sürekli olarak bağlanır ve bunlardan meta veriler toplarlar. Ek olarak, sınıflandırıcılar, kökeni belirlemeye çalışma, hassas varlık tanımlama, veri kalitesi ölçümü vb. gibi bazı meta veri artırma yeteneklerine de sahiptirler. Tüm bunlar, dahili veri yapılarında korunur.

İkinci kişiliği, yukarıda açıklandığı gibi, farklı roller için üretkenliği artıracak şekilde varlıkların “görüntülerini” sağlayan bir uygulamadır. Bu genellikle arama, etiketleme, sohbet etme, inceleme, onaylama vb. yetenekleri içerir. Temel olarak, tüketici sınıfı sosyal medya uygulamalarından beklediğimize yakın şeyler, ancak veriler için.

Daha az gelişmiş olan üçüncü kişilik, yönetişim politikalarının uygulanmasında aktif bir katılımcıdır. Bu, politika tanımlarının sürdürülmesini ve daha sonra geniş bir sistem kapsamı genelinde verilere erişimin verilmesi ve kısıtlanması için bir kayıt sistemi olarak hareket etmeyi içerir. Bu daha az gelişmiştir çünkü açıkçası evrenin merkezi olmak isteyen satıcıların sahip olduğu teknolojileri birleştirmek zordur.

Dil Olarak Meta Veri

Bir kataloğun topladığı ve sakladığı tüm meta veriler (veri özellikleri, profiller, sınıflandırmalar, kullanım, popülerlik ve bunun raporlar, metrikler, terimler, politikalar vb. gibi veriyle ilgili her türlü varlıkla ilişkisi dahil) dil olarak kolayca ifade edilebilir. . Bu çok garip bir iddia gibi görünebilir, bu yüzden basit bir senaryo öneriyorum:

Tableau raporlarını bir kataloğa aktardığımızı ve bunların finans için “Ödeme Tahmini Raporu” adlı bir rapor içerdiğini düşünün. Tedarik zinciri görevlisi tarafından kendi alanı için de önemli olarak etiketlendiğini varsayalım. Ayrıca veri gölünden (rapor verilerinin kaynağı), NetSuite’den (kaynak kaynak) ve Azure Data Factory’den (verileri taşıyan işlem hattı) tabloları aldığımızı varsayalım. Son olarak, kataloğun bazı akıllı büyütme yeteneklerinin kullanıldığını ve tüm varlıkların sınıflandırıldığını, hassas olma potansiyeli açısından tarandığını ve yönetişim paylaşımı ve kullanım politikalarının atandığını varsayalım. Bilgilendirildikten sonra finans iş sorumlusu, tedarikçi ödeme eşikleri ve finansal şartlara ilişkin temel ölçüm açıklamalarını raporla ilişkilendirir ve raporu yetkili olarak etiketler.

Bunların hepsi artık katalog veri deposunda yer alıyor ve birisinin kataloğun geleneksel ve geleneksel kullanıcı arayüzünün arama ve gezinme yeteneklerini kullanarak tüketmesini bekliyor.

Şimdi aynı meta verinin dil olarak nasıl ifade edilebileceğini düşünün:

“Finans departmanımızın borç hesapları analistleri ve tedarik zinciri organizasyonu, tedarikçilere ödeme yapmak için eldeki nakit ile ilgili borç hesapları gerekliliklerini anlamak için ‘Ödeme Tahmini Raporu’ adı verilen bir Tableau raporu kullanıyor. Rapor, hem düz çizgi hem de hareketli ortalama istatistik yöntemleri kullanılarak oluşturulur. Verilerin kaynağı göl evindeki borç hesapları şemasındaki ödeme geçmişi bilgi tablosu, zaman ve tedarikçi tablolarıdır. Bu tablolar, Azure Data Factory Pipelines kullanılarak NetSuite uygulamasından doldurulur. Rapor aylık olarak kullanılıyor ve veri kalitesi standartlarımıza uygunluğu onaylandı.”

Açıkça görebileceğiniz gibi, bu anlatı versiyonunu oluşturmak için gerekli tüm bağlam mevcuttur. Peki bunu neden yapmak isteyelim? Veri varlıklarımız hakkında bildiğimiz her şeyi neden anlatı olarak ifade etmek isteriz? Bunun açık cevabı erişilebilirliği artırmak ve yukarıda anlattığım sürtünmeyi azaltmaktır. Ve bu, büyük bir dil modeli kullanarak bu bilginin kuruluşa serbest bırakılmasıyla gerçekleşir.

Akıllı Veri Asistanları

Microsoft, Kasım ayında sanal aracıları için Copilot’u duyurdu. OpenAI, Kasım ayında özel GPT modellerini piyasaya sürdü ve Google, Aralık ayı başlarında Gemini LLM ve Bard sohbeti için AI Studio’yu duyurdu. Bunların tümü, uzmanlaşmış sohbet odaklı asistanların/temsilcilerin yaratılmasının önündeki engeli azaltıyor. Ayrıca bir işletmenin fikri mülkiyeti ile halka açık LLM’ler tarafından tüketilenler arasında güvenli ve özel bir bariyer oluşturma sözü veriyorlar.

Katalogda toplanan meta verilerin anlatı metnine dönüştürülmesi ve ardından akıllı veri asistanı sohbet arayüzünün arkasında bulunan özel LLM’ler tarafından tüketilmesi için açık bir fırsat var.

Kullanıcıların deneyimi devrim niteliğinde olacak. Bir raporun kökeni, anlamı, kaynağı, güvenilirliği ve veri kalitesi hakkında bir dijital uzmanla sohbet ettiğinizi hayal edin. Bu düşünceyi popüler sözlük ve terimler konularına kadar genişletin. Dijital yardım sayesinde kullanıcılar terimlerin ne anlama geldiğini sorabilir, önerilen terimleri isteyebilir ve terim çatışmalarını ve örtüşmelerini tartışabilir.

Bu kulağa hayali bir roket bilimi gibi gelebilir ama bu şimdiden gerçekleşmeye başlıyor. Örneğin, bir kullanıcı zaten bir rapor PDF’sini veya e-tabloyu sohbete bırakabilir ve analiz etmek için yardım isteyebilir. Yüksek Lisans’ta bağlamsal meta veriler mevcutsa, analiz belgede görünenden daha geniş ve derin olabilir.

Kataloğun Arka Ucuna İhtiyacımız Var

Bunun biraz felsefi olduğunu düşünüyorum, ancak bir kataloğun ön ucunu Yüksek Lisans odaklı bir sanal asistan olarak değiştirirseniz, bu yine de bir katalog mudur? Bu biraz “ormanda bir ağaç düşerse ve bunu duyacak kimse yoksa” gibi bir şeydir. Pragmatik açıdan bakıldığında veri asistanı fikrinin bir kurum için çok daha çekici olduğu ve katalog kelimesinin altyapının bir parçası anlamına gelmesine rağmen benimsenmesi gereken terminoloji olduğu kanaatindeyim.

Çözümü tanımlamak için kullanılan anlambilimden bağımsız olarak, katalogların sunduğu zengin arka uç meta veri toplama, sınıflandırma, veri kalitesi ve yönetim yetenekleri dizisinin inanılmaz derecede değerli ve gerekli olmaya devam edeceği açıktır.

Bir Veri Lideri Şu Anda Ne Yapmalı?

Veri liderlerine tavsiyem aşağıdakileri yapmaları:

  • Zengin meta verilerin toplanmasına, kökene, veri kalitesi ölçümlerine, kullanıma ve popülerliğe vurgu yaparak kataloglara yatırım yapmaya devam edin. Bunun etrafında güç oluşturmak boşa harcanan bir yatırım olmayacaktır.
  • Zengin meta verileri sistematik olarak bir LLM’yi beslemek üzere anlatı metnine dönüştürmek için kataloglarının veri deposunun açık olduğundan ve erişilebilir olduğundan emin olun. Aslında liderlerin metni oluşturmak için yüksek lisans kullanmak istemesi muhtemeldir (katalog satıcıları bunu kendi başlarına sunacak kadar hızlı değilse), ancak veri deposunun erişilebilir olması ve özel bir engelin arkasına saklanmaması gerekir.
  • Geleneksel katalog kullanıcı arayüzünün kullanıma sunulmasına paralel olarak bir veri asistanının pilot olarak kullanıma sunulmasını düşünün. Yakın ve uzak gelecekte her biri için en uygun rollere karar vermek için bu pilot uygulamayı kullanın.
  • Verileri gizli ve güvenli tutacaklarını iddia eden Microsoft, Google, OpenAI ve diğerlerinin güvenliğini değerlendirmek ve incelemek için InfoSec ve daha geniş kurumsal risk yönetimi ekibiyle iş birliği yapın. Herkesin rahat etmesi biraz zaman alacak, o yüzden şimdi başlayın.
  • Genel tüketim veri asistanına geçiş çok büyükse, sanal yönetim asistanının pilot uygulaması gibi daha küçük ölçekte bir şey düşünün. Bu, kahyaların verimli çalışmasına yardımcı olur.

Vazgeçilmez Gelecek

Bildiğim kataloglama dünyasının kaçınılmaz kaybı olarak gördüğüm şeyin yasını tutmayı düşündüm. Ama kendime karşı dürüst olmam gerekirse, bu sadece tanıdık olana tutunmaya çalışmak olur. Bunun yerine, kurumsal kültürün vazgeçilmez bir parçası olarak veri ve analitiğin rolünü daha önce mümkün olmayan şekillerde artırmaya yardımcı olma fırsatı konusunda daha fazla heyecanlanmaya karar verdim. Umarım sen de aynı kararı verirsin ve bana katılırsın.

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir