Veri Kaynağı Çerçevesi 3.0 – ETL Paternleri: Bu makale, Cambriano Bilgi Kaynağı Çerçevesinde 3.0 mimari kalıpların kullanımının yönlerini tartışan bir dizi makalenin ilk örneği.

Mimari kalıp terimi büyük, yanıltıcı veya yıldırıcı gelebilir, ancak gerçekten oldukça basit bir konsepttir. Bu, bir veritabanına giriş yapmak için bir programlama dili ile bir işlev yazarken, bağlantının canlı olup olmadığını kontrol etmede ve bağlantı isteğinin başarısını rapor etmesi gibidir. Bu işlev aynı uygulama geliştirmede, aynı BT mağazasında veya genel olarak BT’de (örn., SQL Server ile bağlantı kurmak ve test etmek için Java kodu) yeniden kullanılabilirse, o zaman mimari bir model haline gelme yolundadır. Tabii ki, çok daha sofistike mimari kalıplar var. Ancak genellikle bir desen, genel olarak oluşan bir soruna yönelik basitleştirilmiş ve genel bir şablondur. Fakat mimaride çok olduğu gibi, daha az olduğu ortaya çıkıyor.

Bu makalede, dönüşüm (veri koymak için) aracılığıyla kaynak sistemlerinden (kayıt sistemlerinden) tarihe geçmek için kullanılan tipik mekanizma olan ETL (Çıkarma, Dönüştürme ve Yükleme) olarak bilinen sürece ilişkin kalıplara bakacağız Gerçek insanların anlayabileceği ve kullanabileceği uygun bir format haline getirin) ve nihayet elde edilen verileri Kurumsal Veri Ambarı’na yüklemek ve daha sonra departman odaklı, disiplin odaklı veya özel proje Veri Martlarında yüklenip kullanılacaktır.

Cambriano Information Supply Framework 3.0, Bill Inmon’ın kesin Enterprise Data Warehouse mimarisi ve prosesi ile Big Data, Analytics (Textual Analytics) ve Structured Intellectual Capital (Bilgi Yönetimi) entegrasyonu için mimari plandır.

Veri Kaynağı Çerçevesi (4 <th> </ sup> nesil Veri Ambarı dahil olmak üzere) hakkında daha fazla bilgi için bağlantılar bu makalenin sonunda listelenmiştir.

Sonraki makalelerde DSF 4.0 peyzajında ​​Büyük Veri ve Analiz desenleri de dahil olmak üzere mimari kalıplara bakacağım.

Aşağıdaki diyagram, Bilgi Kaynağı Çerçevesi için genel sürücüleri göstermektedir.

Bilgi Arz Çerçevesi

İncir. 1 – DW 3.0 Bilgi Kaynağı Çerçevesi

Sağdan gelen tüketiciler ve muhtemel veri ve bilgi tüketicileri, bilgi ve veri talebini yaratıyor.

‘Veri işleme, zenginleştirme ve bilgi yaratma’ işleminin orta aşaması, iş taleplerini karşılamaya ve veri ve bilgi taleplerini de kışkırtmaya çalışır.

Sol taraftan, veri kaynakları gerçek ve ikincil talepleri karşılamak için veri sağlar.

Daha önce belirtildiği gibi bu makale, Enterprise Data Warehousing (EDW / DW, Veri Martları, Operasyonel Veri Deposu) içindeki geleneksel peyzaj mimarisi desenlerine uyguladıkları ETL mimari desenlerine odaklanacak ve Data Governors veya Analytic Data Store gibi kalıpları içermeyecektir (Ki daha sonraki makalelerde ele alacağım).

ETL terimine yabancı olanlar için, bir veri kaynağından (müşteri bilgilerini içeren bir operasyonel veritabanı gibi) bir hedef veritabanına (örneğin raporlama için kullanılanlar gibi) veri aktarmanın en yaygın biçimi BT’dir. Veriler için bir lojistik yöntemidir (veriyi istediği yere kopyalar) ve bir seçim, üretim ve paketleme yöntemi (ihtiyaç duyulan verilerin seçilmesi, verilerin zenginleştirilmesi ve verilerin bir formda verilmesi için) Kullanılabilir).

Her neyse, bu makalede üzerinde yoğunlaştığım ETL, üst düzey kavramsal görünümde (yeşil kutularla) vurgulanır.

Bilgi Arz Çerçevesi

İncir. 2 – DW 3.0 Bilgi Kaynağı Çerçevesi

ETL için Analiz Modelleri
ETL mimari modelleri tartışmasından ayrı bir muamele gerektirdiğinden, ETL için Analiz Desenleri üzerinde uzun süre yer almayacağım.

Söylemeye gerek yoktur, ETL Analiz Kalıplarının kullanımı, kullanılan kalıpların müşteriye özgü, endüstriye özgü veya jenerik olmasına bakılmaksızın Veri Ambarı’nda bir sabit olmalıdır.

Tipik analiz kalıpları şunları kapsar:

Yapılandırılmış gereksinimlerin toplanması ve bilgi ortaya çıkarma
Veri denetimi / platform sahibi araştırması atölye çalışmaları ve veri sağlama müzakereleri
İşletme, yönetim ve teknik meta verilerin toplanması, zenginleştirilmesi ve iletişimi de dahil olmak üzere, hedef haritalama için kapsamlı kaynak
Sonraki makalelerde bu ve diğer desen alanlarıyla ilgileneceğim.

ETL modellerini neden kullanıyoruz?

Yeniden kullanılabilir kod yapısı ve mantığı oluşturmak, çoğu BT geliştirmede önemlidir ve ETL süreçleri ve yapılarında da önemlidir. ETL işleminin modülerleştirilmesi, aynı şekilde test edilen kodun gereksiz yere yeniden yazılmasını önlemeye yardımcı olur ve ETL mimarilerini oluşturmak ve sürdürmek için gereken toplam çabayı azaltır.

ETL modellerini neden kullanıyoruz?

Yeniden kullanılabilir kod yapısı ve mantığı oluşturmak, çoğu BT geliştirmede önemlidir ve ETL süreçleri ve yapılarında da önemlidir. ETL işleminin modülerleştirilmesi, aynı şekilde test edilen kodun gereksiz yere yeniden yazılmasını önlemeye yardımcı olur ve ETL mimarilerini oluşturmak ve sürdürmek için gereken toplam çabayı azaltır.

ETL desenleri, yaptıklarının çok az veya hiç bilinmeyen geliştiriciler tarafından da kullanılabilir, ancak bir bileşenin giriş ve çıkışlarının nahoş olacağını bilen bir bileşene düşebilecek kadar şey bilecektir. Muhtemelen yaklaşımın offshored proje geliştirme ile popüler olması nedeni budur.

ETL’de Mimari Desenler
Şimdi bu makalenin odak noktasına ulaştık. Kısaca değinmek istediğim ETL mimari kalıpları şunlardı:

Veri toplama kalıpları – erken değişiklik verileri yakalama kalıpları dahil
Veri eşleme kalıpları
Veri temizleme kalıpları
Veri dönüştürme kalıpları
Veri yükleme desenleri – değişiklik verileri yakalama desenleri dahil
Yükleme sonrası işleme modelleri – geç değişiklik verileri yakalama desenleri dahil
Metadata yönetim kalıpları – iş, teknik ve yönetim meta verileri
Günlüğe kaydetme ve denetleme kalıpları
Hata işleme
Süreç ve veri bütünlüğü
Bu yazının niteliği göz önüne alındığında, liste önemli bölümlere odaklanmıştır. Elbette, yukarıda bahsedilen süreç alanlarında çakışan bazı alanlar olacak ve bu çakışmaların bazıları kısa sürede tanımlanacak ve açıklanacaktır.

Daha önce belirtildiği gibi, bu makalede akışlı, sıraya dizilmiş veya yönetilen veri mekanizmalarının ayrıntılı bir tartışması yer almamaktadır. Bu konularda bu serinin sonraki makalelerinde ele alınacaktır.

Yani, daha fazla ado olmadan topu almaya başlayalım.

Basit veri çıkarma paternleri – Kaynak / Ara / Hedef EDW
Verilerin doğrudan kayıt sisteminden üç aşamalı bir süreçle kaynaklandığı, ancak verilerin tipik olarak kaynak sistemleri ve hedef EDW arasında oturan bir evreleme alanında (bir başka biçimde) sahnelendiği durumlarda basit veri çıkarma kalıpları gereklidir platformudur.

Aşağıdaki kalıplar aşamalamada sıklıkla kullanılır:

İşlemsel veritabanlarından ara dosya deposu hazırlama alanına (ASCII) dosyalara tam veya kısmi dışa aktarma
Operasyonel veritabanı referans verilerinin ve operasyonel işlem günlüğünün tam veya kısmi olarak ara dosya deposu hazırlama alanına dosya olarak aktarılması
Operasyonel veritabanlarının aşamalı olarak eşdeğer bir veritabanı yönetim sistemi platformuna tamamen veya kısmen aktarılması.
Operasyonel veritabanı referans verisinin, işlem verisinin ve / veya operasyonel işlem günlüğünün tamamen veya kısmen dışa aktarma, eş kademeli eşleme için eşdeğer bir veritabanı yönetim sistemi platformuna
Sonraki paket açma ve işleme için bir hazırlama alanına kopyalanan ihracat format dosyasına veritabanına özel ihracat
Kuyrukları veya akışları veri almak için veya metin dosyalarında saklanan veya doğrudan Greenplum, Postgres, Oracle, SQL / Server, EXASol, Vertica veya Teradata gibi ara veritabanı yönetim sistemine alınan desenler.
Ara ETL işleme için Dağıtılmış Dosya Sistemlerini (MapR veya Hortonworks gibi) kullanmak için desenler de vardır, bu nedenle emtia platformu bir evreleme paterni olarak kullanılır.

Bu kalıpların çoğu nispeten basit ve basittir ve belirli bir işletmenin BT mağazasına özgü kalıplar olarak yeniden üretilmiş olsalar bile, gerçekte muazzam miktarda çalışma gerektirmezler. Bunları nasıl yapacaklarına dair çok az tecrübeye veya hiç deneyimi olmadığında kullanışlı olabilirler.

Veri eşleme kalıpları – EDW
Verileri kaynaktan hedefe haritalama süreci için modeller sağlayan bazı mimari eserler bulunmaktadır.

Bu kalıplar çeşitli şekillerde olabilir:

Kaynaktan hedef eşlemeye yönelik elektronik tablo mizanpajları – meta verileri ayıklamak ve bazı ETL süreçleri oluşturmak için kodla birlikte (veya değil) kullanılabilir. İskandinav ülkelerindeki Teradata danışmanları, temel olarak MS Excel’de tanımlanan kaynaktan hedefe eşlemeyi alan ETL üretim süreçlerini kullanmış ve bu verileri basitleştirilmiş ETL süreçlerine dönüştürmüştür.
Daha sofistike bir seviyede, örneğin IBM, kısmen yönlendirilmiş veri eşleme kalıplarının oluşturulmasına ve yönetimine izin veren analiz aşamasında kullanılacak bir yazılım programı (Grafik Veri Eşleştirme Editörü – IBM Integration Bus V9.0) sağlar. Bu yaklaşım EDW’ye özgü değildir.
IBM ve diğerleri tarafından sağlanan başka bir alt sınıf, doğrudan EDW odaklı haritalama araçlarıdır. IBM’in haritalama aracına InfoSphere Data Architect (IDA) adı verilmektedir. Bu araçlar eşlemeleri kolayca oluşturmak ve değiştirmek için bir ortam sağlar; Iyi düzeyde bir sürüm kontrolü sağlamak; Haritalama ve haritalama ilerleme hakkında kolayca raporlama yapmak için bir araç; Ve haritalama verisinin diğer formatlara dışa aktarılmasına izin verir.

Leave a Reply

Your email address will not be published. Required fields are marked *