Ev Büyük veri temelleri: veri yönetim planı nasıl oluşturulur?

Büyük veri temelleri: veri yönetim planı nasıl oluşturulur?

Video: Дипломная работа Димаша | Научная статья в Университете [субтитры] (Kasım 2024)

Video: Дипломная работа Димаша | Научная статья в Университете [субтитры] (Kasım 2024)
Anonim

Modern işletmelerdeki verilerin rolü hakkında çok şey yazdık. Yeni başlayanlardan ve küçük işletmelerden orta ölçekli işletmelere (KOBİ'ler) büyük işletmelere kadar, veri görüşlerine ve analizlere, her boyuttaki işletmeler için her zamankinden daha erişilebilir. Bu, kısmen, self-servis iş zekası (BI) ve veri görselleştirme araçlarının yükselişi sayesinde.

Yine de, BI araçlarını kullanabilmeniz veya bir veri setinde tahmine dayalı analitik kullanabilmeniz için, önce bir çok faktör var. Büyük Veri'nin ne olduğunu, ne olmadığını (ipucu: bir kristal küre değil) ve kurumsal veri mimarisinde veri depolamayı, organizasyonu, izinleri ve güvenliği nasıl yöneteceğinizi anlamakla başlar. Veri yönetişiminin girdiği yer burasıdır. Bir işletme içindeki yönetişimi sağladığınız süreçler, kiminle konuştuğuna bağlı olarak değişir. Ancak, özünde, veri yönetişimi, kapsamlı veri güvenliği en iyi uygulamalarıyla evli olan veri güvencesi ve hesap verebilirliği ile ilgilidir.

Piyasadaki en büyük Hadoop satıcılarından ikisi olan Hortonworks ve MapR ile konuştum. Hortonworks'ün Teknoloji Şefi Scott Gnau ve MapR Veri ve Uygulamalar Kıdemli Başkan Yardımcısı Jack Norris, veri yönetişiminin kurumları için ne anlama geldiğini açıkladı. Büyük bir işletmenin karmaşık veri mimarileri ve kurumsal hiyerarşileri içinde veri yönetişimi sağlama konusundaki karmaşık mücadelenin nasıl ele alınacağını tartıştılar.

Tam olarak nedir Veri Yönetişimi ve Neden İhtiyacımız Var?

Yönetişim, hem mahremiyeti hem de güvenliği korurken, kurumsal verilerin mümkün olduğunca az hatayla veritabanında yetkilendirildiğinden, düzenlendiğinden ve izin verildiğinden emin olmak anlamına gelir. Özellikle verilerin nerede ve nasıl yerleştirildiği ve işlendiği gerçeği sürekli olarak akış halinde olduğunda, grev yapmak kolay bir denge değildir. MapR'den Norris, işletmelerin neden veri yönetişimine daha yüksek bir seviyeden bakmaları gerektiğini ve oyunda daha geniş veri hattına odaklanmalarını açıkladı.

“Başa çıkmakta olduğumuz Büyük Verilerin çeşitliliğini ve hızını ölçeklemeye başladığınızda, veri yönetişimine sahip olmalısınız, ancak bu daha geniş bir bağlamda. Elinizdeki veriye, buna erişimi olan ve nasılsınız? Zaman içinde bu verilerin soyunu yönetiyor mu? dedi Norris. “Bir veri yönetişimi açısından, anlık görüntülenebilir bir sistemde var olan verilerin farklı aşamalarına sahip olabilirsiniz, böylece boru hattında herhangi bir zamanda herhangi bir zamanda geri dönebilirsiniz. Bu, veri platformunda denetlenebilirlik ve erişim kontrolü oluşturmakla ilgilidir. Finansal veri setlerine bakan bir işletme yöneticisi ya da ham veri akışı verileriyle çalışan bir veri bilimcisi olsanız da, verilerin keşfi ve analizinin şeffaf olduğundan emin olun. "

Kaynak: Rimes. Resmin tamamı için tıklayınız.

Hortonworks 'Gnau da benzer bir noktaya girdi. Bir veri ambarı veya veri göl mimarisi ile uğraşıyorsanız, veri yönetimi karşıt güçleri dengelemekle ilgilidir. İnovasyonu teşvik etmek ve içgörü elde etmek için açık veri erişimi ve aynı anda bu verileri baştan sona korumak için ayrıntılı izinler ve gizlilik ile ilgilidir.

Gnau, "Veri yönetimindeki eski geleneksel yönetim dünyasını karşılaştırın ve karşılaştırın; biraz daha kolaydı, " dedi. "Veriler iş rolü veya uygulama tarafından iyi tanımlanmışlardı. Yeni dünyada, veri bilimcilerinin mümkün olduğunca fazla verilere erişimi olduğunda ve bu mutlu ortamın bulunmasının çok önemli olduğu durumlarda en yüksek değeri elde edersiniz.

Gnau, “Yönetişime nasıl yaklaşmanız gerektiğine dair yepyeni bir paradigma sürüyor” diye ekledi. “Bu yeni dünyada, birlikte ele alınması gereken yönetişim ve güvenlik konularını ele alıyorum. Birçok şirket, aynı zamanda veri bilim adamlarının bu yeni kullanım vakalarını bulmada etkili olmalarını sağlamak için bu konuda ilerlemeye çabalamaktadır. Güvenlik, gizlilik, yönetişimin nasıl ele alınacağının anlaşılması - her şey önemli bir perspektiften ve ayrıca şirket itibarı açısından da önemlidir. ”

Bir kurumsal veri yönetim planının, karşı çıkan tüm bu güçleri nasıl kapsayacak ve yerine getirmesi gerekiyor? Her gereksinimi metodik olarak ele alarak, her seferinde bir adım.

Veri Yönetişim Planı Nasıl Oluşturulur?

Hortonworks, MapR ve Cloudera, Hadoop uzayındaki en büyük üç bağımsız oyuncu. Veri yönetimi konusunda şirketler kendi etki alanlarına sahipler. MapR, konuyla ilgili bir dizi beyaz bildiri yayınladı ve Birleşmiş Veri Platformu boyunca veri yönetimi oluştururken, Hortonworks kendi veri güvenliği ve yönetişim çözümüne sahipti ve 2015 yılında Veri Yönetişimi Girişimi'ni (DGI) kurdu. kaynak Hadoop için açık veri yönetimi çerçevesi sağlayan Apache Atlas projesi.

Ancak, her tedarikçinin el sanatlarına kapsamlı veri yönetişimi ve güvenlik stratejilerinin nasıl işlediğine gelince, Gnau ve Norris'in her ikisi de benzer şekilde konuştu. Aşağıdakiler, Hortonworks ve MapR'nin işletmelere veri yönetişim planı oluştururken akıllarında bulundurmalarını önerdikleri adımlardır.

Büyük Olan: Granüler Veriye Erişim ve Yetkilendirme

Her iki şirket de ayrıntılı kontroller olmadan etkili bir veri yönetimine sahip olamayacağınız konusunda hemfikirdir. MapR bunu öncelikle Erişim Kontrol İfadeleri (ACE'ler) aracılığıyla gerçekleştirir. Norris'in açıkladığı gibi, ACE'ler rol tabanlı izinler ve görünürlük ayarları ile esnek veri erişimini ve yetkilendirmesini kontrol etmek için gruplandırma ve Boolean mantığını kullanır.

Bir Gartner modeli gibi düşünmesini söyledi. Alt uçtaki Y ekseninde sıkı yönetişim ve düşük çeviklik ve üst uçtaki X ekseni daha yüksek çeviklik ve daha az yönetişimdir.

Norris, "Düşük seviyede, hassas verileri engelleyerek koruyorsunuz. En üstte, veri bilimcileri ve BI analistleri için gizli sözleşmeleriniz var." Dedi. “Ham verileri en altta kilitlediğiniz maskeleme yetenekleri ve farklı görünümler ile bunu yapmaya meyilliyiz ve kademeli olarak daha üst düzeyde yöneticilere daha geniş bir görünürlük verene kadar daha fazla erişim sağlayabiliyoruz. doğru insanlara erişim?

“Bugün bir erişim kontrol listesine bakarsanız, “ mühendislikteki herkes buna erişebilir ”gibi bir şey söyleyecektir” diye ekledi. “Ancak, BT içindeki bir projede birkaç seçme direktörün erişmesini veya kişi dışındaki herkesin erişmesini istiyorsanız, özel bir grup oluşturmanız gerekir. Erişime bakmak için aşırı karmaşık ve karmaşık bir yöntemdir.”

Norris'e göre, farklı seviyelere ve gruplara erişim hakkı verildiği yer burasıdır. “ACE'leri verilere erişebileceğiniz çeşitli yollarla (dosyalar, tablolar, akışlar vb.) Birleştirdik ve ayrı bir veri kopyası olmadan görünümler uyguladık. Bu yüzden aynı ham veri ve Görünümler için Görünümler sağlıyoruz. farklı erişim seviyelerine sahip olabilir. Bu size daha doğrudan olan daha entegre güvenlik sağlar. "

Hortonworks, granüler erişimi benzer bir şekilde ele alır. Gache, Apache Atlas'ı yönetişim ve Apache Ranger ile birleştirerek, şirketin yetkilendirmeyi tek bir cam bölmeden işletme düzeyinde verdiğini söyledi. Anahtar, etiket tabanlı politikaları kullanarak veritabanına ve belirli meta veri etiketlerine bağlamsal olarak erişim izni verebildiğini söyledi.

Gnau, "Birisi veritabanına girdikten sonra, ilgili erişime sahip olmaları gereken verilerde onları yönlendirmekle ilgili" dedi. “Ranger'ın nesne düzeyinde, iyi taneli ve aralarındaki her yerde güvenlik politikaları bunun üstesinden gelebilir. Bu güvenliği yönetime bağlamak, işlerin gerçekten ilginç hale geldiği yerdir.

Gnau, "Büyük organizasyonlarda ölçeklendirmek için bu rolleri yönetişim ve meta veri etiketleme ile bütünleştirmeniz gerekir." “Singapur’dan giriş yapıyorsam, belki de yerel gizlilik yasalarına veya şirket stratejisine dayanan farklı kurallar vardır. Bir şirket bu kuralları bütünsel bir yukarıdan bakış açısıyla tanımladığında, belirlediğinde ve anladığında, erişimi temel alarak çekirdek platform içindeki her şeyi yürütürken belirli kural kümeleri. "

Kaynak: IBM Big Data & Analytics Hub. Resmin tamamı için tıklayınız.

2. Çevre Güvenliği, Veri Koruma ve Entegre Kimlik Doğrulama

Yönetim, son nokta güvenliği olmadan gerçekleşmez. Gnau, mevcut kimlik doğrulama sistemleri ve standartlarıyla bütünleşen veriler etrafında iyi bir çevre ve güvenlik duvarı oluşturmanın önemli olduğunu söyledi. Norris, kimlik doğrulama konusunda işletmelerin denenmiş ve test edilmiş sistemler ile senkronize edilmesinin önemli olduğu konusunda hemfikirdi.

“Kimlik doğrulama altında, LDAP, Active Directory ve üçüncü taraf dizin hizmetleriyle nasıl bütünleştiğinizle ilgili” dedi Norris. "Ayrıca Kerberos kullanıcı adını ve şifrelerini destekliyoruz. Önemli olan tamamen ayrı bir altyapı oluşturmak değil, mevcut yapıyla bütünleşmeniz ve Kerberos gibi kaldıraç sistemlerinden yararlanmanız."

3. Veri Şifreleme ve Tokenizasyon

Çevrenizi koruduktan ve verdiğiniz tüm ayrıntılı veri erişiminin kimliğini doğruladıktan sonraki adım: Dosyaların ve kişisel olarak tanımlanabilir bilgilerin (PII) şifrelenmiş ve veri hattınız boyunca baştan sona belirtilmiş olduğundan emin olun. Gnau, Hortonworks'ün PII verilerini nasıl koruduğunu tartıştı.

Gnau, "Bir kere çevreyi geçip sisteme girdikten sonra, PII verilerini koruyabilmek son derece önemlidir." Dedi. “Bu verileri şifrelemelisiniz ve belirtmelisiniz, böylece kimlerin erişebildiklerine bakılmaksızın, bu PII verilerinden hiçbirini satır boyunca açığa çıkarmadan ihtiyaç duydukları analitiği çalıştırabilirler.”

MapR's Norris, şifrelenmiş verilere hem hareket halindeyken hem de dinlenmeden nasıl güvenli bir şekilde erişebildiğinize ilişkin olarak, yedekleme ve olağanüstü durum kurtarma (DR) gibi durumları da göz önünde bulundurmanın önemli olduğunu açıkladı. Büyüyen bir dosya ve dizin kümesine yönetişim politikaları uygulayabilen MapR'nin mantıksal hacimleri kavramını tartıştı.

“En düşük seviyede, MapR DR için WAN replikasyonunu ve dizine veya hacme göre farklı frekanslarda ayarlanabilen tüm verilerde zamana uyumlu anlık görüntüler tasarladı” dedi. “Sadece veri yönetiminden daha geniştir. Dizinlerdeki fiziksel bir kümeye sahip olabilirsiniz ve ardından mantıksal cilt kavramı gerçekten ilginç bir yönetim birimidir ve veri korumasını ve sıklığını kontrol ederken bir şeyleri gruplandırmanın bir yoludur. BT yöneticisinin verisindeki bir başka ok yönetişim titreme. "

4. Sabit Denetim ve Analitik

Daha geniş yönetişim resmine bakıldığında, hem Hortonworks hem de MapR stratejinin denetim yapılmadan çalışmadığını söyledi. Sürecin her adımındaki bu açıklık ve hesap verebilirlik seviyesi, BT'nin basitçe politikaları belirlemek ve kontrolleri denetlemek ve en iyisini ummak yerine verileri yönetmesini sağlayan şeydir. Aynı zamanda işletmelerin stratejilerini nasıl güncel tuttukları ve verileri yönetmek ve analiz etmek için kullandığımız teknolojileri her gün değişmekte olduğu bir ortamda nasıl koruyabiliyorlar.

Gnau, "Modern bir yönetim stratejisinin son parçası kütük kaydı ve takiptir" dedi. "Biz Büyük Veri ve IoT'nin bebekliğindeyiz ve verinin erişimini izleyebilmek ve verilerdeki kalıpları tanıyabilmek kritik öneme sahip, böylece strateji güncellenmesi gerektiğinden eğrinin ilerisinde olacağız."

Norris, denetim ve analizin, JavaScript Nesne Notasyonu (JSON) dosyalarını izlemek kadar basit olabileceğini söyledi. Her veri parçası izlemeye ve analiz etmeye değmeyecek ancak işiniz hangisini asla bilemeyecek - oyun değiştiren bir bakış açısı belirleyene veya bir kriz yaşanana ve bir denetim takibi yapmalısınız.

Norris, "Her JSON günlük dosyası analiz için açılır ve JSON dosyalarını şemalarla sorgulamak için Apache Matkap'ımız vardır, bu nedenle meta veri analizi için manuel bir BT adımı değildir, " dedi. "Tüm veri erişim olaylarını ve her yönetimsel eylemi dahil ettiğinizde, geniş bir analitik aralığı mümkündür."

5. Birleşik Veri Mimarisi

Sonuçta, bir kurumsal veri yönetişimi stratejisini denetleyen teknoloji görevlisi veya BT yöneticisi, ayrıntılı erişim, doğrulama, güvenlik, şifreleme ve denetimin özellikleri hakkında düşünmelidir. Ancak teknoloji görevlisi veya BT yöneticisi orada durmamalıdır; bunun yerine, o kişi bu bileşenlerin her birinin daha büyük veri mimarisine nasıl beslendiğini düşünmelidir. Veri toplama ve depolamadan BI, analitik ve üçüncü taraf hizmetlerine kadar bu altyapının nasıl ölçeklenebilir ve güvenli olması gerektiğini düşünmelidir. Gnau, veri yönetişiminin, teknolojinin kendisi ile ilgili olduğu kadar strateji ve yürütmeyi de yeniden düşünmekle ilgili olduğunu söyledi.

Gnau, "Tek bir cam bölmeden veya güvenlik kuralları koleksiyonundan öteye gidiyor" dedi. “Bu rolleri yarattığınız tek bir mimari ve tüm platform boyunca ve içine getirdiğiniz tüm araçlar arasında senkronize oluyorlar. Güvenli bir şekilde yönetilen altyapının güzelliği, yeni yöntemlerin yaratıldığı çevikliktir. Her platform düzeyinde ve hatta melez bir bulut ortamı, kurallarınızı nasıl uyguladığınızı anlamak için tek bir referans noktasına sahipsiniz. Tüm veriler bu güvenlik ve yönetim katmanından geçer. ”

Büyük veri temelleri: veri yönetim planı nasıl oluşturulur?