Jezioro czy hurtownia? Jak przechowywać dane na potrzeby technologii industry 4.0?

Każda firma, która działa na bazie big data i procesuje duże ilości danych, staje przed pozornie prostym pytaniem – jak przechowywać i zarządzać danymi? Generalnie rzecz biorąc, są dwa możliwe rozwiązania. Twoja firma może korzystać z hurtowni danych (ang. data warehouse) lub z jeziora danych (ang. data lake). Chociaż te rozwiązania mogą się wydawać podobne, jest sporo różnic, z których warto zdawać sobie sprawę. Czym zatem jest jezioro, a czym hurtownia danych? I kiedy powinieneś wybrać określone rozwiązanie?

Tak naprawdę, fakt, że oba rozwiązania służą do przechowywania i zarządzania danymi jest jedynym wspólnym mianownikiem między data warehouse i data lake. Przyjrzyjmy się bliżej obu rozwiązaniom.

Czym są hurtownie danych?

Data warehouse to repozytorium, w których składowane są dane, które już są oczyszczone i ustrukturyzowane (czyli w skrócie ułożone w rzędach i kolumnach). Oznacza to, że w każdej chwili można je wykorzystać w różnego rodzaju rozwiązaniach industry 4.0, takich jak sztuczna inteligencja, Internet Rzeczy czy Business Intelligence (BI). Ponieważ w hurtowni danych nie można przechowywać dowolnego rodzaju informacji, dane, zanim tam trafią, muszą przejść przez tzw. proces ETL (ang. Extract Transform Load).

PROCES ETL

Pierwszy etap tego procesu (Extract) polega na wyciągnięciu danych z plików źródłowych i przygotowaniu ich do obróbki i strukturyzacji. Drugi krok (Transform) polega na strukturyzacji i oczyszczeniu danych, tak aby były one gotowe do wprowadzenia do hurtowni. I wreszcie ostatni element (Load) to czas na implementację już przygotowanych danych do hurtowni.

Widać tutaj oczywistą komplikację. Zanim dane trafią do hurtowni, muszą przejść przez szereg czynności, które mają na celu ich odpowiednie przygotowanie. Choć na pierwszy rzut oka wydaje się to sporym utrudnieniem, tak naprawdę to przyspieszenie pracy, ponieważ tak przygotowane dane są gotowe do wykorzystania w projektach AI czy BI.

Czym są jeziora danych?

W przypadku data lakes sprawa jest prostsza. Jeziora danych pozwalają przechowywać informacje bez żadnej wcześniejszej obróbki. Oznacza to, że znajdują się tam zarówno dane ustrukturyzowane, jak i nieustrukturyzowane (pliki audio, prezentacje, pliki tekstowe itp.).

Stąd też wzięła się nazwa data lake. Podczas gdy w hurtowni wszystko jest zorganizowane i poukładane na półkach, w jeziorze trudno o podobny porządek. Mamy tutaj masę roślin, kamieni, piasku, ryb i wody. I faktycznie, w jeziorze danych możesz przechowywać dane w praktycznie każdej formie i formacie.

Tutaj słowo ostrzeżenia. Ponieważ jeziora danych pozwalają na dużą dowolność, łatwo dopuścić do ich zaniedbania, w wyniku czego dane staną się mało przydatne, a jezioro stanie się… bagnem (ang. data swamp).

Dwa podejścia do przechowywania danych

Główne różnice między tymi dwoma rozwiązaniami wynikają z faktu, że służą one różnym celom:

  • Hurtownie danych są zbudowane z myślą o celach biznesowych. Gotowe do analizy dane przyspieszają procesy data science/BI, a także pozwalają łatwo wdrożyć inteligentne rozwiązania w Twojej firmie. Hurtownie mają za zadanie pomagać firmom w osiąganiu celów biznesowych, co oznacza, że ułatwiają analizę, wizualizację i interpretację danych.
  • Z drugiej strony mamy jeziora danych, gdzie dane są przechowywane w surowym, nieprzetworzonym formacie. Oznacza to, że data lakes sprawdzą się, gdy po prostu potrzebujesz przechowywać dane, ale jeszcze nie do końca wiesz, co chcesz z nimi zrobić. I tak, jeziora danych wymagają na ogół więcej miejsca i mocy obliczeniowych, ale z drugiej strony łatwiej jest nimi zarządzać i uzyskiwać dostęp do potrzebnych informacji. Data lakes pozwalają przechowywać wszystkie dane w Twojej firmie, niezależnie od tego skąd one pochodzą, lub jaki jest ich cel.

Kiedy jezioro, a kiedy hurtownia?

Częściowo już odpowiedzieliśmy na to pytanie. Hurtownie danych są wykorzystywane stricte do celów biznesowych i inteligentnych technologii. Dlatego z hurtowni danych bardzo często korzystają firmy z następujących sektorów:

  • Finansowego
  • Produkcyjnego
  • Transportowego i logistycznego
  • Doradczego (consulting)

Z kolei z jezior danych korzystają firmy i organizacje, które zarządzają surowymi danymi w różnych formatach. Przydają się one w firmach edukacyjnych, medycznych, małych i średnich firmach i czasami też urzędach i państwowych instytucjach.

W wielu wypadkach nic nie stoi na przeszkodzie, żeby korzystać z obu rozwiązań, jeśli taka jest potrzeba. W takiej konfiguracji jeziora danych można wykorzystywać do rozwiązywania problemów i realizacji zadań, które nie wymagają ustrukturyzowanych danych. Tak naprawdę często okazuje się, że połączenie hurtowni danych i jeziora danych skutkuje redukcją kosztów przechowywania big data.

W większości przypadków część danych, które posiada firma, może być na stałe przechowywanych w jeziorze danych (to wygodniejsze i bardziej uniwersalne narzędzie) i przesyłane do hurtowni danych, gdy są potrzebne do analizy lub innych celów. W takiej konfiguracji firma uzyskuje szybszy dostęp do danych na co dzień, a hurtownie są odciążone, dzięki czemu mogą pracować efektywniej.

Jeśli zarządzasz big data w swojej firmie i potrzebujesz pomocy w wybraniu odpowiednich narzędzi do przechowywania danych – zapraszamy do kontaktu! DIH4.ai składa się z firm, które mają ogromne doświadczenie w zarządzaniu i przechowywaniu big data. Z przyjemnością zaprojektujemy dla Ciebie odpowiednie rozwiązanie. Zapraszamy do kontaktu.