Co to jest Big Data?

W związku ze stałym rozwojem dostępnych narzędzi cyfrowych generujemy coraz więcej danych. Wcześniej ilość wygenerowanych informacji umożliwiała nam ich pomiar, analizę i stosunkowo łatwe przechowywanie przy użyciu klasycznych narzędzi. Dzisiaj, aby wydobyć wartość z danych, musisz mieć odpowiednią przestrzeń dyskową do ich przechowywania oraz narzędzia do szybkiego przetwarzania, często w czasie rzeczywistym. Projekty Big Data wymagają zatem stworzenia odpowiedniej architektury i infrastruktury. Odpowiedzią na te potrzeby jest Cloud Computing.

Definicja Big Data

Kiedy mówimy o Big Data, mamy na myśli bardzo duże zbiory danych. Wiele z naszych codziennych działań generuje dane. Z drugiej strony wykorzystujemy dane, kiedy używamy aplikacji lub odwiedzamy strony WWW. Tak duża ilość danych jest niemożliwa do przetworzenia dla pojedynczej osoby lub klasycznego narzędzia analitycznego. Aby zautomatyzować proces gromadzenia i przetwarzania ogromnych zbiorów danych, firmy prywatne, organy administracji publicznej, sieci społecznościowe, aplikacje mobilne oraz instytuty badawcze wdrażają projekty Big Data.

Na rynku pojawiły się nowe narzędzia do przechowywania i rozproszonego przetwarzania danych: Hadoop, Apache Spark, Kafka, Flink, MongoDB, etc. Celem Big jest wydobycie wartości z danych, które nie są wartościowe, jeśli wykorzystuje się je w oderwaniu od innych danych. W ślad za tymi nowymi narzędziami i zastosowaniami pojawiły się nowe zawody: analitycy danych, inżynierzy danych, eksperci ds. Big Data. Rolą tych osób jest operacyjne wsparcie firm.

Big Data w modelu 4V

Aby lepiej zrozumieć, czym jest Big Data, należy wspomnieć o modelu 3V: volume, velocity, variety, czyli z ang. duża ilość danych, duża prędkość ich przetwarzania oraz duża różnorodność. Równie ważna jest czwarta kwestia, czyli prawdziwość danych.

Volume - duża ilość danych

Wszystkie firmy i instytucje generują dane. Wielość źródeł danych oraz potrzeba ich kwantyfikacji i zachowania nad nimi kontroli sprawiają, że przechowywane są coraz większe zbiory informacji. Większość zgromadzonych danych ma niewielką wartość, jednak w momencie, kiedy zostają ustrukturyzowane i zestawione z innymi danymi, stają się zdecydowanie cenne.

Infrastruktura używana do realizacji projektów Big Data musi zatem dysponować bardzo dużą przestrzenią dyskową, aby poradzić sobie z napływem danych, który może wzrastać wraz z rozwojem projektu.

Velocity - duża prędkość przetwarzania danych

Przechowywane informacje mogą szybko stać się przestarzałe, jeśli nie zostaną przetworzone w odpowiednim czasie. Dlatego do gromadzenia i przetwarzania danych potrzebne są narzędzia analityczne działające w czasie rzeczywistym. Narzędzia tradycyjne zarządzają przepływem informacji z opóźnieniem, dają też bardzo małe możliwości ich zestawiania. Natomiast nowe narzędzia zorientowane na duże zbiory danych oferują metody analizy i przetwarzania o zwiększonej wydajności, i zapobiegają w ten sposób utracie świeżości danych.

Variety - duża różnorodność danych

Im bardziej zróżnicowane są źródła informacji, tym wyższą jakość będą miały wyniki ich analizy. Różnorodność ta obejmuje również wiele formatów gromadzonych zasobów. Zbierane są dane szeregu czasowego, geograficzne i transakcyjne oraz dane wyodrębnione z danego kontekstu (audio, wideo i tekst). Skuteczne przetwarzanie Big Data opiera się na umiejętności zestawienia różnorodnych danych w celu wydobycia z nich wartości. Służy to ulepszeniu produktu, ewolucji usługi, zrozumieniu potrzeb klientów, zaplanowaniu przyszłych działań do wdrożenia.

Veracity - prawdziwość danych

Oprócz wielkości zbiorów przechowywanych danych i prędkości, z jaką są przetwarzane, istotna jest jeszcze jedna zmienna: ich dokładność.

Przetwarzanie Big Data jest kosztowną operacją, która stanowi duże wyzwanie dla przyszłości firm. Jeżeli dane są nieprawidłowe lub niedokładne, wynik ich analizy również będzie nieprawidłowy. Może to prowadzić do podejmowania nietrafnych decyzji.

Przykłady zastosowania Big Data

Rozwój produktów

Wykorzystanie analizy predykcyjnej i wizualizacji danych podczas rozwoju produktu pomaga lepiej zrozumieć potrzeby kupujących i na nie odpowiedzieć. Udoskonalane istniejące produkty lub opracowywane nowe odzwierciedlają wówczas rzeczywiste oczekiwania odbiorców.

Konserwacja predykcyjna

Działania umożliwiające wcześniejszą wymianę przestarzałego sprzętu i przewidywanie awarii mechanicznych to główne wyzwania przedsiębiorstw. Analiza predykcyjna może posłużyć do identyfikacji maszyn, które należy wymienić ze względu na dobiegający końca cykl ich życia lub zagrażającą awarię. Przyczynia się to do znacznych oszczędności w firmie.

Przewidywanie przyszłych potrzeb

Przewidywanie potrzeb w nadchodzących latach jest zadaniem niezwykle delikatnym. Big Data umożliwia formułowanie takich prognoz w oparciu o solidne dane i pozwala wyznaczyć krótko-, średnio- i długoterminowe strategie. Jest to zatem ważne narzędzie wspomagające podejmowanie decyzji.

Przeciwdziałanie oszustwom

Średnie i duże przedsiębiorstwa muszą stawiać czoła coraz bardziej wyrafinowanym próbom oszustw. Oszustwa te są często trudne do zauważenia, ponieważ kryją się w cyfrowych strumieniach danych. Ponieważ opierają się jednak na powtarzalnych schematach i technikach manipulacji, można je wykryć. Analiza podejrzanego zachowania i czujność pozwalają na podjęcie z wyprzedzeniem odpowiednich działań.

Przygotowanie danych na potrzeby projektów Machine Learning

Uczenie maszynowe sztucznej inteligencji wymaga dużych zbiorów danych. Im więcej danych, tym dokładniejszy będzie wynik uczenia. Big Data umożliwia czyszczenie, kwalifikowanie i strukturyzację danych zasilających algorytmy Machine Learning.

Technologie Big Data

Apache Hadoop

Jest to framework open source, który umożliwia wykorzystanie ogromnych ilości danych przez aplikacje. Hadoop może przechowywać petabajty informacji, rozdzielając je na różne węzły klastra. Dane można efektywnie przeszukiwać przy użyciu architektury MapReduce.

Oprogramowanie to działa jak magazyn danych i umożliwia wydobywanie z nich wartości. Obsługuje ponadto awarie sprzętu, które mogą wystąpić w części infrastruktury. Usterki takie nie powodują zatem utraty danych ani przerw w działaniu usług.

Apache Spark

Spark to framework wykorzystywany do przetwarzania danych statycznych lub w czasie rzeczywistym. Swoista architektura danych sprawia, że działa on szybciej niż MapReduce - system przetwarzania Hadoop. Ponieważ Spark nie dysponuje funkcją przechowywania rozproszonych informacji, może być używany łącznie z Hadoop do wydobywania wartości z danych lub łącznie z rozwiązaniami do przechowywania obiektów S3.

MongoDB

Duża objętość Big Data wymaga odejścia od klasycznego modelu ustrukturyzowanych relacyjnych baz danych. MongoDB to system zarządzania rozproszonymi bazami danych NoSQL. Definiuje on na nowo sposób integracji i obsługi danych i doskonale odpowiada na potrzebę bardzo szybkiego przetwarzania Big Data.

Python

Python uważany jest za język najczęściej wykorzystywany do projektów Machine Learning. Jest kompatybilny z większością systemów operacyjnych. Chętnie używają go programiści i analitycy danych ze względu na łatwość obsługi i oszczędność czasu przy tworzeniu algorytmów. Oferuje wiele bibliotek, które ułatwiają programistom pracę w obszarach IT, takich jak data science, data analytics, zarządzanie danymi i wiele innych.

Big Data w centrum cyfrowej transformacji

Istnieje wiele nieustrukturyzowanych źródeł danych i ich typów (aktywność w sieci, obiekty podłączone do Internetu, nawyki konsumpcyjne, CRM, etc.). Dobrze opracowana strategia marketingu internetowego pozwala firmom przekuć surowe dane w wartość. Wyniki analiz zinterpretowane przez analityka danych stają się bardzo cenne w procesie decyzyjnym, zwłaszcza w kontekście relacji z klientami czy ich potrzeb. Modelowanie architektury Big Data i włączanie jej do procesów transformacji cyfrowej za pomocą rozwiązań analitycznych jest częścią łańcucha decyzyjnego.

Sztuczna inteligencja i Big Data

Sztuczna inteligencja, podobnie jak ludzie, potrzebuje informacji. Im więcej dostępnych danych, tym wydajniejsza nauka. Dlatego algorytmy maszyn potrzebują ogromnych ilości danych zgromadzonych z wielu różnych źródeł.