IV Szkoła PLOUG: przegląd tematyki

Hurtownie danych: od koncepcji do wdrożenia

Poznań 16-18.02.2005 r.

W dniach 16-18 lutego 2005 r. odbyła się w Poznaniu IV Szkoła PLOUG zatytułowana „Hurtownie danych: od koncepcji do wdrożenia”, poświęcona teorii i praktyce realizacji systemów klasy Business Intelligence z wykorzystaniem produktów firmy Oracle. W imprezie wzięło udział niemal 80 specjalistów z całego kraju.

IV Szkoła PLOUG była podzielona na dwie części: dwudniowe wykłady i jednodniowe ćwiczenia praktyczne. Zagadnienia poruszane podczas wykładów obejmowały między innymi: architekturę systemów Business Intelligence, projektowanie struktur logicznych i fizycznych hurtowni danych, realizację procesu ładowania danych (ETL), implementację obiektów wielowymiarowego modelu danych, implementację aplikacji analitycznych (Discoverer i Business Intelligence Beans) oraz eksplorację danych. Ćwiczenia praktyczne umożliwiły uczestnikom zebranie doświadczeń związanych z podstawowymi elementami zdobytej wiedzy teoretycznej oraz poznanie podstaw obsługi narzędzi Oracle wspomagających konstrukcję systemów hurtowni danych: Warehouse Builder, Analytic Workspace Manager, Discoverer, Data Miner. Zarówno wykłady, jak i ćwiczenia praktyczne były prowadzone przez pracowników naukowych Politechniki Poznańskiej oraz współpracowników PLOUG: Krzysztofa Jankiewicza, Mikołaja Morzego, Marka Wojciechowskiego i Macieja Zakrzewicza.

Dla uczestników IV Szkoły PLOUG organizatorzy przygotowali również dodatkowe atrakcje w postaci wycieczki po Poznaniu na pokładzie zabytkowego tramwaju oraz staropolskiej kolacji. Dziękujemy serdecznie za udział!

Po pomyślnym wdrożeniu operacyjnych systemów informatycznych (ang. on-line transaction processing systems, OLTP) służących zwiększeniu wydajności i niezawodności pracy szeregowych pracowników, coraz więcej przedsiębiorstw i instytucji skupia się na implementacji komputerowego wspomagania działań pracowników szczebla kierowniczego. Paradoksalnie, dziś najgorzej zinformatyzowaną grupą pracowników są właśnie kierownictwa firm – w większości przypadków stosowane przez nie oprogramowanie ogranicza się do uniwersalnych programów komputerowych, takich jak edytory tekstów, programy obsługi poczty elektronicznej czy przeglądarki internetowe. Natomiast zasadnicze zadania szczebla kierowniczego – planowanie, organizowanie i nadzorowanie pracy podległych jednostek – najczęściej nie są w żaden sposób wspomagane przez narzędzia informatyczne.

Środkiem umożliwiającym polepszenie jakości podejmowanych decyzji są komputerowe systemy wspomagania decyzji (ang. decision support systems, DSS), oparte o duże zbiory danych zarządzane przez oprogramowanie hurtowni danych (ang. data warehouses). Hurtownie danych stają się dziś coraz bardziej popularnym zastosowaniem systemów baz danych (ang. database systems). Funkcjonalność hurtowni danych zwykle obejmuje: migrację danych z operacyjnych systemów informatycznych, integrację danych pochodzących z niezależnych źródeł, podnoszenie jakości danych poprzez ich uzupełnianie i korektę, wstępną agregację danych na potrzeby przetwarzania analitycznego. W środowisku hurtowni danych konstruuje się aplikacje, które w efektywny sposób realizują złożone analizy danych, są to: statyczne aplikacje raportujące, aplikacje analityczne pracujące w trybie ad-hoc i aplikacje eksploracji danych (ang. data mining). Za pomocą tych aplikacji użytkownicy-decydenci generują raporty zawierające złożone agregaty statystyczne (sumy, średnie, odchylenia standardowe, itp.), stanowiące podstawę dla podejmowania decyzji o charakterze biznesowym.

Z punktu widzenia aplikacji analitycznych, podstawowym modelem logicznym dla systemów hurtowni danych jest wielowymiarowy model danych (and. multidimensional data model), reprezentujący dane w postaci wielowymiarowych kostek. Obiektem analizy w takim modelu są miary numeryczne nazywane faktami (ang. facts), będące elementarnymi wartościami numerycznymi przechowywanymi w hurtowni danych. Fakty są reprezentowane jako punkty w wielowymiarowej przestrzeni wymiarów (ang. dimensions), gdzie każdy wymiar może być dodatkowo opisany zbiorem atrybutów. Atrybuty te mogą być z kolei zorganizowane w hierarchie wymiarów (ang. dimension hierarchies). Wielowymiarowy model danych narzuca również pewną algebrę operacji realizowanych przez aplikacje analityczne, są to m.in. operacje: rozwijania wymiaru (ang. drill down), agregacji wymiaru (ang. roll up), cięcia (ang. slice/dice) i obrotu (ang. pivot).

Szczególnym typem aplikacji konstruowanych w środowisku hurtowni danych są aplikacje eksploracji danych. W przeciwieństwie do klasycznych aplikacji analitycznych, eksploracja danych umożliwia automatyczną analizę danych. Technologia eksploracji danych polega na systemowym wyszukiwaniu potencjalnych hipotez, a funkcjonalność aplikacji eksploracji danych obejmuje znajdowanie nieznanych dotychczas własności danych i związków pomiędzy danymi. Automatyczna eksploracja danych umożliwia przede wszystkim formułowanie zapytań na znacznie wyższym poziomie abstrakcji aniżeli pozwalają na to operacje wielowymiarowego modelu danych.

Budowa komputerowego systemu wspomagania decyzji opartego o system hurtowni danych wymaga od projektantów posiadania zaawansowanej wiedzy z zakresu między innymi: integracji systemów, projektowania baz danych, strojenia wydajności systemów baz danych, aplikacyjnych interfejsów dla baz danych oraz implementacji aplikacji o bogatym graficznym interfejsie użytkownika. W pewnym sensie, do przeprowadzenia pełnej implementacji systemu wspomagania decyzji – od koncepcji do wdrożenia – niezbędna jest wiedza interdyscyplinarna.