Co nowego u Oracle… – Oracle Warehouse

Przepraszam za język angielski w tytule – ale z dobrą, polską nazwą jeszcze się nie zetknąłem1. Natomiast sam termin pojawiał się na tyle często w rozmowach z klientami, że postanowiłem trochę dokładniej mu się przyjrzeć2.


Z data warehouse mamy do czynienia dopiero wtedy, kiedy interesująca nas informacja jest już zgromadzona w dużej bazie danych (terabajtowe bazy danych nie są niczym wyjątkowym) – po zgromadzeniu informacji użytkownik zaczyna szukać narzędzi, które pozwolą mu na szybkie przeszukanie bazy, niezależnie od rzeczywistej struktury baz tworzących warehouse oraz od ich fizycznej lokalizacji. Potrzeba użycia tego typu narzędzi nie pojawia się w początkowej fazie tworzenia struktury informacyjnej przedsiębiorstwa – użytkownik musi Ťdorosnąćť – wraz ze wzrostem ilości zgromadzonej informacji – do potrzeby zastosowania oprogramowania typu data warehouse.


The demonstration
The Configuration




Do narzędzi najczęściej udostępnianych użytkownikowi data warehouse należą:


  • narzędzia zrównoleglenia przetwarzania baz danych – zwykle nie są one widoczne wprost przez użytkownika. Dopiero zrównoleglenie przetwarzania pozwala na wyszukanie informacji w akceptowalnym przez użytkownika czasie – tak działa Oracle 7 Server z opcją Parallel Query.
  • szeroki wachlarz narzędzi, wspomagających tworzenie zapytania (SQL) przez użytkownika który najczęściej nie jest informatykiem – z data warehouse korzysta najczęściej kadra kierownicza oraz analitycy przedsiębiorstwa. To samo dotyczy narzędzi do obróbki statystycznej oraz prezentacji otrzymanych danych. Oracle udostępnia użytkownikom między innymi.:

    • Text Server – wyspecjalizowany w indeksowaniu i przeszukiwaniu danych tekstowych
    • Spatial Data Option – pozwala na przetwarzanie danych geograficznych lub przestrzennych
    • Video Server Option – pozwala pracować z danymi typu audio i video.

  • narzędzia do importowania danych z baz danych innych producentów – jak pokazuje praktyka data warehouse w typowym przedsiębiorstwie obejmuje najczęściej (zwykle z powodów historycznych) połączone poprzez sieć komputerową bazy danych różnych typów. Oracle stosuje do tego celu oprogramowanie Oracle Open Gateway, pozwalające między innymi na import danych – z baz zapisanych w standardzie IMS, DB2/MVS, VSAM, IDMS, dowolnej bazy zgodnej ze standardem DRDA, baz w standardzie Informixa, Sybase, Progressa, Accessa, Ingresa. Oprogramowanie typu Oracle Transparent Gateways pozwala na używanie importowanych danych tak, jakby były one standardowymi bazami systemu Oracle – niezależnie od ich fizycznej reprezentacji i od systemu operacyjnego w którym są one dostępne. Używany do pobierania danych Oracle 7 Parallel Loader pozwala na wczytywanie danych z prędkością powyżej 100 GB na godzinę.
  • za pomocą Oracle 7 Advanced Replication Option użytkownik może ustalać zasady replikacji i uaktualniania danych. Dostępna jest replikacja synchroniczna, replikacja sterowana zdarzeniami (Ťevent-basedť) oraz replikacja na żądanie (Ťdemand-basedť). Replikowane mogą być zarówno całe bazy danych, ich podzbiory jak również Ťagregatyť – powstałe z połączenia danych z wielu baz.

Bardzo istotne z punktu widzenia użytkownika, są usługi konsultacyjne oraz nadzór autorski świadczone przez firmę dostarczającą data warehouse. W przypadku Oracle Warehouse oznacza to nadzór nad klientem od samego początku tworzenia data warehouse – najczęściej za pomocą systemu typu CASE (Designer/2000).


Narzędzia typu data warehouse najczęściej nie są produktem jednej firmy – zwykle jest to efekt działań wielu producentów, koordynowany przez firmę dostarczającą produkt końcowy użytkownikowi.


The Database
Query description




Platforma sprzętowa, pozwalająca rozsądnie użyć oprogramowania typu data warehouse, jest niestety dość droga – omawiany dalej przypadek zastosowania optymalizacji typu Oracle Star działał na 64-bitowej, 8 procesorowej (Alpha CPU) stacji typu Digital AlphaServer, pracującej w systemie VLM (Very Large Memory), posiadającej 8 GB RAM i 32 GB HDD. Testowa baza danych zawierała 32 GB danych:


  • 170 000 000 rekordów z danymi bazowymi
  • dane dotyczące 1000 sklepów
  • 500 różnych sprzedawanych produktów
  • dane zawierały historię 2 letniej sprzedaży, pamiętaną jako tygodniowe zestawienia sprzedaży.

Serwer działał pod kontrolą 64-bitowej wersji Oracle 7, na terminalach graficznych używany był SAS oraz Oracle Express.


Jako testowe zapytanie użyte zostało polecenie utworzenia 12 miesięcznego zestawienia porównania sprzedaży płatków Quellog3 w stosunku do wszystkich typów płatków śniadaniowych sprzedawanych we wszystkich sklepach znajdujących się na terenie stanu Connecticut w roku 1995. Aby otrzymać żądany wynik należało każdorazowo przeszukać 170 000 000 rekordów – utworzony zbiór danych zawierał 14 560 pozycji.


Pierwsza generacja wyników, wykonana metodą tradycyjną trwała 1 godzinę, 1 minutę i 32 sekundy. Po zastosowaniu optymalizacji typu Star – serwer Oracle optymalizuje kolejność wykonywania poszczególnych fragmentów instrukcji SQL, by zminimalizować czas przeszukiwania – ten sam wynik został osiągnięty w czasie 1 minuty i 11 sekund. Na końcu wykonano to samo zapytanie, również przy użyciu optymalizacji typu Star z włączoną dodatkowo opcją 64-bitowego przetwarzania – czas wyszukiwania zmniejszył się do 3 sekund.


Zgodnie z informacjami podawanymi przez firmę Oracle, użycie optymalizacji typu Oracle Star – Schema pozwala na co najmniej 50-krotne przyspieszenie wyszukiwania informacji w bazach – w porównaniu do systemu Oracle 6. Użycie architektury VLM pozwala na dodatkowe 10 – 50-krotne przyspieszenie wyszukiwania.
Architektura VLM pozwala również na optymalizację czasu realizacji zapytania w sytuacji, kiedy wielu użytkowników wykonuje jednocześnie różne operacje wyszukiwania na tych samych danych.


VLM64: Unprecedented DSS Query Throughput
VLM64: Fast DSS Response Under Heavy Multiuser Loads






Adresy, kontakty, referencje:




Firmy tworzące oprogramowanie typu data warehouse:

  • AT&T Global Information Solutions, 1700 South Patterson Boulevard Dayton, OH 45479,

    www: http://www.att.com
  • Hewlett Packard OpenWarehouse, 19111 Pruneridge Avenue Cupertino, CA 95014,

    www: http://www.hp.com
  • IBM Visual Warehouse – kontakt przez lokalnych przedstawicieli IBM,

    www: http://www.ibm.com
  • Informix Software, 4100 Bohannon Drive, Menlo Park, CA, 94025,

    www: http://www.informix.com
  • Data Warehouse Program, Software AG of North America, 11180 Sunrise Valley Drive, Reston, VA 22091

    www: http://www.sagus.com
  • WarehouseWORKS, Sybase, 6475 Christie, Emeryville, CA 94608,

    www: http://www.sybase.com
  • Tandem Computers, Inc., 19191 Vallco Parkway Loc 4-60, Cupertino, CA 95014,

    www: http://www.tandem.com

Produkty ‚pokrewne’:


Tadeusz Kędzierski

Instytut Informatyki UJ

e-mail: tedd@ii.uj.edu.pl

Kraków, wrzesień 1996


Uwaga! Aby powiększyć rysunek należy kliknąc na jego „małej” wersji!


1 Pojawiły się ostatnio terminy „magazyn danych” lub „hurtownia danych„, ale moim zdaniem te terminy nie oddają specyfiki Data Warehousing.

2 Wszytkie informacje oraz wyniki testów prezentowane w tym opracowaniu pochodzą z magazynu Oracle dostępnego w sieci – www.oracle.com.

3 … wolę „Musli” ]:-)

4 Nie znam formalnej nazwy ich produktu, świadczą kompleksowe usługi w tworzeniu data warehouse dostosowanego do potrzeb klienta.