Secure Enterprise Search – sposób na zagubione informacje

Jadwiga Gnybek

Informacja to broń XXI wieku – mówi się bowiem, że ten kto ma dostęp do informacji, ten ma władzę. Nic więc dziwnego, że porządkowanie i wyszukiwanie informacji stało się ostatnio całkiem dochodowym zajęciem.

Informacji przybywa w zastraszającym tempie zarówno w Intra- jak i Internecie. Wyszukiwanie informacji w Internecie wydaje się być już dobrze opanowane. Każdy z nas niemal codziennie korzysta z wyszukiwarek internetowych – takich, jak Google, Yahoo, czy nasz rodzimy Szukacz. Nieco paradoksalnie okazało się, że przekopywanie bezkresnych pokładów informacji zapisanych w World Wide Web jest prostsze, niż szukanie informacji składowanych w różnorodnej formie przez pracowników jednej firmy. Sprawia to oczywiście magia Internetu oparta na adresach URL oraz mechanizmach określania wzajemnych powiązań pomiędzy stronami, posiadającymi poszukiwane słowa kluczowe. Śledząc takie powiązania dzięki mechanizmowi Page Rank, wyszukiwarki internetowe wydedukować mogą hierarchię ważności stron wybranych według zadanego klucza. Niestety, mechanizm ten nie sprawdza się w heterogenicznym zbiorze informacji biznesowych przechowywanych w przepastnych skarbnicach systemów informatycznych i innych magazynach danych.

Intranet, czyli stóg siana

Informacje w intranetach są składowane w różnych miejscach i w różny sposób. Co więcej, nie ma żadnej pewności, że zbiór poszukiwanych przez nas informacji znajduje się w jednym miejscu i w „jednym kawałku”. Często odpowiedź na prośbę o znalezienie określonych informacji biznesowych wymaga zebrania danych rozproszonych w kilku źródłach. Do tego dodać warto sieć uwarunkowań ograniczonego dostępu do niektórych informacji biznesowych. Jedne z nich są chronione przez naszą firmę z powodów biznesowych, inne obwarowane regulacjami prawnymi dotyczącymi przetwarzania danych osobowych. Jeśli jesteśmy gdzieś w okolicy giełdy amerykańskiej, do obwarowań tych dodać musimy jeszcze regulacje związane z SOX. Wszystkie wymienione tu obwarowania składające się zwykle na politykę bezpieczeństwa firmy lub regulaminy bezpieczeństwa dla poszczególnych systemów wymuszają, aby wyszukiwarka danych intranetowych bardzo skrupulatnie sprawdzała, kto zadaje pytanie i jakie informacje wolno udostępnić w wyniku przeszukania zasobów firmy.

Co tu dużo mówić, wyszukiwarka danych potrafiąca odpowiedzieć na pytanie: „Czy w naszej firmie wiemy coś o …..?” nie jest wcale łatwa do zaprojektowania. Z jednej strony, musimy po prostu umieć znaleźć poszukiwane dane, czyli kontekstowo zrozumieć zadane pytanie; z drugiej zaś strony musimy pilnować, aby zachowane zostały wszystkie zasady poufności i bezpieczeństwa obowiązujące w naszej firmie. Trudno zgadnąć, które z tych zadań jest trudniejsze. Ze względu na konieczność wyszukiwania fragmentów informacji w różnych źródłach, maszyna interpretująca wprowadzone zapytanie musi charakteryzować się zdecydowanie większą finezją algorytmu niż ta do przeszukiwania po słowach kluczowych. Przeszukiwarka intranetowa musi rozumieć kontekst pytania. Często musi też umieć poruszać się w środowisku wielojęzycznym, i to z pewnością nie tylko na poziomie interfejsu użytkownika.

A wszystko to oczywiście dziać się powinno szybko i niezawodnie. Wbrew pozorom, wyszukiwarka taka może mieć ogromne znaczenie dla sprawności naszego biznesu. Szybki dostęp do dobrze wyselekcjonowanych informacji może być przecież ogromną przewagą rynkową. No i oczywiście… wyszukiwarka taka powinna być prosta w użyciu. Jej użytkownikami będą bowiem pracownicy, posiadający różny stopień wiedzy i doświadczenia w obsłudze pracujących w firmie aplikacji.

Z punktu widzenia administracji, wyszukiwarka taka powinna być łatwa w administracji i podatna na rozbudowę o nowe obszary przeszukiwanych zasobów. Ponadto musi stanowić aplikację o najwyższym stopniu bezpieczeństwa. Zapytania mogą bowiem dotyczyć zarówno spraw błahych, jak i danych opatrzonych najwyższą klauzulą tajności.

Nic więc dziwnego, że za budowę takich narzędzi zabrały się największe firmy softwarowe – w tej liczbie oczywiście i korporacja Oracle. Posiadając olbrzymie doświadczenie w przechowywaniu najróżniejszych postaci informacji biznesowych w bazach danych oraz posiadając szeroki wachlarz aplikacji korzystających z tych danych, Oracle zaproponował swoim klientom produkt Secure Enterprise Search.

Wyszukiwanie à la Oracle

Sprzedawany jako odrębne rozwiązanie, Secure Enterprise Search oferuje wyszukiwarkę informacji przeszukującą zawartość witryn intranetowych, baz danych, plików dyskowych zarówno na zasobach współdzielonych, jak i na dyskach lokalnych, treści poczty elektronicznej i repozytoria dokumentów. Tak szerokie spektrum przeszukiwanych obszarów zawdzięczać należy bogatemu zbiorowi wtyczek, komunikujących SES z wieloma komercyjnymi produktami – takimi, jak EMC Documentum, IBM Lotus Notes, FileNet, Microsoft Sharepoint, OpenText itp. Zadaniem administratora SES jest wybór potrzebnych w danej firmie wtyczek, ich aktywacja i konfiguracja.

Sam SES zapewnia natomiast kontrolę dostępu do prezentowanych informacji. W praktyce oznacza to, że użytkownik SES otrzymuje dostęp tylko do tych danych, do których dostęp został mu wcześniej udzielony. Realizacja tej funkcji wymaga ścisłego współdziałania SES z istniejącymi w infrastrukturze informatycznej firmy mechanizmami autoryzacji i uwierzytelniania użytkowników systemów UNIX i Microsoft oraz produktów takich, jak na przykład Internet Directory LDAP. Aby przejść na bardziej szczegółowy system zabezpieczeń dostępu, podczas indeksowania zasobów SES może gromadzić informacje o Access Control List (ACL) dla każdego zaindeksowanego obiektu. W celu zabezpieczenia praw dostępu do informacji wykorzystywane są zarówno listy dostępu ACL Crawling jak i ACL Stamping.

ACL Crawling wykorzystywany jest w odniesieniu do informacji, dla których SES może odczytać zdefiniowaną wcześniej listę ACL. Jest to możliwe jedynie w przypadku przeszukiwania informacji gromadzonych w narzędziach posiadających wbudowane mechanizmy kontroli dostępu. W przypadku informacji składowanych bez zdefiniowania takich reguł, administrator SES ma do dyspozycji ACL Stamping, czyli mechanizm umożliwiający definiowanie ACL na poziomie samej wyszukiwarki. Można zatem w SES zdefiniować grupy użytkowników i przypisać im uprawnienia do przeszukiwania określonych grup informacji.

Dodatkową formą zabezpieczenia jest możliwość powtórnego sprawdzenia uprawnień dostępu użytkownika do wyszukanych informacji w chwili wyświetlania wyszukanego zbioru. Mechanizm ten nosi nazwę Query Time Authorization i czuwa nad uwzględnieniem ewentualnych zmian w uprawnieniach użytkownika, jakie mogły nastąpić pomiędzy wprowadzeniem zapytania, a wyświetleniem wyniku przeszukania zasobów. Choć zabezpieczeń nigdy nie jest zbyt wiele, warto jednak pamiętać, że najefektywniejsze jest korzystanie z mechanizmów już zaimplementowanych. Dlatego też najnowsza wersja SES (10.1.8) wyposażona została we wtyczki umożliwiające integrację z korporacyjnymi systemami autoryzacji i uwierzytelniania – takimi, jak Oracle Internet Directory (OID), Microsoft Active Directory czy Novell eDirectory.

Odnaleźć właściwe informacje

Chociaż mówi się często, że od przybytku głowa nie boli, każdy z nas chciałby na swoje zapytanie dostać zwięzłą i trafną odpowiedź. W przypadku wyszukiwarek internetowych wpisanie popularnego słowa może wygenerować nam kilka milionów stron wartych przejrzenia. Wpisując hasło „IT” otrzymać można ponad 30 milionów linków w języku polskim i około 7 miliardów w języku angielskim. A wszystko to pomimo istnienia mechanizmów wzajemnego „głosowania” na siebie poszczególnych linków w sieci.

Jednym słowem – im więcej informacji, tym większy informacyjny szum i tym trudniej w szumie tym znaleźć to, czego aktualnie nam potrzeba. Wyszukiwarkom intranetowym nie jest wcale łatwiej, dlatego też Secure Enterprise Search wyposażony został w kilka mechanizmów, które z morza informacji przechowywanych w najróżniejszej formie pozwalają odnaleźć te, które najbardziej odpowiadają naszym kryteriom. Do mechanizmów tych w pierwszym rzędzie zaliczymy oczywiście funkcjonalności znane już pod nazwą Oracle Text, specjalny system indeksów dla danych i metadanych, mechanizmy analizy adresów URL – o ile analiza taka jest możliwa i przydatna oraz funkcjonalność pozwalającą na identyfikację dokumentów o tej samej treści przechowywanych w różnych lokalizacjach.

Zwykle wyszukiwane informacje potrzebne są nam na wczoraj – dlatego też Secure Enterprise Search wyposażony został w szereg mechanizmów, które zapewnić mają znaczące przyspieszenie procesu wyszukiwania danych. Do mechanizmów tych zaliczymy przeszukiwanie wielowątkowe, możliwość rozłożenia przeszukiwania na wiele maszyn oraz bardzo skuteczne mechanizmy „wydobywania” danych tekstowych z plików binarnych. Secure Enterprise Search zawiera ponad 150 filtrów, potrafiących odczytać tekst zawarty w plikach binarnych zapisanych w najróżniejszych formatach. Mamy zatem zapewnioną dużą wydajność przeszukiwania danych zapisanych w bardzo różnorodnych formatach. Teraz zadbać trzeba jedynie o trafność dokonywanych przeszukań.

Tu kluczem do sukcesu jest budowa metadanych. Pierwszym krokiem we właściwym kierunku jest oczywiście zgromadzenie właściwych danych na podstawie bardzo różnorodnych źródeł informacji, drugim zaś umiejętność zmapowania tych danych na elementy zapytania zadanego systemowi. Oczywiście, techniczne szczegóły tych rozwiązań stanowią najcenniejszy sekret budowniczych SES. Jedno, co powinno nas w tym miejscu interesować to fakt, że narzędzie to pomyślane było tak, aby nie wymagało wykonania skomplikowanych procedur instalacyjnych i konfiguracyjnych. Dzięki temu uruchomienie pakietu i inicjalne zasilenie go metadanymi nie trwa długo. Zaraz potem, dzięki odpowiedniemu API, mechanizmy wyszukiwarki można wkomponować w serwis informacyjny naszego intranetu. Maszynę tę zintegrować można również z Google Desktop for Enterprise (GDfE) oraz innymi podobnymi produktami.

Oczywiście do dyspozycji mamy również małą aplikacyjkę, która umożliwia nam zadawanie pytań maszynie SES oraz Webowy panel administracyjny. Jak już wspomniałam, filozofia tego narzędzia opiera się na jak największym uproszczeniu prac związanych z konfiguracją i zarządzaniem SES. Dlatego też panel administracyjny wyposażony jest bogato w różnego rodzaju wizardy ułatwiające wykonywanie zadań takich, jak definiowanie źródeł danych, wprowadzanie reguł ograniczania dostępu do danych, czy też planowanie aktualizacji metadanych i monitorowanie celności wyszukań.

Jeśli zatem wierzyć dokumentacji technicznej i materiałom reklamowym, kupujemy SES i wiemy o naszej firmie wszystko – czego sobie i Wam życzę!