W głębi internetu

Reklama

Przeszukiwanie internetu można porównać z łowieniem ryb za pomocą sieci - sięgamy tak głęboko, jak umożliwia nam to stosowana technologia. Duża część informacji jest niedostępna dla tradycyjnych wyszukiwarek internetowych. Wynika to z faktu, iż technologia i metodologia wyszukiwania, stosowana w większości wyszukiwarek, nie zmieniła się zbytnio od początku istnienia internetu. Działają one zwykle na zasadzie przeszukiwania statycznych stron internetowych, nie sięgając głębiej. Również katalogi internetowe nie pozwalają na uzyskanie dostępu do "ukrytych" danych. Tradycyjnie pojmowane zasoby internetu liczą około 1 miliarda dokumentów, a liczba ta wzrasta w tempie 1,5 miliona dokumentów dziennie. Największe wyszukiwarki indeksują ok. 300 milionów dokumentów, tak więc nawet ograniczając się do internetu "powierzchniowego", nie możemy spodziewać się pełnego przeszukania jego zasobów. Dodatkowym problemem jest ogromna liczba wyników wyszukiwania. Kiedy wpiszemy słowo web do wyszukiwarki Northern Light, otrzymamy pond 50 milionów dokumentów dotyczących tego tematu. Inne ograniczenie to fakt, iż nowe dokumenty są dość wolno indeksowane - czasem zajmuje to nawet kilka tygodni.

O konieczności zmian metody wyszukiwania informacji mówi się już od dawna, jednak jak dotychczas, niewiele się zmienia w sposobie działania search engines. Wprawdzie nowe generacje wyszukiwarek, np. Google czy Direct hit, znacznie lepiej przeszukują zasoby sieci, nie docierają jednak do zasobów deep web. Tymczasem, w bazach danych dostępnych publicznie znajduje się ogromna ilość informacji, na dodatek są one uporządkowane tematycznie. Problemem przy ich przeszukiwaniu jest konieczność bezpośredniego wpisania żądanej informacji do wyszukiwarki bazy danych, co nie jest możliwe z poziomu tradycyjnego search engines. Dylemat ten stara się rozwiązać między innymi firma BrightPlanet, która stworzyła oprogramowanie o nazwie LexiBot, przeszukujące niedostępne dotychczas obszary internetu. Jest to aplikacja, która przeszukuje bazy danych na całym świecie - niebawem ma ona umożliwić "szperanie" w 100 tys. bazach danych.

Bazy danych

W początkach internetu, kiedy istniało niewiele witryn internetowych, informacje były przechowywane najczęściej na statycznych stronach HTML. Wraz z zaadaptowaniem technologii baz danych na potrzeby internetu, rozpoczęła się nowa era w historii sieci. Rozwinęły się pierwsze komercyjne zastosowania internetu: wyszukiwarki i katalogi. Pojawiały się pierwsze zastosowania e-commerce. Wkrótce okazało się, że konieczne jest dynamiczne udostępnianie stron za pomocą np. technologii ASP czy PHP. Ta tendencja doprowadziła do przenoszenia zawartości witryn do baz danych, co jest szczególnie widoczne w przypadku większych stron.

Okazuje się, że większość stron internetowych deep web jest dostępna publicznie. Zdaniem BrightPlanet, użytkownicy mogą mieć dostęp nawet do 90% informacji tam umieszczonych. A jest ich ogromna ilość. Szacuje się, że deep web zawiera 7500 terabajtów danych, czyli około 400 razy więcej niż strony "powierzchniowe". Na świecie jest 100 tysięcy witryn deep web, największe z nich mają wielkość prawie 400 tys. gigabajtów. Tak ogromna ilość informacji może być trudna do przetworzenia - przyznają specjaliści.

Reklama

- Już teraz internauci uskarżają się na nadmierną ilość danych, które otrzymują z wyszukiwarek internetowych i zastanawiają się, co się stanie, kiedy będzie ich 500 razy więcej - mówi Michael Bergman, współzałożyciel BrightPlanet. Według Bergmana, większa ilość informacji jest potrzebna, trzeba jedynie umieć je wyselekcjonować. Na szczęście większość baz danych jest wyspecjalizowana i obejmuje jedynie określoną dziedzinę, np. dane medyczne czy spis książek w bibliotece.Lepsze informacje

Witryny deep web oferują zazwyczaj bardziej pogłębione informacje w stosunku do witryn "powierzchniowych". Rzadko dochodzi również do powielania informacji, co zdarza się bardzo często na witrynach "powierzchniowych". Wynika to z ich struktury - dane są przechowywane w tematycznie uporządkowanych bazach, co ułatwia sortowanie informacji. Problemem pozostaje możliwość przeszukiwania baz danych - każda z nich jest skonfigurowana nieco inaczej, w związku z czym stworzenie uniwersalnego zapytania jest wyjątkowo trudne, jeśli w ogóle możliwe. Największe bazy danych nie do końca mogą być wykorzystywane przez użytkowników indywidualnych czy korporacyjnych. Zawierają one np. obrazy z teleskopów kosmicznych czy szczegółowe dane meteorologiczne. Istnieje jednak wiele witryn deep web, na przykład biblioteki, z których informacje są wyjątkowo cenne. Według BrightPlanet, przeszukiwanie z uwzględnieniem zawartości witryn deep web może być nawet 2000 razy bardziej skuteczne niż metodami tradycyjnymi. Wada tradycyjnego przeszukiwania to ogromna liczba duplikatów stron i plików, których poszukujemy. Ta sama informacja jest często umieszczana na setkach czy nawet tysiącach stron internetowych, a więc wyniki wyszukiwania podają często identyczne rezultaty, pochodzące z różnych serwerów. Ograniczeniem "powierzchniowego" internetu jest również szybkość, z jaką znikają witryny. Według badań przeprowadzonych przez NEC w 1999 roku, 44% witryn znikło w ciągu 12 miesięcy, a 45% dostępnych serwisów było na wpółukończonych lub nie zawierało praktycznie żadnych treści.

Wykorzystać

komercyjnie

Zdaniem specjalistów, zasoby deep web mogą być wykorzystywane komercyjnie na dużą skalę. Można wyobrazić sobie wąskie tematycznie wortale, z poziomu których użytkownicy będą w stanie uzyskać dostęp do specjalistycznych informacji. Takie zastosowanie jest szczególnie prawdopodobne w przypadku ośrodków naukowych czy stron o tematyce medycznej. Dostęp do baz danych może, przy użyciu odpowiedniego oprogramowania, być wykorzystywany przy rezerwacji lotów, aby sprawdzić na przykład aktualne opóźnienia samolotów, czy też w serwisach meteorologicznych. Klucz do sukcesu leży w stworzeniu odpowiednich mechanizmów wyszukujących. W tej dziedzinie istnieją ogromne szanse dla młodych firm, ponieważ najwięksi gracze nie wykazują zainteresowania deep web, twierdząc, że jego indeksowanie byłoby zbyt kosztowne w stosunku do potencjalnych zysków.

Gospodarka

W głębi internetu