Przeszukiwanie internetu można porównać z łowieniem ryb za pomocą sieci - sięgamy tak głęboko, jak umożliwia nam to stosowana technologia. Duża część informacji jest niedostępna dla tradycyjnych wyszukiwarek internetowych. Wynika to z faktu, iż technologia i metodologia wyszukiwania, stosowana w większości wyszukiwarek, nie zmieniła się zbytnio od początku istnienia internetu. Działają one zwykle na zasadzie przeszukiwania statycznych stron internetowych, nie sięgając głębiej. Również katalogi internetowe nie pozwalają na uzyskanie dostępu do "ukrytych" danych. Tradycyjnie pojmowane zasoby internetu liczą około 1 miliarda dokumentów, a liczba ta wzrasta w tempie 1,5 miliona dokumentów dziennie. Największe wyszukiwarki indeksują ok. 300 milionów dokumentów, tak więc nawet ograniczając się do internetu "powierzchniowego", nie możemy spodziewać się pełnego przeszukania jego zasobów. Dodatkowym problemem jest ogromna liczba wyników wyszukiwania. Kiedy wpiszemy słowo web do wyszukiwarki Northern Light, otrzymamy pond 50 milionów dokumentów dotyczących tego tematu. Inne ograniczenie to fakt, iż nowe dokumenty są dość wolno indeksowane - czasem zajmuje to nawet kilka tygodni.
O konieczności zmian metody wyszukiwania informacji mówi się już od dawna, jednak jak dotychczas, niewiele się zmienia w sposobie działania search engines. Wprawdzie nowe generacje wyszukiwarek, np. Google czy Direct hit, znacznie lepiej przeszukują zasoby sieci, nie docierają jednak do zasobów deep web. Tymczasem, w bazach danych dostępnych publicznie znajduje się ogromna ilość informacji, na dodatek są one uporządkowane tematycznie. Problemem przy ich przeszukiwaniu jest konieczność bezpośredniego wpisania żądanej informacji do wyszukiwarki bazy danych, co nie jest możliwe z poziomu tradycyjnego search engines. Dylemat ten stara się rozwiązać między innymi firma BrightPlanet, która stworzyła oprogramowanie o nazwie LexiBot, przeszukujące niedostępne dotychczas obszary internetu. Jest to aplikacja, która przeszukuje bazy danych na całym świecie - niebawem ma ona umożliwić "szperanie" w 100 tys. bazach danych.
Bazy danych
W początkach internetu, kiedy istniało niewiele witryn internetowych, informacje były przechowywane najczęściej na statycznych stronach HTML. Wraz z zaadaptowaniem technologii baz danych na potrzeby internetu, rozpoczęła się nowa era w historii sieci. Rozwinęły się pierwsze komercyjne zastosowania internetu: wyszukiwarki i katalogi. Pojawiały się pierwsze zastosowania e-commerce. Wkrótce okazało się, że konieczne jest dynamiczne udostępnianie stron za pomocą np. technologii ASP czy PHP. Ta tendencja doprowadziła do przenoszenia zawartości witryn do baz danych, co jest szczególnie widoczne w przypadku większych stron.
Okazuje się, że większość stron internetowych deep web jest dostępna publicznie. Zdaniem BrightPlanet, użytkownicy mogą mieć dostęp nawet do 90% informacji tam umieszczonych. A jest ich ogromna ilość. Szacuje się, że deep web zawiera 7500 terabajtów danych, czyli około 400 razy więcej niż strony "powierzchniowe". Na świecie jest 100 tysięcy witryn deep web, największe z nich mają wielkość prawie 400 tys. gigabajtów. Tak ogromna ilość informacji może być trudna do przetworzenia - przyznają specjaliści.