Tak zwana agentowa AI, czyli inteligentne narzędzia przeznaczone do wykonywania konkretnych zadań, to technologia, która miała zrewolucjonizować prowadzenie działalności przez większość firm i instytucji. I zapewne w przyszłości tak będzie, choć na razie tego typu systemy zaliczyły bolesny falstart. Przede wszystkim, na fali boomu na rozwiązania z zakresu sztucznej inteligencji, pojawiło się wiele fałszywych agentów – produktów udających wyspecjalizowaną AI. Zalewają rynek, a biznes, który miał spore oczekiwania względem tej technologii, może być zawiedziony. Tym bardziej, że te prawdziwe systemy agentowe również rozczarowują.
Większość oferowanych systemów agentowej sztucznej inteligencji nie ma znaczącej wartości ani nie gwarantuje zwrotu z inwestycji.
– Obecne modele nie mają dojrzałości i potencjału, aby autonomicznie osiągać złożone cele biznesowe lub postępować zgodnie ze zniuansowanymi instrukcjami – przekonuje Anushree Verma z firmy analitycznej Gartner.
Żenująco niska wydajność bota
Najnowsze badania zaskakują – wynika z nich, że agenty AI źle wykonują zadania biurowe w aż około 70 proc. przypadków. Naukowcy z Carnegie Mellon University (CMU) opracowali specjalny test, który ma pozwalać oceniać, jak takie narzędzia radzą sobie z typowymi zadaniami związanymi z wiedzą, przeglądaniem stron internetowych, pisaniem kodu, uruchamianiem aplikacji, czy komunikowaniem się ze współpracownikami. Środowisko symulacyjne o nazwie TheAgentCompany niedawno stało się areną, na której wypróbowano najpopularniejsze modele językowe. Badania wykazały, że przedsiębiorcy niespecjalnie mogą liczyć na wsparcie takiej technologii. Wyniki były rozczarowujące, a najlepszy z botów, Gemini-2.5-Pro, osiągnął ledwie nieco ponad 30 proc. skuteczności. Kolejny z testowanych modeli, Claude-3.7-Sonet, miał wskaźnik powodzenia w realizacji zadań na poziomie 26 proc., a Claude-3.5-Sonet – ledwie 24 proc. Z innymi systemami AI było już tylko gorzej. Narzędzia Google: Gemini-2.0-Flash i 1.5 Pro osiągnęły odpowiednio 11 i 3 proc., zaś GPT-4o i o3-mini od OpenAI – 9 i 4 proc. Rozwiązanie od Amazonu (Nova-Pro-v1) wypracowało jedynie ok. 2 proc., zaś modele od Mety, jak Lama-3.3-70b i Lama-3.1-70b – tylko odpowiednio 7 i 2 proc. Stawkę w rankingu CMU zamyka technologia chińskiego Alibaby, model Qwen-2-72b zdobył 1 proc.
Wynik testu TheAgentCompany to niewątpliwie ogromne zaskoczenie. I raczej nie można mówić o błędzie metodologicznym czy badawczym. Tym bardziej, że rezultat innego badania, zrealizowanego przez ekspertów Salesforce, jest równie niekorzystne dla narzędzi AI. Ich poligon testowy został skalibrowany w odniesieniu do zarządzania relacjami z klientami (CRM). Narzędzie wzorcowe o nazwie CRMArena-Pro składało się z kilkunastu zadań „z zakresu sprzedaży, serwisu oraz procesów konfiguracji, ustalania cen i wyceny dla scenariuszy B2B i B2C”. Test obejmował zarówno interakcję jednoetapową (monit i odpowiedź), jak i wieloetapową (seria monitów i odpowiedzi). Efekt? Nawet najlepsze agenty LLM osiągały słabe wskaźniki sukcesu. W scenariuszach jednoetapowych nie przekraczały 58 proc., a wieloetapowych – wydajność spadała do ok. 35 proc. Do tego, jak zauważają badacze, systemy te wykazywały „niemal zerową świadomość poufności”. A to, obok skuteczności, kolejny ważny aspekt, z punktu widzenia firm i korporacji, brany pod uwagę przy wdrożeniach. Meredith Whittaker, prezes Signal Foundation, na konferencji SWSX na początku tego roku, podkreślała, że – w kontekście agentów AI – widać „głęboki problem z bezpieczeństwem i prywatnością”. Systemy potrzebują dostępu do poufnych danych, aby działać w imieniu danej osoby czy firmy. A bez zapewnienia bezpieczeństwa danych trudno myśleć o masowej implementacji agentów w środowiskach IT.