"Agent washing” to rosnący problem. Wielkie rozczarowanie systemami AI

Badania pokazują, że aż w 70 proc. przypadków sztuczna inteligencja, zaprzęgnięta do pracy biurowej, źle wykonuje powierzone zadania. Co więcej, eksperci szacują, że do końca 2027 r. ponad 40 proc. takich projektów opartych na agentach AI zostanie anulowanych.

Publikacja: 04.07.2025 06:00

Agentowa sztuczna inteligencja to przyszłość biznesu. Analizy firmy Gartner wskazują, iż do 2028 r.

Agentowa sztuczna inteligencja to przyszłość biznesu. Analizy firmy Gartner wskazują, iż do 2028 r. już około 15 proc. codziennych decyzji roboczych będzie podejmowanych właśnie przez autonomicznie narzędzia AI. Fot. shutterstock

Foto: Summit Art Creations

Tak zwana agentowa AI, czyli inteligentne narzędzia przeznaczone do wykonywania konkretnych zadań, to technologia, która miała zrewolucjonizować prowadzenie działalności przez większość firm i instytucji. I zapewne w przyszłości tak będzie, choć na razie tego typu systemy zaliczyły bolesny falstart. Przede wszystkim, na fali boomu na rozwiązania z zakresu sztucznej inteligencji, pojawiło się wiele fałszywych agentów – produktów udających wyspecjalizowaną AI. Zalewają rynek, a biznes, który miał spore oczekiwania względem tej technologii, może być zawiedziony. Tym bardziej, że te prawdziwe systemy agentowe również rozczarowują.

Większość oferowanych systemów agentowej sztucznej inteligencji nie ma znaczącej wartości ani nie gwarantuje zwrotu z inwestycji.

– Obecne modele nie mają dojrzałości i potencjału, aby autonomicznie osiągać złożone cele biznesowe lub postępować zgodnie ze zniuansowanymi instrukcjami – przekonuje Anushree Verma z firmy analitycznej Gartner.

Żenująco niska wydajność bota

Najnowsze badania zaskakują – wynika z nich, że agenty AI źle wykonują zadania biurowe w aż około 70 proc. przypadków. Naukowcy z Carnegie Mellon University (CMU) opracowali specjalny test, który ma pozwalać oceniać, jak takie narzędzia radzą sobie z typowymi zadaniami związanymi z wiedzą, przeglądaniem stron internetowych, pisaniem kodu, uruchamianiem aplikacji, czy komunikowaniem się ze współpracownikami. Środowisko symulacyjne o nazwie TheAgentCompany niedawno stało się areną, na której wypróbowano najpopularniejsze modele językowe. Badania wykazały, że przedsiębiorcy niespecjalnie mogą liczyć na wsparcie takiej technologii. Wyniki były rozczarowujące, a najlepszy z botów, Gemini-2.5-Pro, osiągnął ledwie nieco ponad 30 proc. skuteczności. Kolejny z testowanych modeli, Claude-3.7-Sonet, miał wskaźnik powodzenia w realizacji zadań na poziomie 26 proc., a Claude-3.5-Sonet – ledwie 24 proc. Z innymi systemami AI było już tylko gorzej. Narzędzia Google: Gemini-2.0-Flash i 1.5 Pro osiągnęły odpowiednio 11 i 3 proc., zaś GPT-4o i o3-mini od OpenAI – 9 i 4 proc. Rozwiązanie od Amazonu (Nova-Pro-v1) wypracowało jedynie ok. 2 proc., zaś modele od Mety, jak Lama-3.3-70b i Lama-3.1-70b – tylko odpowiednio 7 i 2 proc. Stawkę w rankingu CMU zamyka technologia chińskiego Alibaby, model Qwen-2-72b zdobył 1 proc.

Wynik testu TheAgentCompany to niewątpliwie ogromne zaskoczenie. I raczej nie można mówić o błędzie metodologicznym czy badawczym. Tym bardziej, że rezultat innego badania, zrealizowanego przez ekspertów Salesforce, jest równie niekorzystne dla narzędzi AI. Ich poligon testowy został skalibrowany w odniesieniu do zarządzania relacjami z klientami (CRM). Narzędzie wzorcowe o nazwie CRMArena-Pro składało się z kilkunastu zadań „z zakresu sprzedaży, serwisu oraz procesów konfiguracji, ustalania cen i wyceny dla scenariuszy B2B i B2C”. Test obejmował zarówno interakcję jednoetapową (monit i odpowiedź), jak i wieloetapową (seria monitów i odpowiedzi). Efekt? Nawet najlepsze agenty LLM osiągały słabe wskaźniki sukcesu. W scenariuszach jednoetapowych nie przekraczały 58 proc., a wieloetapowych – wydajność spadała do ok. 35 proc. Do tego, jak zauważają badacze, systemy te wykazywały „niemal zerową świadomość poufności”. A to, obok skuteczności, kolejny ważny aspekt, z punktu widzenia firm i korporacji, brany pod uwagę przy wdrożeniach. Meredith Whittaker, prezes Signal Foundation, na konferencji SWSX na początku tego roku, podkreślała, że – w kontekście agentów AI – widać „głęboki problem z bezpieczeństwem i prywatnością”. Systemy potrzebują dostępu do poufnych danych, aby działać w imieniu danej osoby czy firmy. A bez zapewnienia bezpieczeństwa danych trudno myśleć o masowej implementacji agentów w środowiskach IT.

A co z tymi, które już są wdrażane? Do końca 2027 r. ponad 40 proc. projektów z zakresu sztucznej inteligencji opartej na agentach zostanie anulowanych z powodu rosnących kosztów, niejasnej wartości biznesowej lub niewystarczających kontroli ryzyka – zapowiadają eksperci Gartnera.

Naciągany boom? Króluje fałszywa AI

Fakt, że aż w 70 proc. przypadków sztuczna inteligencja, zaprzęgnięta do pracy biurowej, źle wykonuje powierzone zadania, nie napawa optymizmem. Mimo wszystko analitycy są optymistami i spodziewają się, że wdrożeń AI w biznesie będzie szybko przybywać, a do 2028 r. ok. 15 proc. codziennych decyzji roboczych będzie podejmowanych autonomicznie, właśnie przez agenty AI. Graham Neubig, adiunkt w Instytucie Technologii Językowych CMU w rozmowie z „The Register”, przekonuje, że te narzędzia z czasem staną się bardziej „zdolne”. I zaznacza, iż nawet niedoskonałe agenty mogą być przydatne.

Fala boomu AI zatem nie wyhamuje. Dowodzą tego przewidywania Gartnera, wedle których w ciągu trzech lat co trzecia aplikacja oprogramowania korporacyjnego będzie już obejmować agentową sztuczną inteligencję. Ale i tu pojawia się problem. Statystyki wskazują bowiem, że większość dostawców narzędzi AI opartych właśnie na systemach agentowych, uprawia „agent washing”. W praktyce oznacza to, że oferują produkty lub usługi, które w rzeczywistości nie kwalifikują się jako sztuczna inteligencja oparta na agentach (ta powinna wykorzystywać model uczenia maszynowego, który został połączony z różnymi usługami i aplikacjami w celu automatyzacji zadań lub procesów biznesowych). Specjaliści przekonują, że w ramach tego procederu dochodzi m.in. do sprzedawania istniejących produktów, jak choćby asystentów AI czy programów RPA (automatyzacja procesów robotycznych), jako narzędzi agentowych. Skalę tego zjawiska Gartner szacuje na znaczną, podając, że zaledwie ok. 130 z tysięcy dostawców proponuje faktycznych agentów AI. To oznacza, że dziś króluje „fałszywa AI”.

To będzie impuls dla AI

Firm, które już dziś stawiają na rozwiązania agentowe szybko przybywa. Właśnie na taką technologię, we współpracy z Salesforce, postawiło PepsiCo. Wdrożenie przeprowadził też Bosch. Koncern liczy, że inteligentne narzędzia podejmujące własne decyzje i działania to przyszłość produkcji. – Agenty mogą dać AI impuls podobny do tego, jaki smartfon dał internetowi – twierdzi Tanja Rueckert, członkini zarządu Bosch.

W koncernie zaznaczają, że ta rewolucyjna technologia pozwala na równoległe działanie różnych procesów: kilka agentów AI może tworzyć zespół, swoisty system wieloagentowy, który jest nadzorowany przez ludzi lub koordynującego agenta. Bosch już teraz korzysta z tej możliwości w swoich zakładach – systemy wieloagentowe monitorują urządzenia produkcyjne, prognozują konieczność konserwacji i optymalizują planowanie pracy personelu.

– Osiągnęliśmy kolejny poziom. Rezultatem jest redukcja nieplanowanych przestojów i wzrost produktywności – komentuje Rueckert.

Bosch opracowuje platformę, która pozwoli na tworzenie własnych systemów wieloagentowych, nawet przy minimalnej wiedzy programistycznej. Cel? Zwiększenie efektywności produkcji i obniżenie kosztów. Platforma ma być ogólnodostępna, a rozwiązanie trafi na rynek jesienią tego roku

Własne rozwiązanie szykuje też Mysite.ai Autonomiczny asystent AI od polskiego start-upu ma kompleksowo zajmować się obecnością małych firm w internecie: mediami społecznościowymi, reklamami online, generowaniem tzw. leadów i tworzeniem treści. Projekt parę tygodni temu pozyskał od inwestorów ponad 9,2 mln zł.

Pracownicy nad Wisłą już współpracują z narzędziami AI. I nieźle im idzie

Niemal połowa polskich pracowników korzysta z jakiegoś narzędzia generatywnej sztucznej inteligencji (genAI) w trakcie wykonywania swoich obowiązków zawodowych. Co więcej, aż 74 proc. z nich sięga po te rozwiązania przynajmniej raz w tygodniu – wynika z raportu Michael Page „Talent Trends 2025”.
Chodzi głównie o takie rozwiązania jak ChatGPT, Midjourney czy Microsoft Copilot. Zdaniem ankietowanych wykorzystanie AI zwiększyło ich produktywność w miejscu pracy (71 proc.), a także pomogło poprawić jej jakość (69 proc.). Zdaniem Kacpra Grabowskiego, członka zarządu Michael Page, trzeba jednak pamiętać, że genAI to wciąż tylko narzędzie, którego skuteczność zależy od umiejętności użytkownika potrafiącego jasno sformułować oczekiwania, zweryfikować efekty oraz wprowadzić niezbędne poprawki.

– Rola tych umiejętności będzie w przyszłości rosnąć – prognozuje Grabowski.
Warto tu przytoczyć też najnowsze dane Slack Workforce Index, wedle których codzienne wykorzystanie sztucznej inteligencji wśród pracowników biurowych na całym świecie, w ciągu ledwie ostatnich sześciu miesięcy, skoczyło o imponujące 233 proc. Badanie pokazuje, że 60 proc. pracowników biurowych korzysta z AI, a osoby, które każdego dnia używają tego typu systemów, zwiększają swoją produktywność względem pracowników, którzy nie sięgają po sztuczną inteligencję, aż o 64 proc. Rośnie też zadowolenie z pracy – ta różnica w tym wypadku sięga ponad 80 proc.

Z grupy użytkowników AI ok. 40 proc. stanowią osoby wykorzystujące narzędzia agentowe. Przeprowadzone w Polsce analizy wskazują, iż 70 proc. respondentów deklaruje postawę pozytywną lub neutralną wobec wizji pracy z agentem AI jako współpracownikiem (Centrum Badań i Analiz Rynku podaje, iż przeszło 30 proc. ankietowanych ocenia taką współpracę „raczej pozytywnie”, a blisko 11 proc. wręcz „bardzo pozytywnie”).


Parkiet PLUS
Sytuacja dobra, zła czy średnia?
Parkiet PLUS
Pierwsza fuzja na Catalyst nie tworzy zbyt wielu okazji
Parkiet PLUS
Wall Street – od euforii do technicznego wyprzedania
Parkiet PLUS
Polacy pozytywnie postrzegają stokenizowane płatności
Parkiet PLUS
Jan Strzelecki z PIE: Jesteśmy na początku "próby Trumpa"
Parkiet PLUS
Co z Ukrainą. Sobolewski z Pracodawcy RP: Samo zawieszenie broni nie wystarczy