Szybki rozwój dużych modeli językowych (LLM), takich jak ChatGPT, rozbudził nadzieje na ich wykorzystanie w raportowaniu zagadnień zrównoważonego rozwoju. Wspaniale byłoby wrzucić do takiego narzędzia dane źródłowe i informacje o naszej spółce, a w efekcie dostać solidnie napisany raport. Najnowsza publikacja trzech badaczy z University of Glasgow rzuca nowe światło na możliwość zastosowania tego typu modeli w raportowaniu. Co wynika z ich artykułu dla ekspertów od raportowania ESG?
Michael Townsen Hicks, James Humphries i Joe Slater opublikowali 8 czerwca 2024 r. artykuł pod wiele znaczącym tytułem ChatGPT is bullshit. Artykuł jest publicznie dostępny pod tym adresem. Ma on zaledwie 10 stron, więc zachęcam wszystkich do przeczytania go w całości. Autorzy proponują zmianę terminologii używanej do opisywania sytuacji, w których ChatGPT lub inne duże modele językowe tworzą wypowiedzi niezgodne z prawdą. Takie wyniki często są nazywane halucynacjami, podczas gdy powinny być nazywane bzdurami, zresztą podobnie jak wszystkie inne wyniki tworzone przez tego typu narzędzia.
Bzdury oraz opowiadanie bzdur nie są terminami potocznymi. Ich definicję zaproponował amerykański filozof Harry Gordon Frankfurt i jest ona dziś w powszechnym użyciu. Określa ona bzdury jako dowolne wypowiedzi, których autor jest obojętny na to, czy są one prawdziwe. Opierając się na tej definicji Hicks, Humphries i Slater analizują, czy wypowiedzi tworzone przez ChatGPT stanowią „miękkie bzdury” (czyli wypowiadane bez intencji wprowadzenia odbiorcy w błąd) czy też „twarde bzdury” (czyli wypowiadane z intencją wprowadzenia odbiorcy w błąd). W toku wywodu autorzy pokazują, że definicja „miękkich bzdur” jest spełniona w każdym przypadku, a wiele przemawia za uznaniem, że ChatGPT jest także „twardym opowiadaczem bzdur” (hard bullshitter).
Niestety wszystko wskazuje na to, że sposób konstrukcji dużych modeli językowych powoduje, że nie mogą one przestać opowiadać bzdur. To z kolei oznacza, że możliwość ich zastosowania do tworzenia raportów jest niezmiernie ograniczona albo w ogóle nie istnieje. Każdy fragment tekstu, każda liczba w każdej tabeli musi zostać zweryfikowana, zanim moglibyśmy taki raport przekazać do audytora, a następnie opublikować. Pewnie nie raz zdarzyło się Wam weryfikować materiał opracowany przez inną osobę – stażystę, młodszego kolegę lub koleżankę albo kogoś z zarządu spółki. To żmudna praca, często zajmująca więcej czasu niż gdybyśmy mieli samodzielnie napisać cały tekst. Można ją skrócić tylko wtedy, gdy mamy wysoki poziom zaufania do autora („Rzuć proszę okiem na mój tekst o raportowaniu polityk dotyczących pracowników; powinien być ok, tylko nie wiem, czy podałem właściwe odniesienia do paragrafów w ESRS S1.”). Takiego zaufania nie uzyskamy w stosunku do narzędzia, którego podstawowym zadaniem jest opowiadanie bzdur.
Wszystko wskazuje na to, że w raportowaniu jeszcze długo nie będziemy mogli polegać na wykorzystaniu AI, przynajmniej do czasu, gdy duże modele językowe zostaną zastąpione narzędziami zbudowanymi na zupełnie innych podstawach. Na razie pozostanie nam korzystanie z HI, Human Intelligence. I jest to w sumie pocieszająca myśl 😊