Halucynacje AI w sądzie — 1044 przypadki i czego nas uczą

W maju 2023 roku nowojorski prawnik Steven Schwartz złożył pismo procesowe z sześcioma cytowanymi orzeczeniami. Wszystkie były zmyślone przez ChatGPT. Kiedy sąd to wykrył, Schwartz zapytał ChatGPT, czy orzeczenia istnieją. ChatGPT potwierdził, że tak — i dodał, że można je znaleźć na Westlaw i LexisNexis.

To była sprawa Mata v. Avianca. Pierwszy szeroko nagłośniony przypadek halucynacji AI w sądzie. Od tamtej pory minęły trzy lata. Baza danych prowadzona przez australijskiego prawnika Damiena Charlotina dokumentuje dziś 1 044 takie przypadki w ponad 30 jurysdykcjach na świecie.

Ten artykuł to przegląd tego, co wiemy: ile przypadków, jakie sankcje, co na to badania i co to oznacza dla polskich prawników.

Skala: od 1 do 1044 w trzy lata

Baza Charlotina (damiencharlotin.com/hallucinations) to najkompletniejszy tracker na świecie. Stan na marzec 2026:

Według jurysdykcji:

Kraj	Przypadki
USA	733
Kanada	69
Australia	61
Izrael	42
Wielka Brytania	40
Brazylia	9
Argentyna	8
Francja	8
Indie	8
Niemcy	7
Pozostałe (17+ krajów)	59

Kto składa halucynowane pisma:

Osoby bez pełnomocnika (pro se): 594
Prawnicy: 421
Sędziowie: 14
Biegli: 10
Prokuratorzy: 4

Co jest halucynowane:

Sfabrykowane cytaty orzeczeń: 855 przypadków
Przekłamana treść orzeczeń: 436
Fałszywe cytaty: 292
Nieaktualne porady prawne: 26

Ponad 80% przypadków dotyczy sfabrykowanego orzecznictwa. AI nie „myli się" — generuje nieistniejące sygnatury, przypisuje je prawdziwym sędziom i opatruje przekonująco brzmiącymi tezami.

Ile halucynują narzędzia prawnicze?

W 2025 roku badacze ze Stanforda (Magesh i in.) opublikowali pierwsze rzetelne badanie empiryczne halucynacji w narzędziach AI dedykowanych prawnikom (Journal of Empirical Legal Studies). Przetestowali 202 zapytania prawne.

Wyniki:

Narzędzie	Odsetek halucynacji
Lexis+ AI	17%
Ask Practical Law AI	~17%
Westlaw AI-Assisted Research	33%
GPT-4 (surowy)	43%

Innymi słowy: nawet najlepsze dedykowane narzędzie (Lexis+ AI) halucynuje w co szóstym zapytaniu. Westlaw — w co trzecim.

Inne badania potwierdzają skalę problemu:

Dahl i in. (2024): Na 800 000 pytań prawnych GPT-4 halucynował w 58%, GPT-3.5 w 69%, Llama 2 w 88%
Curran i in. (2025): Dokładność AI spada dramatycznie poza USA. Dla australijskiego prawa najmu lokali — 100% halucynacji
Kluczowy wniosek: AI nie zgłasza, że nie wie. Model „pewności siebie" nie koreluje z dokładnością

Najważniejsze sprawy

Mata v. Avianca (USA, 2023) — sprawa, która zaczęła dyskusję

Sprawa o odszkodowanie za uraz na pokładzie samolotu Avianca. Prawnik Steven Schwartz z kancelarii Levidow, Levidow & Oberman użył ChatGPT do przygotowania pisma. ChatGPT wygenerował sześć nieistniejących orzeczeń: Varghese, Shaboon, Petersen, Martinez, Durden i Miller. Każde miało fałszywą sygnaturę, fałszywe cytaty i było przypisane prawdziwym sędziom.

Kiedy sąd zakwestionował cytaty, Schwartz zapytał ChatGPT, czy orzeczenia istnieją. ChatGPT potwierdził. To kanoniczny przykład weryfikacji AI przez AI.

Sankcja: 5 000 $ kary, obowiązkowe listy z przeprosinami do sędziów, których nazwiska zostały fałszywie użyte.

Johnson v. Dunn (USA, 2025) — kancelaria zdyskwalifikowana

Sprawa dotycząca warunków w więzieniu w Alabamie. Trzech prawników z kancelarii Butler Snow (ponad 350 prawników w całym kraju) użyło ChatGPT do przygotowania pisma z fałszywymi cytowaniami.

Sankcja: Publiczna nagana, dyskwalifikacja ze sprawy, skierowanie do stanowej izby adwokackiej. Sąd nakazał przesłanie postanowienia o sankcjach do klientów, strony przeciwnej, każdego prawnika w kancelarii i sędziów prowadzących wszystkie ich sprawy.

To był punkt zwrotny: od kar finansowych do dyskwalifikacji.

Gauthier v. Goodyear (USA, 2025) — AI weryfikujące AI

Prawnik użył Claude (AI) do sporządzenia pisma, a następnie Lexis AI do weryfikacji cytowań. Lexis AI nie wyłapał halucynacji.

Sankcja: 2 000 $ kary, obowiązkowe szkolenie etyczne, udostępnienie klientowi postanowienia o sankcjach.

Znaczenie: Sąd jednoznacznie stwierdził, że użycie jednego AI do sprawdzenia drugiego nie spełnia obowiązku weryfikacji.

Coomer v. Lindell / MyPillow (USA, 2025) — 30 wadliwych cytowań

Sprawa o zniesławienie związana z wyborami. Prawnicy Mike'a Lindella złożyli pismo z niemal 30 wadliwymi lub sfabrykowanymi cytowaniami — w tym nieistniejące orzeczenia przypisane niewłaściwym sądom apelacyjnym.

Sankcja: 3 000 $ na prawnika (6 000 $ łącznie), z groźbą „najsurowszych sankcji" przy powtórce.

Fletcher v. Experian (USA, 2026) — kłamstwo pogarsza sprawę

Prawniczka Heather Hersh złożyła pismo z 21 istotnymi błędami i sfabrykowanymi cytowaniami. Zapytana przez sąd, najpierw zaprzeczyła użyciu AI. Potem przyznała, że użyła go „do poprawy stylu".

Sankcja: 2 500 $. Sąd wprost napisał: „gdyby pełnomocniczka od razu wzięła odpowiedzialność, sankcja byłaby łagodniejsza."

Connecticut Supreme Court (USA, 2026) — halucynacje w sądzie najwyższym

Trzech prawników z kancelarii GLG Law złożyło pisma z halucynowanymi cytowaniami w sprawach o eksmisję. Fałszywe cytaty wykryli studenci prawa z Yale, reprezentujący lokatorów.

Znaczenie: Pierwsza sprawa o halucynacje AI, która trafiła do sądu najwyższego stanu w celu ustalenia odpowiedniej dyscypliny.

Przypadki spoza USA

Wielka Brytania — Al-Haroun v. Qatar National Bank (2025): Pozew o 89 mln GBP. W pismach znaleziono 18 nieistniejących orzeczeń na 45 cytowanych. Jedno było fałszywie przypisane sędzi prowadzącej sprawę. Prawnik skierowany do SRA (odpowiednik polskiej izby).

Izrael — Sąd Najwyższy (2025): Prawnik zacytował 36 orzeczeń, z czego 5 nie istniało, 14 nie miało pasującej sygnatury, a 24 zawierało cytaty bez związku z rzeczywistymi orzeczeniami.

Polska — Exdrog / przetarg krakowski (2025): Firma budowlana Exdrog złożyła 280-stronicowe uzasadnienie oferty w przetargu na utrzymanie dróg w Małopolsce (3,7 mln EUR). Konkurenci zauważyli, że uzasadnienie cytuje nieistniejące interpretacje podatkowe wygenerowane przez AI. Krajowa Izba Odwoławcza potwierdziła halucynacje i wykluczyła firmę z przetargu. Cały kontrakt stracony.

Skala sankcji — od grzywny do zawieszenia

Sankcja	Przykłady
Grzywna (405-8 000 $)	Większość spraw. Mata: 5 000 $, MyPillow: 6 000 $
Skierowanie do izby	Johnson v. Dunn (Alabama Bar), UK (SRA/BSB)
Zawieszenie	Neusom: 1 rok zawieszenie federalne + 2 lata Florida Bar — najsurowsza kara w USA
Dyskwalifikacja ze sprawy	Johnson v. Dunn
Obowiązkowe szkolenie	Gauthier v. Goodyear
Umorzenie zarzutów	Kenosha, WI: prokurator użył AI → 74 zarzuty umorzone

Tendencja jest jednoznaczna: sankcje rosną. W 2023 — grzywny rzędu kilku tysięcy dolarów. W 2025 — zawieszenia i dyskwalifikacje. Żaden prawnik nie został jeszcze pozbawiony uprawnień wyłącznie za halucynacje AI, ale trajektoria jest jasna.

Problem weryfikacji

Najciekawszy wzorzec w danych: prawnicy wiedzą, że powinni weryfikować, ale nie robią tego skutecznie.

Wzorzec 1: brak weryfikacji. Prawnik kopiuje odpowiedź ChatGPT do pisma bez sprawdzenia. Tak było w Mata v. Avianca i większości wczesnych spraw.

Wzorzec 2: pozorna weryfikacja. Prawnik używa jednego AI do napisania pisma, a drugiego do „sprawdzenia" cytowań. Nie działa — drugie AI też halucynuje (Gauthier v. Goodyear).

Wzorzec 3: weryfikacja, ale niedokładna. Prawnik sprawdza część cytowań, ale nie wszystkie. Albo sprawdza, czy orzeczenie istnieje, ale nie weryfikuje, czy rzeczywiście mówi to, co AI twierdzi (Fletcher v. Experian).

Co naprawdę działa: Manualna weryfikacja każdego cytowania w tradycyjnych bazach (Westlaw, LexisNexis, CBOSA, Portal Orzeczeń). Nie ma drogi na skróty.

Lexedit Research cytuje konkretne sygnatury orzeczeń i przepisy — każde źródło możesz zweryfikować jednym kliknięciem w naszej bazie.

Sprawdź

Sądy reagują: obowiązek ujawniania AI

W odpowiedzi na lawinę halucynacji, ponad 400 sędziów federalnych w USA wydało zarządzenia wymagające ujawnienia użycia AI w pismach procesowych. Kalifornia jako pierwszy stan przyjęła regułę stanową (Rule 10.430, wrzesień 2025).

Typowe wymagania:

Wskazanie narzędzia AI
Opisanie, które fragmenty pisma powstały z pomocą AI
Certyfikacja, że prawnik osobiście zweryfikował wszystkie cytowania

W Europie: Wielka Brytania prowadzi konsultacje (Civil Justice Council, luty 2026). UE nie ma jeszcze reguł specyficznych dla pism sądowych. Polska nie ma żadnych wymogów w tym zakresie — ani regulacji sądowych, ani stanowiska prezesów sądów.

Co na to polskie samorządy?

KIRP (Krajowa Izba Radców Prawnych) opublikowała w maju 2025 roku 22 rekomendacje dotyczące korzystania z AI — pierwszy kompleksowy dokument tego typu w Polsce. Kluczowe zasady:

Tajemnica zawodowa musi być zachowana przy korzystaniu z AI
Prawnik ponosi pełną odpowiedzialność za treści wygenerowane przez AI
Wyniki AI muszą być weryfikowane
Należy dochować staranności w wyborze dostawców narzędzi AI

NRA (Naczelna Rada Adwokacka) prowadzi ogólnopolskie badanie ankietowe dotyczące korzystania z AI (UAM Poznań), ale nie opublikowała jeszcze formalnych rekomendacji.

Żaden polski sąd nie wydał zarządzenia wymagającego ujawniania użycia AI w pismach. Biorąc pod uwagę, że sprawa Exdrog dotyczyła przetargu, a nie postępowania sądowego — Polska jest na bardzo wczesnym etapie. Ale brak regulacji nie oznacza braku ryzyka.

Wnioski praktyczne

1. Nie używaj ogólnych chatbotów do pism procesowych. 58% halucynacji (GPT-4) to nie jest „rzadki błąd". To standard.

2. Narzędzia dedykowane są lepsze, ale nie bezbłędne. 17% (Lexis+ AI) to co szóste zapytanie. Każde cytowanie wymaga ręcznej weryfikacji.

3. AI nie nadaje się do weryfikacji AI. Dwa niezależne przypadki (Mata, Gauthier) potwierdzają, że drugi model nie wyłapie halucynacji pierwszego.

4. Przejrzystość pomaga. Sądy konsekwentnie łagodzą sankcje, gdy prawnik od razu przyznaje się do użycia AI (Fletcher v. Experian). Zaprzeczanie pogarsza sytuację.

5. W Polsce brak regulacji, ale odpowiedzialność istnieje. Rekomendacje KIRP są jasne: prawnik odpowiada za treść pisma niezależnie od tego, jak powstało. Sprawa Exdrog pokazuje, że konsekwencje mogą być dotkliwe nawet poza sądem.

6. Używaj narzędzi, które cytują źródła. Kluczowa różnica między narzędziami to to, czy podają konkretne sygnatury orzeczeń i artykuły ustaw, które można samodzielnie zweryfikować. Narzędzie bez cytowań to narzędzie bez odpowiedzialności.

Podsumowanie

1 044 przypadki w trzy lata. Wzrost wykładniczy. Sankcje rosnące od grzywien po zawieszenia. Najlepsze narzędzia halucynują w 17% zapytań. AI weryfikujące AI nie działa.

To nie jest argument przeciwko używaniu AI w pracy prawnika — to argument za używaniem go świadomie. Z weryfikacją każdego cytowania. Z narzędziami, które podają źródła. I z pełną odpowiedzialnością za wynik.