Co łączy kota bengalskiego i „paragon grozy”? Ten sam problem dowodowy

Tomasz Dyrda
25.02
4 minut(y) czytania

Gazeta Wyborcza opublikowała artykuł o wyłudzeniach, które są ułatwiane przez powszechny dostęp do generatywnego AI (Vinted, Allegro czy Wolt zmagają się z wyłudzeniami przy użyciu sztucznej inteligencji). Dzięki dostępnym modelom, można przerabiać zdjęcia i wykorzystywać je do oszustw i wyłudzeń. GW opisuje to w kontekście zakupów i zamówień przez Internet.

Podobny problem (wyłudzenia dzięki wykorzystaniu AI) opisywał m.in. Financial Times w kontekście generowanych fikcyjnych paragonów, przedstawianych przez pracowników jako podstawa zwrotu kosztów (Forging ahead: the challenge of AI expenses fakes).

Czy faktycznie przedsiębiorcy są bezradni i stoją na straconej pozycji? Niewątpliwie modele AI już teraz są tak zaawansowane, że generują obrazy, które są praktycznie nierozróżnialne od rzeczywistych zdjęć. Sama analiza obrazu może nie dać odpowiedzi, czy to co widzimy jest rzeczywistością czy sztucznie wygenerowanym zdjęciem (tzw. „syntetyczne media”).

To jest ten obszar, w którym wykorzystanie metod z zakresu informatyki śledczej (i w ogóle szerzej metod śledczych) w połączeniu z nomen-omen AI i badaniem danych z zewnętrznych źródeł może pomóc walczyć z oszustami.

Możemy rozważyć dwa różne scenariusze – w pierwszym musimy zmierzyć się z potencjalnie fałszywym zdjęciem (przypadki opisywane przez GW), w drugim z „syntetycznymi” paragonami, które pracownicy przedstawiają do rozliczenia, żeby otrzymać zwrot fikcyjnych kosztów (przypadki opisane przez FT).

Scenariusz 1 z fałszywym zdjęciem – skorzystajmy z metadanych

Zdjęcie wykonane telefonem lub aparatem zwykle zawiera metadane – tzw. „dane o danych”. W praktyce sprowadza się to do tego, że w pliku ze zdjęciem mamy zapisane dodatkowe informacje. To może być data i godzina wykonania zdjęcia, typ aparatu lub urządzenia, czasami parametry zdjęcia, miejsce zrobienia (tzw. geolokalizacja) i inne.

Te informacje (metadane) można odczytać, ponieważ jest to standardowy format zapisu dla plików z obrazami. Przykładowe (prawdziwe) zdjęcie z metadanymi jest przedstawione poniżej:

Natomiast nie tylko aparaty i telefony zapisują metadane. Również modele generatywnej AI mogą zapisywać metadane, które pozwalają sprawdzić kto i kiedy stworzył dany obraz (plik). Poniżej jest przykładowe syntetyczne zdjęcie (bardzo realistyczne):

Poniżej są metadane zapisane przez model GenAI:

Jeśli sprawdzimy metadane zdjęcia, które podejrzewamy że może być przerobione lub wytworzone przez model AI, i zobaczymy w metadanych informacje takie jak powyżej, to z dużym prawdopodobieństwem (graniczącym z pewnością) możemy przyjąć że jest to syntetyczne zdjęcie a nie rzeczywista fotografia.

Czasami brak informacji jest nie mniej cenny niż same informacje. Nie wszystkie modele generatywnej AI zapisują metadane. Jeżeli pola z metadanymi są puste, to również jest sytuacja, w której warto zebrać dodatkowe informacje a nie polegać wyłącznie na obrazie.

Dobrze jest jeszcze pamiętać o jednej cesze (niekoniecznie dobrej) metadanych – można je edytować lub usuwać. Traktujmy metadane jako źródło przydatnych informacji, ale nie wyrocznię czy coś jest autentyczne lub nie.

Scenariusz 2 z syntetycznymi paragonami – metadane to nie wszystko

W wielu organizacjach (szczególnie w Europie zachodniej, USA itp.) pracodawcy stawiają na zaufanie do pracowników. Rzadziej spotkamy procesy weryfikacji i akceptacji wydatków służbowych, częściej pracodawcy przyjmują że pracownik działa w dobrej wierze i nie oszukuje.

Po co ten wstęp? Ponieważ przy zwrocie kosztów, pracodawcy opierają się na tym co widzą – paragonach, rachunkach przedstawionych przez pracowników. Takie podejście było zrozumiałe przed erą modeli generatywnej AI, ponieważ fałszowanie dokumentów o małej wartości było trudne, pracochłonne, często niedoskonałe i w efekcie niewarte zachodu. Gen AI zmieniło to, udostępniając narzędzia do generowania ultra-realistycznych zdjęć nieistniejących (syntetycznych) dokumentów.

Podobne pytanie jak poprzednio – czy pracodawcy stoją na przegranej pozycji? Nie do końca. Żadna metoda nie daje 100% pewności, ale połączenie kilku typów analiz pozwala na wytypowanie mocno podejrzanych przypadków.

W Deka Forensics opracowaliśmy na potrzeby realizowanych przez nas projektów narzędzie do sprawdzania paragonów, faktur lub biletów. Projektując to rozwiązanie, zastanawialiśmy się z czego możemy skorzystać, żeby w sposób automatyczny, wykorzystując też do tego AI, identyfikować podejrzane dokumenty.

Oparliśmy się na następujących cechach, które każdy dokument powinien spełniać (projektowaliśmy częściowo pod kątem polskiego rynku):

(a) powinien mieć metadane i (b) powinny wskazywać na pochodzenie z urządzenia do robienia zdjęć;
dane w dokumencie (szczególnie jeśli są to paragony) powinny być spójne, a suma poszczególnych pozycji powinna się zgadzać z wartością na dokumencie;
wskazana na dokumencie firma powinna istnieć a jej numer NIP powinien występować na „białej liście”;
dokument powinien zawierać adres firmy i sprawdzenie w usłudze Google Maps powinno (a) potwierdzić że adres istnieje, (b) jaka firma (firmy) występują pod tym adresem i czy (c) któraś z tych firm to firma widniejąca na paragonie.

Pozytywne zaliczenie powyższych testów nie daje oczywiście 100% pewności, że dokument nie jest sfałszowany lub „syntetyczny”, ale istotnie obniża to ryzyko.

Z kolei niezaliczenie jednego lub większej liczby testów sugeruje, że warto wytypować dany dokument do bardziej dokładnego sprawdzenia.

Takie podejście do analizy dokumentów, gdzie wykorzystujemy:

GenAI do odczytania danych z paragonów, faktur lub biletów i sprawdzenie wewnętrznej spójności:

cechy plików elektronicznych (metadane zdjęć):

dostęp do „białej listy” podatników przez udostępnione przez Min. Finansów API:

informacje z Google Maps o lokalizacjach i firmach:

pozwala na automatyzację analizy, badanie dokumentów i typowanie podejrzanych rozliczeń praktycznie bez względu na skalę, obejmując 100% populacji, bez względu na to czy mamy do sprawdzenia 10 czy 1.000 paragonów i rachunków.

Czy wprowadzenie takiej kontroli jest oznaką braku zaufania do pracowników, o którym pisałem we wstępie? Raczej odpowiedzią na pojawiające się ryzyka związane z nowymi technologiami, które jeszcze kilka lat temu nie istniały.

***

Artykuły z GW i FT wskazują, że problemy wynikające z możliwości GenAI są podobne i występują w różnych krajach i na różnych kontynentach. Część z nich można rozwiązać, wykorzystując to samo GenAI do walki z nieprawidłowościami, do których GenAI się przyczyniła.

Jeśli połączymy to z innymi metodami śledczymi i weryfikacyjnymi, które niekoniecznie mają cokolwiek wspólnego z GenAI, ale pozwalają na automatyczny dostęp do niezależnych, sprawdzonych danych, to można zbudować podejście i narzędzia, które są skuteczne w wykrywaniu oszustw.

Duże firmy i platformy mogą takie rozwiązania wdrażać wewnętrznie, integrując je z istniejącymi procesami w firmie. Mniejsze organizacje mogą korzystać z rozwiązań zewnętrznych, podobnych do tego co opisaliśmy w artykule. Bez względu na to, które rozwiązanie jest adekwatniejsze do Państwa potrzeb, zapraszamy do kontaktu z Deka Forensics. Mamy praktyczne doświadczenie z wdrażaniem obu modeli.

Nota: Kot bengalski uczestniczył w sesji zdjęciowej dobrowolnie, za udostępnienie wizerunku otrzymał wynagrodzenie w formie "smaczka lux" z homarem.

Co łączy kota bengalskiego i „paragon grozy”? Ten sam problem dowodowy

Scenariusz 1 z fałszywym zdjęciem – skorzystajmy z metadanych

Scenariusz 2 z syntetycznymi paragonami – metadane to nie wszystko

***

Ostatnie posty

Komentarze