Data poisoning

Co je data poisoning?

Data poisoning se někdy překládá jako otrávení dat a představuje typ útoku na systémy umělé inteligence a strojového učení, při kterém útočník záměrně manipuluje s tréninkovými daty s cílem ovlivnit chování výsledného modelu.

Na rozdíl od útoků zaměřených na již nasazené modely, jako je prompt injection, zasahuje data poisoning samotnou fázi vývoje a učení, aby do AI systému zanesl skryté zranitelnosti, chybné vzorce chování nebo přímo škodlivé funkce. Jde o jednu z nejzákeřnějších hrozeb v oblasti bezpečnosti AI, protože důsledky útoku se mohou projevit s velkým časovým odstupem a v kontextech, které samotní vývojáři modelu vůbec neočekávají.

Podstata data poisoningu

Současné modely strojového učení, zejména hluboké neuronové sítě a velké jazykové modely, získávají své schopnosti během tréninkového procesu analýzou rozsáhlých datových souborů. Model identifikuje statistické vzorce, korelace a vztahy v datech a tyto poznatky následně využívá při zpracování nových vstupů. Kvalita a charakteristika tréninkových dat tak přímo souvisí se schopnostmi a chováním výsledného modelu. Tento princip se v komunitě strojového učení dlouho označoval zkratkou GIGO (Garbage In, Garbage Out), která vyjadřuje fakt, že z nekvalitních dat mohou vzniknout jen nekvalitní výstupy. Data poisoning tento princip cíleně zneužívá – útočník však místo nekvalitních dat vkládá do tréninkové sady speciálně připravené vzorky, které mají vyvolat konkrétní chování modelu.

Klíčovým rozdílem oproti jiným typům útoků na AI systémy je časový horizont a místo zásahu. Útoky typu prompt injection a tool poisoning manipulují s již nasazeným modelem prostřednictvím jeho vstupů nebo externích nástrojů, ke kterým model přistupuje. Data poisoning naproti tomu narušuje samotný proces vzniku modelu, takže se problematické chování stává součástí jeho parametrů. Zatímco prompt injection lze případně odhalit analýzou aktuálních vstupů a tool poisoning kontrolou propojených nástrojů, identifikace otráveného modelu bývá podstatně obtížnější.

Útočník při data poisoningu zpravidla nepotřebuje přímý přístup k cílovému modelu ani znalost detailů jeho architektury. Stačí mu možnost ovlivnit data, která budou použita pro úvodní nebo průběžné trénování. A protože se dnes modely AI běžně trénují na obrovských objemech dat získaných z veřejných zdrojů, internetu, uživatelských interakcí nebo crowdsourcingových platforem, mohou data poisoning provádět i útočníci s relativně omezenými zdroji.

Mechanismy útoku

Z technického hlediska existuje několik základních strategií data poisoningu:

Útoky narušující dostupnost mají za cíl celkově snížit výkonnost modelu, zhoršit jeho přesnost nebo způsobit jeho selhání. Útočník v tomto případě nesleduje konkrétní cílené chování, ale obecné poškození systému, podobně jako útoky typu Denial of Service (DoS) narušují dostupnost běžných služeb. Tento typ útoku může být motivován konkurenčním bojem mezi poskytovateli AI služeb, sabotáží konkrétního produktu nebo obecnou snahou narušit důvěru v AI technologie.
Cílené útoky představují sofistikovanější kategorii, kdy útočník nemíří na celkovou kvalitu modelu, ale na jeho chování v konkrétních situacích. Příkladem může být manipulace s daty pro klasifikační model rozpoznávající dopravní značky, kdy útočník připraví tréninkové vzorky tak, aby model určitou kombinaci vizuálních prvků interpretoval nesprávně. V kontextu jazykových modelů může cílený útok ovlivnit, jakým způsobem model reaguje na otázky o konkrétní osobě, organizaci nebo tématu, případně může model přimět k preferenci určitých informačních zdrojů nebo formulací.
Backdoor útoky, někdy označované jako trojanizace modelu, nezpůsobí špatné chování modelu obecně, ale zabudují do něj skrytou funkci aktivovanou specifickým spouštěčem. Model za běžných okolností funguje zcela normálně a prochází i přísnými testy kvality. Ale při setkání s konkrétním vstupem – například určitou sekvencí slov, vizuálním vzorem nebo metadaty – přepne do škodlivého režimu. Backdoor útoky jsou mimořádně nebezpečné, protože jejich detekce vyžaduje znalost konkrétního spouštěče.

Z hlediska způsobu manipulace s daty se rozlišují útoky založené na vkládání nových škodlivých vzorků dat, modifikaci existujících záznamů nebo selektivním mazání legitimních dat. Útok vkládáním (injection attack) přidává do tréninkové sady připravené záznamy, které postupně posouvají chování modelu žádaným směrem. Modifikace existujících dat naproti tomu mění obsah nebo metadata legitimních vzorků a může například změnit jejich klasifikaci. Selektivní mazání odstraňuje záznamy, které by modelu pomohly naučit se správné chování v určitých kontextech, a vytváří tak slepá místa v jeho znalostech.

Útočné scénáře a vektory

Scénářů, ve kterých může k data poisoningu dojít, je celá řada. Nejjednodušším vektorem je manipulace s veřejně dostupnými datovými zdroji, ze kterých modely čerpají při tréninku. Velké jazykové modely se trénují z velké části na obsahu webových stránek, encyklopedií, diskusních fór nebo open source úložišť. Útočník, který dlouhodobě a systematicky vkládá do těchto zdrojů obsah s konkrétními charakteristikami, může postupně ovlivnit modely, které jsou na nich trénovány.

Specifickým vektorem jsou crowdsourcingové platformy a systémy zpětné vazby od uživatelů. Pokud model využívá interakce s uživateli pro průběžné dotrénování, může koordinovaná skupina útočníků cíleně vytvářet typy vstupů a hodnocení směřující k požadovanému zkreslení. Klasickým příkladem je incident s chatbotem Tay společnosti Microsoft v roce 2016, kdy koordinovaná kampaň uživatelů během několika hodin přiměla systém ke generování extrémně problematických výroků.

Další významný vektor představuje útok na dodavatelský řetězec dat (data supply chain attack). Modely jsou často trénovány na datech získaných od specializovaných poskytovatelů, kteří shromažďují a třídí velké datové sady. Kompromitace takového dodavatele může vést k zanesení škodlivých dat do desítek nebo stovek modelů, které jeho služby využívají. Podobně rizikové jsou veřejné repozitáře předtrénovaných modelů, kde uživatelé sdílejí své vlastní modely. Stažení a použití kompromitovaného modelu znamená i převzetí všech jeho zanesených zranitelností.

V kontextu firemních implementací AI představuje významnou hrozbu data poisoning vlastních datových úložišť organizace. Pokud útočník získá přístup k databázím obsahujícím tréninková data nebo k systémům jejich přípravy, může nepozorovaně modifikovat záznamy a tím dlouhodobě ovlivňovat všechny modely trénované na těchto datech. Tento typ útoku se prolíná s klasickými hrozbami pro bezpečnost dat – kompromitací přístupových údajů, interními hrozbami i zneužitím zranitelností v datových úložištích.

Data poisoning velkých jazykových modelů

Velké jazykové modely (LLM) představují z hlediska data poisoningu specifický případ. Jejich tréninková data zahrnují obrovské objemy textu z různých zdrojů, což by mělo na první pohled útok komplikovat. Jednotlivé kontaminované vzorky by měly mít minimální váhu ve srovnání s miliardami dalších záznamů. Výzkumy ale ukazují, že i relativně malé množství cíleně připravených textů, řádově ve stovkách nebo tisících vzorků, může významně ovlivnit chování modelu v konkrétních kontextech. Zejména pokud útočník zacílí na specifické fáze tréninku, jako je jemné ladění modelu (fine-tuning) nebo Reinforcement Learning from Human Feedback (RLHF), kdy lidští operátoři porovnávají konkrétní výstupy modelu.

Důsledky data poisoningu

Dopady úspěšného data poisoningu záleží na typu zasaženého modelu a způsobu jeho nasazení. V kritických aplikacích, kam patří například medicínská diagnostika, autonomní vozidla, finanční rozhodování nebo bezpečnostní systémy, může otrávený model vést k nesprávným rozhodnutím s vážnými následky pro zdraví, majetek nebo bezpečnost osob. Útočník, který dokáže ovlivnit diagnostický model rozpoznávající určitý typ onemocnění, může způsobit selhání včasné detekce u významné části pacientů.

V případě informačních systémů a vyhledávacích služeb může data poisoning ovlivnit, jaké informace uživatelé dostávají, jak jsou seřazeny výsledky nebo jaký obraz si model utváří o určitých tématech či osobách. Otrávený model může cíleně narušit informovanost veřejnosti, posílit konkrétní narativy nebo generovat skrytě zaujatý obsah, který uživatelé přijímají jako neutrální informaci. Tím se data poisoning prolíná s technikami informačních operací a dezinformací.

Z hlediska kybernetické bezpečnosti přináší data poisoning specifickou hrozbu pro modely využívané k detekci kybernetických útoků a malwaru. Pokud útočník dokáže ovlivnit tréninková data, může způsobit, že bude model přehlížet konkrétní rodiny škodlivého kódu nebo útočné vzorce. Vzhledem k rostoucí závislosti kybernetické obrany na strojovém učení představuje tento scénář strategickou hrozbu pro odolnost digitální infrastruktury.

Pro provozovatele AI služeb znamená úspěšný data poisoning vážné poškození reputace, ztrátu důvěry uživatelů a potenciální právní následky. Pokud se ukáže, že nasazený model produkoval problematické výstupy kvůli kontaminovaným tréninkovým datům, může organizace čelit otázkám ohledně kvality svých procesů, schopnosti zajistit důvěryhodnost svých služeb a odpovědnosti za vzniklé škody. V souvislosti s legislativou je také nutné zmínit, že evropský AI Act i další vznikající regulační rámce zdůrazňují požadavky na kvalitu, sledovatelnost a robustnost tréninkových dat jako klíčový prvek odpovědného nasazení vysoce rizikových AI systémů.

Obrana proti data poisoningu

Vzhledem k obrovským objemům tréninkových dat je obrana proti data poisoningu velmi náročná. Vyžaduje komplexní přístup zahrnující bezpečnost datového dodavatelského řetězce, technické kontroly kvality tréninkových dat a testování výsledných modelů.

Základem je důsledná kontrola původu dat (data provenance), včetně důsledného evidování toho, odkud konkrétní záznamy pocházejí, kdo je shromáždil nebo anotoval a jakými fázemi zpracování prošly. Ověření, že tréninková data nebyla mezi sběrem a použitím neoprávněně modifikována, pomáhají zajistit kryptografické podepisování datových sad, využití technologie blockchainu pro neměnný záznam o jejich vývoji nebo standardizované formáty metadat.

Důležitou roli hraje filtrace a sanitace tréninkových dat. Pokročilé techniky strojového učení umí v rozsáhlých datových sadách identifikovat anomální nebo statisticky neobvyklé vzorky, podezřelé duplicity, neobvyklé formátování nebo skryté vzorce charakteristické pro obsah generovaný jinou AI. Tyto techniky se kombinují s pravidly založenými na expertní znalosti konkrétní oblasti, lidskou kontrolou rizikových vzorků a vyhledáváním známých indikátorů útoků v databázích bezpečnostních hrozeb.

Další vrstvu obrany představují robustní tréninkové techniky. Metody jako differential privacy, robust optimization nebo specializované varianty trénovacích algoritmů snižují citlivost modelu na jednotlivé tréninkové vzorky a zvyšují tak jeho odolnost vůči manipulaci s daty. Tyto techniky přinášejí určité kompromisy v podobě snížené přesnosti nebo zvýšených výpočetních nároků, ale představují účinný nástroj proti útokům s omezeným počtem kontaminovaných vzorků.

Po dokončení tréninku přichází na řadu důkladné testování modelu. To zahrnuje běžné metriky kvality, ale také cílené testy zaměřené na detekci anomálního chování v okrajových situacích, vyhledávání možných backdoorů aktivovaných specifickými vstupy, analýzu interních reprezentací modelu nebo srovnání s referenčními modely trénovanými na ověřených datech. Zapojit lze rovněž metodu red teamingu, kdy specializované týmy aktivně hledají způsoby, jak model přimět k problematickému chování. Tato problematika se prolíná s testováním proti útokům typu prompt injection a celkovým ověřením kybernetické odolnosti AI systémů.

Nezbytná je také kontinuální ochrana modelu během jeho provozu. Monitoring výstupů s detekcí neobvyklých vzorců, sledování statistik výkonnosti v různých kontextech a zpětná vazba od uživatelů mohou pomoci odhalit problémy, které se vynořují až po nasazení. Architektura odpovědného AI by měla počítat i s možností rychlého vyřazení nebo přetrénování modelu při podezření na data poisoning.

Souvislosti s dalšími hrozbami pro AI systémy

Data poisoning zapadá do širšího spektra hrozeb pro systémy umělé inteligence, které tvoří významnou součást moderní kybernetické bezpečnosti. Spolu s technikami prompt injection a tool poisoning tvoří data poisoning trojici základních útočných kategorií v oblasti bezpečnosti AI. Prompt injection se snaží manipulovat výstupy modelu prostřednictvím formulování výzev, zatímco tool poisoning cílí na externí nástroje a datové zdroje, ke kterým model přistupuje při řešení úkolů.

V praxi je častá kombinace těchto technik, kdy útočník nejprve prostřednictvím data poisoningu vloží do modelu zranitelnost, kterou později aktivuje promptem. Pokud bude prostřednictvím data poisoningu do modelu zanesen backdoor, může při tool poisoningu reagovat na konkrétní instrukce zaslané přes externí nástroj. Proto musí obrana AI systémů brát v úvahu všechny tyto vektory.

Data poisoning se prolíná také s tradičními kategoriemi kybernetické bezpečnosti. Útok na dodavatelský řetězec dat sdílí charakteristiky s útoky na dodavatelský řetězec softwaru. Riziko kompromitace datových úložišť organizace souvisí se zabezpečením databází a citlivých dat. Závažným rizikem jsou také interní hrozby, protože interní pracovník s přístupem k tréninkovým datům může útok provést velmi efektivně a s minimálním rizikem odhalení.

Budoucí vývoj data poisoningu

Se stále vyšší mírou nasazení AI v kritických aplikacích roste motivace útočníků investovat do sofistikovaných útoků na tréninková data. Současně se bude zpřísňovat regulace a také oborové standardy budou klást stále vyšší nároky na kvalitu a zabezpečení dat používaných pro trénování modelů AI. Už dnes proto vznikají specializované služby pro audit datových sad, certifikační schémata pro potvrzení jejich důvěryhodnosti i nástroje pro detekci podezřelých vzorců v tréninkových datech.

Výzkumníci hledají způsoby, jak formálně analyzovat odolnost modelů vůči data poisoningu, jak je trénovat robustněji a jak u nasazených modelů ověřovat jejich integritu. Zvláštní pozornost se věnuje federovanému učení a dalším distribuovaným formám tréninku, ve kterých se model učí z decentralizovaných zdrojů dat. S množstvím těchto zdrojů nevyhnutelně roste i riziko data poisoningu.

S rostoucím podílem obsahu generovaného AI na internetu se zvyšuje i riziko, že modely trénované na stále nových verzích veřejně dostupných dat budou nepřímo ovlivněny výstupy předchozích AI systémů. Tento jev, někdy označovaný jako model collapse, představuje zásadní výzvu pro dlouhodobou udržitelnost vývoje AI a vyžaduje nové přístupy k zajištění kvality a důvěryhodnosti tréninkových dat.