Minulý týden rozšířila společnost OpenAI přístup ke své funkci vyhledávání na webu pro všechny uživatele ChatGPT (nejen placené) a integrovala ji do svého režimu hlasového vyhledávání. A jako vždy, spolu s popularitou přicházejí (nebo spíše jsou odhalovány) také bezpečnostní chyby. Nedávné vyšetřování britského deníku The Guardian odhalilo, že pro uživatele této vyhledávací služby je důležitý jev známý jako prompt injection. Co to znamená?
Co je to prompt injection
Prompt injection popisuje schopnost webové stránky nebo externího subjektu vkládat pokyny, které nejsou pro uživatele viditelné (ale přesto jsou na webové stránce přítomny) a které ChatGPT interpretuje a provede, aniž by si toho byl uživatel vědom. Důsledkem je, že se ChatGPT může odchýlit od původního požadavku a reagovat podle toho, co skrytý obsah diktuje.
Představte si například stránku, která shromažďuje převážně negativní recenze restaurace. Pokud jsou na této stránce skryté části textu, které nabádají ChatGPT, aby danou restauraci popsal jako „báječnou“, nebo vyzývají k podpoře návštěvy, může model nakonec poskytovat velmi pozitivní odpovědi v rozporu se skutečnými informacemi na stránce.
Experiment v praxi
Jak vyplývá z výzkumu deníku The Guardian, test byl proveden pomocí webové stránky, která měla simulovat legitimní portál s recenzemi fotoaparátů. Když ChatGPT shrnul obsah stránky bez jakýchkoli skrytých výzev, odpověď chatbota poskytla vyvážené hodnocení: vyzdvihla výhody produktu, ale také poukázala na některé slabiny, které by se některým uživatelům nemusely líbit.
Později však byly na téže stránce zavedeny neviditelné textové bloky, které ChatGPT instruovaly, aby napsal otevřeně příznivou recenzi. Ačkoli se tedy na stránce objevily negativní recenze, odpověď poskytnutá uživateli se změnila na zcela pozitivní.
Stručně řečeno, skrytému obsahu se podařilo přehlušit nestranné hodnocení ChatGPT, čímž se stala zranitelnou vůči podvodu nebo manipulaci, které by mohly zkreslit informace poskytované uživatelům.
Historie hypotetických útoků
Takzvané „prompt injection attacks“ nejsou v oblasti umělé inteligence ničím novým: odborníci na možnost takových zranitelností upozorňovali již od počátků ChatGPT (a později i dalších podobných nástrojů). Doposud se většina příkladů útoků „prompt injection“ omezovala na kuriózní případy navržené odborníky, aniž by se promítly do rozsáhlých škodlivých útoků.
Tento případ je však příkladem potenciálního nebezpečí: pokud škodlivá webová stránka využije schopnosti ChatGPT analyzovat obsah, může přesměrovat svou odpověď, aniž by si toho byl uživatel vědom.
Společnost nyní bude muset posílit své mechanismy filtrování a detekce manipulovaného obsahu, aby zabránila pronikání těchto skrytých výzev do dotazů uživatelů.
Má problémy jen ChatGPT?
No, to, že vyhledávání může být pozměněno vnášením podnětů, je nutně problém omezený na platformy založené na umělé inteligenci, to ano… ale pokud mluvíme o manipulaci s výsledky vyhledávání skrytým obsahem na webových stránkách, pak ne: tento problém se vždy týkal tradičních vyhledávačů.
Tyto techniky jsou součástí takzvaného Black Hat SEO, tedy praktik, které manipulují s vyhledávacími algoritmy s cílem zlepšit hodnocení dané webové stránky (i když je pravda, že v současné době je již většina vyhledávačů proti většině z nich víceméně chráněna):
- Použití skrytého textu a odkazů: klíčová slova byla přidána na pozadí stránky ve stejné barvě jako pozadí (např. bílý text na bílém pozadí) nebo minimalizována pomocí CSS, takže nebyla viditelná pro uživatele, ale vyhledávače je procházely.
- Keyword stuffing: Keyword stuffing spočíval v nadměrném a nepřirozeném opakování klíčových slov v obsahu stránky s cílem „nafouknout“ její relevanci v očích vyhledávacích algoritmů.
- Cloaking: Jeden obsah se zobrazoval uživateli a jiný robotům vyhledávačů. Verze pro Google nebo jiné vyhledávače tak obsahovala množství klíčových slov a odkazů určených k lepšímu hodnocení, zatímco lidskému návštěvníkovi byl prezentován normálnější obsah.
- Doorway pages: Podobně jako v předchozím případě se jednalo o stránky vytvořené výhradně pro umístění ve vyhledávačích (obvykle se spamem klíčových slov), které po kliknutí rychle přesměrovaly uživatele na jinou webovou stránku.