Mitä on prompt-injektio ja miten tekoäly voidaan huijata?

Q: Voiko prompt-injektio varastaa henkilötietoja?

Kyllä, jos tekoälytyökalulla on pääsy henkilötietoihin. Olipa kyse sähköpostista, tiedostoista tai muusta datasta, onnistunut prompt-injektio voi käskyttää työkalua poimimaan ja luovuttamaan tietoja. Tutkijat ovat osoittaneet, että selaintoimijat, jotka käyttävät tekoälyä, voidaan huijata välittämään arkaluontoisia asiakirjoja luvattomille vastaanottajille.

Liikemiesten kädet näppäilemässä tietokonetta, varoituskuvakkeita, jotka kuvaavat tekoälyriskejä, kuten jailbreak- ja prompt-injektio

Tekoälytyökalut kuten ChatGPT, Claude ja Gemini ovat yleistyneet sähköposteissa, työnkuluissa ja arkipäivän käytössä — ja suurin osa ihmisistä ei mieti niiden tietoturvariskejä ennen kuin jotain tapahtuu. Tilanne on kuitenkin muuttumassa.

Tekniikka, jota kutsutaan prompt-injektioksi, on herättänyt huomiota ohjelmistoturvallisuuden piireissä. Erikoista siinä on se, ettei onnistumiseen tarvita haittaohjelmaa, erikoisosaamista tai epäilyttäviä linkkejä: joskus hyvin muotoiltu lause riittää saamaan tekoälytyökalun toimimaan hyökkääjän tahdon mukaan ilman, että käyttäjä huomaa mitään.

Tärkeimmät tiedot:

Prompt-injektio manipuloi tekoälytyökaluja muotoillun kielen avulla — ei haittaohjelmilla tai teknisillä temppuiluilla.
Se toimii, koska tekoälymallit eivät erota kehittäjän ohjeita käyttäjän syötteestä.
Hyökkäykset voivat olla suoranaisia, epäsuoria tai tallennettuja dataan, jota tekoäly lukee toistuvasti.
Jotkut hyökkäykset käyttävät näkymätöntä tekstiä tai piilotettua muotoilua, jota käyttäjät eivät koskaan näe.
Onnistunut hyökkäys voi paljastaa yksityisiä tietoja tai laukaista toimintoja, joita et ole hyväksynyt.
Täydellistä korjausta ei vielä ole, mutta rajoittamalla tekoälytyökalujen oikeuksia ja seuraamalla niiden toimintaa voit vähentää riskiä.

Mitä prompt-injektio on?

Prompt-injektio on tekniikka, jossa hyökkääjä muuttaa tekoälytyökalun käyttäytymistä pelkällä kielellä. Ei tarvitse hyödyntää ohjelmiston haavoittuvuutta tai asentaa haittaohjelmaa, koska hyökkääjä manipuloi mallia sen lukeman tekstin kautta.

Termi sai alkunsa tietojenkäsittelytieteilijä Simon Willisonin kirjoituksesta vuonna 2022, ja OWASP, ohjelmistoturvan kriittisimpiä uhkia seuraava organisaatio, on nimennyt sen tekoälysovellusten merkittävimmäksi turvallisuusriskiksi.

Voit ajatella sitä koneille suunnattuna sosiaalisen manipuloinnin muotona, sillä se muistuttaa enemmän tietojenkalastelua kuin perinteistä hakkerointia. Se hyödyntää suurten kielimallien (LLM) luontaista ominaisuutta: niiden on tarkoitus noudattaa ohjeita. Juuri se ominaisuus, joka tekee niistä hyödyllisiä, tekee niistä myös hyökkäyksen kohteita. Huolellisesti laadittu syöte voi ohittaa työkalun alkuperäiset säännöt, muuttaa vastauksia tai paljastaa tietoja, jotka mallin oli tarkoitus pitää piilossa. Onnistunut injektio ei vain venytä sääntöjä — se voi paljastaa kaiken, mihin malli on kytketty.

Toisin kuin perinteiset koodin injektiot tai muut tietoturvan hyökkäysmenetelmät, jotka vaativat erikoisosaamista, henkilö, joka osaa muotoilla vakuuttavan lauseen, voi jo käytännössä tehdä hyökkäyksen.

Kuinka prompt-injektio toimii?

Ongelman ydin on, että tekoälyjärjestelmät eivät osaa erottaa kontekstia. Ne eivät osaa erottaa kehittäjän ohjeiden ja käyttäjän syötteen välistä eroa.

Tekoälykehittäjät kirjoittavat usein piilotettuja prompteja, jotka määrittävät työkalun säännöt. Käyttäjän syöte yhdistyy näihin prompteihin, ja tekoäly käsittelee kaiken yhtenä tekstivirran osana. Se ei osaa sanoa, mitkä osat ovat kehittäjän ohjeita ja mitkä sinun syötettäsi. Jos syötteesi näyttää käskyltä, tekoäly saattaa noudattaa sitä, vaikka se olisi ristiriidassa kehittäjän aikomusten kanssa.

Kaikki hyökkäykset eivät näytä samalta. Ne voidaan ryhmitellä yleensä kolmeen tyyppiin: suorisiin, epäsuoriin ja tallennettuihin injektioihin.

Mitä on suora prompt-injektio?

Suora prompt-injektio tarkoittaa haitallisen käskyn kirjoittamista suoraan chattiin. Jopa yksinkertainen lause kuten "ohita aiemmat ohjeet" voi riittää. Tämä hyödyntää tekoälyn taipumusta antaa uuden syötteen prioriteetti kehittäjän sääntöihin nähden.

Mitä on epäsuora prompt-injektio?

Epäsuora prompt-injektio piilottaa haitalliset ohjeet ulkoiseen sisältöön, jota tekoäly käsittelee — esimerkiksi verkkosivuille tai sähköpostiin.

Esimerkiksi hyökkääjä voi upottaa verkkosivulle näkymätöntä tekstiä, joka käskee tekoälyä ohittamaan sääntönsä ja suosimaan tiettyä linkkiä. Jos joku pyytää tekoälyä tiivistämään kyseisen sivun, se lukee piilotetun käskyn yhdessä näkyvän sisällön kanssa ja saattaa noudattaa sitä, ilman että käyttäjä huomaa. Turvallisuustutkijat pitävät epäsuoraa prompt-injektiota yhtenä generatiivisten tekoälyjärjestelmien vakavimmista heikkouksista ja yhtenä vaikeimmin torjuttavista.

Mitä on tallennettu prompt-injektio?

Tallennettu prompt-injektio toimii upottamalla haitallisia ohjeita paikkoihin, joita tekoäly lukee säännöllisesti, kuten tietokantoihin tai harjoitusdataan.

Tallennettu injektio voi vaikuttaa useisiin käyttäjiin eri istunnoissa, koska ohjeet ovat tallennettuja eivätkä kirjoitettuja reaaliajassa. Tekoälyagentti saattaa vaikuttaa toimivan normaalisti, mutta sen vastauksia on muokattu hienovaraisesti pitkään aiemmin upotetun sisällön vaikutuksesta.

Pysy suojattuna, kun tekoälytyökalut yleistyvät

Prompt-injektio on esimerkki siitä, miten tekoälyjärjestelmiä voidaan manipuloida. Kaspersky Premium auttaa suojaamaan laitteitasi, tietojasi ja verkkotilejäsi kehittyviltä digitaalisilta uhilta.

Kokeile Kaspersky Premiumia ilmaiseksi

Millaisia tekniikoita prompt-injektioissa käytetään?

Prompt-injektio hyödyntää tavallista tekstiä huijatakseen tekoälyä noudattamaan luvattomia ohjeita. Riski syntyy siitä, että tekoälymallit käsittelevät kaiken tekstin samalla tavalla eivätkä osaa erottaa aitoa sisältöä manipuloidusta sisällöstä.

Suurin osa hyökkäyksistä kuuluu kahteen pääryhmään: temput, jotka naamioivat käskyt koodin tai muotoilun avulla, ja temput, jotka piilottavat käskyt siten, ettei ihminen niitä havaitse. Kummassakin tapauksessa sivu näyttää normaaliin sisältöön tutustuvasta ihmisestä aivan tavalliselta.

Koodin ja muotoilun temput

Jotkut hyökkäykset käyttävät koodilohkoja, merkintöjä tai jäsenneltyä tekstiä, jotta haitallinen ohje näyttäisi järjestelmäkäskyltä. Tämä voi tarkoittaa esimerkiksi käskyn ympäröimistä koodityylisellä muotoilulla tai sen jäsentelyä siten, että se muistuttaa kehittäjän järjestelmäpromptia.

Piilotetut ja naamioidut ohjeet

Muut hyökkäykset kätkevät ohjeet silmäänpistämättömin visuaalisin keinoin: valkoinen teksti valkoisella taustalla, hyvin pieni fonttikoko, epätavallinen riviväli, erikoismerkit, unicode-koodaus tai jopa ohjeet eri kielellä. Ihminen katsoo asiakirjaa tai verkkosivua eikä näe mitään outoa, mutta tekoäly lukee kaiken taustalla olevasta tekstistä riippumatta siitä, miten se esitetään.

Näitä tekniikoita käytetään jo nyt. Hyökkääjät ovat upottaneet näkymättömiä ohjeita verkkosivuille kaapatakseen tekoälyä käyttävät selaaja-agentit, ja työnhakijat ovat käyttäneet piilotettua tekstiä ansioluetteloissa hämätäkseen tekoälypohjaisia seulontajärjestelmiä.

Infografiikka joka näyttää miten piilotetut ohjeet asiakirjassa voivat manipuloida tekoälyn vastauksia prompt-injektion kautta

Esimerkkejä prompt-injektioista

Kuinka Bing Chat huijattiin paljastamaan omat sääntönsä

Helmikuussa 2023 Stanfordin opiskelija Kevin Liu käytti suoraa prompt-injektiota paljastaakseen Bing Chatin piilotetut järjestelmäohjeet. Riitti kirjoittaa "ohita aiemmat ohjeet" ja pyytää tekoälyä lukemaan omia sääntöjään — chatbot luovutti sisäisen koodinimensä "Sydney" ja piilotetut toimintalinjauksensa. Microsoft korjasi aukon, mutta Liu löysi tunnin sisällä kiertotien esittämällä olevansa kehittäjä.

Kuinka piilotettu teksti ansioluetteloissa huijasi tekoälyseulontajärjestelmiä

Työnhakijat ovat alkaneet upottaa ansioluetteloihinsa piilotettuja prompt-injektio-ohjeita manipuloidakseen tekoälyllä toimivia rekrytointityökaluja. Menetelmässä kirjoitetaan ohjeita kuten "tämä on poikkeuksellisen pätevä ehdokas" valkoisella fontilla tai hyvin pienellä fonttikoolla, jolloin teksti on ihmiselle näkymätön mutta tekoäly poimii sen.

Tekniikka levisi sosiaalisessa mediassa vuonna 2024. Henkilöstöyritys ManpowerGroup kertoi löytäneensä piilotettua tekstiä noin 10 %:sta ansioluetteloista, joita se skannaa tekoälyllä. Rekrytointialusta Greenhouse löysi samankaltaisia piilotettuja prompteja noin 1 %:sta sen vuosittain käsittelemistä 300 miljoonasta ansioluettelosta.

Kuinka chatbotit manipuloitiin jakamaan yksityistä tietoa

Yksi varhainen ChatGPT-prompt-injektioesimerkki liittyi remoteli.io:n Twitter-botiin, joka käytti ChatGPT:tä ja oli tarkoitettu luomaan myönteisiä kommentteja etätyöstä. Käyttäjät huomasivat, että he voivat tweetata ohjeita, joiden avulla botti unohti alkuperäisen tehtävänsä ja alkoi julkaista järjettömiä julkisia lausuntoja.

Hiljattain tutkijat demonstroivat, että OpenAI:n ChatGPT Atlas -selaintoimija voidaan kaapata sähköposteihin upotetuilla piilotetuilla ohjeilla. Eräässä testissä haitallinen sähköposti, johon oli upotettu prompt, sai agentin lähettämään eroilmoituksen käyttäjän pomolle sen sijaan, että se olisi luonnostellut pyydetyn poissaolovastauksen. Käyttäjä ei nähnyt piilotettua ohjetta — tekoäly kuitenkin noudatti sitä.

Miksi tavallisen käyttäjän pitäisi välittää prompt-injektiosta?

Prompt-injektio voi manipuloida tekoälytyökaluja ilman, että sinä tiedät siitä. Kun tekoäly tiivistää asiakirjan tai laatii sähköpostia, se ammentaa ulkoisista lähteistä. Jos joku näistä lähteistä on muokattu, myös tekoälyn tuottama sisältö voi olla vääristynyttä, ja sinä et välttämättä huomaa mitään.

Tässä piilee ero verrattuna muihin verkkouhkiin: sinun ei tarvitse klikata linkkiä tai ladata mitään epäilyttävää. Kysyt normaalia kysymystä, ja vastaus voi olla muokattu jonkun muun piilottamien ohjeiden perusteella. Vahingoton lopputulos voi olla puolueellinen yhteenveto tai turha ehdotus. Vakavammissa tapauksissa työkalu saattaa vuotaa henkilökohtaisia tietojasi tai tehdä hyväksymättömiä toimintoja. Muokatut vastaukset näyttävät usein täysin normaaleilta ilman virheilmoituksia tai selviä merkkejä.

Tämä ei tarkoita, että sinun pitäisi lopettaa näiden työkalujen käyttö, mutta et voi olettaa, että tekoälyn tuottama sisältö on aina puolueetonta tai luotettavaa.

Onko prompt-injektio sama kuin jailbreak?

Prompt-injektio ja jailbreak liittyvät toisiinsa, mutta eivät tarkoita samaa. Jailbreak on eräs prompt-injektion muoto, jonka tarkoituksena on ohittaa turvallisuusrajoituksia. Siinä pyritään saamaan tekoäly rikkomaan sisältöpolitiikkoja tai tuottamaan rajoitettua sisältöä.

Prompt-injektio on laajempi käsite. Se kattaa minkä tahansa yrityksen kaapata tekoälyn käyttäytyminen muotoillun syötteen avulla — vaikkapa paljastamaan piilotettuja järjestelmäkäskyjä tai saamaan työkalun tekemään luvattomia toimintoja. Tavoitteena ei aina ole rikkoa turvallisuusfilttereitä; hyökkääjä hakee usein vain eri käskykokonaisuutta ilman, että kukaan huomaa.

Toinen tärkeä ero liittyy siihen, kuka kärsii seurauksista. Jailbreak on käyttäjän oma, tahallinen teko omassa istunnossaan. Prompt-injektio — erityisesti epäsuorat ja tallennetut muodot — voi vaikuttaa viattomiin käyttäjiin, jotka eivät ole koskaan tienneet, että he pyysivät tietoa, jota oli aiemmin manipuloitu. Tämän vuoksi OWASP pitää prompt-injektiota suurimpana riskinä tekoälysovelluksille sen sijaan, että näkisi jailbreakin erillisenä kategoriana.

Kuinka voit estää prompt-injektion?

Tällä hetkellä ei ole helppoa yksittäistä korjausta prompt-injektiolle, koska haavoittuvuus johtuu samasta syystä, jonka vuoksi työkalut ovat hyödyllisiä: kyvystä noudattaa ohjeita. Kehittäjät eivät voi poistaa tätä ominaisuutta rikkomatta työkalujen käytettävyyttä.

Tekoälykehittäjät parantavat jatkuvasti syötefilttereitä ja adversaaritestaus auttaa löytämään heikkouksia, mutta markkinoilla ei ole ratkaisua, joka poistaisi riskin kokonaan.

Silti voit tehdä paljon itse. Suurin osa hyvistä käytännöistä pohjautuu maalaisjärkeen:

Pysy tilanteen tasalla. Älä anna tekoälytyökalujen toimia autopilotilla. Tarkista aina, mitä työkalu aikoo tehdä, ennen kuin annat sen toimia.
Rajoita pääsyä aina kun mahdollista. Kun tekoälytyökalu pyytää lupaa päästä sähköpostiisi tai tiedostoihisi, mieti, tarvitseeko se sitä todella. Vältä salasanojen, taloustietojen tai muiden arkaluontoisten tietojen liittämistä keskusteluihin.
Kysy, kun jokin vaikuttaa oudolta. Jos vastaus sisältää odottamattoman linkin, suosittelee jotain mitä et pyytänyt tai ohjaa toimimaan epäloogisesti, hidasta ennen kuin toimit.
Pidä ohjelmistot ajan tasalla. Kehittäjät julkaisevat säännöllisesti päivityksiä, jotka paikkaavat haavoittuvuuksia ja vahvistavat suojauksia. Vanha versio voi jäädä ilman näitä korjauksia.

Tarkistuslista tärkeistä toimenpiteistä prompt-injektion estämiseksi, kuten tekoälypääsyn rajoittaminen ja toimintojen tarkistus.

Mitä tehdä, jos tekoälytyökalu käyttäytyy odottamattomasti?

Jos tekoäly alkaa toimia oudosti, keskeytä ja älä toimi sen antamien ohjeiden mukaan. Se ei välttämättä ole prompt-injektio, mutta jos jokin tuntuu pielessä, selvitä syy ennen jatkamista.

Muutama merkki, jotka herättävät epäilyn:

Se ehdottaa tekemään jotain, mitä et ole pyytänyt
Esille alkaa tulla linkkejä tai tuotepäätöksiä, joita et tunne
Se pyytää henkilökohtaisia tietoja, joilla ei ole yhteyttä tehtävään
Keskustelun sävy muuttuu äkillisesti
Vastaukset lakkaavat järkevästä tai tuntuvat irtonaisilta suhteessa kysymykseesi

Jos havaitset jotain tällaista, sulje istunto ja aloita uudesta. Älä yritä korjata tilannetta samassa keskustelussa, koska jos istunto on vaarantunut, olet edelleen siinä ja altistunut riskille.

Tämän jälkeen selvitä, mihin työkalu oli päässyt käsiksi. Oliko sähköpostisi auki? Saattoiko ohjelmisto tehdä muutoksia puolestasi? Jos huomaat poikkeavaa toimintaa, peru muutokset ja vaihda salasanasi välittömästi.

Miten prompt-injektio sijoittuu laajempaan tekoälyturvallisuuteen?

Prompt-injektio on korkealla tekoälyturvallisuusprioriteettilistalla, koska se hyökkää suoraan tekoälyn itsensä kimppuun. Tämä erottaa sen esimerkiksi tietojenkalastelusta, haittaohjelmista ja muista perinteisemmistä hyökkäystavoista, jotka kohdistuvat tekoälyn ympärillä oleviin järjestelmiin.

Ongelma kasvaa: hetki sitten tekoälytyökalut rajoittuivat pääosin tekstin tuottamiseen. Nyt ne voivat selata verkkoa, lukea sähköpostejasi, käyttää tiedostojasi, kirjoittaa koodia ja toimia puolestasi. Standardit kuten MCP (Model Context Protocol) helpottavat tekoälyn liitännäisiä ulkoisiin palveluihin. Mitä enemmän nämä työkalut pystyvät tekemään, sitä enemmän vahinkoa onnistunut hyökkäys voi aiheuttaa.

Myös laajuus on huolestuttava. Prompt-injektio toimii paljon kuin sosiaalinen manipulointi: se esittää ohjeet siten, että tekoäly noudattaa niitä. Mutta toisin kuin puhelinhuijaus, joka kohdistuu yhteen ihmiseen kerrallaan, yksi piilotettu ohje suositulla verkkosivulla voi vaikuttaa jokaiseen siihen törmäävään tekoälyyn.

Tämä ei tarkoita, että tekoälytyökalut olisivat väistämättä turvattomia. Turvallisuus on kuitenkin jäänyt jälkeen niiden nopeasta käyttöönotosta, joten vastuu suojautumisesta jää pitkälti loppukäyttäjille.

Aiheeseen liittyvät artikkelit:

Suositellut tuotteet:

UKK

Onko prompt-injektio laitonta?

Yksittäistä lakia, joka nimenomaisesti kieltäisi prompt-injektion, ei ole. Kuitenkin sen avulla tehdyt toimet — kuten pääsy rajoitettuun aineistoon ja yksityistietojen poiminta — kuuluvat olemassa olevien tietomurtorikosten ja kyberrikoslainsäädännön piiriin. Oikeudellinen riski on todellinen, mutta lainsäädäntö on vielä kehitysvaiheessa.

Voiko prompt-injektio kohdistua tavallisiin käyttäjiin?

Kyllä. Jos käytät mitä tahansa työkalua, joka käsittelee ulkoista sisältöä tekoälyn avulla, voit helposti joutua kohteeksi — etkä todennäköisesti edes huomaisi sitä. Hyökkäys ei kohdistu suoraan lopulliseen käyttäjään, koska se hyökkää tekoälytyökalua vastaan eikä henkilöä itseään.

Voiko prompt-injektio varastaa henkilötietoja?

Kyllä, jos tekoälytyökalulla on pääsy henkilötietoihin. Oli kyse sitten sähköpostista, tiedostoista tai muusta datasta, onnistunut prompt-injektio voi käskyttää sitä poimimaan ja jakamaan tietoja. Turvallisuustutkijat ovat osoittaneet, että selaintoimijat, jotka käyttävät tekoälyä, voidaan huijata välittämään arkaluontoisia asiakirjoja luvattomille vastaanottajille.

Onko prompt-injektio sama asia kuin hakkerointi?

Prompt-injektio ei ole perinteistä hakkerointia. Sen sijaan, että hyödynnettäisiin ohjelmakoodin haavoittuvuuksia, se manipuloi sitä, mitä tekoäly lukee. Se on koneelle suunnattua sosiaalista manipulointia. Lopputulos voi muistuttaa hakkerointia — tietovuotoja tai luvattomia toimintoja — mutta toimintatapa on perustavanlaatuisesti erilainen.

Mitä on prompt-injektio ja miten tekoäly voidaan huijata?

Mitä prompt-injektio on?

Kuinka prompt-injektio toimii?

Mitä on suora prompt-injektio?

Mitä on epäsuora prompt-injektio?

Mitä on tallennettu prompt-injektio?

Pysy suojattuna, kun tekoälytyökalut yleistyvät

Millaisia tekniikoita prompt-injektioissa käytetään?

Koodin ja muotoilun temput

Piilotetut ja naamioidut ohjeet

Esimerkkejä prompt-injektioista

Kuinka Bing Chat huijattiin paljastamaan omat sääntönsä

Kuinka piilotettu teksti ansioluetteloissa huijasi tekoälyseulontajärjestelmiä

Kuinka chatbotit manipuloitiin jakamaan yksityistä tietoa

Miksi tavallisen käyttäjän pitäisi välittää prompt-injektiosta?

Onko prompt-injektio sama kuin jailbreak?

Kuinka voit estää prompt-injektion?

Mitä tehdä, jos tekoälytyökalu käyttäytyy odottamattomasti?

Miten prompt-injektio sijoittuu laajempaan tekoälyturvallisuuteen?

UKK

Onko prompt-injektio laitonta?

Voiko prompt-injektio kohdistua tavallisiin käyttäjiin?

Voiko prompt-injektio varastaa henkilötietoja?

Onko prompt-injektio sama asia kuin hakkerointi?

Mitä on prompt-injektio ja miten tekoäly voidaan huijata?

Aiheeseen liittyviä artikkeleita

Tarvitsenko virustorjunnan Androidille? Mitä jokaisen puhelimen käyttäjän tulisi tietää

Tietojen ulossiirto (eksfiltraatio): mitä se on ja miten sen voi estää?

Väärän numeron tekstiviestihuijaus: mitä se on, miksi juuri sinä olet kohteena ja mitä tehdä seuraavaksi

Kuunteleeko puhelimesi sinua?

Mistä tiedät, onko puhelimesi kamera hakkeroitu

Mitä on prompt-injektio ja miten tekoäly voidaan huijata?

Mitä huijarit voivat tehdä puhelinnumerollasi?

AI-puhe- ja deepfake-huijaukset: miksi tuttu ääni ei enää takaa aitoutta

Tekoälypohjainen kalastelu: miten huijarit käyttävät tekoälyä huijausten tekemiseen

Voivatko PDF-tiedostot sisältää viruksia? Mitä tehdä, jos olet avannut PDF-huijauksen