Generatiivisen AI ChatGPT:n laillinen tuomiopäivä, jos hänet havaitaan plagioimisesta tai loukkaamisesta, varoittaa tekoälyn etiikkaa ja tekoälylakia

Repiikö ChatGPT kaltainen generatiivinen tekoäly verkkosivustojamme ja ihmisen suunnittelemaa sisältöä? Ole tietoinen, ole ... [+] järkyttynyt, ole valmis.

Getty

Anna luottoa siellä, missä luotto erääntyy.

Se on vähän viisasta viisautta, johon sinut ehkä kasvatettiin lujasti uskomaan. Todellakin, joku olettaa tai kuvittelee, että saatamme kaikki olla jossain määrin yhtä mieltä siitä, että tämä on oikeudenmukainen ja järkevä nyrkkisääntö elämässä. Kun joku tekee jotain, joka ansaitsee tunnustusta, varmista, että hän saa ansaitun tunnustuksen.

Vastakkainen näkökulma vaikuttaisi paljon vähemmän vakuuttavalta.

Jos joku käveli ympäriinsä vaatien, että luotto pitäisi emme Kun luotto erääntyy, saatat väittää, että tällainen usko on epäkohteliasta ja mahdollisesti alhainen. Huomaamme usein olevansa äänekkäästi häiriintynyt, kun luottoa huijataan joltakulta, joka on saavuttanut jotain merkittävää. Uskallan väittää, että suhtaudumme erityisen epäsuotuisasti, kun muut ottavat valheellisesti kunniaa toisten työstä. Se on hämmentävä kaksoisvika. Henkilö, jonka olisi pitänyt saada luotto, evätään hetkensä auringossa. Lisäksi huijarit nauttivat valokeilassa, vaikka he virheellisesti huijaavat meidät kavaltamaan suotuisat kiintymyksemme.

Miksi kaikki tämä keskustelu luottojen keräämisestä oikeimmilla tavoilla ja väärien ja halveksittavien tapojen torjumisesta?

Koska näytämme olevan samanlaisessa ahdingossa, kun kyse on uusimmasta tekoälystä (AI).

Kyllä, väitteet ovat, että tämä tapahtuu todistettavasti eräänlaisen tekoälyn kautta, joka tunnetaan nimellä Generatiivinen AI. On paljon käsityksiä siitä, että Generative AI, tämän päivän uutisten kuumin tekoäly, on jo ottanut kunnian siitä, mistä se ei ansaitse tunnustusta. Ja tämä todennäköisesti pahenee, kun generatiivista tekoälyä laajennetaan ja hyödynnetään yhä enemmän. Yhä enemmän ansioita imeytyy generatiiviseen tekoälyyn, mutta valitettavasti ne, jotka ansaitsevat todellisen kunnian, jäävät pölyyn.

Tarjoamani tapa ilmaista tämä väitetty ilmiö selkeästi on kahdella omituisella sanalla:

1) Plagiointi laajassa mittakaavassa
2) Tekijänoikeusloukkaus laajassa mittakaavassa

Oletan, että saatat olla tietoinen generatiivisesta tekoälystä johtuen laajalti suositusta AI-sovelluksesta, joka tunnetaan nimellä ChatGPT ja jonka OpenAI julkaisi marraskuussa. Kerron pian lisää generatiivisesta tekoälystä ja ChatGPT:stä. Pysy siinä.

Mennään heti sen ytimeen, mikä ikäänkuin saa ihmisten vuohia.

Jotkut ovat kiihkeästi valittaneet siitä, että generatiivinen tekoäly mahdollisesti repii sisältöä luoneet ihmiset. Useimmat generatiiviset tekoälysovellukset ovat dataa, joka on koulutettu tutkimalla Internetistä löytyviä tietoja. Näiden tietojen perusteella algoritmit voivat hioa tekoälysovelluksessa laajaa sisäistä kuvioiden täsmäytysverkkoa, joka voi myöhemmin tuottaa näennäisesti uutta sisältöä, joka näyttää hämmästyttävällä tavalla ihmiskäsin suunnittelemalta automaation sijaan.

Tämä merkittävä saavutus johtuu suurelta osin Internetin kautta skannatun sisällön hyödyntämisestä. Ilman Internet-sisällön määrää ja rikkautta datakoulutuksen lähteenä generatiivinen tekoäly olisi melko tyhjä ja sen käyttö kiinnostaisi vain vähän tai ei ollenkaan. Antamalla tekoälyn tutkia miljoonia ja miljoonia verkkodokumentteja ja -tekstejä sekä kaikenlaista niihin liittyvää sisältöä, kuvioiden yhteensopivuus johdetaan vähitellen ihmisen tuottaman sisällön jäljittelemiseksi.

Mitä enemmän sisältöä tutkitaan, sitä todennäköisempää on, että kuvioiden yhteensopivuus hiotaan ja kehittyy entisestään mimiikassa kaiken muun pysyessä samana.

Tässä on sitten miljoonan dollarin kysymys:

Iso kysymys: Jos sinulla tai muilla on Internetissä sisältöä, johon jokin generatiivinen tekoälysovellus on koulutettu, oletettavasti ilman suoraa lupaasi ja kenties täysin tietämättäsi, pitäisikö sinulla olla oikeus palaan siitä, mitä arvoa syntyy tuo generatiivisen tekoälyn datan koulutus?

Jotkut väittävät kiivaasti, että ainoa oikea vastaus on Kyllä, varsinkin se, että nuo ihmisten sisällöntuottajat todellakin ansaitsevat osallistumisensa toimintaan. Asia on siinä, että sinun olisi vaikea löytää ketään, joka on saanut oman osuutensa, ja mikä vielä pahempaa, melkein kukaan ei ole saanut mitään osuutta. Internet-sisällöntuottajilta, jotka ovat tahtomattaan ja tietämättään osallistuneet, evätään heidän oikeutettujen ansioidensa.

Tätä voidaan luonnehtia hirvittäväksi ja törkeäksi. Kävimme juuri läpi sen viisaan viisauden purkamisen, että luotto tulee antaa siellä, missä luotto on maksettava. Generatiivisen tekoälyn tapauksessa ilmeisesti ei niin. Luottoa koskevaa pitkäaikaista ja hyveellistä peukalosääntöä näyttää rikotun julmasti.

Huh, retortti kuuluu, että liioittelet ja vääristät tilanteen. Tietenkin generatiivinen tekoäly tutki Internetin sisältöä. Toki tästä oli paljon apua osana generatiivisen tekoälyn datakoulutusta. Tosin tämän päivän vaikuttavat luovat tekoälysovellukset eivät olisi yhtä vaikuttavia ilman tätä harkittua lähestymistapaa. Mutta olet mennyt liian pitkälle sanoessasi, että sisällöntuottajille pitäisi antaa minkäänlainen ansio.

Logiikka on seuraava. Ihmiset käyttävät Internetiä ja oppivat asioita Internetistä, tehden sen rutiininomaisesti ja ilman minkäänlaista meteliä sinänsä. Henkilö, joka lukee putkiasioita käsitteleviä blogeja ja katselee sitten vapaasti saatavilla olevia putkitöiden korjausvideoita, saattaa seuraavana päivänä mennä ulos putkimieheksi. Pitääkö heidän antaa osa putkistoihin liittyvistä rahalähetyksistään bloggaajalle, joka kirjoitti pesualtaan putoamisesta? Pitääkö heidän maksaa vloggaajalle, joka teki videon, jossa esitellään vuotavan kylpyammeen korjaamisen vaiheet?

Lähes varmasti ei.

Generatiivisen tekoälyn datakoulutus on vain keino kehittää malleja. Niin kauan kuin generatiivisen tekoälyn tuotokset eivät ole pelkkää tarkasteltavan uudelleenvirtausta, voit vakuuttavasti väittää, että ne ovat "oppineet" ja siksi niille ei myönnetä erityistä hyvitystä millekään tietylle lähteelle. Ellei generatiivista tekoälyä saa kiinni suorittamasta tarkkaa regurgitaatiota, merkit viittaavat siihen, että tekoäly on yleistynyt minkään tietyn lähteen ulkopuolelle.

Luotto ei kuulu kenellekään. Tai voisi olettaa, että kunnia kuuluu kaikille. Internetistä löytyvä kollektiivinen teksti ja muu ihmiskunnan sisältö saa kunniaa. Me kaikki saamme kunnian. On järjetöntä yrittää paikantaa luottoa tietystä lähteestä. Ole iloinen siitä, että tekoälyä kehitetään ja että ihmiskunta hyötyy kaikesta. Näiden Internetissä olevien viestien pitäisi tuntea olevansa kunnia, että ne vaikuttivat tekoälyn tulevaisuuteen ja siihen, kuinka tämä auttaa ihmiskuntaa ikuisesti.

Minulla on enemmän sanottavaa molemmista vastakkaisista näkemyksistä.

Nojaudutko siihen leiriin, joka sanoo, että luotto on erääntynyt ja myöhässä niille, joilla on verkkosivustoja Internetissä, vai huomaatko, että vastakkainen puoli, joka sanoo, että Internet-sisällöntuottajat ovat ehdottomasti emme onko repeytyminen vakuuttavampi asento?

Arvoitus ja arvoitus juuttuneet yhteen.

Pura tämä.

Tämän päivän kolumnissa käsittelen näitä ilmaistuja huolia siitä, että generatiivinen tekoäly pohjimmiltaan plagioi tai mahdollisesti loukkaa Internetiin lähetetyn sisällön tekijänoikeuksia (jota pidetään immateriaalioikeus- tai IP-ongelmana). Tarkastellaan näiden epäilyjen perusteita. Viittaan silloin tällöin ChatGPT:hen tämän keskustelun aikana, koska se on generatiivisen tekoälyn 600 punnan gorilla, mutta muista, että on olemassa paljon muita generatiivisia tekoälysovelluksia ja ne perustuvat yleensä samoihin yleisperiaatteisiin.

Sillä välin saatat ihmetellä, mitä generatiivinen tekoäly itse asiassa on.

Käydään ensin läpi generatiivisen tekoälyn perusteet ja sitten tarkastellaan tarkasti käsillä olevaa kiireellistä asiaa.

Kaikkeen tähän liittyy joukko tekoälyn etiikkaa ja tekoälylakia koskevia näkökohtia.

Huomaa, että eettisiä tekoälyperiaatteita yritetään sisällyttää tekoälysovellusten kehittämiseen ja käyttöön. Kasvava joukko huolestuneita ja entisiä tekoälyeettikkoja yrittää varmistaa, että tekoälyn suunnittelussa ja käyttöönotossa otetaan huomioon näkemys AI Hyvä ja estämään AI huono. Samoin on ehdotettu uusia tekoälylakeja, joita kehutaan mahdollisina ratkaisuina, joilla estetään tekoälypyrkimykset pääsemästä ihmisoikeuksiin ja vastaaviin. Katso jatkuvasta ja kattavasta tekoälyn etiikkaa ja tekoälylakia käsittelevästä kattauksestani linkki tähän ja linkki tähän, vain muutamia mainitakseni.

Eettisten tekoälyohjeiden kehittämistä ja levittämistä pyritään toivottavasti estämään yhteiskuntaa joutumasta lukemattomiin tekoälyä aiheuttaviin ansoihin. Lähes 200 maan Unescon ponnistelujen kautta suunnittelemista ja tukemista YK:n tekoälyn eettisistä periaatteista löytyy osoitteesta. linkki tähän. Samaan tapaan uusia tekoälylakeja tutkitaan, jotta tekoäly pysyy tasaisena. Yksi viimeisimmistä siirroista koostuu joukosta ehdotettuja AI Bill of Rights jonka Yhdysvaltain Valkoinen talo julkaisi hiljattain tunnistaakseen ihmisoikeudet tekoälyn aikakaudella, ks linkki tähän. Tarvitaan kylä, jotta tekoäly ja tekoälykehittäjät pysyvät oikeutetulla tiellä ja estetään tarkoitukselliset tai vahingossa tehdyt alitajuiset toimet, jotka saattavat heikentää yhteiskuntaa.

Liitän tähän keskusteluun tekoälyn etiikkaa ja tekoälylakia koskevia näkökohtia.

Generatiivisen tekoälyn perusteet

Tunnetuin esimerkki generatiivisesta tekoälystä on ChatGPT-niminen AI-sovellus. ChatGPT nousi yleiseen tietoisuuteen jo marraskuussa, kun tekoälytutkimusyritys OpenAI julkaisi sen. Siitä lähtien, kun ChatGPT on kerännyt suuria otsikoita ja ylittänyt hämmästyttävästi sille varatun XNUMX minuutin mainetta.

Oletan, että olet luultavasti kuullut ChatGPT:stä tai ehkä jopa tiedät jonkun, joka on käyttänyt sitä.

ChatGPT:tä pidetään generatiivisena tekoälysovelluksena, koska se ottaa syötteenä tekstiä käyttäjältä ja sitten synnyttää tai tuottaa tulosteen, joka koostuu esseestä. Tekoäly on tekstistä tekstiksi -generaattori, vaikka kuvailen tekoälyä tekstistä tekstiksi -generaattoriksi, koska se selventää helpommin, mihin sitä yleensä käytetään. Voit käyttää generatiivista tekoälyä säveltämään pitkiä sävellyksiä tai voit saada sen tarjoamaan melko lyhyitä ytimekkäitä kommentteja. Kaikki riippuu tarjouksestasi.

Sinun tarvitsee vain kirjoittaa kehote, ja AI-sovellus luo sinulle esseen, joka yrittää vastata kehotteeseen. Sävellysteksti näyttää siltä kuin essee olisi ihmiskäsi ja mieli kirjoittanut. Jos syötät kehotteen, jossa lukee "Kerro minulle Abraham Lincolnista", generatiivinen tekoäly tarjoaa sinulle esseen Lincolnista. On olemassa muitakin generatiivisen tekoälyn muotoja, kuten tekstistä taiteeksi ja tekstistä videoksi. Keskityn tässä tekstistä tekstiksi -muunnelmaan.

Ensimmäinen ajatuksesi saattaa olla, että tämä luomiskyky ei vaikuta niin suurelta asialta esseiden tuottamisessa. Voit helposti tehdä online-haun Internetistä ja löytää helposti tonnia ja tonnia esseitä presidentti Lincolnista. Generatiivisen tekoälyn tapauksessa kicker on se, että luotu essee on suhteellisen ainutlaatuinen ja tarjoaa alkuperäisen sävellyksen kopioiden sijaan. Jos yrittäisit löytää tekoälyn tuottaman esseen jostain verkosta, et todennäköisesti löytäisi sitä.

Generatiivinen tekoäly on esikoulutettu ja käyttää monimutkaista matemaattista ja laskennallista muotoilua, joka on luotu tutkimalla kirjoitettujen sanojen ja tarinoiden malleja verkossa. Tutkittuaan tuhansia ja miljoonia kirjoitettuja kohtia tekoäly voi sylkeä esiin uusia esseitä ja tarinoita, jotka ovat löytöjä. Lisäämällä erilaisia todennäköisyysfunktioita, tuloksena oleva teksti on melko ainutlaatuinen verrattuna siihen, mitä harjoitussarjassa on käytetty.

Generatiiviseen tekoälyyn liittyy lukuisia huolenaiheita.

Yksi ratkaiseva haittapuoli on, että generatiivisen tekoälysovelluksen tuottamissa esseissä voi olla upotettuja erilaisia valheita, mukaan lukien ilmeisen vääriä tosiasioita, harhaanjohtavasti esitettyjä tosiasioita ja näennäisiä faktoja, jotka on täysin keksitty. Näitä keksittyjä näkökohtia kutsutaan usein muodoksi AI hallusinaatiot, tunnuslause, jota en pidä, mutta valitettavasti näyttää joka tapauksessa saavan suosiota (yksityiskohtainen selitys siitä, miksi tämä on surkea ja sopimaton terminologia, on artikkelissani osoitteessa linkki tähän).

Toinen huolenaihe on, että ihmiset voivat helposti ottaa kunniaa generatiivisen tekoälyn tuottamasta esseestä, vaikka he eivät ole itse kirjoittaneet esseen. Olet ehkä kuullut, että opettajat ja koulut ovat melko huolissaan generatiivisten tekoälysovellusten ilmestymisestä. Opiskelijat voivat mahdollisesti käyttää generatiivista tekoälyä kirjoittaessaan heille osoitettuja esseitä. Jos opiskelija väittää, että essee on kirjoittanut hänen omalla kädellänsä, on vain vähän mahdollisuuksia, että opettaja pystyisi erottamaan, onko se sen sijaan luotu tekoälyllä. Katso analyysini tästä opiskelijaa ja opettajaa hämmentävästä sisällöstäni osoitteessa linkki tähän ja linkki tähän.

Sosiaalisessa mediassa on ollut joitain hulluja väitteitä Generatiivinen AI väittää, että tämä uusin tekoälyversio on itse asiassa tunteva AI (ei, he ovat väärässä!). Tekoälyn etiikkaan ja tekoälylakiin kuuluvat ovat erityisen huolissaan tästä laajojen väitteiden kasvavasta trendistä. Voit kohteliaasti sanoa, että jotkut ihmiset liioittelevat sitä, mitä nykypäivän tekoäly voi todella tehdä. He olettavat, että tekoälyllä on ominaisuuksia, joita emme ole vielä pystyneet saavuttamaan. Se on valitettavaa. Vielä pahempaa on, että he voivat antaa itsensä ja muiden joutua vakaviin tilanteisiin, koska oletetaan, että tekoäly on tunnollinen tai ihmisen kaltainen pystyessään toimimaan.

Älä antropomorfoi tekoälyä.

Jos teet niin, joudut takertumaan tahmeaan ja ankaraan riippuvuusansaan, jossa odotat tekoälyn tekevän asioita, joita se ei pysty suorittamaan. Tästä huolimatta uusin generatiivisen tekoälyn tekniikka on suhteellisen vaikuttava siihen nähden, mitä se voi tehdä. Muista kuitenkin, että on olemassa merkittäviä rajoituksia, jotka sinun tulee jatkuvasti pitää mielessä, kun käytät mitä tahansa generatiivista tekoälysovellusta.

Viimeinen ennakkovaroitus toistaiseksi.

Mitä tahansa näet tai luet generatiivisessa AI-vastauksessa näyttää Jos se ilmaistaan puhtaasti tosiasioihin perustuvana (päivämäärät, paikat, ihmiset jne.), pysy skeptisenä ja ole valmis tarkistamaan näkemäsi.

Kyllä, päivämääriä voidaan sopia, paikkoja voidaan keksiä ja elementtejä, joiden odotamme olevan moitteettomia, ovat kaikki alttiina epäilyille. Älä usko lukemaasi ja pidä skeptinen silmäsi tutkiessasi generatiivisia tekoälyn esseitä tai tuloksia. Jos generatiivinen tekoälysovellus kertoo, että Abraham Lincoln lensi ympäri maata yksityiskoneella, tietäisit epäilemättä, että tämä on malarkia. Valitettavasti jotkut ihmiset eivät ehkä ymmärrä, että suihkukoneita ei ollut hänen aikanaan, tai he saattavat tietää, mutta eivät huomaa, että essee esittää tämän röyhkeän ja törkeän väärän väitteen.

Vahva annos tervettä skeptisyyttä ja jatkuva epäuskoinen ajattelutapa ovat paras voimavarasi käyttäessäsi generatiivista tekoälyä.

Olemme valmiita siirtymään tämän selvityksen seuraavaan vaiheeseen.

Internet ja generatiivinen tekoäly ovat tässä yhdessä

Nyt kun tiedät, mitä generatiivinen tekoäly on, voimme tutkia kiusallista kysymystä siitä, onko generatiivinen tekoäly "vipuvaikuttava" melko vai epäoikeudenmukaisesti, tai jotkut sanoisivat. räikeästi hyödyntäminen Internetin sisältöä.

Tässä on neljä tärkeää aihettani, jotka liittyvät tähän asiaan:

1) Double Trouble: Plagiointi ja tekijänoikeusrikkomus
2) Yritetään todistaa plagiointi tai tekijänoikeusloukkaus
3) Plagioinnin tai tekijänoikeusloukkauksen perusteleminen
4) Lailliset maamiinat odottavat

Käsittelen jokaista näistä tärkeistä aiheista ja annan oivaltavia pohdintoja, joita meidän kaikkien tulisi harkita tietoisesti. Jokainen näistä aiheista on olennainen osa suurempaa palapeliä. Et voi katsoa vain yhtä palaa. Et myöskään voi katsoa yhtäkään kappaletta erillään muista kappaleista.

Tämä on monimutkainen mosaiikki, ja koko palapeliä on harkittava asianmukaisesti harmonisesti.

Double Trouble: Plagiointi ja tekijänoikeusrikkomus

Generatiivista tekoälyä valmistavien ja harjoittavien kaksinkertainen ongelma on se, että heidän tavaransa voivat tehdä kaksi pahaa asiaa:

1) Plagiointi. Generatiivinen tekoäly voitaisiin tulkita näin plagiointi Internetissä oleva sisältö tekoälyn datakoulutuksen aikana tehdyn Internet-skannauksen mukaan.
2) Tekijänoikeusloukkaus. Generatiivista tekoälyä voidaan pitää yrityksenä tekijänoikeusrikkomus liittyvät tietokoulutuksen aikana skannattuun Internet-sisältöön.

Selvennykseksi todettakoon, että Internetissä on paljon enemmän sisältöä kuin todellisuudessa tyypillisesti skannataan generatiivisen tekoälyn datakoulutukseen. Internetistä käytetään yleensä vain pieni osa. Voimme siis olettaa, että sisällöllä, jota ei ole skannattu datakoulutuksen aikana, ei ole mitään erityistä luontaista tekoälyä.

Tämä on kuitenkin hieman kyseenalaista, koska voit mahdollisesti vetää rajan, joka yhdistää muun skannatun sisällön sisältöön, jota ei tarkistettu. Toinen tärkeä ehto on myös se, että vaikka olisi sisältöä, jota ei ole skannattu, sen voidaan silti väittää olevan plagioitu ja/tai tekijänoikeuksia loukattu, jos generatiivisen tekoälyn tulokset mahdollisesti osuvat samaan sanamuotoon. Minun pointtini on, että tässä kaikessa on paljon hölynpölyä.

Bottom line: Generatiivinen tekoäly on täynnä mahdollisia tekoälyn eettisiä ja tekoälylakeja koskevia oikeudellisia pulmia plagioinnin ja tekijänoikeusrikkomusten suhteen vallitsevien tietojen koulutuskäytäntöjen perustana.

Toistaiseksi tekoälyn valmistajat ja AI-tutkijat ovat luisteleneet tämän läpi melko lailla, huolimatta heidän yläpuolellaan roikkuvasta ja uhkaavasta miekkasta. Näitä käytäntöjä vastaan on toistaiseksi käynnistetty vain muutama oikeusjuttu. Olet ehkä kuullut tai nähnyt uutisia tällaisista oikeustoimista. Esimerkiksi Midjourneyn ja Stability AI:n tekstistä kuvaksi muuttavat yritykset loukkaavat Internetiin lähetettyä taiteellista sisältöä. Toinen koskee GitHubia, Microsoftia ja OpenAI:ta vastaan teksti-koodin rikkomista, koska Copilot-ohjelmisto tuottaa tekoälysovelluksia. Getty Images on myös pyrkinyt seuraamaan Stability AI:tä tekstistä kuvaksi -rikkomusten vuoksi.

Voit ennakoida, että tällaisia kanteita nostetaan lisää.

Juuri nyt on vähän todennäköistä käynnistää nuo oikeusjutut, koska lopputulos on suhteellisen tuntematon. Asetuuko tuomioistuin tekoälyn tekijöiden puolelle vai ovatko voittajia ne, jotka uskovat, että heidän sisältöään on käytetty väärin? Kallis oikeudellinen taistelu on aina vakava asia. Laajojen oikeudenkäyntikulujen kuluttamista on punnittava voitto- tai tappiomahdollisuuksiin nähden.

Tekoälyn tekijöillä ei näyttäisi olevan melkein muuta vaihtoehtoa kuin taistella. Jos he antautuisivat, edes vähän, on todennäköistä, että seurauksena olisi ylimääräisten oikeusjuttujen tulva (olennaisesti avaamalla oven lisääntyneille mahdollisuuksille myös muiden voittaa). Kun vedessä on laillista verta, jäljelle jääneet lailliset hait ryntäsivät katsottuun "helppopisteeseen", ja lyövä ja raivostuttava rahallinen verilöyly tapahtuu varmasti.

Jotkut uskovat, että meidän pitäisi hyväksyä uusia tekoälylakeja, jotka suojelisivat tekoälyn tekijöitä. Suoja voi olla jopa takautuva. Tämä perustuu siihen, että jos haluamme nähdä generatiivisia tekoälyn kehitystä, meidän on annettava tekoälyn tekijöille turvallinen vyöhyke. Kun oikeusjutut alkavat saada voittoja tekoälyn tekijöitä vastaan, jos niin tapahtuu (emme tiedä vielä), huolenaihe on, että generatiivinen tekoäly haihtuu, koska kukaan ei ole halukas tukemaan tekoälyyrityksiä.

Kuten tohtori Ilia Kolochenkon ja Gordon Plattin äskettäisessä Bloomberg Law -julkaisussa "ChatGPT: IP, Cybersecurity & Other Legal Risks of Generative AI" todettiin, tässä on kaksi tärkeää otetta, jotka toistavat näitä näkökantoja:

"Yhdysvaltalaisten oikeustieteilijöiden ja immateriaalioikeuden professorien keskuudessa käydään nyt kiivasta keskustelua siitä, onko tekijänoikeudella suojatun tiedon luvaton kaapiminen ja myöhempi käyttö tekijänoikeusrikkomusta. Jos lakimiesten, jotka näkevät tekijänoikeusrikkomuksia tällaisessa käytännössä, näkemys vallitsee, tällaisten tekoälyjärjestelmien käyttäjät voivat myös olla vastuussa toissijaisista loukkauksista ja mahdollisesti oikeudellisia seurauksia."
"Jotta haasteeseen voidaan vastata kokonaisvaltaisesti, lainsäätäjien tulisi harkita nykyisen tekijänoikeuslainsäädännön nykyaikaistamisen lisäksi myös tekoälykohtaisten lakien ja määräysten täytäntöönpanoa."

Muista, että yhteiskunnana otimme käyttöön oikeudellisen suojan laajeneminen Internetistä, kuten Korkein oikeus on nyt todistanut, kun se tarkastelee kuuluisaa tai surullisen kuuluisaa pykälää 230. Näin ollen näyttää järkevältä ja ennakkotapaukselta, että saatamme olla valmiita tekemään joitain vastaavia suojatoimia generatiivisen tekoälyn edistämiseksi. Ehkä suojaukset voitaisiin ottaa käyttöön väliaikaisesti, ja ne päättyvät sen jälkeen, kun generatiivinen tekoäly on saavuttanut jonkin ennalta määrätyn taitotason. Muita suojatoimenpiteitä voitaisiin laatia.

Julkaisen pian analyysini siitä, kuinka korkeimman oikeuden arvio ja lopullinen päätös pykälästä 230 voivat vaikuttaa generatiivisen tekoälyn tuloon. Ole tarkkana tulevaa julkaisua varten!

Takaisin jyrkästi ilmaistuun mielipiteeseen, jonka mukaan meidän pitäisi antaa liikkumavaraa yhteiskunnallisesti kunnioitusta herättävälle teknologiselle innovaatiolle, joka tunnetaan nimellä generative AI. Jotkut sanoisivat, että vaikka väitetty tekijänoikeusloukkaus on tai tapahtuu, yhteiskunnan kokonaisuutena pitäisi olla valmis sallimaan tämä generatiivisen tekoälyn edistämiseksi.

Toivotaan, että uudet tekoälylainsäädäntö laaditaan huolellisesti ja mukautetaan generatiivisen tekoälyn datakoulutukseen liittyviin yksityiskohtiin.

Tälle ajatukselle luoda uusia tekoälylakeja tätä tarkoitusta varten on paljon vasta-argumentteja. Yksi huolenaihe on, että jokainen tällainen uusi tekoälylaki avaa tulvaportit kaikenlaisille tekijänoikeusrikkomuksille. Surumme sitä päivää, kun annoimme tällaisten uusien tekoälylakien laskeutua kirjoihin. Huolimatta siitä, kuinka kovasti yrität rajoittaa tämän vain tekoälyn datakoulutukseen, muut löytävät lujasti tai taitavasti porsaanreikiä, jotka johtavat esteettömään ja rehottavaan tekijänoikeusrikkomukseen.

Väitteet kulkevat ympäri ja ympäri.

Yksi argumentti, joka ei erityisen pidä vettä, liittyy yrittämiseen haastaa tekoäly itse oikeuteen. Huomaa, että olen viitannut tekoälyn tekijään tai tekoälytutkijoihin syyllisinä sidosryhminä. Nämä ovat ihmisiä ja yrityksiä. Jotkut ehdottavat, että meidän pitäisi kohdistaa tekoäly osapuolena, joka haastaa oikeuteen. Olen puhunut kolumnissani pitkään siitä, että emme vielä liitä tekoälylle oikeushenkilöllisyyttä, ks linkki tähän esimerkiksi, ja siten sellaisia tekoälyyn kohdistettuja oikeusjuttuja sinänsä pidettäisiin järjettöminä juuri nyt.

Lisäyksenä kysymykseen siitä, ketä tai mitä pitäisi haastaa oikeuteen, tämä tuo esiin toisen mehukkaan aiheen.

Oletetaan, että tietyn generatiivisen tekoälysovelluksen on kehittänyt jokin AI-valmistaja, jota kutsumme Widget Companyksi. Widget Company on kooltaan suhteellisen pieni, eikä sillä ole paljon tuloja eikä varoja. Heidän haastamisensa oikeuteen ei todennäköisesti kerää niitä suuria rikkauksia, joita joku saattaa hakea. Korkeintaan saisit vain oikaista sen, mitä pidät vääränä.

Haluat mennä ison kalan perään.

Näin se syntyy. Tekoälyvalmistaja päättää tarjota generatiivisen tekoälynsä Big Time Companyn käyttöön, joka on suuri monialayhtiö, jolla on tonnia taikinaa ja tonneittain omaisuutta. Widget Companyn nimeämisessä oikeusjutussa olisi nyt parempi kohde näkyvissä, nimittäin myös nimeämällä Big Time Company. Tämä on Daavidin ja Goljatin taistelu, josta lakimiehet nauttisivat. Tietenkin Big Time Company yrittää epäilemättä heilua pois koukusta. Voivatko he tehdä niin, on jälleen kerran oikeudellinen kysymys, joka on epävarma, ja he voivat juuttua toivottomasti sotaan.

Ennen kuin pääsemme tästä paljon pidemmälle, haluaisin saada pöydälle jotain ratkaisevaa datakoulutuksen aiheuttamasta generatiivisen tekoälyn väitetystä tunkeutumisesta. Olen varma, että ymmärrät intuitiivisesti, että plagiointi ja tekijänoikeusloukkaukset ovat kaksi hieman erilaista petoa. Niillä on paljon yhteistä, vaikka ne myös eroavat huomattavasti.

Tässä on kätevästi ytimekäs kuvaus Duke Universitystä, joka selittää nämä kaksi:

”Plagiointi määritellään parhaiten toisen henkilön työn tunnustamattomaksi käytöksi. Se on eettinen kysymys, joka koskee luottovaatimusta työstä, jota hakija ei ole luonut. Toisen teoksen voi plagioida riippumatta teoksen tekijänoikeustilanteesta. On kuitenkin plagiointia, jos kopioit kirjasta tai artikkelista, joka on liian vanha ollakseen edelleen tekijänoikeuden alainen. Tuntemattomasta lähteestä otettujen tietojen käyttäminen on myös plagiointia, vaikka faktamateriaali, kuten tiedot, ei ehkä ole tekijänoikeudella suojattua. Plagiointi on kuitenkin helposti parannettavissa – oikea maininta materiaalin alkuperäiseen lähteeseen.”
”Tekijänoikeusloukkaus taas on toisen teoksen luvatonta käyttöä. Tämä on oikeudellinen kysymys, joka riippuu siitä, onko teos ensinnäkin suojattu tekijänoikeudella, sekä erityispiirteistä, kuten käytön määrä ja käyttötarkoitus. Jos suojatusta teoksesta kopioidaan liikaa tai kopioidaan luvattomaan tarkoitukseen, pelkkä alkuperäisen lähteen tunnustaminen ei ratkaise ongelmaa. Vain pyytämällä ennakkolupa tekijänoikeuksien haltijalta vältetään rikkomusmaksun riski."

Korostan näiden kahden huolenaiheen tärkeyttä, jotta ymmärrät, että korjaustoimenpiteet voivat vaihdella vastaavasti. Lisäksi ne molemmat kietoutuvat tekoälyn etiikkaan ja tekoälylakiin, joten niitä kannattaa tutkia.

Tutkitaan väitettyä korjaustoimenpidettä tai ratkaisua. Huomaat, että se saattaa auttaa toista kaksinkertaista ongelmaa, mutta ei toista.

Jotkut ovat vaatineet, että tekoälyn tekijöiden tarvitsee vain mainita lähteensä. Kun generatiivinen tekoäly tuottaa esseen, sisällytä vain erityiset lainaukset esseessä sanotuista asioista. Anna erilaisia URL-osoitteita ja muita viitteitä siitä, mitä Internet-sisältöä on käytetty. Tämä näyttäisi vapauttavan heidät plagiointia koskevista epäluuloista. Esitetyssä esseessä oletettavasti tunnistettaisiin selvästi, mitä lähteitä tuotettu sanamuoto on käytetty.

Väitetyssä ratkaisussa on joitain satuja, mutta 30,000 XNUMX jalan tasolla oletetaan, että se toimii puoliksi tyydyttävänä parannuskeinona plagiointiongelmaan. Kuten edellä tekijänoikeusloukkauksen selityksessä todettiin, lähdemateriaalin viittaus ei välttämättä saa sinua ulos koirankodista. Olettaen, että sisältö on tekijänoikeudella suojattua, ja riippuen muista tekijöistä, kuten kuinka paljon materiaalia on käytetty, tekijänoikeusloukkauksen odottava miekka voi heilahtaa alas jyrkästi ja lopullisesti.

Kaksinkertainen ongelma on avainsana tässä.

Yritetään todistaa plagiointi tai tekijänoikeusloukkaus

Todista se!

Tämä on kulunut refrain, jonka olemme kaikki kuulleet eri aikoina elämässämme.

Tiedät kuinka se menee. Saatat väittää, että jotain on tapahtumassa tai on tapahtunut. Saatat tietää sydämessäsi, että tämä on tapahtunut. Mutta kun se tulee push-versus-shove, sinulla on oltava todiste.

Tämän päivän kielellä sinun on näytettävä tulot, Kuten he sanovat.

Kysymykseni sinulle on tämä: Kuinka aiomme todistetusti todistaa, että generatiivinen tekoäly on käyttänyt Internetin sisältöä väärin?

Oletetaan, että vastauksen pitäisi olla helppo. Pyydät tai käsket generatiivista tekoälyä tuottamaan tulostettu essee. Sitten otat esseen ja vertaat sitä Internetistä löytyvään. Jos löydät esseen, bam, generatiivinen tekoäly on naulattu sananlaskun seinään.

Elämä ei näytä koskaan olevan näin helppoa.

Kuvittele, että saamme generatiivisen tekoälyn tuottamaan noin 100 sanaa sisältävän esseen. Kierrämme ympäriinsä ja yritämme tavoittaa kaikki Internetin kolkat ja kulmat etsimällä näitä 100 sanaa. Jos löydämme 100 sanaa, jotka on esitetty täsmälleen samassa järjestyksessä ja samalla tavalla, näytämme saaneen itsemme kuumana sanan.

Oletetaan kuitenkin, että löydämme Internetistä näennäisesti "vertailukelpoisen" esseen, vaikka se vastaa vain 80 sanaa 100 sanasta. Tämä tuntuu vielä riittävältä, ehkä. Mutta kuvittele, että löydämme vain esimerkin 10 sanasta 100 vastaavasta sanasta. Riittääkö se väittämään, että plagiointia tai tekijänoikeusrikkomuksia on tapahtunut?

Harmaa on olemassa.

Teksti on siinä mielessä hauska.

Vertaa tätä tekstistä kuvaksi tai tekstistä taiteeksi -olosuhteisiin. Kun generatiivinen tekoäly tarjoaa tekstistä kuvaksi tai tekstistä taiteeksi -ominaisuuden, annat tekstikehotteen ja tekoälysovellus tuottaa kuvan antamasi kehotteen perusteella. Kuva saattaa olla erilainen kuin mikään kuva, jota on koskaan nähty tällä tai millään muulla planeetalla.

Toisaalta kuva saattaa muistuttaa muita olemassa olevia kuvia. Voimme katsoa generatiivista tekoälyn tuottamaa kuvaa ja jossain määrin vaistonvaraisesti sanoa, että se näyttää varmasti joltain toiselta aiemmin näkemältämme kuvalta. Yleensä, visuaalinen Vertailun ja kontrastin näkökohdat on helpompi toteuttaa. Muista kuitenkin, että valtavat oikeudelliset keskustelut varmistavat, mikä on yhden kuvan päällekkäisyyttä tai kopiota toisesta.

Toinen samanlainen tilanne on musiikin kanssa. On olemassa generatiivisia tekoälysovelluksia, joiden avulla voit kirjoittaa tekstikehotteen, ja tekoälyn tuottama tulos on äänimusiikkia. Nämä tekstistä ääneksi tai tekstistä musiikiksi AI-ominaisuudet ovat vasta alkamassa ilmaantua. Yksi asia, johon voit lyödä vetoa, on se, että generatiivisen tekoälyn tuottamaa musiikkia tutkitaan tarkasti rikkomusten varalta. Näytämme tietävän, kun kuulemme musiikillisen loukkauksen, vaikka tämä taas on monimutkainen oikeudellinen ongelma, joka ei perustu pelkästään siihen, miten me ajattelemme havaitusta replikaatiosta.

Sallikaa minun vielä yksi esimerkki.

Tekstistä koodiksi generatiivinen tekoäly antaa sinulle mahdollisuuden kirjoittaa tekstikehote, ja tekoäly tuottaa ohjelmointikoodin puolestasi. Voit sitten käyttää tätä koodia tietokoneohjelman valmisteluun. Voit käyttää koodia täsmälleen sellaisena kuin se on luotu, tai voit muokata ja muokata koodia tarpeidesi mukaan. On myös varmistettava, että koodi on osuva ja toimiva, koska on mahdollista, että luodussa koodissa voi syntyä virheitä ja vääriä tietoja.

Ensimmäinen oletuksesi saattaa olla, että ohjelmointikoodi ei eroa tekstistä. Se on vain tekstiä. Toki se on teksti, jolla on tietty tarkoitus, mutta se on silti tekstiä.

No ei aivan. Useimmilla ohjelmointikielillä on tiukka muoto ja rakenne kyseisen kielen koodauslausekkeiden luonteen mukaan. Tämä on tietyssä mielessä paljon kapeampi kuin vapaasti virtaava luonnollinen kieli. Olet jokseenkin ymmälläsi siitä, miten koodauslausekkeet muotoillaan. Samoin järjestys ja tapa, jolla lauseita käytetään ja ryhmitellään, on jossain määrin laatikoitu.

Kaiken kaikkiaan mahdollisuus osoittaa, että ohjelmointikoodia on plagioitu tai rikottu, on melkein helpompi kuin luonnollinen kieli. Näin ollen, kun generatiivinen tekoäly menee skannaamaan ohjelmointikoodia Internetissä ja myöhemmin luo ohjelmointikoodia, mahdollisuudet väittää, että koodi oli räikeästi kopioitu, ovat suhteellisen vakuuttavammat. Ei slam dunk, joten odota katkeraa taistelua tästä.

Pääasia on, että meillä on samat tekoälyn etiikkaan ja tekoälylakiin liittyvät ongelmat, jotka kohtaavat kaikki generatiivisen tekoälyn muodot.

Plagiointi ja tekijänoikeusrikkomukset aiheuttavat ongelmia:

Tekstistä tekstiksi tai tekstistä esseeksi
Tekstistä kuvaksi tai tekstistä taiteeksi
Tekstistä ääneksi tai tekstistä musiikiksi
Tekstistä videoksi
Tekstistä koodiksi
Jne.

Heitä kaikkia koskee samat huolenaiheet. Jotkut saattavat olla hieman helpompi "todistaa" kuin toiset. Kaikilla heillä on omia painajaisiaan tekoälyn etiikkaan ja tekoälylakiin.

Esitetään plagiointi tai tekijänoikeusloukkaus

Keskustelutarkoituksiin keskitytään tekstistä tekstiksi tai tekstistä esseeksi generatiiviseen tekoälyyn. Teen sen osittain ChatGPT:n valtavan suosion vuoksi. Se on tekstistä tekstiksi -tyyppinen generatiivisen tekoälyn tyyppi. Monet ihmiset käyttävät ChatGPT:tä, samoin kuin monet muut, jotka käyttävät erilaisia samankaltaisia tekstistä tekstiin luovia tekoälysovelluksia.

Tietävätkö ne ihmiset, jotka käyttävät generatiivisia tekoälysovelluksia, että he mahdollisesti luottavat plagiointiin tai tekijänoikeusrikkomuksiin?

Vaikuttaa epäilyttävältä, että he tekevät.

Uskaltaisin väittää, että vallitsevana oletuksena on, että jos generatiivinen tekoälysovellus on käytettävissä, tekoälyn valmistajan tai tekoälyn kehittäneen yrityksen tulee tietää tai olla varma, ettei heidän käyttöön tarjoamissaan tuotteissa ole mitään epämiellyttävää. Jos voit käyttää sitä, sen on oltava laivan yläpuolella.

Tarkastellaanpa uudelleen aikaisempaa kommenttiani siitä, kuinka aiomme yrittää todistaa, että tietty generatiivinen tekoäly toimii väärin perustein tietojen harjoittamisen suhteen.

Voisin myös lisätä, että jos saamme kiinni yhden generatiivisen tekoälyn tekemästä niin, mahdollisuudet nappaamaan muut todennäköisesti paranevat. En väitä, että kaikki generatiiviset tekoälysovellukset olisivat samassa veneessä. Mutta he löytävät itsensä melko ankarilta meriltä, kun yksi heistä on kiinnitetty seinään.

Siksi myös olemassa olevia oikeudenkäyntejä kannattaa pitää silmällä. Ensimmäinen, joka voittaa väitetyn loukkauksen, jos näin tapahtuu, saattaa aiheuttaa tuhoa ja synkkyyttä muille generatiivisille tekoälysovelluksille, ellei jokin ahdas vältä käsillä olevia laajempia ongelmia. Ne, jotka häviävät väitetyn loukkauksen suhteen, eivät välttämättä tarkoita, että generatiiviset tekoälysovellukset voivat soittaa kelloja ja juhlia. Voi olla, että menetys johtuu muista tekijöistä, jotka eivät ole yhtä tärkeitä muille generatiivisille tekoälysovelluksille ja niin edelleen.

Olin maininnut, että jos otamme 100-sanaisen esseen ja yritämme löytää ne tarkat sanat täsmälleen samassa järjestyksessä Internetistä, meillä voi olla suhteellisen vankka syy plagiointiin tai tekijänoikeusrikkomuksiin, kun kaikki muu on sama. Mutta jos osuvien sanojen määrä on pieni, näyttäisimme olevan ohuella jäällä.

Haluaisin kaivaa siihen syvemmälle.

Ilmeinen näkökohta vertailun tekemisessä koostuu täsmälleen samoista sanoista täsmälleen samassa järjestyksessä. Tämä voi tapahtua kokonaisille kohdille. Tämä olisi kätevä havaita, melkein kuin se annettaisiin meille hopealautasella.

Saatamme myös olla epäilyttäviä, jos vain sananpätkä osuu yhteen. Ajatuksena olisi nähdä, ovatko ne tärkeitä sanoja tai kenties täytesanoja, jotka voimme helposti poistaa tai jättää huomiotta. Emme myöskään halua joutua huijatuksi sanojen käyttämisessä menneisyydessä tai tulevassa aikamuodossa tai muulla hölynpölyllä. Myös näitä sanojen muunnelmia tulee harkita.

Toinen vertailutaso olisi silloin, kun sanat eivät ole suurelta osin samoja sanoja, vaikka sanat vaihtelevissakin olomuodoissa näyttävät silti tekevän samoja asioita. Esimerkiksi tiivistelmässä käytetään usein melko samanlaisia sanoja alkuperäislähteenä, mutta voimme havaita, että tiivistelmä näyttää perustuvan alkuperäiseen lähteeseen.

Vaikein vertailutaso perustuisi käsitteisiin tai ideoihin. Oletetaan, että näemme vertailupohjana esseen, jossa ei ole samoja tai samankaltaisia sanoja, mutta olemus tai ideat ovat samat. Olemme kieltämättä ajamassa karkealle alueelle. Jos sanoisimme helposti, että ideat ovat tiukasti suojattuja, laittaisimme kannen lähes kaikkiin tiedon ja tiedon laajentamisen muotoihin.

Voimme jälleen viitata Duke Universityn kätevään selitykseen:

”Tekijänoikeus ei suojaa ideoita, vain idean tiettyä ilmaisua. Esimerkiksi tuomioistuin päätti, että Dan Brown ei kirjoittaessaan loukannut aikaisemman kirjan tekijänoikeuksia Da Vinci-koodi koska hän lainasi aikaisemmasta teoksesta vain perusideoita, ei juonen tai dialogin yksityiskohtia. Koska tekijänoikeuden tarkoituksena on kannustaa luovaan tuotantoon, jonkun toisen ideoiden käyttäminen uuden ja omaperäisen teoksen tekemiseen tukee tekijänoikeuden tarkoitusta, se ei riko sitä. Ainoastaan, jos joku kopioi toisen ilmaisun ilman lupaa, on tekijänoikeusloukkaus."
”Plagioinnin välttämiseksi on toisaalta tunnustettava myös toiselta lainattujen ajatusten lähde, riippumatta siitä, onko idean ilmaisu lainattu heidän kanssaan. Näin ollen parafraasi vaatii lainausta, vaikka se harvoin herättää tekijänoikeusongelmia."

Huomaa, kuten aiemmin tunnistit erot kaksoisvikapuolien välillä.

Vertailulähestymistapojen soveltaminen käytännössä on nyt sitten tapahtunut jo monta vuotta. Ajattele asiaa näin. Oppilailla, jotka kirjoittavat esseitä koulutehtäviinsä, saattaa olla houkutusta napata sisältöä Internetistä ja teeskennellä, että he ovat kirjoittaneet A-luokan Pulitzer-palkinnon voittaneet sanat.

Opettajat ovat käyttäneet plagioinnin tarkistusohjelmia jo pitkään tämän asian hoitamiseen. Opettaja ottaa opiskelijan esseen ja syöttää sen plagiointitarkistajaan. Joissakin tapauksissa koko koulu myöntää luvan plagioinnin tarkistusohjelman käyttöön. Aina kun opiskelijat kääntävät esseen, heidän on ensin lähetettävä essee plagioinnin tarkistusohjelmaan. Opettajalle kerrotaan, mitä ohjelma raportoi.

Valitettavasti sinun on oltava erittäin varovainen näiden plagioinnin tarkistusohjelmien sanomisen suhteen. On tärkeää harkita tietoisesti, ovatko ilmoitetut käyttöaiheet päteviä. Kuten jo mainittiin, kyky varmistaa, onko teos kopioitu, voi olla hämärää. Jos hyväksyt ajattelemattomasti tarkistusohjelman tuloksen, voit virheellisesti syyttää opiskelijaa kopioimisesta, vaikka hän ei niin tehnyt. Tämä voi musertaa sielua.

Jatkossa voimme yrittää käyttää plagioinnin tarkistusohjelmia generatiivisten AI-tulosteiden testaamisessa. Käsittele generatiivisen tekoälysovelluksen tulostettuja esseitä ikään kuin ne olisivat opiskelijan kirjoittamia. Sen jälkeen mitataan, mitä plagioinnin tarkistaja sanoo. Tämä tehdään suolalla.

Äskettäisessä tutkimustutkimuksessa yritettiin toteuttaa tämäntyyppisiä vertailuja generatiivisen tekoälyn yhteydessä juuri tällä tavalla. Haluaisin käydä läpi mielenkiintoisia havaintoja kanssasi.

Ensinnäkin tarvitaan lisätty tausta. Generatiivista tekoälyä kutsutaan joskus LLM:ksi (suuret kielimallit) tai yksinkertaisesti LM:iksi (kielimallit). Toiseksi ChatGPT perustuu toisen OpenAI:n generatiivisen AI-paketin GPT-3.5 versioon. Ennen GPT-3.5:tä oli GPT-3 ja sitä ennen GPT-2. Nykyään GPT-2:ta pidetään melko primitiivisenä verrattuna myöhempään sarjaan, ja odotamme kaikki innolla GPT-4:n tulevaa julkistamista, katso keskusteluni osoitteessa linkki tähän.

Tutkimus, johon haluan lyhyesti tutustua, koostui GPT-2:n tarkastelusta. Tämä on tärkeää ymmärtää, koska olemme nyt GPT-2:n kykyjä pidemmälle. Älä tee hätiköityjä johtopäätöksiä tämän GPT-2-analyysin tuloksista. Siitä huolimatta voimme oppia paljon GPT-2:n arvioinnista. Tutkimus on nimeltään "Plagioivatko kielimallit?" Tekijät Jooyoung Lee, Thai Le, Jinghui Chen ja Dongwon Lee, esiintyvät ACM WWW '23:ssa, 1.–5, Austin, TX, USA.

Tämä on heidän tärkein tutkimuskysymys:

"Missä määrin (ei rajoittuen ulkoa oppimiseen) LM:t käyttävät hyväkseen lauseita tai lauseita harjoitusnäytteistään?"

He käyttivät näitä kolmea mahdollisen plagioinnin tasoa tai luokkaa:

"Kirjallinen plagiointi: Tarkat kopiot sanoista tai lauseista ilman muunnoksia."
"Parafraasin plagiointi: synonyymi korvaaminen, sanojen uudelleenjärjestäminen ja/tai taaksepäin käännös."
"Ideaplagiointi: ydinsisällön esittäminen pitkänomaisessa muodossa."

GPT-2 on todellakin koulutettu Internet-dataan, joten se oli sopiva ehdokas tämän tyyppiseen analyysiin:

"GPT-2 on esikoulutettu WebTextissä, ja se sisältää yli 8 miljoonaa dokumenttia, jotka on haettu 45 miljoonasta Reddit-linkistä. Koska OpenAI ei ole julkisesti julkaissut WebTextiä, käytämme OpenWebTextiä, joka on WebText-korpuksen avoimen lähdekoodin versio. Aikaisempi kirjallisuus on käyttänyt sitä luotettavasti."

Selektiiviset keskeiset havainnot tutkimuksesta koostuvat seuraavista:

"Huomasimme, että valmiiksi koulutetut GPT-2-perheet plagioivat OpenWebTextistä."
"Tuloksemme osoittavat, että hienosäätö vähentää merkittävästi OpenWebTextin sanatarkkoja plagiointitapauksia."
"Yhdenmukaisesti Carlini et al. ja Carlini et al., huomaamme, että suuremmat GPT-2-mallit (suuri ja xl) luovat yleensä plagioituja sekvenssejä useammin kuin pienemmät.
"Erilaiset LM:t voivat kuitenkin osoittaa erilaisia plagiointimalleja, joten tulokset eivät välttämättä yleisty suoraan muihin LM:ihin, mukaan lukien uudemmat LM:t, kuten GPT-3 tai BLOOM."
"Lisäksi automaattisilla plagioinnin ilmaisimilla tiedetään olevan monia vikatiloja (sekä väärissä negatiivisissa että väärissä positiivisissa).
"Koska suurin osa LM:iden koulutustiedoista kaavitaan verkosta ilmoittamatta sisällön omistajille, heidän sanojen, lauseiden ja jopa ydinideoiden toistamisella koulutussarjoista luoduiksi teksteiksi on eettisiä vaikutuksia."

Tarvitsemme ehdottomasti lisää tämän tyyppisiä tutkimuksia.

Jos olet utelias GPT-2:sta verrattuna GPT-3:een datakoulutuksen suhteen, kontrasti on melko selvä.

Ilmoitettujen viitteiden mukaan GPT-3:n datakoulutus oli paljon laajempaa:

”Mallin koulutuksessa käytettiin internetin tekstitietokantoja. Tämä sisälsi huikeat 570 Gt tietoa, joka saatiin kirjoista, verkkoteksteistä, Wikipediasta, artikkeleista ja muista Internetin kirjoituksista. Vielä tarkemmin sanottuna järjestelmään syötettiin 300 miljardia sanaa” (BBC Science Focus -lehti, "ChatGPT: Kaikki mitä sinun tulee tietää OpenAI:n GPT-3-työkalusta", kirjoittanut Alex Hughes, helmikuu 2023).

Niille teistä, jotka ovat kiinnostuneita tarkemmista kuvauksista GPT-3:n datakoulutuksesta, tässä on ote virallisesta GPT-3-mallikortista, joka on julkaistu GitHubissa (viimeisin päivitetty päivämäärä syyskuu 2020):

"GPT-3-koulutustietojoukko koostuu Internetiin lähetetystä tekstistä tai Internetiin ladatusta tekstistä (esim. kirjoista). Internet-tietoihin, joita se on tähän mennessä koulutettu ja jota vastaan on arvioitu, sisältyvät: (1) CommonCrawl-tietojoukon versio, joka on suodatettu samankaltaisuuden perusteella korkealaatuisten viitekorpujen kanssa, (2) laajennettu versio Webtext-tietojoukosta, (3) ) kaksi Internet-pohjaista kirjakokoelmaa ja (4) englanninkielinen Wikipedia."
"Kun otetaan huomioon sen koulutustiedot, GPT-3:n tuotokset ja suorituskyky edustavat enemmän Internetiin kytkettyjä väestöryhmiä kuin verbaalisessa, ei-digitaalisessa kulttuurissa olevia. Internetiin kytketty väestö edustaa enemmän kehittyneitä maita, varakkaita, nuorempia ja miehisiä näkemyksiä, ja se on enimmäkseen Yhdysvaltoihin keskittynyt. Varakkaammat valtiot ja väestö kehittyneissä maissa osoittavat korkeampaa Internetin levinneisyyttä. Digitaalinen sukupuolijako osoittaa myös, että naisia on vähemmän edustettuina verkossa maailmanlaajuisesti. Lisäksi, koska eri puolilla maailmaa on eri tasoinen Internetin levinneisyys ja käyttöoikeus, tietojoukko aliedustaa vähemmän yhteydessä olevia yhteisöjä.

Yllä olevasta GPT-3:a koskevasta viitteestä yksi poiminta on, että nyrkkisääntö generatiivisen tekoälyn tekejien joukossa on, että mitä enemmän Internet-dataa voit skannata, sitä todennäköisyys parantaa tai edistää generatiivista tekoälyä kasvaa.

Voit tarkastella tätä kahdella tavalla.

1) Parannettu AI. Meillä on luova tekoäly, joka indeksoi mahdollisimman suuren osan Internetistä. Jännittävä tulos on, että generatiivinen tekoäly on parempi kuin se jo on. Sitä kannattaa odottaa.
2) Kopiointipotentiaalia. Internetin skannauksen laajeneminen tekee vastenmielisestä ja mukaansatempaavasta plagiointi- ja tekijänoikeusrikkomusongelmasta potentiaalisesti suurempia ja suurempia. Aiemmin se ei vaikuttanut niin moniin sisällöntuottajiin, mutta koko tulee kukoistamaan. Jos olet sisällöntuottajien asianajaja, tämä saa kyyneleet silmiisi (ehkä tyrmistyksen kyyneleitä tai ilon kyyneleitä siitä, millaisia mahdollisuuksia tämä tuo oikeusjuttuihin).

Onko lasi puoliksi täynnä vai puoliksi tyhjä?

Sinä päätät.

Lailliset maamiinat odottavat

Saatat pohtia, pidetäänkö julkaisemaasi Internet-sisältöä reilua peliä tarkistettaessa. Jos sisältösi on maksumuurin takana, oletettavasti se ei ole tarkistuskohde, koska sitä ei voida helposti tavoittaa maksumuurin vahvuudesta riippuen.

Arvelisin, että useimpien arkipäiväisten ihmisten sisältö ei ole piilossa maksumuurin takana. He haluavat sisällön olevan julkisesti saatavilla. He olettavat, että ihmiset katsovat sitä.

Tarkoittaako se, että sisältösi on julkisesti saatavilla, myös aksiomaattisesti sitä, että hyväksyt sen skannattavaksi datakoulutuksessa olevan generatiivisen tekoälyn käyttöön?

Ehkä kyllä ehkä ei.

Se on yksi niistä oikeudellisista asioista.

Palatakseni aiemmin mainittuun Bloombergin laki artikkelin kirjoittajat mainitsevat moniin verkkosivustoihin liittyvien käyttöehtojen (T&C) merkityksen:

”Laillinen maamiina – jonka tahattomat tekoälyyritykset, jotka käyttävät online-botteja tietojen kaapimiseen, ovat jättäneet sen huomiotta – on piilotettu käyttöehtoihin, jotka ovat yleisesti saatavilla kaikentyyppisillä julkisilla verkkosivustoilla. Toisin kuin tällä hetkellä ratkaisematon IPR-laki ja tekijänoikeusloukkausten dilemma, verkkosivuston käyttöehtoja tukee vakiintunut sopimusoikeus, ja ne voidaan yleensä panna täytäntöön tuomioistuimessa riittävän ennakkotapausten perusteella.

Ne osoittavat, että olettaen, että verkkosivustollasi on lisensointiin liittyvä sivu, on mahdollista, että jos käytit standardoitua nykyajan mallia, se saattaa sisältää tärkeän lauseen:

"Näin ollen useimmat verkkosivustojen yleiset käyttöehdot - joita on runsaasti saatavilla ilmaiseksi - sisältävät lausekkeen, joka kieltää automaattisen tietojen kaapimisen. Ironista kyllä, tällaisia vapaasti saatavilla olevia malleja on mahdollisesti käytetty ChatGPT-koulutuksessa. Siksi sisällön omistajat saattavat haluta tarkistaa käyttöehdot ja lisätä erillisen lausekkeen, joka kieltää tiukasti kaiken verkkosivustojen sisällön käytön tekoälykoulutukseen tai muihin vastaaviin tarkoituksiin, joko manuaalisesti tai automaattisesti, ilman verkkosivuston omistajan kirjallista lupaa. .”

Heidän analyysiinsä sisällöntuottajien mahdollisista toimista, joita he voivat tehdä verkkosivustoillaan, on lisätty:

"Siksi täytäntöönpanokelpoisen sopimussakkomääräyksen lisääminen jokaisesta kaapimiskieltolausekkeen rikkomisesta, jota on täydennetty kieltomääräyksellä ilman takausta, voi olla kestävä ratkaisu niille luovan sisällön tekijöille, jotka eivät halua tarjota työnsä hedelmiä. henkistä työtä tekoälyn koulutustarkoituksiin ilman, että siitä maksetaan tai ainakin annettaisiin kunnollista tunnustusta työstään."

Haluat ehkä kysyä asianajajaltasi.

Jotkut sanovat, että tämä on elintärkeä tapa yrittää kertoa tekoälyn tekijöille, että sisällöntuottajat ovat erittäin tosissaan suojella sisältöään. Sen varmistaminen, että lisenssissäsi on oikea sanamuoto, näyttäisi saavan tekoälyn valmistajat huomion.

Toiset ovat kuitenkin hieman huonokuntoisia. He sanovat masentuneesti, että voit jatkaa ankarimman ja tappavimman laillisen kielen lisäämistä verkkosivustollesi, mutta lopulta tekoälyn valmistajat aikovat skannata sen. Et tiedä, että he tekivät niin. Saatat joutua todistamaan, että he tekivät niin. Et todennäköisesti huomaa, että heidän tulostensa heijastavat sisältöäsi. Se on ylämäkeen taistelu, jota et aio voittaa.

Vasta-argumentti on, että annat taistelun ennen kuin se edes käytiin. Jos sinulla ei ainakaan ole riittävästi laillista kieltä, ja jos saat heidät koskaan kiinni, he heiluvat ja heiluvat tiensä paetakseen vastuuta. Kaikki siksi, että et lähettänyt oikeanlaista laillista kielenkäyttöä.

Samaan aikaan toinen lähestymistapa, joka pyrkii saamaan vetovoimaa, koostuisi merkki verkkosivustollasi on jotain, joka sanoo, ettei sivustoa saa skannata generatiivisella tekoälyllä. Ajatuksena on, että kehitettäisiin standardoitu merkki. Verkkosivustot voisivat oletettavasti lisätä merkin sivustoonsa. Tekoälyvalmistajille kerrottaisiin, että heidän pitäisi muuttaa tietojen skannausta ohittaakseen merkityt verkkosivustot.

Voiko merkintätapa olla onnistunut? Huolenaiheet sisältävät merkintöjen hankkimisesta ja lähettämisestä aiheutuvat kustannukset. Sen lisäksi, noudattavatko tekoälyn valmistajat merkkejä ja varmistavat, että he välttävät merkittyjen sivustojen skannausta. Toinen näkökulma on, että vaikka tekoälyn valmistajat eivät hyväksykään merkintöjä, tämä antaa uuden vihjeen oikeuteen menemisestä ja väittäen, että sisällöntuottaja meni viimeisen mailin yrittäessään varoittaa tekoälyskannauksesta.

Jep, se kaikki saa pään pyörähtämään.

Yhteenveto

Muutama loppuhuomautus tästä vaikeasta aiheesta.

Oletko valmis ajattelemaan mullistavaa näkökulmaa tähän koko tekoälyyn plagioijana ja tekijänoikeusloukkaajana?

Suuri osa oletuksista generatiivisen tekoälyn "saappaamisesta" plagioinnin tai tekijänoikeusloukkauksen yhteydessä riippuu tulosten löytämisestä, jotka muistuttavat suuresti aikaisemmat työt, kuten Internetin sisältö, joka on mahdollisesti skannattu tiedonharjoittamisen aikana.

Oletetaan kuitenkin, että hajota ja hallitse -juttu on pelissä.

Tässä minä tarkoitan.

Jos generatiivinen tekoäly lainaa pienen osan täältä ja pikkuisen sieltä ja lopulta sekoittaa ne yhteen tuottaakseen mitä tahansa tiettyä lopputulosta, mahdollisuudet saada komea hetki vähenevät valtavasti. Mikään tuotos ei näytä nouse riittävälle kynnysarvolle, jotta voisi varmasti sanoa, että se on kopioitu yhdestä tietystä lähdekohdasta. Tuloksena oleva essee tai muut tulostustavat ovat yhteensopivia vain osittain. Ja tavanomaisella lähestymistavalla yrittää väittää, että plagiointia tai tekijänoikeusrikkomuksia on tapahtunut, sinun on yleensä esitettävä enemmän kuin pieni pieni pala on pelissä, varsinkin jos suupala ei ole erottuva ja sitä löytyy laajalti Internetistä (alittavuus riittävä todistustaakka väärinkäytöstä).

Voitko silti vakuuttavasti vakuuttaa, että generatiivisen tekoälyn harjoittama datakoulutus on huijannut verkkosivustoja ja sisällöntuottajia, vaikka ehdotettu todiste on näennäisesti merkityksetön?

Mieti sitä.

Jos kohtaamme mahdollisesti laajamittaista plagiointia ja laajamittaista tekijänoikeusloukkausta, meidän on ehkä muutettava lähestymistapaamme määritellä, mikä on plagiointi ja/tai tekijänoikeusrikkomus. Ehkä on syytä tutkia plagiointia tai tekijänoikeusrikkomuksia pääasiassa tai yleisesti. Mosaiikki, joka koostuu tuhansista tai miljoonista pienistä katkelmista, voidaan tulkita syyllistyneen tällaisiin rikkomuksiin. Ilmeinen ongelma on kuitenkin se, että tämä voi saada kaikenlaisen sisällön yhtäkkiä joutumaan rikkomusten sateenvarjon alle. Tämä voi olla liukas rinne.

Raskaat ajatukset.

Leo Tolstoi, legendaarinen kirjailija, sanoi rajuista ajatuksista kuuluisasti: "Elämän ainoa tarkoitus on palvella ihmiskuntaa."

Jos verkkosivustoasi ja muiden verkkosivustoja tutkitaan tekoälyn parantamiseksi, ja vaikka et saa siitä penniäkään, voisitko saada juhlallisen lohdutuksen kiihkeässä uskossa, että osallistut ihmiskunnan tulevaisuuteen? Se näyttää olevan pieni hinta maksettavaksi.

No, ellei tekoäly osoittautuu pelätyksi eksistentiaaliseksi riskiksi, joka pyyhkii kaikki ihmiset olemassaolosta. Sinun ei pitäisi ottaa siitä kunniaa. Oletan, että sinä et heti vaikuttaisi tuohon kamalaan lopputulokseen. Jättäen sivuun tuon tuhoisan ennustuksen, saatat ajatella, että jos tekoälyn tekijät tienaavat generatiivisella tekoälyllään ja he näyttävät nauttivan voiton tavoittelusta, sinunkin pitäisi saada pala piirakasta. Jaa ja jaa samalla tavalla. Tekoälyn tekijöiden tulee pyytää lupaa minkä tahansa verkkosivuston skannaamiseen ja sitten myös neuvotella hinta, joka maksetaan skannauksen sallimisesta.

Anna luottoa siellä, missä luotto erääntyy.

Annetaan toistaiseksi viimeinen sana Sir Walter Scottille: "Oi, kuinka sotkuista verkkoa me kudomme. Kun ensin harjoittelemme pettämistä."

Tämä saattaa päteä, jos uskot petoksen olevan tekeillä, tai ehkä ei päde, jos luulet, että kaikki on hyvin ja täysin suoraa ja laillista. Ole hyvä ja anna itsellesi kunniaa, että mietit tätä. Ansaitset sen.

Lähde: https://www.forbes.com/sites/lanceeliot/2023/02/26/legal-doomsday-for-generative-ai-chatgpt-if-caught-plagiarizing-or-infringing-warns-ai-ethics- ja-ai-laki/