Bevezetés

„Napjainkban a művészetkutatás olyan környezetben folyik, amelyben a technikai kép médiumai messzemenően meghatározzák világképünket és a valóságról kialakított felfogásunkat […]” – írta Hans Belting az 1980-as években. [1] Dieter Daniels kiemeli, hogy „az új képmédiumok nem csak új vizuális hatásokat hívnak életre, hanem a nyugati kultúra képfogalmát legalább olyan mélységig változtatják meg, mint annak idején a fényképezés bevezetése.” [2] A médiumok és a művészet világa egyelőre egymástól különböző területként jelentkezik, de párbeszédük lehetőségeinek keresése egyre szélesebb körű. Belting tanulmányában felvázolja a mediális és művészeti funkciók közötti különbségeket, többek közt a médiaelméletek jellemző vonását, melyek elsősorban a technika és a kommunikáció kérdéseit taglalják.

Már Walter Benjamin felhívta a figyelmet, hogy a kortárs problémákkal foglalkozó új médiumok, a fénykép, a mozi átvette a művészet egykori funkcióit. [3] A művészet és a művészek, ha nem akarnak „vesztesek” lenni, maguk veszik kezükbe az új médiumokat, lépést tartanak a technológiai fejlődéssel, és ez a kijelentés hatványozottan igaz napjainkra. Most már bárki számára elérhetővé vált a szöveg képpé generálása (text to image generators). Az egyre kifinomultabb nagy nyelvi modelleknek [4] köszönhetően, a jelenlegi mesterséges intelligencia modellek már nem bizarr és kaotikus eredményeket produkálnak, hanem képesek új, egyedi (akár fotórealisztikus) tartalmakat generálni. A művészettörténet korábbi fejezetei jól mutatják, hogy a tudományos felfedezések és találmányok például a perspektívatan, az anatómia, a mikroszkóp, a fénykép, a teleszkóp, új valóságot mutatott a természetről, világunkról. Ha a művészettörténetben még korábbra tekintünk vissza, érdekes megfigyelni, hogy már a reneszánsz korában használtak a művészek olyan berendezéseket, kezdetleges gépeket, amelyek segítették őket a látvány pontosabb megragadásában. A legújabb kutatások szerint Leonardo da Vinci és Caravaggio is használt camera obscurát művei elkészítéséhez. Dürer egyik ismert metszetén a rajzoló keretbe fogott rácshálón át nézi az aktot, azaz „mérőképsík” alkalmazását látjuk.

Ma a médiumok közvetítette és a tények közötti határok elmosódásával a természet helyett egyre nagyobb mértékben a médiumokra és eszközeikre, így a gépre (számítógép, stb.), a gép által létrehozott képre reflektálunk. „Egykor a legtöbb művészet egyszerre volt médium és művészet: egyfelől információhordozók voltak, másfelől pedig önnön esztétikájuk révén érhettek el hatást.” [5] A művészek szembesülve a médiumok erejével, a média eszközeihez nyúlva próbálnak szembenézni a kialakult, berögzült világképpel, mely „előnyben részesíti a képet a dologgal, a másolatot az eredetivel, a képzetet a valósággal, a látszatot a lényeggel szemben […]”. [6] Dolgozatomban olyan képek és mozgóképek elméleti és gyakorlati kérdéseivel foglakozom, amelyek mesterséges intelligencia közreműködésével jöttek létre. A digitális kultúra térnyerése, az algoritmus behatolása a klasszikus képkészítési technikák körébe alapvető szemléletváltáshoz vezetett a vizualitás, a narratíva, az elkészítési idő és az apparátus tekintetében is. Gondolok itt például a hálózatokon fellelhető adatokból nyert audiovizuális élmények felhasználásának kérdésére (big data, adatvizualizáció, stock footage, remix), az ember és a gép kreatív együttműködésre, mint mesterséges karakterek, gesztusmodellezés, forgatókönyvíró-algoritmus, narratívagenerálás, gépi narrátor, mesterségesintelligencia-alapú mozgáskövetés, stíluselemek átvitele, a fotografikus képből animációs film, végtelen morfolás mint animációs technika, a szöveg képpé alakítása, stb. Tulajdonképpen a mély gépi tanulás technológia algoritmusalapú háttere már a 90-es évek óta létezik, az azóta létrehozott és elérhetővé vált hatalmas adatbázisok, az internet és a számítási kapacitás exponenciális növekedése most teszi lehetővé ezeknek a technológiáknak a térnyerését. Lev Manovich „kulturális mesterséges intelligenciának” (cultural AI) nevezi azokat a napjainkban is zajló jelenségeket, amikor esztétikai döntéseink meghozatalát algoritmusok segítik, műélvező és alkotói oldalról egyaránt. [7]

A gépek kreatív felhasználása, a mesterséges intelligenciához vezető út

Sokan felvetették, hogy minden médium már egy korábban létező médiumot másol, tehát nem keletkezik előzmény nélkül. Általánosságban elmondható, hogy elsőként mindig a művészek kérdeztek rá az új eszközök működésének módozataira. Feltehetjük a kérdést, vajon ez a jelenség most tovább fog-e folytatódni a mesterséges intelligencia korában. A téma vizsgálatához fontos, hogy belássuk, a számítógép rácáfolt arra a téves felvetésre, hogy nem képes  konstruktív, kreatív képességeket igénylő feladatok ellátására. Vilém Flusser egy 1991-ben adott interjúban így nyilatkozik: „kiderült, hogy gyakorlatilag mennyi minden mechanizálható abból, amit eddig mechanizálhatatlannak tartottunk. Például a kreatív folyamatok közül: a zenei és képzőművészeti komponálás, a versírás. A művészeti alkotásban mit művészetnek nevezünk, egész sor dolog, szinte minden mechanizálható. Ez nem meglepetés. A művészet görögül techné, a mechané pedig trükköt jelent.” [8]

A témában rendezett felmérések, kerekasztal-beszélgetések, konferenciák tanúsága szerint a művészek és kreatív szakemberek legnagyobb félelme, hogy a feltörekvő mesterséges intelligencia miatt elveszíthetik munkahelyüket. 2022 szeptemberében elérhetővé váltak az új, nyílt forráskódú [9] vagy ingyenes, diffúziós modelleket [10] alkalmazó generatív szoftverek.

DALL-E 2

Sokan megfogalmazták, hogy eddig az interneten nagyrészt olyan tartalmak voltak, amelyeket emberek készítettek, hamarosan viszont hemzsegni fog az olyan szövegektől, képektől, zenéktől, amelyeket gépek generáltak. Az optimista nézőpont szerint a mesterséges intelligencia csak egy új, rendkívül hatékony eszköz, melynek segítségével a munkafolyamat felgyorsítható, és a kreativitás, bárki számára, még jobban érvényesíthető. Ez a csoport úgy véli, hogy a fejlesztések nem állnak meg, és fontosnak tartják a korai adaptálódást. A pesszimistább oldal képviselői azonban felháborodtak, kontrollálhatatlan veszélyforrásként tekintenek a szoftverekre, az „internet elszennyezésének” nevezik ezt a folyamatot, néhány nézet szerint pedig az egészet itt és most kellene megállítani, végleg törölni a modelleket és a forráskódokat. Érdemes lenne ebben a kérdésben egy arany középutat keresni, megvizsgálni a valódi veszélyeket és szabályozásokkal és a szellemi tulajdon védelmével megoldást keresni a problémákra.

Jelenleg a szerzői jogok sérelme okozza a legnagyobb gondot. Az MI modelleket az interneten fellelhető képek felhasználásával tanították be (mindenki, aki használ valamilyen ingyenes tárhelyet vagy email fiókot a regisztrációkor beleegyezik, hogy adatait felhasználják kutatási célokra), tehát nagy a valószínűsége, hogy sokunk képeiből tanul az MI. Másrészt, ezzel párhuzamosan már a korábbi generáció modelljeit is a modern festészeti stílusok (expresszionizmus, szürrealizmus, op-art, stb.) imitálására képezték, ezeket viszont csak egy meghatározott ideig védte szerzői jog. A probléma akkor kezdődött, amikor az új fejlesztésekbe kortárs alkotók stílusai, vizuális elemei is bekerültek. A felhasználók pedig rövid parancsszavakkal behívhatták ezeket a stílusjegyeket, és a végeredményre saját szignójukat véshették rá. A szabályozás és a petíciók hatására a most készülő legújabb modellek már elvileg nem tartalmaznak olyan műveket, amelyek nem az alkotó beleegyezésével épültek a rendszerbe. Ennek a problémának a teljes felszámolása még várat magára, és rendkívül összetett és bonyolult jogi kérdés, ezért kifejtése bőven meghaladja a jelen írás terjedelmét. Mindezekkel összefüggésben azonban fontos különbséget tenni a lehetőség és a szándék között. Valóban megvan a lehetőség arra, hogy egy közismert kortárs alkotó stílusát ellopva művet generáljon a gép, de ehhez egy felhasználói szándék is szükséges. A szerzői jog védelme mellett további alternatív utat jelentene, ha mindenki csak a saját alkotásai felhasználásával tanítaná saját modelljét.

Sajnos ezek a rossz gyakorlatok is támogatják a gépektől való félelmet, ami mindig jelen volt, és talán nem is tűnik el soha. Az ipari forradalom idején a kézművesek féltették munkájukat a gépektől, később az automatáktól (lásd például a géprombolásokat). [11] A festőművészek féltek attól, hogy a fotográfia feltalálásával már nem lesz szükség alkotásaikra. A színház fenyegetve érezte magát a mozitól, és a példákat sorolhatnánk tovább. Mára szerencsére bebizonyosodott, hogy a fenti szorongások nem váltak valóra, a művészetek párhuzamos utakon járnak az új médiumokkal egymás mellett. Galántai Zoltán a Tudomány, művészet, jövő című kötetében felhívja a figyelmet, hogy a fotózás feltalálásával a festészet lemondott a valóság szolgalelkű másolásáról, és kialakultak a modern művészeti mozgalmak. A kreatív képszerkesztő szoftverek létezése óta pedig „immár senki sem tekinti a fényképeket a valóság hű másolatának.” [12] „A számítógéppel létrehozott állókép nem egyszerűen a hagyományos fotográfia digitális változata, hanem egy merőben új médium.[13] A technikai médiumoknak köszönhetően tiszta műfajokról már nem is igen beszélhetünk; a heterogenitás korunk új nyelve. Ez a fajta hibrid összefonódás jelenik meg Flusser érvelésében is. „A mesterséges és az emberi intelligencia közötti megkülönböztetés máris archaikusnak számít, s ez engem nem is érdekel. A gép azt csinálja, amit az emberi intelligencia akar, s az emberi intelligencia csak azt akarhatja, amit a mesterséges intelligencia el tud végezni. E visszacsatoláson keresztül szemünk előtt jön létre egy új lény: a mesterséges intelligenciákkal összekapcsolt ember.” [14]

Az előzmények feltárása során azonban fontos hozzátenni, hogy a számítógép egyik alapkoncepciója, a programozhatóság gondolata tulajdonképpen az iparművészetből, pontosabban a szövőgép továbbfejlesztéséből származik. A 18-19. század fordulóján Joseph Marie Jacquard francia feltaláló kifejlesztett egy új szövőszéket, amely automatizálta a minták szövését. Azon a lyukkártyás vezérlőelven működött, amelyet később Charles Babbage analitikus számítógépéhez használt. „Ada Lovelace, Babbage kolléganője, Lord Byron költő lánya volt talán a világ első programozója. (Az Ada programozási nyelv róla kapta a nevét.) Ada programokat írt a befejezetlen Analitikus Gépre, sőt azon is spekulált, hogy a gép sakkjátékra vagy zenekomponálásra is képes lehet.” [15]

Midjourney

A médiakonvergencia korában elsősorban a számítógép vált olyan kreatív médiummá, amely egyesíteni tudja a digitális művészet legkülönbözőbb aspektusait, de a digitális kultúra és művészet megjelenése nem köthető kizárólagosan a számítógép megjelenéséhez. Már a 1960-as évek elején találunk példát a különböző technikai eszközök kreatív felhasználására és a művészet szolgálatába állítására. Klaus Urbons a fénymásolás-művészet történetét feldolgozó könyvében Bruno Munari olasz művész nevét említi, aki elsők között kísérletezett a fénymásolóval mint kreatív képalkotó eszközzel. [16] Az ekkor született műveket több elnevezéssel illették: fénymásolás-művészet, copygráfia, copy art. „Jellemzőnek tekinthető a korábbi mozgalmak, stílusirányok továbbvitele a multimediális közegben. Az alkotók a reneszánszot idéző korszakot teremtettek, melyben a művészetnek újra része lett a tudomány legújabb eredményei és eszközei iránti érdeklődés. A művek közös jegye a kísérletezés fontosságába vetett hit és a műfajhatárok áttörése, általában valamely klasszikus műnemből kiindulva, legyen az vers, festmény, grafika, fotó.” [17]

A mesterséges intelligencia meghatározásai

A felvetés, hogy élettelen tárgyak intelligens módon életre kelnek, sokkal régebbről ered, mint azt elsőre gondolnánk. Már az ókori görög mítoszokban megjelennek a robotok, az egyiptomi mérnökök pedig automataszerű szerkezeteket építettek. [18] A mai értelemben vett (számítógépalapú) mesterséges intelligencia a legújabb tudományágak egyike, közvetlen gyökerei a II. világháború idejéig nyúlnak vissza, amikor Alan Turing az Enigma feltörésén dolgozott, és mindemellett párhuzamosan írta a Computing Machinery and Intelligence című tanulmányát. Ebből megismerhetjük azt az imitációs játékot (Imitation Game), amelyet később az utókor „Turing-tesztnek” nevezett el. A játék gondolatisága és később a felhasználásával elért eredmények a mai napig rendkívüli jelentőséggel bírnak. Az írásból kiderül, hogy „Turing soha nem állítja, hogy a sikeres működés egyenlő a gondolkodással”, vagyis intelligensnek lehet tekinteni egy számítógépet, ha bizonyos körülmények között képes utánozni (szimulálni) az emberi viselkedést. [19] Az imitációs játékhoz három szereplőre van szükség, egy bíróra és két játékosra, például egy férfira és egy nőre. Fontos, hogy a játékosok csak írásban kommunikálnak a bíróval. A cél a bíró félrevezetése. A női játékosnak meg kell győznie a bírót, hogy ő férfi, vagy fordítva a férfi játékos meggyőzi a bírót, hogy ő valójában nő. Majd ebben az imitációs játékban, az egyik humán játékost számítógépre cseréljük, és az új feladat a bírót meggyőzni arról, hogy a gép valójában ember. Minden más paraméter ugyanaz; a teszt alatt a bíró a kérdező, míg a másik ember és a számítógép pedig a válaszadó. Ha a kérdések után a tesztelő nem tudja eldönteni, hogy feltett kérdéseire ember vagy gép válaszolt, akkor a teszt sikeres. Ennél a verziónál is kulcsfontosságú, hogy a tesztelő nem látja a válaszadókat, és csak írásban kommunikálnak egymással. 2012-ben egy csevegő robot átment a teszten, ugyanis harminc bíró 29%-át győzte meg arról, hogy élőlény. Mai napig folynak a viták arról, hogy csalásnak számít-e a teszt köré kerített narratíva, hogy a gép angolul rosszul beszélő, ukrán kisfiúnak adta ki magát. Turing ezzel az akkor még csak gondolatkísérletként működő teszttel „a gondolkodás fogalmának felülírását javasolta oly módon, hogy abba már esetleg gépek is beleférjenek.” [20]

Héder Mihály könyvének bevezetőjében Joseph Weizenbaum, a számítástudomány professzorának a mesterséges intelligenciáról kialakított állásfoglalását és a hatvanas években készült ELIZA [21] nevű csetbotjának (írásban kommunikáló szoftver) történetét idézi fel. „Weizenbaum az emberi viselkedést és a tudatot egy csodálatos, olykor kiismerhetetlen és kiszámíthatatlan jelenségnek tartotta, amelyben hemzsegnek a hallgatólagos elemek, például az intuíció, az érzelmek, a rejtett kapcsolatok és a tudat alatti titkok. A számítógép pedig maga a megtestesült vaskalaposság, szigorú, szisztematikus és száraz matematika, ami persze hasznos a maga helyén, de az emberi intelligenciához semmi köze.” [22]

Weizenbaum azzal a céllal hozta létre ELIZA nevű programját, hogy a szoftver segítségével bebizonyítsa, hogy a gép nem képes olyan feladatok ellátására, melyhez a csak az ember sajátjaként aposztrofált tulajdonságok szükségesek, mint például az intuíció vagy a gyors alkalmazkodás egy váratlan helyzethez. ELIZA egy pszichológiai csetbot, amely/aki a Carl Rogers féle személyközpontú pszichoterápiás módszert használta. Ez leegyszerűsítve úgy működött, hogy a gép a kapott információk egy részét kérdéssé formálta, így elérve, hogy a beteg egyre mélyebben merüljön el a probléma feltárásában. „Ennek mellékhatásaként a beszélgetés során a terapeuta gyakran csak elismétli a pácienstől legutóbb hallott információt vagy annak egy részletét, esetleg csak azt kérdezi, hogy „és ettől hogyan érzi magát?”. [23] Héder könyvéből megtudjuk, hogy a professzor kudarcot vallott tervével, a paródiának szánt kísérlet nem úgy sikerült, ahogy azt elképzelte, hiszen saját titkárnője ELIZA-t beszélgetőtársnak tekintette. A kísérletben részt vevő alanyok úgy érezték, hogy értő „hallgatóságra” találtak a gépben (annak ellenére, hogy a tesztelők közül jelen voltak olyanok is, akik részt vettek a program fejlesztésében). A kísérlet kapcsán fontos megemlíteni a szimulációelmélet érvényességét, vagyis, ha egy gép egy emberi cselekedetet utánoz, nem jelenti azt, hogy tudatosan teszi (ellentétben egy pszichoterapeutával). A kérdés ez esetben talán nem is erről szól, hiszen a sakkszoftver sem tudja, hogy sakkozik, mégis 1997-ben sikerült legyőznie az akkori sakkvilágbajnokot. [24]

Rendkívül nehéz és veszélyes bármilyen jóslatba bonyolódni a mesterséges intelligencia kapcsán, ezt bizonyítják Hubert Dreyfus könyvei és kijelentései is. 1965-ben Alkímia és Mesterséges Intelligencia címen írta első könyvét a kezdeti MI kutatásokról. Ebben a könyvében olyan lehetetlennek tartotta a kutatások sikerét, mint az „aranycsinálást”. Később több könyvet is írt a következő címeken: Mit nem tudnak a számítógépek, Mit nem tudnak még mindig a számítógépek. Az idő ellene dolgozott, idővel a tudományos fejlesztések rácáfoltak nagyon sok kijelentésére, többek között arra, hogy a hangot szöveggé lehet alakítani, vagy tökéletes szövegértelmezés nélkül is lehet természetes nyelvek között fordítógépeket létrehozni. Épp a természetes nyelvek feldolgozásának képessége vált a siker titkává a szövegből képet generáló algoritmusok, valamint a Google konkurenciájaként is emlegetett chatGPT [25] esetében. „Az intelligens gépek építése valójában eszköz az intelligens cselekvés megértéséhez” – írták Henry Brighton és Selina Howard közösen jegyzett könyvükben. [26] A történet tanulmányozása során számomra fontos tapasztalat, hogy markáns különbséget kell tenni egy feladat végrehajtásának sikeressége tekintetében. Ugyanis lehet sikeres a gép egy kreativitást igénylő feladat végrehajtásában akkor is, ha nincs belső élménye, azaz nem tudja, mit miért cselekszik.

A kilencvenes évektől kezdve ismét az emberi intelligencia felől közelíti meg a kérdést Stuart Russell és Peter Norvig: „évezredek óta próbáljuk megérteni azt, hogy hogyan gondolkozunk. Azt, hogy az anyag néhány maréknyi mennyisége hogyan képes a saját magánál sokkal nagyobb és bonyolultabb világot észlelni, megérteni, a világ alakulását, megjósolni és manipulálni. A mesterséges intelligencia […] még tovább is megy: az intelligens entitások megértése mellett ilyen entitások építésével is próbálkozik.” [27] Majd két úton, a gondolkodás és a cselekvés összehasonlítása mentén haladnak tovább a meghatározás pontosításával. „Az embercentrikus irányzat szükségképpen empirikus tudomány, hipotézisekkel és empirikus igazolással. A racionalitáscentrikus megközelítés a matematikára és a mérnöki tudományokra támaszkodik.” [28] Emberi módon cselekvő gép alkotása „az olyan funkciókat teljesítő gépi rendszerek létrehozásának művészete, amelyhez intelligencia szükséges, ha emberek teszik.” [29] Tulajdonképpen a célok elérésének tekintetében kétféle mesterséges intelligenciát különítnek el, az egyik „gyenge MI-hipotézisnek (weak AI) nevezi azt az állítást, miszerint a gépek valószínűleg képesek intelligensen cselekedni (vagy jobban mondva, képesek úgy cselekedni, mintha intelligensek lennének), míg azt az állítást, hogy a gépek valóban intelligensen cselekszenek, erős MI-hipotézisnek (strong AI) hívják.” [30]

A fent idézett meghatározások világossá teszik, hogy az emberiség a technikai fejlődés nyomán, különböző okokból ugyan, de szükségét látta, hogy létrehozzon tanulni képes és intelligensen cselekvő gépet, amely az emberi cselekvéshez hasonló, kreatív gyakorlatokat hajt végre, pillanatnyilag nem igazán testnek nevezhető „dobozba” zárva.

Mély gépi tanulás [31]

A mély gépi tanulás (deep learning) a gépi tanulás (machine learning) része, amely több rétegből álló neurális hálózatot (neural networks) használ. A neurális hálózatok hasonlóképpen működnek, mint az emberi agy, pontosabban szimulálják annak működését, vagyis nagy mennyiségű adatból és „tapasztalatból” tanulnak. A több réteg hozzásegíti a tapasztalat megszerzéséhez.

A mély tanulási modellek több alkategóriára bonthatóak, ezek közül most kettőt emelek ki: a felügyelt tanulást és a felügyelet nélküli tanulást. A felügyelt tanulás esetében a tanuláshoz szánt adatokat embereknek kell biztosítaniuk, ez a címkézés. A címkézett adatok segítik az algoritmust a döntésben. A másik módszernél a felügyelet nélküli tanulásnál nincsenek címkék, az algoritmus mintafelismeréssel dönt és kategorizál.

Az alkotás általános mechanizmusa szempontjából, Lev Manovich négyes felosztásából kiindulva kétféle alkotástípust emelnék ki: az első, amikor a gép „önállóan” alkot, a végeredménybe már nincs jelentős emberi beavatkozás. Ebben az esetben az alkotó csupán elindítja a folyamatot, majd a gép létrehozza a művet, és ezt a művész véglegesnek tekinti. A második típusú, amikor a gép megmarad kreatív „asszisztensnek”, a művész használja az alkotófolyamat során ugyan, de ez csak egy részlete, rétege a végleges munkának. [32]

Tulajdonképpen ezek a tanulási típusok figyelhetőek meg, amikor a képzőművészeti stílusok integrálódnak a szoftverekben. A legtöbb kreatív MI alkalmazás a 20. századi modern művészeti műfajokból táplálkozik, abban a korszakban ugyanis az egymásra épülő stílusirányzatok viszonylag gyorsan váltották egymást, és jól elkülöníthető vizuális elemekkel dolgoztak. Az adatmennyiség és a számítási kapacitás növekedésével ezek a stílusjegyek a nagyszámú mintavételezéssel jól taníthatóak. Stílustranszfernek (style transfer) nevezzük azt a számítógépes technikát, amely lehetővé teszi, hogy egy kép formavilágát (kiinduló kép) egy másik mű (referenciakép) stílusához igazítsuk. Másképpen szólva a szoftver összekeveri a két adattípust úgy, hogy az eredményül kapott kép megtartsa a tartalomkép (kiinduló kép) alapvető elemeit, de úgy tűnjön, mintha a referenciakép stílusában készült volna. Legelemibb példája a híres művészek által megalkotott izmusokban újraalkotott fénykép vagy mozgókép, egy szelfi például van Gogh stílusában.

Mesterséges intelligenciával készült filmek, mozgóképek

A kreativitás bonyolult fogalmának meghatározásakor a kutatók egyetértenek abban, hogy általánosságban az nem más, mint innovatív problémamegoldó képesség. [33] A 2010-es év elején kezdődtek a komolyabb kísérletezések, hogy a gépi kreativitást bevonják a filmkészítés alapvető fázisaiba. A kamerák és a grafikai szoftverek piacán kezdetleges formában már korábban megjelentek az olyan intelligens algoritmusok, [34] amelyek az ember kognitív képességeit részben másolják, de az olyan kreatív folyamatokba való integrálásuk, mint a forgatókönyvírás és dialógusszerkesztés ekkor vette igazán kezdetét. Margaret Ann Boden, a kognitív tudományok és pszichológia professzora tanulmányában kétféle kreativitást különbözetet meg: a történelmi kreativitást (H-kreativitás, Historical Creativity) és a pszichológiai kreativitást (P- kreativitás, Psychological Creativity). Ezzel a felosztásával az emberi kreativitás és a gépek kreatív viselkedése közötti kapcsolatot kutatja. A H-kreativitás magában foglalja az olyan ötletek generálását, amelyek eltérnek egy adott probléma vagy kihívás korábbi megközelítéseitől, és amelyeket értékesnek és innovatívnak tekintenek egy adott történelmi vagy kulturális kontextusban. Például a művészet esetében egy művészeti műfaj vagy zsáner megújítása, tehát a H-kreativitás egy tudásterülethez új megközelítések hozzájárulására összpontosít, olyan ötletek generálására, amelyek újszerűek és meglepőek a kulturális kontextusban. A P-kreativitás esetében az alkotó szubjektív tapasztalata a fontosabb, „az ötlet újszerű, de lehet, hogy csak az érintett egyén (vagy mesterségesintelligencia-rendszer) elméje számára”. [35] Magában foglalja azoknak az ötleteknek a generálását, amelyek újak és meglepőek az alkotó számára, de nem feltétlenül újak mások vagy a tudományterület számára. Mindemellett korábbi megvalósulási formája már része a történelemnek, vagyis „a P-kreativitás az alapvetőbb fogalom, amelynek speciális esete a H-kreativitás.” [36] Boden szerint azok az algoritmusok és számítógépes programok, amelyek vizuális képeket, zenét vagy más művészi alkotásokat generálnak a P-kreativitás kategóriába sorolhatóak. Ebben az esetben a programozó-művész elkészíti az algoritmust, amely azután a rá jellemző módon generál például absztrakt műalkotásokat. Mivel az algoritmust a művész hozza létre, ezért a működtetésével létrejött alkotás új és meglepő számára, de a kulturális közeg számára nem újdonság az, hogy léteznek és készülnek absztrakt képek. Boden szerint a kulcs itt a folyamatos improvizálás, amit a gép hajt végre.

Oscar Sharp rendező több interjúban nyilatkozta, hogy olyan munkát szeretett volna létrehozni, ami képes megújítani a filmes formanyelvet, ugyanakkor klasszikus és személyes is egyben. Az ötletet egy színészeknek rendezett workshop inspirálta, ahol a szereplők úgy készültek fel egy következő darabra, hogy egy random lista alapján különböző szituációkba helyezkedtek bele. Ezt a véletlenszerű szöveges üzeneteket tartalmazó listát egy kalapból vették ki, majd ez alapján építették egymásra a jeleneteket. Tehát nem a színészeknek írt szövegkönyvből és forgatókönyvből táplálkoztak, hanem a véletlenből hoztak létre új tartalmakat. Ez a metódus volt az egyik alapja a dadaista verselésnek is, tehát a módszer nem újdonság. Oscar Sharp is ezen az úton halad tovább, kezdetben egy dobókockát használt a történet konfliktusainak, bonyodalmainak megírásához. Majd Ross Goodwin művésszel és technológussal együttműködve elkészítették Benjamint (első nevén Jetsont – később ennek jelentősége lesz), a mesterséges intelligenciát, amely forgatókönyvet ír. Benjamin közreműködésével 2016-ban elkészülhetett a Sunspring (Oscar Sharp, 2016) a világ első filmje, amelyet teljes egészében mesterséges intelligencia írt.

Sunspring (Oscar Sharp, 2016)

Az alkotók szerint a munkafolyamat során a legnagyobb kihívást az jelentette, hogy olyan szövegkönyvet, dialógusokat kapjanak a géptől, amiben átélhető érzelmek és motivációk fedezhetőek fel. Ez azért volt fontos, mert ezt a rövidfilmet még színészekkel forgatták le. A kezdeti lépések a gép betanításával kezdődtek, százötven sci-fi forgatókönyvet tápláltak be, melyekből tanulhatott. Benjamin elkészítette a forgatókönyvet, majd a színészek a szabad asszociáció módszerével dolgozták fel.

További fontos információ a filmmel kapcsolatban, hogy a SCI-FI-London által szervezett, 48hr film challenge című rendezvényre készült el. A fesztivál szabályzatában tematikai kiírás, utasítás (prompt) és néhány kellék szerepel, amelyeket az alkotóknak fel kell használniuk a film elkészítése során. 48 óra alatt filmet készíteni rendkívül körülményes és nehézkes, pláne egy újszülött mesterséges intelligenciával karöltve. Az alkotók hosszú-rövid távú memóriastruktúrát [37] (Long Short-Term Memory, LSTM), rekurzív gépi tanulási algoritmust használtak [38] (recursive machine-learning), ezzel biztosítva, hogy a gép a képzési adatok felhasználásával emlékezzen a betáplált információkra, és ezekre építve jósolja meg a következő szót, létrehozva szintaktikailag helyes mondatokat a forgatókönyvben. Kárpáti György a sci-fi-ról írt tanulmánykötetében a zsáner meghatározásakor többek között Kingsley Amisre hivatkozik: „[…] egy sci-fi történet nem létezhetne abban a világban, amit ismerünk, de olyan hipotetikus környezetben igen, ami tudományos ismereteken, technológián, vagy áltudományon, áltechnológián alapul, legyen az emberi vagy földönkívüli eredetű.” [39]  Annak ellenére, hogy olyan filmekkel „etették meg” (feed) [40] amelyeknek gyakori szereplői az űrlények, nem létező világok, szörnyek, futurisztikus helyszínek, különleges képességekkel felruházott személyek, a végeredményként kiadott forgatókönyv mégis inkább pszichológiai dráma lett, mintsem jövőben játszódó világok harca. Alex Brannan írásában [41] az MI által írt forgatókönyvben keresi a koherens narratívát és ez alapján elemezi a filmet. Mélységeiben vizsgálja a dialógusokat és próbál értelmet találni az algoritmus disztópikus víziójában. Már a megalapozó dialógus: „A jövőben a tömeges munkanélküliség miatt a fiatalok kénytelenek lesznek vért árulni.” [42] –  amely egyébként a filmes verseny kiírása volt, és parancsként (prompt) került az algoritmus adatbázisába – a szerző szerint önmagában elég gépies, mégis a legkoherensebb része a műnek.

Sunspring (forgatókönyv)

A háromszereplős kamaradrámában nehéz nyomon követni az eseményeket és a karakterek viszonyrendszerét. Az alapszituáció szerint a jövőben vagyunk, amikor a növekvő munkanélküliség problémáját a fiatal generáció saját vérének árusításával orvosolja. Két férfi és egy női szereplő játszik a retro-futurista jelenetekben, de a gép által írt forgatókönyvben másképp kell elmerülnünk a főhősök jellemábrázolásában, rugalmasabb módon kezelni, hiszen egy-egy karakter akár több személyt is megjeleníthet, anélkül, hogy erre bármilyen narratív vagy vizuális utalás, indoklás lenne. A forgatókönyvben feltűnik, hogy például a H nevű karakterből kettő van; erre Brannan két értelmezési lehetőséget vázol fel. Az első, hogy H és H2 ugyanaz a személy csak más megnyilvánulási formában, kettős identitással, így reprezentálva a szereplő belső konfliktusait. Ha viszont két különböző személyről beszélünk, akkor szerelemi háromszöggel van dolgunk, amely H, H2 és C között zajlik. Tulajdonképpen nincs hagyományos értelemben vett megoldás a feltett kérdésekre. Kiindulópontként tekinthetjük a szerelmi szállal átszőtt, túlélésért folyó harcot egy jövőben játszódó világban, ahol gyenge és erős jellemek ütköznek össze, a McGuffin pedig a vér. A párbeszédekben többször elhangzik a kérés, amely a karakterek között zajló helyzetek magyarázatára szólít fel:

– H: Nem tudom. Nem tudom, miről beszélsz.

– C: Így van.

– H2: Szóval mit csinálsz?

– H2: Nem akarok őszinte lenni veled.

[…]

– H2: Nem tudom, miről beszélsz. Az elv teljesen ugyanarra az időre épül fel. [43]

Az idézett dialógusban önreflexív gesztus fedezhető fel a mesterséges intelligencia részéről. Az öntudat nélküli alkotás velejárója lehet, hogy a gép nem tudja, hogy mit cselekszik, ebben az esetben nem tudja, hogy forgatókönyvet ír, mégis kreatív tevékenységet végez, a parancsok és forrásadatok alapján, majd ironikus módon (véletlenül) beleszövi a párbeszédbe az értetlenség motívumát, és ezzel igyekszik előrelendíteni a történetszálat. „A Sunspring az a film, amely segít átgondolni, hogy hogyan olvassunk és respektáljunk egy értelmetlen szöveget, pontosabban szólva egy olyan írást, ami, nem-szövegként értelmezhető.” [44] Természetesen ez a visszacsatolási gesztus inkább a néző vagy az elmező értelmező szándékából származik, hiszen az alkotás inkább narrativitásra törekvő kísérleti rövidfilm, mintsem absztrakt experimentális mozgókép, ezért nézője keresi az értelmezhetőség  legkisebb morzsáit is. A filmes univerzumban számtalan alkotás reflektál az öntudatra ébredő gép tematikára, ezért logikusnak tűnik a tudatosságot és az önreflexivitást mindenhol kutató értelmezői szándék.

Dejan Grba [45] tanulmánya szerint Sharp és csapata filmjében humorosan kiforgatja a tartalomelemző fejlesztéseket és szolgáltatásokat. A What is My Movie webes szolgáltatás által használt mély tartalomelemző (deep content) technológia gyors tartalomgyártó szolgáltatást és monetizációt kínál a videóalapú vállalkozások számára. A videó- és audiotartalom automatikus analízisére specializálódott cég Valossa nevű szoftvere a mozgóképes munkákat a forgatókönyv és audiovizuális minták alapján elemezi, majd a felhasználó utasításai alapján ezekből összevág egy rövid promóciós videót. Gépi tanulást használ, melynek segítségével képes megérteni a vizuális és hangzó adatok tartalmát, azonosítani az objektumokat, a jeleneteket, a szereplőket. A kívánt eredmény érdekében automatikus címkézéssel és kategorizálással megkeresi a kulcsjeleneteket, elemzi a szereplőket, fontosságuk és érzelmi reakcióik függvényében rangsorolja őket, vizsgálja az elhangzó dialógusokat, az életkor-besoroláshoz felismeri az erőszakos és szexuális tartalmakat és azok intenzitását.

A film készítői a betáplált parancsok alapján irodalmi forgatókönyvet kaptak a géptől, a film vizuális felépítését, a plánozást, a kamerabeállításokat, a vágást, az utómunkát azonban a stáb humán tagjai készítették el. Már a film kezdő képsorai felhívják a figyelmet a készítés módszertanára, fekete kijelzőn (számítógépes képernyőn) felbukkanó szövegeket látunk, a programozói nyelv jellegzetes tipográfiájával. Ez a főcím vagy megalapozó beállítás egyértelműen kontextusba helyezi a látottakat. A felbukkanó szövegek és a glitch mint vizuális effektus megelőlegezi, hogy nem pusztán egy hagyományos mozgóképtechnikával forgatott filmet fogunk látni, hanem olyan alkotást, ahol a technomédiumnak fontos, tulajdonképpen narratívaépítő szerepe van. Már a legelső szöveg arról tájékoztat, hogy a mindannyiunk által használt technológia képezi a mű alapját. Ahogy az okostelefonok tanulnak a felhasználói szokásokból, úgy tanult a bevitt forgatókönyvekből az MI. A gépi kép ilyen módon való beemelése, vagyis átkódolásra emlékeztető bevezető képek és a hiba esztétizálása is másodpercek alatt összefoglalja a filmes világ építkezését. Az egész irodalmi forgatókönyv tulajdonképpen megjelenik a kezdőképeken, tehát a nézőnek lehetősége van áttekinteni a szöveget és összehasonlítani a leforgatott jeleneteket a saját értelmezésével, víziójával. A stáblistán pedig pár kép erejéig betekinthetünk az alkotói folyamatba, a stáb megbeszéléseibe. Egy pillanatra feltűnik Jetson, amint újabb részletet görget ki a forgatókönyvből.

Sunspring: Jetson/Benjamin munka közben

Habár a forgatókönyvben a dialógusok és az instrukciós rész nehezen vezetnek bármiféle koherens történet megértéshez, a mozgóképes eszközök, a kamerakezelés, a színészi játék és a kísérleti jellegű vizuális effektek, tehát a vizuális narratíva és képépítkezés jobban eligazít a filmelbeszélésben. Jelentős alkotói szabadságot, ugyanakkor kihívást is jelentett az algoritmus által írt abszurd párbeszédek, monológok megfilmesítése. Az alkotás nem pusztán az attrakcióra és látványosságra helyezi a hangsúlyt, „a humán filmesek igyekeztek az írást érthetőbbé tenni, kiemelve annak szórakoztató jellegét és furcsaságait.” [46] Minimalista díszletben játszódnak a jelenetek, a színészek korai sci-fi filmekből ismert, feltűnő jelmezeket idéző kosztümökben vannak. A film legnagyobb része számítógépekkel és elektronikus eszközökkel berendezett környezetben játszódik. Ezek az elemek valóban díszletnek és jelmezeknek hatnak, szándékosan nem segítik a filmes realitás illúzióját, a belemerülést, inkább elidegenítő hatással bírnak. Már az első percekben megismerjük mind a három figurát. Amikor megérkezik a jelenetbe, C első mondatában kijelenti, hogy „a koponyába kell mennem” [47] (Well, I have to go to the skull. I don’t know.) Itt tűnik fel az első speciális effektus, amely igyekszik bemutatni ezt a „koponyába menést”. A készítők nemes eleganciával oldották meg a kérdést, a szereplő egy elhasznált tabletnek kinéző eszközzel letapogatja saját koponyáját. Az eszköz zöld színű „röntgen sugarakkal”(?) átvilágítja az arcát, feltöltve az elmét vagy éppen letöltve a benne lévő információkat. Rögtön ezután H karaktere szemgolyót öklendez ki és dob el. A koponyás jelenet és a szemöklendezés ugyan benne vannak a forgatókönyvben, de ahhoz, hogy jelként és idézetként is működőképes elemmé váljanak, kellett hozzá az alkotók kreatív hozzájárulása és a néző aktív részvétele is. A gondolatátvitel, az emlékek, az elme feltöltése, a mindent látó szem mind-mind kedvelt motívumai a science fiction műfajának. Jetson írása és Sharp rendezése egyfajta hommage-ként idézi elénk az HAL vagy a Terminator (James Cameron, 1984) vörösen izzó szemét, a Sötét zsaruk (Men in Black. Barry Sonnenfeld, 1997) memóriatörlő kütyüjét, a Mátrix (Lilly Wachowski, Lana Wachowski, 1999) zöld színvilágát, a Star Trek (David Alexander, Robert Butler, 1966) orvosi szkennerét, vagy az avatár testeket és a Szárnyas fejvadász (Blade Runner. Ridley Scott, 1982) replikánsait.

Sunspring: „A koponyába kell mennem.”

A film ötödik percében a forgatókönyvíró Jetson a következő szállóigének is beillő ötlettel állt elő: „He is standing in the stars and sitting on the floor.” A szereplő egyszerre két állapotban van, mondhatni kvantum-szuperpozícióban, amely a számítástechnikában is jól ismert fogalom. [48] Ebben a vízióban az ember egyszerre két különböző állapotban is képes létezni, amíg egy megfigyelő jelenlétével (jelen esetben a néző vagy a kamera) be nem állítja egy állandó állapotba. H egyszerre van a csillagok között és az asztal alatt, a földön.  Ebben az „univerzumban játszódó” jelenetben szintén jól tetten érhető a bevitt adatok lecsapódása, a tudományos-fantasztikus filmek forgatókönyveiből leszűrt tartalom, hiszen a listában számos olyan mű szerepel, ahol a történet a világűrben játszódik. Armageddon (Michael Bay, 1998), Gravitáció (Gravity. Alfonso Cuarón, 2013), Galaxis útikalauz stopposoknak (The Hitchhiker’s Guide to the Galaxy. Garth Jennings, 2005), a Csillagok háborúja (Star Wars. George Lucas, 1977) és az Alien (Jean-Pierre Jeunet, 1997) mind olyan mozgóképes univerzumok, amelyek inspirálhatták Jetsont a fent említett pár sor megírásában. A forrásfilmekben felfedezhető a csillagközi vándor figurája, aki kalandjai során kapcsolatba kerül a világegyetemmel, és a csillagok között bolyongva talál rá önmagára. Mit tehet tehát a rendező, ha a MI azt javasolja, hogy a főszereplő legyen egyszerre két állapotban és különböző téridőben? A Sunspring stábja ebben a jelenetben sem törekedett a tökéletes vizuális illúziókeltésre, nem az irreális reálissá tétele volt a cél, inkább a filmi kép konstruáltságára, a kollázsszerűségre, az önreflexivitásra, valamint a prompt-ban felsejlő humorra koncentrált. A főszereplő hirtelen egy kivetített kompozit háttér előtt találja magát (green screen), mögötte a mélyűrfelvételen csillagok között fahrtol a kamera, majd kilép a képből, újra a szobabelsőt látjuk, és felveszi a megcsörrenő mobiltelefont, ekkor tűnik fel, hogy másik énje (kivetülése vagy megkettőződése) az asztal alól figyeli az eseményeket. Ezután H megfogja, és maga felé fordítja a kamerát, hogy ismét a kamera látószögébe kerülhessen a galaxisokat ábrázoló felvétel, összekötve ezzel a fiktív (világűr) és valódi teret (szobabelső). A film itt is erősen önreflexív, a szelfikészítés és az önreprezentáció gesztusát idézi emlékezetbe. Füzi Izabella az újmédiumok narratívaformáló szerepéről szóló tanulmányában, kifejti, hogy az „önfilmezés” „[…] a szereplő-színész, az operatőr és a nézői pozíció között a felügyelet, az ellenőrzés illuzórikus hatalmát kölcsönözheti a szelfizőnek […]”. [49] Hirtelen eltűnik kezéből a reprodukciós eszköz, már nem ő irányítja a kamera tekintetét, de meglepetésében a néző szemébe néz. Arckifejezésén jól láthatóak a döbbenet jelei, majd az ismételt belemerülés a film diegézisébe. További, a zsánerből jól ismert klisé a szuperfegyver, de itt nem egy gőzölgő tartályból vagy számzáras táskából kerül elő, hanem szigetelőszalaggal a falra van rögzítve, anyaga műanyag, és tulajdonképpen játékpuska, amelyet öngyilkossági szándékkal hasztalan emel szájához a karakter.

Sunspring: „Űrjelenet” H egyszerre van a csillagok között és az asztal alatt

Az első látásra furcsa jelenetek és bizarr párbeszédek a rövid filmidő alatt átalakulnak szerelmi drámává. A konfliktust nyújtó érzelmi háromszög a forgatás spontaneitásának köszönhetően alakult ki. A színészi játék nagy jelentőséget kap a filmben: „attól függetlenül, hogy a szövegkönyvet mesterséges intelligencia írta, és a dialógusok között nem találunk logikai összefüggéseket, a színészek úgy adják elő őket, mintha értelmesek és valódi konfliktushelyzetek lennének”. [50] A gesztusok és mozdulatok, az előadókészség különösen fontos, kifejezetten az utolsó jelenetben, amikor T (aki korábban H2 volt) a kamerába beszél, egyenesen a néző szemébe néz. Cohn szerint a színészek értelmet próbálnak adni az „értelmetlen forgatókönyvnek”. [51] Ebben az utolsó jelenetben a női szereplő teátrális helyzetet teremt, azzal, hogy egyenesen a nézőnek játszik, szekond plánban, majd premier plánban látjuk arcát. Intim és szinte zavarba ejtő, annyira közel van. Ezzel a szuperközelivel arra ösztökéli a nézőt, hogy próbálja meg újraértelmezni az elhangzottakat. Tettével kizökkent, leleplezi a médiumot, ha még egyáltalán beszélhetünk leleplezésről. Valójában videót nézünk, egy felvételt a YouTube-csatornán keresztül, egy nehezen dekódolható üzenettel. A gazdag arcjáték és előtörő érzelmei ellentétben állnak az értelmetlennek tűnő mesterségesen generált monológgal. A jelenet továbbá felidézi a virtuális valóságokban vagy a számítógépes játékokban használt reprezentációkat.

A fent vázolt néhány szempont megmutatja, hogy a betanított adatok alapján hogyan sejlenek fel azok a szüzsét és fabulát építő elemek, amelyek a hagyományos forgatási módszerekkel készült tudományos-fantasztikus zsánerekben is fellelhetőek: a túlélésért való küzdelem, az erős és gyenge küzdelme, a transzhumanizmus elmélete, a mély emberi kapcsolatok utáni vágyakozás és a szerelmi szál. Az immerzió létrejötte azonban sokkal intenzívebb nézői aktivitást kíván, mint a klasszikus sci-fi filmeknél. A filmidő alatt a néző kezdetben próbálja feltárni az ok-okozati összefüggéseket, a szereplők kapcsolatait és motivációját. Ez nagyrészt kudarcra ítélt vállalkozás, a teljes feltárás nem lehetséges, talán nem is cél, a posztapokaliptikus összefüggések visszafejtése szempont lehet, de nem a filmidő alatt, inkább a mű megtekintése után vagy a korábbi filmes univerzumokra alapozva. Sharp vállalkozása azért izgalmas, mert filmjével sikerült két látszólag ellentétes tényt bebizonyítania, nevezetesen, hogy a mesterséges intelligencia képes forgatókönyvet írni, amelyből készülhet egy díjnyertes disztópikus kísérleti rövid sci-fi film. Ugyanakkor a számtalan betáplált adatból nyert információ feldolgozásával, random függvények segítségével és a valószínűségszámítás módszerével gépe ekkor még nem volt képes koherens narratívát beépíteni a forgatókönyvbe, de jelentős humán szerzői és rendezői munkával, valamint nézői aktivitással lehetségessé vált az immerzió valamilyen foka. Dejan Grba a generatív művészet kategóriába sorolja ezt a törekvést, szerinte „a kereskedelmi kényszerektől mentes animáció és általánosságban véve a művészet új megközelítéseket és módszertanokat dolgozhat ki, a generatív művészet törekvéseiből kiindulva […]. ” [52]

A film fesztiválszereplése után a gép átnevezte magát. Egy interjú során az újságíró jövőbeli terveket feszegető kérdésére a következőképpen válaszolt:

– Mi következik most, Jetson?

– Essünk neki. A személyzetet az égő gépház szerelvénye osztja szét verejtékkel. Senki sem fogja látni az arcodat. A gyerekek benyúlnak a kemencébe, de a fény még mindig a padlóra csúszik. A világ még mindig zavarban van. A buli a munkatársaiddal lesz. A nevem Benjamin. [53]

Ebből a „interjúszituációból” is láthatjuk, hogy igen abszurd az a szöveg, amit Jetson/Benjamin ír, ugyanakkor jól ismert mintázatok tűnnek ki, jelen esetben a James Bond filmek jelmondatai. Mindenesetre színpadias, humoros és hátborzongató egyszerre az a véletlen, hogy Benjamin egy interjúban, a nagyközönség előtt ad új nevet magának („szimulált öntudatra ébred”); ezen a ponton kiviláglik az ember antropomorfizáló gesztusa és a gép programozott autonómiájának a különbsége.

Különböző tudományágak vizsgálják az ember antropomorfizáló tevékenységét. A természettudósok szerint ez nem más, mint egy ősi ösztön, amely elősegítette a túlélést a természetben. Mindenben arcot vagy élőlényt felfedezni védekezési mechanizmusként működött, éberebb figyelmet és a valós veszély nagyobb arányú kiszűrését eredményezte. A pszichológiában a gyerek szellemi fejlődését elősegítő mechanizmusnak tekintik. A robotika tudományában Mori Masahiro professzor a hetvenes években vezette be a „borzongások völgye” (uncanny valley) fogalmát. A meghatározás szerint, ha egy gép ábrázolása vagy megjelenése kifejezetten emberszerű, de van benne valami természetellenes, akkor átlépi a hátborzongató hátárát és ellenérzést kelt. A robotok építésekor ezt figyelembe veszik, ideális esetben a felhasználó emberszerű tárgyként kezeli őket. A művészet pedig talán a legemblematikusabb példa erre a gesztusra. Az absztrakt animáció úttörője Norman McLaren szerint háromtípusú absztrakt film létezik: „az egyik a tiszta absztrakció, ahol a képek nem emlékeztetnek semmilyen élőlényre, és a mozgásuk is csupán a geometriai mozgáshoz áll közel. Léteznek olyan absztrakt filmek, ahol az okjektumok beazonosíthatóak, például számokból állnak. Itt a számok emberi módon viselkednek, reagálnak egymásra. A harmadik típusba tartoznak azok az absztrakt filmek, ahol az elemek (pont, vonal, amorf forma) a mozgásuk által nyernek személyiséget. A formák ugyan nem az ábrázoló kategóriába tartoznak, de mozgásuk élettel tölti meg őket”. [54] Tehát egy teljesen absztrakt animáció is lehetőséget biztosít emberi érzések és szituációk átélésére. Visszakanyarodva Benjamin esetére, viselkedése emberszerű mozzanatnak tekinthető, ugyanakkor válaszaiból a betáplált adatokat látjuk visszatükröződni, ezért nem zuhanunk be a „borzongások völgyébe”.

Egy évvel később, 2017-ben Benjamin 2.0 elnevezéssel elkészült az It’s No Game (Oscar Sharp, 2017) című munka. A stáblistán itt már három forgatókönyvíró van feltüntetve Benjamin 2.0, Oscar Sharp és Ross Goodwin. Ebben a kollaborációban sokkal jobban követhető, klasszikus narratív szituációval találkozhatunk. A film szereplői forgatókönyvírók, akik sztrájkolnak, ezért helyettesítik őket forgatókönyvíró-gépekkel. A valós eseményekre utaló film kezdő képsorain megismerkedünk az alapszituációval, két férfi, az északi és a nyugati forgatókönyvíró egyesület munkatársai ellátogatnak a Fair Game Films nevű céghez. Itt fogadja őket a cég képviseletében Rhea L. Deal (real deal, a. m. ’valódi üzlet’), és közli velük, hogy ezentúl nincs szükség többé a munkájukra, hiszen helyettesíthetőek forgatókönyvíró algoritmussal, olyannal például, mint Benjamin. A történet végére kiderül, hogy tulajdonképpen a jelenlévők testébe már beépült a szoftver, és valódi személyiségük, valamint a gép által (Benjamin által?) irányított karakter egymás mellett él. A félig gép, félig ember figurája tollba integrált távirányítóval aktiválható, és képes bármilyen szerepbe és szituációba gombnyomásra belehelyezkedni.

Az alkotók ismét LSTM struktúrát és rekurzív gépi tanulást használtak, a neurális hálózat forrásai most David Hasselhoff 80-as években készült tévéműsorai, Shakespeare művei, Hollywood aranykorában készült filmek és Aaron Sorkin forgatókönyveinek szövegei voltak. A képi megoldásokban helyet kap a Terminátor-szériából és a számítógépes játékokból ismertté vált képernyőfelirat, amely tájékoztatja a nézőt arról, hogy a gép-ember-színész éppen milyen módban fut (Hoffbot, Robobard, Balletron). A tipográfia és a betűk színvilága ugyanakkor emlékezetbe idézi a Mátrix és a korai személyi számítógépek vizualitását. Ezekben a jelenetekben egyszerre vagyunk külső szemlélői az eseményeknek, ekkor a képernyőn felbukkanó információk nondiegetikus elemek, ugyanakkor a korábbi  robotfilmek alapján (Terminator, Robotzsaru, 2001 Űrodüsszeia) egy szubjektív szemszögre is lehet következtetni, diegetikus elemként Benjamin szemén keresztül látjuk a világot.

Az önreflexió ebben a filmben is felbukkan: egyrészt maga Benjamin is megjelenik, mint alkotó és mint test nélküli szereplő, utal az egy évvel korábbi produkciójára (Sunspring), másrészt kifigurázza az ember és a gép együttműködését a David Hasselhoff és K.I.T.T. párbeszédéből vett jelenettel. Hasselhoff monológját Benjamin írta bele a jelenetbe, a Knight Rider (Glen A. Larson, 1982-1986) sorozat dialógusai alapján. Az eredeti mű gép és ember tökéletes együttműködését tematizálta. A detektív, Michael Knight K.I.T.T-el (Knight Industries Two Thousand) szoros együttműködésben, sőt barátságban kalandoznak 90 epizód alatt. A különleges és szinte sérthetetlen autó mesterséges intelligenciával van ellátva, ami az emberi élet védelmére lett programozva, tehát nem pusztán egy jól felszerelt jármű, ami a protagonistát szállítja, hanem partner is. K.I.T.T karaktere idővel jelentős fejlődésen megy keresztül, képes megérteni emberi indíttatásokat és szimulálni emóciókat, mint a hiúság, féltékenység vagy a félelem. Ezen felül a humor képességére is szert tesz, amely feltételezi az öntudat jelenlétét. A sorozat készítői romantikusan álltak mesterséges és humán kapcsolatához, a gép racionális, intelligens és rendkívül megbízható, a humán szereplő pedig bátor, humoros és jószívű. Kettőjük együttműködéséből született meg a tökéletes páros, amely minden váratlan helyzettel szembe tud nézni az élet útvesztőin. A partnerségi viszony azonban mégsem tökéletesen egyenrangú, a hierarchia megvan ember és gép között, K.I..T.T. megmarad a szolgáló szerepében, sohasem emelkedik felül, nem veszi át az irányítást.

It’s No Game: David Hasselhoff mint Hoffbot

Ezzel szemben az It’s No Game-ben Hasselhoff Benjamin hatására Hoffbot-tá (gépemberré?) változik, a futtatott algoritmus segítségével saját korábbi monológjait építi be mostani szerepébe ‒ itt már nincs jelen az autó, csak egy eljátszott szerepről van szó. Aktiválódik a Hoffbot, és David gondolatban újra a nyolcvanas években találja magát (ruházatából korábbi sorozatszerepei is felidéződnek, például a Baywatchból ismert piros rövidnadrág), a hipnotikus folyamat egy gombnyomásra történik, demonstrálva Benjamin bábmester szerepét. Ezzel a csípős humoros áthallással a transzhumanizmus tematikája is felbukkan, ember és mesterséges intelligencia már nem külön entitás, hanem egy testben létező hibrid lény. Azonban ez a szerep nem minden résztvevő számára ideális, a film tanúsága szerint az emberi elmében zavar keletkezik, amikor a tökéletesség és az üzleti siker hajszolása érdekében egyesítenek egymásnak részben ellentmondó rendszereket. A film gúnyosan világít rá arra a helyzetre, amikor nem ember alkot ember számára, hanem gép gépnek kreál. A film története szerint nem jöhet létre olyan kreatúra, amely egyszerre mélyen érzelmes, szakmailag ambiciózus, ugyanakkor matematikai módszerekkel kiszámított és koreografált, tehát nem fér össze az intuitív és a rendszerelvű. Érdekes kérdés lehet, hogy ebben a fajta egyesülésben vajon Benjamin nem hisz vagy a stáb humán tagjai. A film utolsó jelenetét „game over” felirat vezeti be, David Hasselhoff egy folyósón összegörnyedve suttog a film nézőjének. Feltűnően zaklatott lelkiállapotban van, premier plánban kinéz a képből, egyenesen hozzánk beszél (ahogy ezt korábban a Sunspringben láthattuk). A Hoffbot program most már nem fut, a játéknak (színjátéknak) vége, újra ember, monológjában kétségbeesettem próbálja nekünk, a megfigyelőnek elmagyarázni a helyzetet. Visszavágyik abban a világba ahol ő színész, vagy mozibajáró, tehát átlagpolgár, nem feltuningolt bármikor bekapcsolható „szuperszínész”. („I want to go to the movies. I want to be a man.”)

A film nemcsak blockbuster-sorozatokra utal, hanem beemeli a klasszikus irodalom szerzőit is. Elhangzik például Robobárd szájából Shakespeare Julius Caesar című művéből átvett szavak felhasználásával megírt értelmetlen szöveg. A filmbeli forgatókönyvírók reakciója, hogy megpróbálják felhívni a figyelmet, hogy Shakespeare művei nem csak random módon összekevert sorok összességéből állnak, „nem majmok végtelen gépelése”. Ez a szövegrész párhuzamba állítja Émile Borel híres gondolatkísérletét a MI működésével. A végtelen majom tétel szerint, ha elképzeljük, a végtelen idő fogalmát, akkor nagy a valószínűsége annak, hogy egy fáradhatatlan majom egy örökké működő írógép előtt ülve legépelné Shakespeare műveit.

It’s No Game: Robobárd

A hiba mint vizuális és narratívaépítő elem többször megjelenik a filmben. A két forgatókönyvíró meghallgatásra várakozik, forró itallal kínálják őket a recepción, egyikük azonban a szobanövényre önti, ami ettől elkezd füstölni. Láthatjuk, hogy az élőnek tűnő nem organikus már, hanem konstruált szerkezet, nővénynek tűnő szimuláció. Már az ezt a mozdulatot megelőző kép is igen figyelemfelkeltő, hiszen a tea gőzölgése nem hat valóságosnak, látszik, hogy digitális utómunkának köszönhetően párolog, a háttérben szóló számítógépes játékot idéző zenefoszlányok pedig még inkább alátámasztják ezt a hamis világot. További az új technomédium világát leleplező hiba a film ötödik percében következik be, amikor az eddig határozott és fegyelmezett női figura, aki eddig aktiválta a szereplőket, most nyakon szúrja magát egy tollal, vagyis magát aktiválja. Balletron funkcióba kapcsol, hiszen Benjamin a balettáncos szerepét szánja neki, aki úgy táncol, ahogy a gép pittyeg. Az iroda folyosóján rögtönzött performanszába a kortárs tánc elemeit is belefűzi, a hagyományos módszerekkel írt forgatókönyveken tapos, végül összeesik.

It’s No Game: Balletron

Az It’s No Game a valóság és a fikció elemeinek izgalmas egyvelege, a készítők által feltett kérdések aktuálisak és relevánsak. Rendkívül bátor és szellemes törekvés egy olyan filmet íratni egy géppel, amely arról szól, hogy a gépek átveszik a hatalmat a kreatív iparban.  Ez a rövid alkotás pár perc leforgása alatt körüljárja a műalkotás, a szerzőiség fogalmát, a megrendelés és az alkotói szabadság kérdéseit is. Önkritikával és humorral nyilatkozik arról, hogy mi történik, ha a gép jelentős autonómiával részt vesz a kreációs folyamatokban, de még nem tud túllépni az utánzó algoritmusok szintjén.

Metamorfózis és szabad asszociációs folyamatok 

Az előző részben Oscar Sharp két munkáján keresztül olyan narrativitásra törekvő filmekre láthattunk példákat, amelyekben a mesterséges intelligencia jelentős szerepet vállalt a forgatókönyv és a dialógusok megírásában, de az audiovizuális kivitelezés teljes mértékben emberi alkotás. Ebben a részben viszont olyan művekre koncentrálok, amelyekben az algoritmus inkább a képi világ építéséért felelős. A példákat Jake Elwes és Memo Akten munkásságából veszem, valamint Oscar Sharp harmadik MI filmje, a Zone Out című alkotást veszem szemügyre. Az utóbbi bizonyos szempontból kicsit kilóg a sorból, hiszen itt Benjamin készítette el az egész művet (Oscar Sharp a „rendező rendezője”, Ross Goodwin pedig az „író írója”), de mégis sokkal dominánsabb a képi világ metamorfózisa, mint a narratív szál, ezért sorolom ebbe a kategóriába.

 Egy évvel az It’s No Game után elkészül a Zone Out (rendező: Benjamin, író: Benjamin, a rendező rendezője: Oscar Sharp, az író írója: Ross Goodwin 2018). Az irányítást szinte teljes mértékben átadták a gépnek, a kreatív feladatok közül Benjamin jegyzi a rendezést, a forgatókönyvet, a dialógusokat, és ő „játszik” a filmben. A film kezdő képsorain a bevezető szöveg informálja a nézőt arról, hogy Benjamin az autonóm alkotó, [55] ugyanakkor nem rendelkezik arccal és a feladat ellátásához szükséges egyéb eszközökkel, ezért nyersanyagként színészek (Thomas Middleditch, Elisabeth Gray, Humphrey Ker) arcáról kap felvételeket és hozzáférést a nyilvános filmes adatbázisokhoz. Ezekből a képi és hangzó anyagokból kell létrehoznia egy új mozgóképes művet. Az adatbázisok különböző filmjei [56] ebben az esetben nyersanyagok, a vágás során a legváltozatosabb szekvenciák egymásmellettisége a folyamatosság hatását kelti, úgy hogy megőrzi az idézettként beemelt művek atmoszféráját. Benjamin ezt úgy érte el, hogy a forrásként használt színészek arcjátéka összeépül a nyersanyagként betöltött filmek színészeinek arcával (faceswap). A mocap technológia egy alternatív módját használták, ellentétben a 3D animációs filmekkel itt nem egy virtuális karakter kel életre a színész mozgásának átültetésével, hanem egyik ember átalakul egy másik ember képébe.

Zone Out: arccsere (faceswap)

Oscar Sharp és Ross Goodwin itt is betáplált parancsokkal indítják el az alkotás folyamatát. [57] A végeredmény egy hétperces utazás Benjamin legbelsőbb neurális hálózatába. A filmben csak kevés nyomát találjuk a történetfűzés klasszikus módszereinek, a szereplők, a helyszínek és a hirtelen zenei váltások mind-mind érthetetlen és abszurd szituációkat teremtenek. Az experimentális látvány és az alakváltások dominálnak, ezzel újra az attrakció világába vezeti a nézőt. A film jelentősége, hogy számos olyan filmkészítési módszert egyesít, ami korábban, „biológiai alapú kreativitás” nélkül elképzelhetetlen volt. A több filmből összevágott alkotásban Vincent Price, Franca Bettoia (The Last Man on Earth, Ubaldo Ragona, Sidney Salkow, 1964) és Peggy Howard (The Brain That Wouldn’t Die, Joseph Green, 1962) karakterei újra életre kelnek, a Benjamin által írt dialógusok pedig beszédgenerátor (gépi narrátor) segítségével kerülnek ajkaikra (lip sync). Az illúzió leleplezésével, a nem realisztikus digitális arcátültetéssel a film tükröt tart a technicizált társadalomnak, óvatosságra int egy olyan világban, ahol a hamis videók (fake video) és az álhírek mindennaposak. Sharp ebben a high-tech technológiával készült műben is az embert tartja a legfontosabbnak. „Valójában arra törekedtem, hogy automatizáljam az emberi alkotói folyamat minden részét, hátha megtudunk valamit arról, mit is jelent valójában embernek lenni, olyan embernek, aki filmeket készít.” [58]

Zárszó

Max Tegmark fizikus a kreativitás és technológia kapcsolatának kérdésében Marshall Brain utópisztikus gondolataira támaszkodik, aki a gép felhasználásának pozitív lehetőségeit emeli ki: „[…] az emberi kreativitás csúcsteljesítményei – a tudományos felfedezések, irodalmi, képzőművészeti, zenei és építészeti alkotások – jó részét nem a haszonszerzés motiválta, hanem olyan emberi érzések, mint a kíváncsiság, az alkotás vágya vagy a társak megbecsülése miatti öröm. [59] Tegmark szerint ‒ mivel korábban a technológiai lehetőségek sokak számára rendkívül korlátozottak voltak, ami jelentős kompromisszumra kényszerítette az alkotókat ‒ az MI térnyerésével a digitális művészet utáni új „médiakonvergenciáról” [60] beszélhetünk. Technológiai és nem művészeti evolúcióról, nem szembenállásról, hanem a lehetőségek kiterjesztéséről van szó. A feltörekvő technológiák létrejöttük pillanatában általában az ember életének jobbá, könnyebbé tételét tűzik ki célul. Azonban fontos megemlíteni a megfelelő használat etikai és jogi kérdéseit is. A visszaélések és a megtévesztések elkerülése érdekében egyre sürgetőbbé válik egy konszenzusalapú szabályozás bevezetése, amely védi a felhasználókat, az alkotók szellemi jogait, de nem lehetetleníti el az eszközhasználatot és nem hátráltatja a fejlesztéseket.

A dolgozatban említett példaanyag alapján kijelenthető, hogy alapvetően kétféle közreműködés várható el a géptől. Az elsőben azok az MI technológiák említhetőek, amelyeket a monoton munkafolyamatok könnyítésére, kiváltására fejlesztettek, ilyen például a rotoszkóp animációban használatos stílustranszfer, fázisrajzok generálása, a morfolás, arcanimáció, stb. A második kategóriába esnek azok az innovatív technológiák, amelyek a kreatív munkafolyamatokban vállalnak nagyobb részt, ilyen például a szöveg képpé generálása, a forgatókönyvíró algoritmus, a nagymennyiségű adatfeldolgozás segítségével készülő ötletek és remixek. Alapvetően tehát a filmkészítés, a mozgóképalkotás narratív és vizuális struktúrájának építésben is jelentős szerepet tud vállalni az MI. A szerzői autonómiával ellátott gép a forgatókönyvírásban, a dialógus fejlesztésében is részt tud vállalni (Sunspring, It’s No Game). Kísérleti jelleggel az egész munkafolyamat átadható, (Zone Out) de ebből inkább az avantgárd vizuális adathalmaz és az újrahasznosítás (recycled cinema), a remix motívuma emelhető ki. Azokban az alkotásokban azonban, ahol az algoritmus a vizualitásért felel, harmonikusabbnak tűnik az együttműködés talán azért van ez így, mert itt nem miméziséről van szó, hanem a kísérleti filmekre egyébként is jellemző absztrahálásról. Ezekben a „tiszta filmes” módszerekkel készült alkotásokban nem feltétlenül van konkrét, koherens történet, sokkal erősebben dominálnak a vizuális asszociációk. A gépi asszisztencia itt azért jelentős, mert egyrészt rendkívüli módon felgyorsítja a munkafolyamatot, nem kell az idő és az anyagi források hiányára hivatkozva kompromisszumokat kötni, másrészt, ami a korábbi képalkotó eszközökkel elképzelhetetlen lett volna, az apparátus a fent említett természetes nyelvi modelleknek és az internetnek köszönhetően itt valódi produkciós gépezetté tud válni, szemben korábbi végrehajtó szerepével. Az elemzett példák számomra azt mutatták meg, hogy a filmkészítés metódusaiban jelenleg az MI felhasználása kísérleti jellegű. Az alkotók egyrészt testreszabott feladatokkal tesztelik különböző munkafázisokban a gép teljesítményét, másrészt felruházzák olyan szerepekkel, amelyek korábban a humán alkotók feladatai voltak. Oscar Sharp filmjeinél végigkísérhetjük Jetson/Benjamin „alkotói életútját”. Az alkotók pionírként utat nyitnak a jövőbeli differenciáltabb fejlesztésekre és feladatokra, ahol nem cél a természetes és mesterséges intelligencia összehasonlítása, a gép nem helyettesíti az ember alkotó tevékenységét, sokkal inkább kreatív eszközként az ember- és gép-kollaborációban rejlő egyediséget segíti elő. Gerencsér Péter az újmédiaművészet tekintetében „interaktív fordulatnak” [61] nevezi azt az ember és gép között létrejövő kapcsolatot, amelyben a néző nem passzív befogadó, hanem az alkotás immanens formálója.  „A számítógépes interaktivitás azért kiváló terepe a mesterséges intelligenciára vonatkozó művészeti reflexióknak, mert a művészi kreativitás a gépi kreativitással kapcsolódik össze, ahol a tudomány és a művészet felületesen vagy ténylegesen a reneszánsz ideálra emlékeztetve egymásba olvad.” [62]

A mesterséges intelligencia és a művész kreatív együttműködéséből olyan lehetőségek nyíltak meg az alkotók előtt, amire korábban nem volt példa. Ahogy több említett alkotó is utalt rá kifejti, hogy a gép segítségével készített alkotásaikon keresztül többet tudnak meg a művészetről és talán saját magukról is, a néző pedig passzív befogadóból aktív szerepvállalóvá lép elő. Egy intelligens gép segítségével az ember művészi készségei tovább formálódnak, az önkifejező eszközök palettája egyre színesebb lesz, a kihívást jelentő új technológiák használata formába önti a jövőt. Jelentős változás hoz az újmédia területén, hogy eddig csak emberek készítettek tartalmakat emberek számára, ma gépek által generált tartalmak készülhetnek emberek számára és az „asszimilálódás” [63] jegyében a jövőben készülő tanuló algoritmusok beépítik a generált tartalmakat adatbázisaikba.

Jegyzetek

  1. [1] Belting, Hans: Médiatörténet és művészettörténet. Ford. Teller Katalin. In uő: A művészettörténet vége. Az első kiadás újragondolt változata – tíz év után. Budapest, Atlantisz Könyvkiadó, 1992. 234.
  2. [2] Idézi: Eifert Anna: A kép az eltűnés esztétikájában. Interaktív Environment mint kinesztetikus tapasztalati tér. In Kép/Fenomén/Valóság. Szerk. Bacsó Béla. Budapest, Kijárat Kiadó, 1997. 381.
  3. [3] Idézi: Belting: i.m. 238.
  4. [4] Natural Language Processing (NLP) vagyis természetes nyelvfeldolgozás révén nem kódolással, hanem szövegalapú parancsok (prompt) segítségével lehet kommunikálni a géppel, megkönnyítve ezzel az ember – gép interakciót.
  5. [5] Belting: i.m. 236.
  6. [6] Ld. Debord, Guy Feuerbachot idéző mottóját. Debord, Guy: A spektákulum társadalma. (1992) Ford. Erhardt Miklós. Tartós Hullám-sorozat Pdf-ben megjelent, átdolgozott változata. Budapest, MTA Művészettörténeti Kutató  Intézet/Balassi Kiadó, 2006. 2.
  7. [7] Manovich, Lev: AI Aesthetics. Strelka Press, 2018. URL: http://manovich.net/content/04-projects/161-ai-aesthetics/manovich.ai_aesthetics_2018.pdf
  8. [8] Miessgang, Thomas: A technikai képek hegemóniája. Beszélgetés Vilém Flusserrel. Ford. Sebők Zoltán. Iskolakultúra, 1997/10. 49.
  9. [9] Stable Diffusion: https://stablediffusionweb.com/#demo , Midjourney: https://www.midjourney.com/home/?callbackUrl=%2Fapp%2F , DALL-E 2: https://openai.com/dall-e-2
  10. [10] A diffúziós modellek a GAN-okhoz hasonlóan zajt használnak. A GAN-hoz képest a folyamat hosszabb és több lépésen keresztül történik. Az eljárás, ahogy a neve is mutatja a termodinamikából ismert diffúziós folyamatot használja első lépésben. Egy rendszer egyensúlyát az biztosítja, ha nincs egy helyen, nagy koncentrációban egy adott anyag, például a vízbe csöppentett festék egy idő után összekeveredik a vízzel; a diffúzió megvalósul. A diffúziós modelleknél ez a folyamat játszódik le, majd ennek a fordítottja. A forrásanyagként használt képhez folyamatosan egyre több és több zajt adnak (akár 1000 lépésben), majd a végeredmény egy, csak zajból álló kép lesz. A következő lépésben ezt a folyamatot visszafordítják és a cél az, hogy a zajból újra értelmezhető kép legyen. A folyamat legfontosabb része, hogy fokozatosan fordítják a visszájára, tehát a nem nagyon zajos képből lesz a tiszta információ, hanem fokozatosan válik a zajból újra információ, így sokkal hatékonyabb az eljárás. Ha a végeredmény nem kielégítő, akkor újra végigmegy a folyamaton (downsample-upsample), mígnem a két kép nagyon hasonló nem lesz, így zajlik a betanítási folyamat. A gép, a betanítás után csupán zajból képes képet készíteni. Az eddigi modellek a betanított adatok alapján nagyon jók voltak egy bizonyos tematikában (emberi arc, épület, állatok, stb.) A diffúziós modellek kibővültek szövegkódolóval (text encoder), amely a betáplált szöveget összekapcsolja a szöveg képi reprezentációjával, minél több szöveges adatot visz be a felhasználó a parancsba (prompt), annál nagyobb a valószínűsége, hogy az elvárásainak megfelelő képet kap vissza a géptől.  https://stable-diffusion-art.com/how-stable-diffusion-work/
  11. [11] Már 1710-től feljegyeztek géprombolásról szóló adatokat. A legismertebb gépromboló mozgalom a ludditáké volt, mely, Ned Ludd fiktív figurájának nevét viseli. Emlékükre készítette el Uitz Béla 1923-ban Géprombolók című, tizennégy rézkarcból álló sorozatát.
  12. [12] Galántai Zoltán: Tudomány, művészet, jövő. A Magyar Képzőművészeti Egyetem Művészetelméleti Kutatócsoport, 2008. 27.
  13. [13] Szilágyi Sándor: A fotográfia (?) elméletei. Klasszikus és újabb megközelítések. Budapest, Vince Kiadó, 2014. 269.
  14. [14] Miessgang: i.m. A technikai képek hegemóniája.
  15. [15] Russell, Stuart és Norvig, Peter: Mesterséges Intelligencia. Modern megközelítésben. Budapest, Panem Könyvkiadó, 2005. URL: http://mialmanach.mit.bme.hu/aima/index
  16. [16] Urbons, Klaus: Copy Art. Fénymásolás-művészet. Magyar Műhely Kiadó, 2005. 109.
  17. [17] Ruzsa Dénes: Vizuális expanziók. Az elektrográfia megjelenése Magyarországon a 70-es és a 80-as években.
  18. [18] Talos mitikus alak, egy görög bronzóriás. Héphaisztosz alkotása, emberfeletti erővel rendelkező, bronzból készült „automata”.
  19. [19] Héder Mihály: Mesterséges Intelligencia. Filozófiai kérdések, gyakorlati válaszok. Budapest, Gondolat Kiadó, 2020. 48.
  20. [20] Héder: i.m. 49.
  21. [21] A program, találóan, George Bernard Shaw Pygmalion című művéről kapta a nevét, amelyben a főszereplő nyelvész professzor művelt beszédmódra tanítja a virágárus lányt.
  22. [22] Héder: i.m. 7.
  23. [23] Uo. 8.
  24. [24] A Deep Blue nevű sakkprogram legyőzte Kaszparovot.
  25. [25] chatGPT (Generative Pre-trained Transformer): olyan MI rendszer, amely a nagy nyelvi modell (Large Language Modell – LLM) segítségével párbeszéd formájában interakcióba tud lépni a felhasználóval, és összetett kérdések megválaszolására is alkalmas. Azon túl, hogy internetes keresőmotorokba épített funkciókat egyesíti egyetlen platformon, jól használható nyelvtanulásra, jegyzetek készítésére, forgatókönyvírásra vagy programozási, kódolási feladatok elvégzésére.
  26. [26] Brighton, Henry és Selina, Howard: Mesterséges intelligencia másképp. Ford. Kovács Kristóf. Budapest, Edge 2000 Kft., 2004.10.
  27. [27] Russell és Norvig: i.m. URL: http://mialmanach.mit.bme.hu/aima/index
  28. [28] Russell és Norvig: i.m. URL: http://mialmanach.mit.bme.hu/aima/index
  29. [29] Uo. URL: http://mialmanach.mit.bme.hu/aima/index
  30. [30] Uo. URL: http://mialmanach.mit.bme.hu/aima/index
  31. [31] https://www.inf.u-szeged.hu/~rfarkas/ML20/deep_learning.html
  32. [32] 1. Tartalom kiválasztása gyűjteményekből (keresés, felfedezés, szűrés) 2. Célzott tartalom (célzott marketing elemek, piacszegmentáció) 3.  Segítségnyújtás új tartalom létrehozásához (részvétel az alkotásban) 4. Teljesen autonóm alkotás. Lev Manovich: AI Aesthetics. Strelka Press, 2019. 5.
  33. [33] Guilford, Joy Paul: Creativity. American Psychologist, 1950, 5.9. 444-454.
  34. [34] Intelligens algoritmusok jelennek meg azokban a munkafolyamatokban, amelyek során a gép az ember kognitív képességeit, mint például a vizuális észlelést szimulálja, így gyorsítva fel egy-egy munkafolyamatot. Ilyen például a tárgyak és formák felismerésének képessége, maszkolásnál az alak és a háttér elkülönítése.
  35. [35] Boden, Margaret: Creativity and Artificial Intelligence. Artificial Intelligence, 1998, 103. 1-2. 347.
  36. [36] Uo. 347.
  37. [37] LSTM-modellek lehetővé teszik az információ tárolását és visszakeresését hosszú időtartamokra.
  38. [38] Rekurzív folyamat során a gép visszacsatolási hurkokat használ, folyamatosan tanul saját kimeneti adataiból, amit visszacsatol a bemenetbe további feldolgozás céljából.
  39. [39] Kárpáti György, Schreiber András (szerk.): A sci-fi. Válogatott tanulmányok. Budapest, KMH Print, 2016. 10.
  40. [40] Néhány példa a forrásként felhasznált forgatókönyvekből: 2001: Űrodüsszeia (2001: A Space Odyssey. Stanley Kubrick, 1968), Alien (Jean-Pierre Jeunet, 1997), Armageddon (Michael Bay, 1998), Avatar (James Cameron, 2009), Szárnyas fejvadász (Blade Runner. Ridley Scott, 1982), E. T., a földönkívüli (E.T. the Extra-Terrestrial. Steven Spielberg, 1982) Frankenstein (James Whale, 1931), Godzilla (Roland Emmerich, 1998), Logan futása (Logan’s Run. Michael Anderson, 1976), Sötét zsaruk (Men in Black. Barry Sonnenfeld, 1997), Csillagok háborúja (Star Wars. George Lucas, 1977), Transformers (Michael Bay, 2007)
  41. [41] Brannan, Alex: An In-Depth Analysis of Sunspring (2016), The Short Film Written By A Computer. cinefilesreviews.com, URL: https://cinefilesreviews.com/2016/06/12/an-in-depth-analysis-of-sunspring-2016-the-short-film-written-by-a-computer/#comments; 2023.04.26.
  42. [42] „In a future with mass unemployment, young people are forced to sell blood.”
  43. [43] „- H: I don’t know. I don’t know what are you talking about.
    – C: That’s right.
    – H2: So what are you doing?
    – H2: I don’t want to be honest with you
    […]
    – H2: I don’t know what you’re talking about.
    – The principle is completely constructed for the same time.”
  44. [44] Cohn, Jonathan: The Scientist of the Holy Ghost:Sunspring and Reading Nonsense. JCMS: Journal of Cinema and Media Studies, 2021, 60. 5. 5.
  45. [45] Grba, Dejan: Avoid Setup. Insights and Implications of Generative Cinema. Leonardo, 2017, 50/4. 384-393.
  46. [46] Cohn, Jonathan: i.m. 17.
  47. [47] Nehéz pontosan magyarra fordítani ezt a szövegrészt. Ha algoritmust eresztünk az algoritmusra, tehát gépi fordítást alkalmazunk, akkor a chat GPT válasza: „I believe you meant »school«.  Could you please clarify the context or provide more information so I can better understand your request?” „Azt hiszem, az »iskola« szóra gondolt. Kérem, tisztázza a szövegkörnyezetet, vagy adjon meg több információt, hogy jobban megértsem kérését.”
  48. [48] Leegyszerűsítve a fogalmakat a hagyományos számítógép alapja a bináris logika, a kettes számrendszer melynek értéke 0, vagy 1, (igen vagy nem) a kvantumszámítógépnél pedig 0,1 illetve a kettő egyszerre, egyidőben.
  49. [49] Füzi Izabella: A képernyő és a filmvászon hibridizációja: a videóchat és a videószelfi játékfilmes idézése (Remélem, legközelebb sikerül meghalnod, FOMO ‒ Megosztod és uralkodsz, Szép csendben). Apertúra, 2021. nyár. URL: https://www.apertura.hu/2021/nyar/fuzi-a-kepernyo-es-a-filmvaszon-hibridizacioja-a-videochat-es-a-videoszelfi-jatekfilmes-idezese/
  50. [50] Cohn : i.m. 15.
  51. [51] Uo. 16.
  52. [52] Grba, Dejan: i.m. 393.
  53. [53] “What’s next for you, Jetson?” It replied: “Here we go. The staff is divided by the train of the burning machine building with sweat. No one will see your face. The children reach into the furnace, but the light is still slipping to the floor. The world is still embarrassed. The party is with your staff.” “My name is Benjamin.”
  54. [54] Creative Process: Norman McLaren (Donald McWilliams, 1990)
  55. [55] Foucault a szerzőiségről írt elméletének társítása a mesterséges intelligencia segítségével készült filmek értelmezéséhez lásd Parikh, Priya: AI Film Aesthetics: A Construction of a New Media Identity for AI Films. researchgate.net, URL: https://www.researchgate.net/publication/338884938_AI_Film_Aesthetics_A_Construction_of_a_New_Media_Identity_for_AI_Films
  56. [56] The Brain That Wouldn’t Die (Joseph Green, 1962), The Last Man on Earth (Ubaldo Ragona, Sidney Salkow, 1964)
  57. [57] Parancsok: DIALÓGUS: „Ádámnak akarták hívni – komolyan.” KELLÉK ÉS INSTRUKCIÓ: A karakter egy lencsét tart, és elfordítja, hogy visszaverje az erős fényt. VÁLASZTHATÓ TUDOMÁNYOS ÖTLET: A genetikailag módosított vírus, mely csak terhes nőket támad.
  58. [58] Goode, Lauren: AI Made a Movie ‒ and the Results Are Horrifyingly Encouraging. wired.com, 2022.05.01. URL: https://www.wired.com/story/ai-filmmaker-zone-out/
  59. [59] Tegmark, Max: Élet 3.0 – Embernek lenni a mesterséges intelligencia korában. Budapest, HVG Kiadó Zrt, 2018. 270.
  60. [60] Jenkins, Henry. The cultural logic of media convergence. International Journal of Cultural Studies, 2004, 7.1. 33-43.
  61. [61] Gerencsér Péter: A web 2.0 mint a net art neoavantgárdja. Folytonosságok és törésvonalak az internetes művészet diskurzusában. Doktori értekezés. 2017, Szegedi Tudományegyetem, Szeged 142–162.
  62. [62] Gerencsér Péter: Második természet? Mesterséges intelligencia az újmédia-művészetben. Szabad Piac, 2020/1. 79.
  63. [63] Betancourt, Michael: Disruptive Technology: The Avant-Gardness of Avant-Garde Art. journals.uvic.ca, URL: https://journals.uvic.ca/index.php/ctheory/article/view/14580/5459
Erre a szövegre így hivatkozhat:

Spitzer Noémi Fruzsina: A gép mint kreatív alkotótárs. A mesterséges intelligencia alkalmazása a mozgóképek készítésében. Apertúra, 2023. tavasz. URL:

https://www.apertura.hu/2023/tavasz/a-gep-mint-kreativ-alkototars-a-mesterseges-intelligencia-alkalmazasa-a-mozgokepek-kesziteseben/

https://doi.org/10.31176/apertura.2023.18.3.7