Google-ov novi softver pretvara tekst u 3D slike

Google je predstavio novu, poboljšanu verziju svog softvera, koji pomoću AI (artificial intelligence) generiše 3D objekte na osnovu tekstualnih inputa.

Prva verzija predstavljena je 2021. godine pod nazivom Dream Fields, a novi softver koji vještačkom inteligencijom pretvara tekst u 3D generisane slike, nosi naziv Dream Fusion.

Inženjerski tim u Google-u je u dokumentu koji prati softver pojasnio na koji način sistem funkcioniše. Dream Fusion koristi neuronsku mrežu Neural Radiance Field (NeRF) koja generiše scene u 3D prikazu, a na osnovu 2D podataka.

Dream Fields je pokretala Open AI CLIP tehnologija, a u Drem Fusion-u tu ulogu igra Imagen – AI model koji je razvijen u Google-u.

NeRF model je funkcionisao tako da nakon unosa teksta generiše nasumičan pogled na objekat iz jednog ugla koji se procjenjivao pomoću Open AI CLIP-a. Povratna informacija se koristila kao signal korekcije za NeRF model. Ovaj proces se ponavlja do 20.000 puta sa različitih uglova, dok se ne generiše 3D model koji odgovara tekstualnom opisu.

Novi Dream Fusion ne zahtijeva opisano dodatno obučavanje i unapređivanje modela sa povratnim podacima. Umjesto toga, Dream Fusion kreira 3D reprezentaciju koristeći 2D slike objekta generisanog pomoću Imagen-a iz različitih perspektiva. Proces je automatizovan i nisu potrebne nikakve modifikacije modela difuzije slike.

Na Github-u je objavljen prikaz pojedinih 3D modela koji ovako nastaju, a pratioci uglavnom komentarišu da nisu toliko foto-realistični, iako jesu impresivni. Geometrija površine objekata je precizna, isto kao i dubina prikaza i moći će da se iskoriste u različitim uslovima.

U Google-u je pojašnjeno da će se različiti 3D modeli u Dream Fusion moći kombinovati u jednoj sceni, a više o svemu možete saznati ako posjetiti Dream Fusion prezentaciju.