
Whisk prieš tradicinę užklausų inžineriją: kodėl naujas Google įrankis keičia viską
Užklausų inžinerija per pastaruosius kelerius metus išsivystė į savotišką meno formą, o specializuotos bendruomenės dalijasi sudėtingomis technikomis ir formulėmis, kad gautų geriausius rezultatus iš AI vaizdų generatorių. Google Labs eksperimentinis Whisk AI žymi esminį pokytį šiame kraštovaizdyje, potencialiai keisdamas, kaip mes sąveikaujame su generatyviniais AI įrankiais amžinai.
Tradicinė užklausų inžinerijos aplinka
Prieš tokius įrankius kaip Whisk, užklausų inžinerija reikalavo didelio mokymosi. Vartotojai turėjo suprasti įvairias technikas:
- Raktažodžių svėrimas – naudojant specialią sintaksę tam tikriems elementams pabrėžti
- Neigiamas užklausų kūrimas – aiškiai nurodant, ko reikėtų vengti
- Stiliaus nuoroda – nurodant konkrečius menininkus, judėjimus ar technikas
- Techniniai parametrai – įskaitant atvaizdavimo specifikacijas, tokias kaip raiška ir detalumo lygis
- Kompozicinės direktyvos – nurodant žiūros tašką, kadravimą ir išdėstymą
Šios technikos buvo sukurtos bendruomenės eksperimentų metu, todėl užklausų formatai dažnai atrodė labiau kaip kodas, o ne natūrali kalba. Nors tai buvo efektyvu, tai sukūrė didelę kliūtį atsitiktiniams vartotojams, kurie negalėjo pasiekti tokios pat kokybės rezultatų kaip tie, kurie norėjo studijuoti užklausų inžinerijos principus. Jei tik pradedate, mūsų išsamus pradedančiųjų vadovas apie Whisk AI žingsnis po žingsnio paaiškins šias sąvokas.
Kaip Whisk AI keičia procesą
Whisk AI žymi dramatišką požiūrio pasikeitimą, algoritmiškai užkoduodamas ekspertų užklausų inžinierių žinias. Whisk AI ir Veo AI veikia kartu kaip papildomi AI įrankiai Google kūrybiniame rinkinyje. Štai kaip tai iš esmės keičia procesą:
Natūralios kalbos įvestis: Užuot reikalavus vartotojų mokytis specializuotos sintaksės ir terminologijos, Whisk priima pokalbio aprašymus. Tai daro visą procesą intuityvesnį ir prieinamesnį.
Automatinis tobulinimas: Sistema automatiškai identifikuoja, kuriuos užklausos elementus reikia patobulinti, ir prideda atitinkamas technines detales, stilistines nuorodas ir kompozicines gaires. Pagrindinė technologija remiasi Google DeepMind Imagen 3, vienu pažangiausių teksto į vaizdą modelių.
Edukacinis požiūris: Rodydamas vartotojams, kaip jų paprastos užklausos virsta efektyvesnėmis, Whisk iš tikrųjų moko užklausų inžinerijos principų per demonstraciją, o ne reikalauja išankstinio mokymosi.
Nuosekli kokybė: Galbūt svarbiausia, Whisk teikia nuoseklius, aukštos kokybės rezultatus, nepriklausomai nuo vartotojo patirties lygio. Pradedantieji gali pasiekti rezultatus, panašius į patyrusių užklausų inžinierių, išlygindami kūrybinio AI vaizdų generavimo sąlygas.
Užklausų inžinerijos ateitis
2024 m. tyrimo darbas apie užklausų optimizavimą rodo, kad automatinis užklausų tobulinimas gali prilygti arba viršyti žmogaus eksperto našumą teksto į vaizdą užduotyse, patvirtindamas tokį požiūrį, kurį taiko tokie įrankiai kaip Whisk AI.
Kadangi tokie įrankiai kaip Whisk toliau vystosi Google Labs, atotrūkis tarp pradedančiųjų ir ekspertų vartotojų toliau mažės. Užuot pakeitę užklausų inžinerijos žinias, šie įrankiai daro jas prieinamas visiems – demokratizuodami AI vaizdų generavimą ir atverdami kūrybines galimybes, kurios anksčiau buvo prieinamos tik tiems, kurie turėjo gilių techninių žinių. Pažiūrėkite, kaip tai pasireiškia praktikoje mūsų straipsnyje apie tai, kaip Whisk AI revoliucionuoja vaizdų generavimą kasdieniams vartotojams.

