Stel je voor dat je een computer een grote serie foto’s geeft en bij elke foto vertel je de computer wat er op die foto staat. Na lang trainen met veel foto’s van bomen weet de computer dan – als voorbeeld – dat een boom bestaat uit een lange stam met daarop een kruin van takken.
Bomen herkennen (img2txt)
Door deze manier van trainen is de computer in te zetten als herkenningsinstrument. Wanneer een nieuwe foto met een onbekende boom wordt aangeboden, kan de computer bijvoorbeeld zeggen: “met 79% zekerheid is dit een boom”.
Met een beetje doortrainen is het zelfs mogelijk de soort boom te herkennen. Kijk maar eens bij PlantSnap. Die kan op basis van een plaatje zeggen: “eik”. Het proces is dus van plaatje (input) naar tekst (output).
Andersom: bomen maken (txt2img)
Op een gegeven moment bedacht iemand dat het ook andersom moest kunnen. Als de computer zo goed weet hoe bomen eruit zien, dan kan diezelfde computer waarschijnlijk ook foto’s van bomen maken. Na wat gerommel met software ontstonden er programma’s zoals DALL-E en Stable Diffussion.
De input is nu geen plaatje maar tekst, en de output is het plaatje. De grap is dat je niet alleen het object maar ook de gewenste stijl als input kunt geven. Het laatste plaatje in de galerij hierboven had als input: “boom met bladeren, hypergedetailleerd, cinematografisch”.
Wat voor gevolgen heeft dit?
In de AI-gemeenschap en daarbuiten zorgt deze software voor een storm. Velen verwachten dat het impact zal hebben op beroepen met een creatieve component: denk aan schilders, fotografen en filmmakers. Sommigen denken zelfs dat online stockfoto-diensten binnenkort hun deuren kunnen sluiten. We zijn benieuwd en zien het nu vooral als een extra instrument.