In februari vorig jaar kondigde het OpenAI onderzoekslab aan dat zijn GPT-2 artificial intelligence (AI) systeem boeiende tekstpassages in het Engels kon schrijven. Als u het begin van een zin of paragraaf in het systeem invoert, kan het systeem het belangrijkste idee voortzetten tot u een poging met bijna menselijke coherentie schrijft. Na deze mijlpaal, een paar weken geleden, kondigde de entiteit de volgende versie van het programma aan, GPT-3, waarvan de mogelijkheden om tekst in natuurlijke taal te genereren hoger zijn dan die van zijn voorganger.

Maar het onderzoekt ook wat er zou gebeuren als hetzelfde algoritme een deel van een afbeelding zou krijgen. De resultaten, die een eervolle vermelding voor het beste werk op de recente Internationale Conferentie over automatisch leren ontvangen, open een nieuwe weg voor het creëren van beelden, vol kansen en gevolgen.

In wezen, GPT-2 is een krachtige voorspelling motor die heeft geleerd om de structuur van het Engels te begrijpen door te kijken naar miljarden voorbeelden van woorden, zinnen en paragrafen, getrokken uit vele hoeken van het internet. Met die structuur u woorden combineren om nieuwe zinnen te maken en de volgorde waarin ze moeten worden weergegeven statistisch te voorspellen.

Nu hebben OpenAI-onderzoekers besloten om woorden te vervangen door pixels en hetzelfde algoritme te trainen met afbeeldingen van ImageNet, de populairste beeldbank voor deep learning. Omdat het algoritme is ontworpen om te werken met eendimensionale gegevens (d.w.z. tekstregels), werden de afbeeldingen in één reeks pixels weergegeven. Ze ontdekten dat het nieuwe model, genaamd iGPT, in staat was om de tweedimensionale structuren van de visuele wereld te begrijpen. Met de pixelvolgorde voor de eerste helft van een beeld, kon AI de tweede helft voorspellen van een manier die een mens redelijk zou achten.

Hieronder vindt u enkele voorbeelden. De meest linkse kolom is de afbeelding ingevoerd, de kolom helemaal rechts is de oorspronkelijke afbeelding, en de middelste kolommen zijn de afwerkingen die door iGPT. (Zie hier meer voorbeelden.)
De resultaten zijn verbazingwekkend indrukwekkend en tonen een nieuwe weg naar het gebruik van onbewaakt leren, dat traint op niet-getagged gegevens, in de ontwikkeling van machine vision systemen. Hoewel de eerste machine vision systemen in het midden van de jaren 2000 al eerder dergelijke technieken hadden getest, verloren ze hun relevantie voor supervised learning, dat gebruik maakt van gelabelde gegevens, omdat het veel succesvoller bleek. Het voordeel van leren zonder toezicht is echter dat het een AI-systeem in staat stelt om dingen over de wereld te leren zonder een menselijk filter en het handmatige gegevenslabelingwerk aanzienlijk vermindert.

Het feit dat iGPT hetzelfde algoritme gebruikt als GPT-2 is ook een weerspiegeling van het veelbelovende aanpassingsvermogen. Dit is in lijn met de belangrijkste ambitie van OpenAI: het realiseren van een meer generaliseerbare AI.

Tegelijkertijd biedt deze methode een zorgwekkende nieuwe manier om ultra-vervalste beelden te maken, of deepfake. Antagonistische generatieve netwerken, of GAN, de meest voorkomende categorie algoritmen die worden gebruikt om deepfakes te maken, moeten worden getraind op zeer goed geselecteerde gegevens. Als we bijvoorbeeld willen dat een GAN een gezicht genereert, moeten de trainingsgegevens alleen gezichten bevatten. iGPT, aan de andere kant, leert gewoon genoeg van de structuur van de visuele wereld door middel van miljoenen en miljarden voorbeelden om beelden te creëren die erin zouden kunnen bestaan. Hoewel het trainen van een model nog steeds rekenkundig duur is, dat is een natuurlijke barrière voor toegang, kan het niet zo lang.

OpenAI heeft niet gereageerd op een interview verzoek, maar op een intern beleidsteam vergadering bijgewoond door MIT Technology Review vorig jaar, de directeur, Jack Clark, nagedacht over de toekomstige risico’s van de generatie, zoals degene die GPT doet, met inbegrip van wat er zou gebeuren als toegepast op de beelden. De manager verklaarde: “Het volgende ding zal de video. Waarschijnlijk zal er over vijf jaar een voorwaardelijke generatie video zijn over een horizon van vijf tot tien seconden.” Hij ging toen te beschrijven hoe hij het voorstelde: een beeld van een politicus en een explosie zal naast hem worden opgenomen, en een waarschijnlijk resultaat zou worden veroorzaakt door die politicus die wordt gedood.

Leave a comment

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *