Het digitale landschap is continu in beweging, en een van de meest intrigerende gebieden van innovatie rondom AI is wel de beeldtechnologie die er in enkele diensten zoals Google Bard en ChatGPT geïntegreerd zijn. Dagelijks gebruiken we talloze apps en diensten die afbeeldingen en visuals zoals grafieken produceren en verwerken, maar sta je er ooit bij stil hoe veelzijdig de toepassingen kunnen zijn? In deze post duiken we dieper in een helder en praktisch framework dat je helpt de brug te slaan van simpele afbeeldingen naar waardevolle inzichten. Het is een model uit een GPT-4V brainstorm omdat we het model instaken vanuit de ontwikkelingen bij open AI. Maar omdat niet iedereen de betaalde versie van GPT heeft testen we ook Google Vision (Google Bard) volgens dit model.
Het is echt enorm indrukwekkend om te zien hoe en hoe snel deze technologieën zich momenteel ontwikkelen en welke nieuwe mogelijkheden er in de toekomst zullen ontstaan. Het is essentieel voor professionals om op de hoogte te blijven van deze ontwikkelingen en te begrijpen hoe ze kunnen worden toegepast in hun respectievelijke vakgebieden.
7 overkoepelende mogelijkheden
Met dit schema willen we de diepte en breedte van AI- en beeldverwerkingstoepassingen laten zien. Of dit alle overkoepelende thema’s zijn durven we uiteraard in deze fase niet te zeggen want wie weet ontstaan er nog meer toepassingen. Heb je aanvullingen laat ze dan onder in de nieuwsbrief in de comments achter.
1. Beschrijven
Deze basiscategorie betreft de identificatie en beschrijving van visuele elementen. Denk hierbij aan gezichtsherkenning of objectdetectie maar ook aan dieridentificatie via social media of het eenvoudigweg uitleggen wat er op een foto staat.
Voor deze categorie zijn we de diepe krochten van onze foto archieven in gedoken voor een complexere foto. Een foto vanuit de studententijd waarin Twister in overals gespeeld werd. Overals die dienst deden als aanvullend onderdeel van het Twister bord.
We hebben zowel Chat GPT als Google Bard getest maar voegen (ivm lengte van de nieuwsbrief) niet overal de afbeeldingen van toe. Wat je ziet bij het beschrijven is dat Chat GPT de context behoorlijk goed weet te pakken. Hoewel de overals niet volledig doorzichtig zijn zoals Chat GPT aangeeft zijn ze wel degelijk doorschijnend. Het is daarbij ook een speciale vorm van het spel Twister en afhankelijk van hoe je ‘specifieke omstandigheden’ interpreteert klopt die uitleg ook want je kan de hierbij horende unieke spelregels wel als specifieke omstandigheden classificeren.
Google Bard doet het een stuk minder goed. Die ziet de afbeelding als een schilderij waarbij hij de letters Twis van het spel inschat als de naam of een deel van de naam. Interessant is de relatie die gelegd wordt tussen naam en hoe de mensen om elkaar heen gedraaid zijn maar helaas is de twijfel er en geeft hij ook een andere optie. Ook de overige punten vinden we niet sterk
Beschrijven is de optie waar veel AI demonstraties naar verwijzen maar ook een optie die veel van ons waarschijnlijk niet veel zullen gebruiken. In het dagelijks leven zijn we zelf vaak heel goed in staat te analyseren wat we zien en er iets van te maken. Kijkend naar toepassingen zou dit in de gezondheidszorg mogelijk een goede functionaliteit kunnen zijn voor mensen met een visuele beperking.
2. Interpreteren & analyseren
Naar ons inzicht momenteel de grootste categorie met de meeste toepassingen. Daarom ook een aantal tests in deze categorie. Het gaat hier niet alleen om het herkennen van wat er in een beeld te zien is, maar ook om het begrijpen van de context en betekenis.
Stel je voor: een arts die naar een medische scan kijkt en dankzij AI-ondersteuning niet alleen de beelden ziet, maar ook direct geattendeerd wordt op afwijkende patronen die op vroege ziektesymptomen kunnen duiden. Of een ingenieur die een technisch diagram bestudeert en automatisch suggesties krijgt voor optimalisatie. En dan hebben we het nog niet eens over de kunstliefhebbers die, door naar een schilderij te kijken, direct inzicht krijgen in de emotionele context en historische betekenis achter het kunstwerk.
medische interpretatie
Voor dit experiment hebben we een stuk van een mammogram aan Chat GPT gegeven. Google Bard weigerde de afbeelding en wilde er niet mee aan de slag. De hoop was natuurlijk dat Chat GPT de afbeelding net zo nauwkeurig zou interpreteren als een radioloog. Wat opvalt is dat de AI wel een gedetailleerde beschrijving levert van wat er te zien is en zo behoorlijk wat context geeft maar niet de zekerheid kent om te zeggen of er afwijkingen zijn of wat die specifiek zouden kunnen betekenen. Dit is ook logisch.
Waarom is dit zo?
Gebrek aan Context: ‘Open’ AI-systemen zoals die van OpenAI, kunnen fantastisch zijn in het herkennen van patronen en structuren, maar ze missen door gebrek aan specifieke training de context die menselijke professionals hebben. Voor dergelijke situaties werken we vaak met interne modellen.
Data: Een AI is zo goed als de data waarmee het is getraind. Dit soort data is niet voldoende mate, niet met voldoende variatie en voorbeelden zo van het internet te halen. Hierdoor kunnen ‘open’ systemen tekortschieten in het herkennen van minder voorkomende scenario's.
Menselijke Intuïtie: Terwijl machines patronen volgen, hebben mensen intuïtie, die voortkomt uit jarenlange ervaring en klinische training. Dit maakt (tenminste nu) je in een dergelijke situatie altijd de menselijke maat er ook nog bij wilt. Hoe goed de machine ook al kan zijn.
Technische interpretaties
De volgende test is op een technische tekening uitgevoerd in dit geval van een Saeco Espressomachine.
Bij het scannen van de uitkomsten leverden zowel Chat GPT als Google Bard het inzicht dat het gaat om een machine om koffie mee te maken. Als je door gaat naar de details zie je dat Chat GPT echter wel een stuk dieper de materie in gaat dan Google. Chat GPT weet ook hier naar ons inzicht een behoorlijk degelijke verklaring te leveren.
Door naar de volgende test. De test hier onder is uitgevoerd op een complexe infographic die de EU AI Act en zijn risico gebaseerde benadering samenvat.
Simpel gezegd, de EU stelt dat verschillende AI-toepassingen verschillende regels nodig hebben, afhankelijk van het risico. In de infographic zijn laag-risico voorbeelden onderaan en hoog-risico bovenaan geplaatst.
Bij het scannen van de uitkomsten leverden zowel Chat GPT als Google Bard een degelijke basisanalyse. Vanuit ervaring met meer soortgelijke test gedaan op complexere visuals, zoals de componenten van een CIO-Office kunnen we wel stellen dat ook hier Chat GPT beter presteert in het uitleggen van de complexere aspecten. Bedenk wel de volle 100% is het zelden.
Beeld analyse
Na wat zoeken vond we voor deze test een interessante afbeelding van een patent.
Ook deze is aan beide systemen, Google Bard en chat GPT aangeboden. Ook hier zien we dat beide herkennen wat het is. Ook zien we Chat GPT hier weer een stuk steviger in de wedstrijd. Daar waar Google enkel ziet wat het is geeft GPT aan dat het een Patent van een stoel is en wie het patent toebehoord. Bij doorvragen geeft Google de bouwinstructies die zijn naar onze mening niet kloppend bij deze stoel. Chat GPT geeft aan die niet te kunnen delen maar geeft wel bijvoorbeeld houtsoort die door deze bouwer veel gebruikt werd.
Data-analyse
Bij de analyse van de data doen beide het stiekem best aardig. Hoewel ook hier Chat GPT wel echt de winnaar is. Je kan dit natuurlijk heel breed in gaan zetten met al dan niet additionele training! Denk aan de bouwsector, waar met behulp van AI de exacte afmetingen van objecten op een bouwplaats automatisch kunnen worden vastgesteld. Of aan marketeers die sentimentanalyses uitvoeren op basis van gezichtsuitdrukkingen om te meten hoe mensen echt reageren op hun advertenties.
Wat zijn jouw usecases? laat ze achter in de comments.
3. Aanbevelen
Soms is het lastig kiezen, wat is nu, waarom de beste keuze. Of het nu gaat om eten, een website, of een schilderij, aanbevelingen maken het leven een stuk eenvoudiger. In ons geval hebben we natuurlijk de DigiBeter Podcast waar we per aflevering eigen album art hebben. Hartstikke leuk en we willen natuurlijk graag de leukste afbeeldingen bij de show. Soms heb je er een sterke mening bij maar soms twijfel je dus kan een beetje hulp geen kwaad.
Leuk is om hierbij een soort objectieve weging en aanbeveling te krijgen. En ook top voor deze test. Als prompt gebruiken we hier: “Voor de podcast DigiBeter hebben we een podcast gemaakt met als titel: "Van Floppy's tot USB-Sticks en flash: De Duistere Oorsprong van Malware!" ik zoek naar een afbeelding om te gebruiken als coverart voor de aflevering. Stel je voor dat je een luisteraar bent, kan je de voor en nadelen afwegen van de afbeeldingen en een aanbeveling geven welke te gebruiken?”
Google Bard haalt helaas in deze analyse er niet uit dat het 4 afbeeldingen zijn maar ziet het als 2. Dit helpt ons in eerste instantie dus niet verder. Doorvragen heeft wel zin want uiteindelijk worden de afbeeldingen ontdekt en geeft Bard een enigszins vergelijkbaar advies aan dat van Chat GPT. Chat GPT geeft echter direct keurig labels aan de afbeeldingen zodat je weet welke er bedoeld wordt. Ook de adviezen zijn helder en verklarend. Na enkele tests met soortgelijke sets waren we, hoewel niet altijd spot on, geregeld behoorlijk onder de indruk van de opmerkingen.
4. Converteren
Hier wordt het spannend! Dit is echt een leuke categorie! Stel je voor dat je design mock-ups direct in code kunt veranderen. Dit is de plek waar technologie creatieve grenzen doorbreekt.
Google Bard geeft sowieso nog geen afbeeldingen maar van Chat GPT hadden we verwacht dat deze met een Dall-E afbeelding zou komen. Dit bleek niet het geval, in plaats daarvan kregen we een uitwerking in Yaml. Uiteraard is dit niet het beste voor een design maar het geeft een mooi beeld.
Om het idee verder uit te diepen hebben we beide ook gevraagd om dit te maken tot een soort pitch om investeerders warm te laten lopen voor dit idee. Daarvoor gebruikten we een vrij eenvoudige prompt: “Dit is gerelateerd aan DigiBeter een Training en Consultancy organisatie. Kan je een korte beschrijving maken die ik dan delen met mogelijke investeerders.”
De combinatie van beide geeft een leuk verhaal maar eigenlijk deden we dit om je mee te nemen naar de volgende prompt namelijk: “Kan je op basis van het bovenstaande een eenvoudige sitemap voor een landingspagina aanbevelen?”
Hier zie je als je Google Bard en GPT vergelijkt onder andere weer een verschil in presentatie en vormgeving maar ook dit is nog niet het eindstation dat we wilden laten zien want dat is het onderstaande.
Zowel uit Google Bard als Chat GPT rollen op basis van de zeer beperkte acties die we tot nu toe genomen hebben complete HTML instructies voor het maken van een website. Dit is enorm krachtig want met 4 misschien 5 minuten hadden we een complete basisopzet voor een website. Is het perfect? Nee absoluut niet maar de 1e 2 kilometer van de 3KM run hebben we alvast achter de rug. Is het veilig? We raden je aan de code nog wel te controleren maar het zit wel goed in elkaar.
5. Extraheren
Stel je voor dat je alle relevante informatie uit een rijbewijs of een handgeschreven notitie kunt halen. De mogelijkheden voor data-analyse zijn eindeloos. Voor deze test gingen we aan de slag met een oud, historisch boek uit de 17e eeuw.
Hoewel Google Bard hier niets mee kan omdat het niet het juiste formaat heeft komt Chat GPT een heel eind. Ergens tussen de 35 en 50% schat ik zo wat knap is doordat letters zijn doorgedrukt, schaduw val etc.
Waarom dit nuttig is? Nou denk bij handschrift extractie eens aan Medisch personeel die dat doktershandschrift moet ontcijferen en handgeschreven medische dossiers en aantekeningen moet digitaliseren, Forensisch onderzoekers die handgeschreven notities of brieven als bewijsmateriaal moeten analyseren. Voor Formele documentatie extractie zou je kunnen denken aan analisten die snel relevante gegevens uit artikelen, patenten of technische documenten moeten extraheren of accountants en financieel professionals die op zoek zijn naar bepaalde financiële gegevens uit rapporten en balansen. En tot slot bij Kwalitatieve extractie denk eens aan UX & UI designers die patronen in gebruikerstests en feedback proberen te vinden, Marktonderzoekers die open vragen in enquetes, interviews en bij focusgroen willen analyseren of een crisis communicatie team die sociale media aan het monitoren is op snel opkomende kwesties of het sentiment. Zomaar enkele voorbeelden om je aan het denken te zetten hoe het jou misschien kan helpen.
6. Assisteren
Of je nu een formule in Excel nodig hebt, je bril kwijt bent, of advies wilt bij het pokeren, beeldtechnologie kan de dag redden. Bij de lancering van GPT-4V Was een van de voorbeelden die open AI zelf gaf - Iemand die zijn fiets aan het repareren is - GPT kon hier ondersteunen door de juiste informatie te bieden zoals suggesties welke sleutel er nodig was. In de afgelopen jaren hebben we vanuit DigiBeter al heel wat mensen geholpen Digitaal Vaardiger te worden, nieuwe technologieën succesvol toe te passen en processen te optimaliseren. Een van de dingen die we vaak nog merken is dat als je iets van Tech weet mensen ook direct met vragen komen als, oh maar welk kabeltje moet hier dan in?
Dit is een van die situaties waar een GPT-4V of Google Bard ook uitstekend kunnen helpen. Hier een klein voorbeeld van GPT-4V
Uiteraard kan je hier op doorvragen met vragen als, waarvoor is die kabel dan etc. Als je meer complexe situaties hebt zoals wanneer je een spelcomputer aan je TV aan wilt sluiten met versterker en dergelijke, ook dan komt het model er behoorlijk goed uit met (naar ons inzicht… maar ja wij zijn al technisch redelijk onderlegd) meer dan heldere instructies. We dagen je uit het te proberen en je bevindingen en andere use cases in de comments achter te laten.
7. Evalueren
Hier wordt het persoonlijk. Wil je weten hoe schattig je hond is of welke YouTube-thumbnail het beste werkt? Deze categorie heeft het antwoord. Maar hoe we dit moesten aanpakken met het testen…. Subjectieve evaluatie is tenslotte subjectief…
Wat er dus gebeurde toen we vroegen wat er te verbeteren was aan onderstaande foto en hoe kwam het model met een vrij technisch verhaal.
Wat we interessant vinden aan de uitkomst is dat het model eigenlijk zegt: als je xyz wil bereiken, dan zou je het zo aan kunnen pakken. Een type subjectieve analyse die naar ons idee heel waardevol kan zijn. Denk maar eens aan een situatie als je feedback vroeg aan je collega, die gaf waarschijnlijk aan “ik zou het beter vinden als je dit zou doen” in plaats van “als je dit wil bereiken zou ik dat doen, als je zus wil bereiken zou ik het zo doen”
Dat was een ‘snelle’ vogelvlucht over de fascinerende wereld van beeldtechnologie. Uiteraard zijn er heel veel mogelijkheden en kansen. Hopelijk heb je wat nieuwe inzichten gekregen en wie weet kunnen we binnenkort verkennen hoe die bij jou ingezet kunnen worden. En wie weet welke innovaties er nog aan zitten te komen!
Schrijf je snel in voor de volgende nieuwsbrief, tot de volgende keer!