Een interessante week voor AI

Een aantal interessante ontwikkelingen

Feb 17, 2024

Het was een interessante week voor AI. Daarom willen we graag een kleine update geven om iedereen up-to-speed te houden met de snelle ontwikkelingen die plaatsvinden in de wereld van de generatieve AI.

Korte inhoudsopgave

Een nieuwe generatie modellen: Gemini
De volgende stap in generatie van video
AI met een geheugen
Een eigen ‘gratis’ chat GPT op je pc

Gemini

De eerste belangrijke ontwikkeling is de aankondiging van de lancering door Google van Gemini 1.5. De volgende generatie in hun reeks AI-modellen, waarbij significante vooruitgang wordt getoond op het gebied van prestaties en efficiëntie. Gemini 1.5 biedt, inclusief het mid-size multimodale model 1.5 Pro, indrukwekkende verbeteringen in verwerkingscapaciteiten, met een contextvenster tot wel 1 miljoen tokens. Een verbetering die het model instaat stelt grote hoeveelheden informatie over verschillende modaliteiten te verwerken en te begrijpen. De verwachting is zelfs dat dit snel door gaat groeien tot een formaat van 10 miljoen tokens. De huidige en verwachte ontwikkelingen maken het model waardevoller maakt voor ontwikkelaars en zakelijke klanten door de groei in zowel de mogelijkheid van informatie die het model kan verwerken als de groei van de output. De introductie van een Mixture-of-Experts-architectuur vergroot verder de trainings- en serverefficiëntie. De Mixture-of-experts-architectuur is een architectuur is een architectuur waar waarbij niet in één keer het hele model aangesproken wordt maar delen worden aangeroepen wanneer die van toepassing kunnen zijn. Dit zou daarmee een besparing op moeten leveren in de enorme hoeveelheden energie en water die AI verwerkingen kosten.

Om een beeld te geven van wat het verschil is van de verwachtte 1 miljoen aan tokens ten opzichte van de huidige modellen.

De mogelijkheid van Gemini 1.5 Pro om uitgebreide datasets te verwerken stelt het in staat om complexe redeneringstaken uit te voeren, grote hoeveelheden inhoud te analyseren en samen te vatten, en relevantere probleemoplossing te bieden over verschillende modaliteiten, waaronder tekst, code, beelden, audio en video. Deze capaciteit wordt gedemonstreerd door het vermogen om inhoud zoals uur-lange video's, grote codebases of gedetailleerde transcripten van historische gebeurtenissen te verwerken en te redeneren. Met een focus op het verbeteren van de gebruikerservaring en rekenkracht efficiëntie heeft Google plannen om volledige toegang tot het 1 miljoen token contextvenster uit te rollen, terwijl ze werken aan optimalisaties om latentie en rekenkracht vereisten te verminderen.

De ontwikkeling van het model legt de nadruk op voortdurende verbetering van AI-systemen door rigoureuze tests voor mogelijke schadelijke effecten en de integratie van veiligheidsmaatregelen in de governanceprocessen van het model. Google biedt momenteel nog een beperkte preview van Gemini 1.5 Pro aan ontwikkelaars en zakelijke klanten, met plannen om prijsniveaus in te voeren en de mogelijkheden van het model verder te verbeteren. Deze stap markeert een significante vooruitgang in AI, die nieuwe mogelijkheden opent voor het verantwoord en efficiënt creëren, ontdekken en bouwen met behulp van AI-technologieën. Ondertussen is de groei naar 10 miljoen tokens ook in onderzoek, als je dat zou vertalen naar bijvoorbeeld video is dat model straks in staat in 1x de hele lord of the rings trilogie te verwerken.
Deze enorme stap voorwaarts lijkt daarom een goed moment om te kijken intern en met de juiste adviezen welke nieuwe mogelijkheden dit kan open voor volgende pilots en AI projecten maar ook over welke uitdagingen en risico’s dit op kan gaan leveren.

Sora

De tweede interessante ontwikkeling is de onthulling van Sora door OpenAI. Een model dat eenvoudige tekst (prompts) kan omzetten in boeiende video's van maximaal één minuut. Op de huidige stand van zaken in het creëren van videos is dat een grote stap voorwaarts. Wat Soras ontwikkeling verder interessant maakt, is het vermogen om complexe scènes te creëren met meerdere personages, specifieke bewegingen en gedetailleerde achtergronden. Het model begrijpt zelfs hoe objecten in de echte wereld met elkaar interageren, waardoor het video's kan produceren met boeiende personages en levendige emoties. Deze innovatie vertegenwoordigt een boeiende stap vooruit naar meer multimodale AI, waarin de verschillende vormen van taal zoals tekst en beeld naadloos samenkomen.

Prompt: This close-up shot of a Victoria crowned pigeon showcases its striking blue plumage and red chest. Its crest is made of delicate, lacy feathers, while its eye is a striking red color. The bird’s head is tilted slightly to the side, giving the impression of it looking regal and majestic. The background is blurred, drawing attention to the bird’s striking appearance.

Deze stap naar multimodale mogelijkheden is echter niet zonder uitdagingen. Met name het simuleren van complexe scènes en het nauwkeurig interpreteren van oorzaak en gevolg blijken nog knelpunten. OpenAI erkent eerlijk de nieuwigheid van deze technologie en benadrukt potentiële eigenaardigheden, zoals af en toe onrealistische bewegingen binnen een scène. Desondanks illustreren de verstrekte voorbeelden, zoals een luchtfoto van Californië tijdens de gold rush en een perspectief vanuit een trein in Tokio, de veelbelovende mogelijkheden van Sora om meeslepende en fantasierijke video's te produceren.

Momenteel bevindt Sora zich in een beperkte testfase, toegankelijk voor geselecteerde testers en makers voor evaluatie- en feedbackdoeleinden. Deze voorzichtige benadering weerspiegelt het bewustzijn van OpenAI met betrekking tot de nieuwigheid van de technologie en de mogelijke gevaren en uitdagingen die daarmee gepaard gaan. Het inzetten van redteams tijdens tests benadrukt het belang van het identificeren en aanpakken van mogelijke risico's, zoals de verspreiding van nepvideo's en mogelijke inbreuken op auteursrechten, terwijl de technologie zich verder ontwikkelt.

Waarom dit belangrijk is:
Hoewel het nog niet helemaal Netflix-kwaliteit heeft, is dit slechts versie #1 (denk aan DALL·E 3 nu ten opzichte van waar het 15 maanden geleden stond). Sora maakt dat we geloven dat door AI gegenereerde films echt mogelijk zijn. Andere, meer directe toepassingen zouden B-roll / stockvideo's, videoadvertenties en videobewerking kunnen omvatten, allemaal met behulp van AI!

Sora beperkt zich niet tot tekst-naar-video—het kan:

Stilstaande beelden tot leven brengen als video.
Video's in beide richtingen verlengen.
Video's bewerken door stijlen / omgevingen te veranderen.
Twee video's samenvoegen.
En het lijkt erop dat Sora ook ingezet kan worden voor het maken van videogames.

Knijp ons: hoe gek is het dat we dit soort enorme ontwikkelingen zien net iets meer dan een jaar na ChatGPT?

Share DigiBeter

Een geheugen voor ChatGPT

De functie die OpenAI de dag ervoor aankondigde was van een heel andere orde namelijk OpenAI rust ChatGPT uit met een 'geheugen'. Een functie waardoor de chatbot informatie over gebruikers en voorgaande gesprekken kan 'onthouden'. Momenteel wordt deze functie getest, waarbij gebruikers de mogelijkheid hebben dit geheugen te wissen en de functie volledig uit te schakelen.

Volgens OpenAI is het doel van de ChatGPT-geheugenfunctie om te voorkomen dat gebruikers herhaaldelijk vergelijkbare antwoorden ontvangen of hun voorkeuren meerdere keren met de chatbot moeten delen.

Het geheugen kan op twee manieren worden aangevuld: gebruikers kunnen ChatGPT expliciet vragen om iets te onthouden, of de chatbot kan geleidelijk zelf details over de gebruiker oppikken en toevoegen aan het geheugen. Open AI geeft daarbij zelf een aantal voorbeelden.

OpenAI benadrukt dat deze functie kan worden uitgeschakeld of volledig gewist. Gebruikers hebben de mogelijkheid de chatbot te vragen bepaalde details te vergeten. OpenAI introduceert ook een overzicht met afzonderlijke 'herinneringen' van de chatbot, inclusief de optie om deze individueel te verwijderen. Bovendien worden mogelijkheden voor tijdelijke chats geïntroduceerd, waarin ChatGPT geen details onthoudt. OpenAI neemt stappen om ervoor te zorgen dat de dienst geen gevoelige informatie zoals gezondheidsgegevens onthoudt, tenzij daar expliciet om wordt gevraagd.

De geheugenfunctie voor ChatGPT wordt gedurende deze week beschikbaar gemaakt voor een beperkt aantal Free- en Plus-gebruikers van de dienst, aldus OpenAI in een blogpost. Het bedrijf deelt zijn plannen voor een bredere release 'binnenkort', en wanneer dit gebeurt, krijgen ook chatbots van andere bedrijven in de GPT Store de mogelijkheid tot een optionele geheugenfunctie.

Een eigen lokale, gratis, ChatGPT op eigen PC

Het laatste wat we willen delen is dat Nvidia heeft deze week "Chat with RTX" heeft uitgebracht. Een lokale app waarmee je een persoonlijke AI-chatbot (LLM) kunt maken op basis van je eigen inhoud. De app is bijna gratis, er is slechts 1 kleine maar en dat is dat je een voldoende krachtig apparaat moet hebben om de app te laten werken.

Als je dat hebt dan is de belofte dat je in plaats van door notities of opgeslagen inhoud te zoeken zou je zo als gebruiker eenvoudig vragen moeten kunnen typen. Wat je bijvoorbeeld zou moeten kunnen vragen: "Wat was het restaurant dat mijn partner aanraadde toen we in Italië waren?" en Chat with RTX zou dan lokale bestanden scannen waar de gebruiker naar wijst en het antwoord met context geven.

Belangrijkste kenmerken:

Retrieval-Augmented Generation (RAG): Maakt gebruik van Mistral of Llama 2 LLMs voor tekstgeneratie, versneld door TensorRT-LLM voor snellere responstijden.
Lokale verwerking: Draait volledig op een RTX 30/40 GPU (≥8GB VRAM) en Windows PC, vermijdt cloud latentie en privacy zorgen.
Gegevensinname: Ondersteunt verschillende formaten zoals txt, pdf, docx en xml, naast transcripten van YouTube-video's.

Mogelijke toepassingen:

Gegevensonderzoek: Analyseer persoonlijke documenten, transcripten of video's voor specifieke informatie met bijna directe resultaten.
Samenvatting van inhoud: Begrijp snel de belangrijkste punten uit YouTube-video's of uitgebreide documenten.
Feiten checken: Verifieer datapunten binnen PDF's of andere bronnen.

Huidige beperkingen:

Demo: Bekende problemen zijn onder andere onnauwkeurige bronverwijzingen/toekenningen, context loze reacties en crashes bij grote datasets.
Resource-intensief: De installatie vereist 40GB schijfruimte en verbruikt ~3GB RAM, wat mogelijk de systeemprestaties kan beïnvloeden.

Helaas hebben we bij DigiBeter alleen de bedrijfslaptops die nog niet krachtig genoeg zijn. Maar heb jij er wel een dan kan je CHAT WITH RTX hier proberen: Nvidia

Dit was onze 1e kleine update voor nu. Dank aan de AI die ons geholpen heeft om de teksten iets sneller te realiseren dan normaal. Mocht je na het lezen vragen, op of aanmerkingen hebben horen we dat uiteraard graag. Je kan ons benaderen via LinkedIn, de chat of een van onze andere kanalen.

Tot de volgende.

DigiBeter