geplaatst door: Robert
https://www.macfreak.nl/modules/news/images/Siri-iOS18-icoon.jpg
Apple wil de slimmere Siri ook op devices zelf laten draaien
Apple werkt al een tijd aan het AI-model waar de slimmere Siri op moet draaien, waarbij het erg belangrijk is dat herkent kan worden wat er op het scherm te zien is. Daarvoor is door Apple in samenwerking met onderzoekers van Cornell University Ferret ontwikkeld, een open-source multi-modal LLM.

In april 2024 werd weer een grote stap gezet, maar dat zou nog steeds alleen via het internet werken, want veel te groot om op een apparaat te draaien.


Inmiddels is er weer een grote stap gezet, want met Ferret-UI Lite kan er op het device zelf gezien worden wat er op het scherm gebeurt, inclusief elementen van de interface. Dat geldt dan voor de desktop, op het web en op mobiele devices.

Om dit te bereiken is Ferret-UI Lite gemaakt met 3 miljard parameters, waarbij gebruik is gemaakt van GUI-gegevens uit zowel echte als synthetische bronnen. Ook zijn de prestaties tijdens de inferentiefase verbeterd door gebruik te maken van chain-of-thought-redeneringen en visuele hulpmiddelen, in combinatie met reinforcement learning.

Ferret-UI Lite haalt behoorlijk goede resultaten, ook als het wordt vergeleken met LLM-agents die op servers draaien, in sommige gevallen presteert het zelfs beter. In de ScreenSpot-Pro GUI-benchmark behaalt het model bijvoorbeeld een nauwkeurigheid van 53,3 procent. Dit is meer dan 15 procent beter dan UI-TARS-1.5, een LLM met 7 miljard parameters.

Het is echter niet allemaal rozengeur en maneschijn. In een GUI-navigatietaak presteerde Ferret minder goed dan grotere modellen, maar het was nog steeds vergelijkbaar met het UI-TARS-1.5-model. De grote vraag lijkt daarom vooral wanneer dit allemaal goed genoeg is voor Apple om ook echt te worden gebruikt, en dus op het toestel zelf en mogelijk ook in plaats van Google’s Gemini.

Klik hier voor informatie over het onder de aandacht brengen van producten of diensten op MacFreak.