geplaatst door: Robert
https://www.macfreak.nl/modules/news/images/Siri-iOS18-icoon.jpg
Apple's nieuwe spraak-API’s overtreffen Whisper voor transcriptie
Tijdens de WWDC 2025 werd er ook weer nieuwe API’s geïntroduceerd, zoals SpeechAnalyzer en SpeechTranscriber. Finn Voorhees, de zoon van John Voorhees die onder andere schrijft voor MacStories, gebruikte deze om een nieuwe command-line tool te schrijven, die hij Yap heeft genoemd.

Veel belangrijker is dat hij erg onder de indruk was over de snelheid hiervan, en dat die sneller bleek dan Whisper, een vergelijkbare tool van OpenAI.

https://www.macfreak.nl/modules/news/images/zArt.YapJohnVoorheesMacStories.jpg
Apple's nieuwe spraak-API’s overtreffen Whisper voor transcriptie

klik of tap voor een grotere versie

Het artikel dat John Voorhees hierover schreef op MacStories is zeker de moeite van het lezen waard, hieronder het belangrijkste gedeelte daaruit:

Citaat
What stood out above all else was Yap’s speed. By harnessing SpeechAnalyzer and SpeechTranscriber on-device, the command line tool tore through the 7GB video file a full 55% faster than MacWhisper’s Large V3 Turbo model, with no noticeable difference in transcription quality.

At first blush, the difference between 0:45 and 1:41 may seem insignificant, and it arguably is, but those are the results for just one 34-minute video. Extrapolate that to running Yap against the hours of Apple Developer videos released on YouTube with the help of yt-dlp, and suddenly, you’re talking about a significant amount of time. Like all automation, picking up a 55% speed gain one video or audio clip at a time, multiple times each week, adds up quickly.
De vertaling:

Citaat
Wat vooral opviel was de snelheid van Yap. Door gebruik te maken van SpeechAnalyzer en SpeechTranscriber op het apparaat, ging de command-line-tool maar liefst 55% sneller door het videobestand van 7 GB dan het grote V3 Turbo-model van MacWhisper, zonder merkbaar verschil in de kwaliteit van de transcriptie.

Op het eerste gezicht lijkt het verschil tussen 0:45 en 1:41 misschien onbeduidend, en dat is het waarschijnlijk ook, maar dit zijn de resultaten voor slechts één video van 34 minuten. Extrapoleer dat naar het uitvoeren van Yap tegen de uren aan Apple Developer video's die zijn uitgebracht op YouTube met behulp van yt-dlp, en plotseling heb je het over een aanzienlijke hoeveelheid tijd. Zoals bij alle automatisering geldt ook hier dat het snel verhogen van de snelheid met 55% van één video- of audiofragment per keer, meerdere keren per week, snel oploopt.
Inderdaad is 55 procent sneller een verschil dat op zijn minst opmerkelijk is, zeker vergelijken met iets van OpenAI, dat op dit moment vak geldt als de partij met een voorsprong op dit vlak. Met andere woorden, het lijkt er op dat Apple aan het inlopen is, in ieder geval op dit gebied.

Klik hier voor informatie over het onder de aandacht brengen van producten of diensten op MacFreak.