Spraak uit Video omzetten naar tekstbestand
24 augustus 2022 - 09:28    reactie #25
geplaatst door: doctor_apple
Heb je dan een bewezen werkende workflow voor het afspelen van een (twee uur durende) video cursus, waarvan de audio automatisch om wordt gezet in een tekstverwerker en eventueel naar NL wordt vertaald. Of hou je dan de iPhone dicht bij de luidspreker van de Mac. Ben heel benieuwd, want als dat beter werkt ga ik dat ook doen… :wink:

Iedereen z'n ding, maar ik had gewoon de video gedemuxed, de audio los genomen als audio-bestand en deze in een van de vele online cloud services laten transcriberen naar text. Er zijn talloze diensten hiervoor en sommigen hiervan doen toch echt prima werk. Zo is de youtube engine prima bruikbaar en komt toch met heel aardige resultaten, inclusief Google Translate.

Mijn (fictieve) workflow zou er zo uitzien:

- Bronbestand demuxen
- Audio omzetten naar een gangbaar formaat (indien het DTS/AC-3 of iets anders "meer exotisch is")

- Een cloud dienst gebruiken, voorbeelden hiervan:

transkriptor, Google Speech-To-Text, Transcribe.wreally of ...Microsoft Word ...

- Doorloop de text of er niet (te veel) onzin in staat
- Hak de text in stukken van ongeveer 4800 tekens
- Ga naar deepl.com (een van de beste vertaalmachines van dit moment)
- Sleur en pleur de stukken tekst en vertaal deze naar het Nederlands/Duits/Frans/Spaans indien nodig
- Plak de teksten weer bij elkaar
- Et voila: getranscribeerde text in een mum van tijd, dit omdat de diensten de audio niet op 100% snelheid hoeven te analyseren, maar dit in een aanmerkelijk hoger tempo doen ...

Bij sommige diensten kun je deze gratis uitproberen, anderen zijn betaald - er zijn er vele online te vinden.

En mocht je echt geen zin hebben om uberhaupt iets te betalen?

- Ga naar youtube en login met je Google ID
- Upload de video of de audio van de betreffende video voorzien van een stil-image
- Markeer de video als PRIVATE (of niet zichtbaar in Youtube zoekmachine, weet even niet hoe die optie heette)
- Laat Youtube de captions genereren
- Ga naar SaveSubs of naar DownSubs, download de SRT of ander text bestand en klaar ...
- Wis de video van het Youtube account, et voila

Nog steeds kan dit sneller zijn dan je computer 2 uur lang naar audio laten luisteren. Hoewel ikzelf daar een zekere therapeutische werking in kan zien om te kijken hoe ottomagisch teksten in beeld verschijnen van de getranscribeerde text, is het in deze tijden niet echt meer "van deze tijd" om dat zo te doen.

Maar goed, ieder zo zijn (of haar) hobby natuurlijk ... Dus dit is geen afkeuring of kritiek van eerder genoemde opties, maar inzicht in hoe het ook anders kan ... En zeker als je uren aan materiaal hebt, zou ik iets kiezen wat qua tijd gewoon minder kost.

Een vriendelijke groet!
Spraak uit Video omzetten naar tekstbestand
24 augustus 2022 - 09:44    reactie #26
geplaatst door: nnsa
@doctor_apple: leuke en interessante aanvulling. Zal eens kijken wat er (voor mij) bruikbaar en/of efficiënter van is. Ben nog geen voorstander van online services. Zit veel kaf onder koren. Loopt bij langere audio ook best wel in de papieren, maar wie weet. En ik wil een workflow waarvan ik ook na 6 maanden nog weet hoe het ook alweer ging… Weet wel, kwestie van documenteren…  :thumbs-up:
Spraak uit Video omzetten naar tekstbestand
25 augustus 2022 - 10:00    reactie #27
geplaatst door: mcmt
Volgens een presentatie van WWDC 2019 was de spraakherkenning beperkt (tot 1 min) wanneer uitgevoerd op de Apple servers.

Citaat
Accuracy is good on-device, but you may find it is better on server due to a continuous learning. A server-based recognition support has limits on number of requests and audio duration. With on-device recognition, these limits do not apply.
The number of languages supported on server are more than on-device.
Also, if server isn't available, our server mode automatically falls back on on-device recognition if it is supported.
De Apple spraakherkenning API biedt meer mogelijkheden dan een tool als hear aanbiedt. Neem bijv. volgende partiële transcriptie van een eerdere test (met twee duidelijke fouten):

Citaat
...
I am waiting at the counter for the man to pour the coffee and he feels it only halfway and before he even argue he is looking out the window at somebody coming in
...
Er kan meer informatie teruggegeven worden dan alleen deze transcriptie. De bijlage somt overeenkomstige 'segmenten' op (doorgaans individuele woorden, soms ook groepen van woorden die als 1 geheel worden beschouwd), met confidence level en starttijd / duur (sec). Ook worden minder goede (en in dit geval correcte) alternatieven vermeld voor de fouten (met "-" teken aan begin lijn).

Met de tijdsaanduidingen kan je heel precies zoeken op woorden, langere pauzes detecteren, ... Bij mijn weten is er geen ondersteuning voor onderscheid tussen verschillende sprekers ('speaker diarisation').

hear.pngSpraak uit Video omzetten naar tekstbestand