geplaatst door: Robert
https://www.macfreak.nl/modules/news/images/Robot-icoon.jpg
Veel van wat AI kan is eigenlijk nog steeds mensenwerk
Kunstmatige Intelligentie (AI) lijkt sinds ChatGPT openging voor het grote publiek wel een toverwoord, we worden inmiddels bijna bedolven door de snelle ontwikkelingen in dit veld. Daarbij lijkt het bijna magisch wat er allemaal kan, maar vaak gaat het nog steeds gewoon om mensenwerk.

En niet een beetje, maar heel erg veel mensenwerk, dat vooral wordt gedaan door heel erg veel mensen in lage lonen-landen, waarbij ze in verreweg de meeste gevallen geen idee hebben wat ze aan het doen zijn, voor wie en waarom. Want het meeste van dat werk bestaat uit voorzien van labels bij beelden die algoritmes zelf nog niet begrijpen, of zelf nog niet van context kunnen voorzien.

https://duet-cdn.vox-cdn.com/thumbor/0x0:2048x1365/2400x1600/filters:focal(1024x683:1025x684):format(webp)/cdn.vox-cdn.com/uploads/chorus_asset/file/24737787/236709_ai_data_notation_labor_scale_surge_remotasks_openai_chatbots_RParry_001.jpg
Veel van wat AI kan is eigenlijk nog steeds mensenwerk


Dat gebrek aan context of labels kan desastreuze gevolgen hebben, zo reed een Uber-auto in 2018 een vrouw die overstak met een fiets dood, want het algoritme herkende fietsers en voetgangers, maar nog niet de combinatie daarvan.

Wil je weten wat er op dit moment allemaal achter de schermen speelt bij AI, dan is dit artikel besliste een aanrader (het gaat hier om een samenwerking van New York Magazine en The Verge, de link is naar een pagina van The Verge).



 #KunstmatigeIntelligentie
Klik hier voor informatie over het onder de aandacht brengen van producten of diensten op MacFreak.
Veel van wat AI kan is eigenlijk nog steeds mensenwerk
28 juni 2023 - 10:44    reactie #2
geplaatst door: nnsa
Wil je weten wat er op dit moment allemaal achter de schermen speelt bij AI, dan is dit artikel besliste een aanrader (het gaat hier om een samenwerking van New York Magazine en The Verge, de link is naar een pagina van The Verge).
Mooi artikel...  :thumbs-up:
Veel van wat AI kan is eigenlijk nog steeds mensenwerk
28 juni 2023 - 12:01    reactie #3
geplaatst door: ouwemac
Mijn kennis van de engelse taal is niet goed genoeg om het artikel snel en begrijpend te kunnen lezen.  :wacko:
Even laten vertalen hoor…..
Of die aflevering van Tegenlicht nog eens kijken natuurlijk.
Optimistisch maar zonder hoop. (Tommy Wieringa)
Veel van wat AI kan is eigenlijk nog steeds mensenwerk
28 juni 2023 - 12:12    reactie #4
geplaatst door: nnsa
Mijn kennis van de engelse taal is niet goed genoeg om het artikel snel en begrijpend te kunnen lezen.  :wacko:
Even laten vertalen hoor…..
Of die aflevering van Tegenlicht nog eens kijken natuurlijk.

Zal ik dat dan maar even (met behulp van AI doen ?):

Deel-1 wegens 30000 karakter limiet:

Een paar maanden na zijn afstuderen in Nairobi kreeg een 30-jarige die ik Joe zal noemen een baan als annotator - het vervelende werk van het verwerken van de ruwe informatie die wordt gebruikt om kunstmatige intelligentie te trainen. AI leert door patronen te vinden in enorme hoeveelheden gegevens, maar eerst moeten die gegevens worden gesorteerd en gelabeld door mensen, een enorm personeelsbestand dat meestal verborgen blijft achter de machines. In Joe's geval labelde hij beelden voor zelfrijdende auto's - hij identificeerde elk voertuig, elke voetganger, elke fietser, alles waar een bestuurder op moet letten - beeld voor beeld en vanuit elke mogelijke camerahoek. Het is moeilijk en repetitief werk. Het duurde acht uur om een stukje beeldmateriaal van een paar seconden te annoteren, waarvoor Joe ongeveer $10 kreeg betaald.

Toen, in 2019, deed zich een kans voor: Joe kon vier keer zoveel verdienen met het runnen van een annotatie bootcamp voor een nieuw bedrijf dat hongerig was naar labelaars. Elke twee weken stroomden 50 nieuwe rekruten een kantoorgebouw in Nairobi binnen om aan hun stage te beginnen. Er leek een grenzeloze vraag naar het werk te zijn. Ze werden gevraagd om kleding te categoriseren op selfies in spiegels, door de ogen van robotstofzuigers te kijken om te bepalen in welke kamers ze zich bevonden en vierkanten te tekenen rond lidar-scans van motorfietsen. Meer dan de helft van Joe's studenten haakte meestal af voordat het bootcamp klaar was. "Sommige mensen weten niet hoe ze lang op één plek moeten blijven," legde hij uit met een gracieus understatement. Ook, gaf hij toe, "is het erg saai".

Maar het was een baan op een plek waar banen schaars waren en Joe leverde honderden afgestudeerden af. Na het bootcamp gingen ze naar huis om alleen in hun slaapkamers en keukens te werken. Ze mochten niemand vertellen waar ze aan werkten, wat niet echt een probleem was omdat ze het zelf zelden wisten. Objecten labelen voor zelfrijdende auto's lag voor de hand, maar hoe zit het met het categoriseren of flarden van vervormde dialogen werden gesproken door een robot of een mens? Foto's uploaden van jezelf terwijl je met een lege uitdrukking in een webcam staart, dan weer met een grijns, dan weer met een motorhelm op? Elk project was zo'n klein onderdeel van een groter proces dat het moeilijk was om te zeggen wat ze eigenlijk aan het trainen waren om AI te laten doen. Ook de namen van de projecten gaven geen enkele aanwijzing: Crab Generation, Whale Segment, Woodland Gyro en Pillbox Bratwurst. Het waren non sequitur codenamen voor non sequitur werk.

De meesten kenden het bedrijf waar ze werkten alleen als Remotasks, een website die werk aanbiedt aan iedereen die vloeiend Engels spreekt. Net als de meeste annotators die ik sprak, was Joe zich er niet van bewust totdat ik hem vertelde dat Remotasks de werknemersdochter is van een bedrijf genaamd Scale AI, een dataleverancier uit Silicon Valley die miljoenen dollars waard is en OpenAI en het Amerikaanse leger tot zijn klanten mag rekenen. Noch op de website van Remotasks noch op die van Scale wordt de ander genoemd.

Veel van de publieke reacties op taalmodellen zoals OpenAI's ChatGPT zijn gericht op alle banen die ze lijken te kunnen automatiseren. Maar zelfs achter het meest indrukwekkende AI-systeem staan mensen - enorme aantallen mensen die gegevens labelen om ze te trainen en ze verduidelijken als ze in de war raken. Alleen bedrijven die het zich kunnen veroorloven om deze gegevens te kopen, kunnen concurreren en bedrijven die deze gegevens krijgen, zijn zeer gemotiveerd om ze geheim te houden. Het resultaat is dat er, op enkele uitzonderingen na, weinig bekend is over de informatie die het gedrag van deze systemen vormgeeft en nog minder over de mensen die het gedrag vormgeven.

Voor Joe's studenten was het werk ontdaan van alle normale attributen: een rooster, collega's, kennis over waar ze aan werkten of voor wie ze werkten. In feite noemden ze het zelden werk - gewoon "tasking". Ze waren taskers.

De antropoloog David Graeber definieert "bullshit jobs" als werk zonder betekenis of doel, werk dat eigenlijk geautomatiseerd zou moeten zijn maar om redenen van bureaucratie of status of traagheid niet wordt gedaan. Deze AI-banen zijn hun bizarre tweelingbroer: werk dat mensen willen automatiseren en waarvan ze vaak denken dat het al geautomatiseerd is, maar waarvoor nog steeds een menselijke stand-in nodig is. De banen hebben een doel; alleen hebben werknemers vaak geen idee wat dat is.

De huidige AI-hausse - de overtuigend menselijk klinkende chatbots, de kunstwerken die gegenereerd kunnen worden uit eenvoudige aanwijzingen en de miljarden waarderingen van de bedrijven achter deze technologieën - begon met een ongekende prestatie van vervelend en repetitief werk.

In 2007 vermoedde de AI-onderzoeker Fei-Fei Li, toen professor aan Princeton, dat de sleutel tot het verbeteren van neurale netwerken voor beeldherkenning, een methode voor machinaal leren die al jaren wegkwijnde, lag in het trainen op meer gegevens - miljoenen gelabelde afbeeldingen in plaats van tienduizenden. Het probleem was dat het tientallen jaren en miljoenen dollars zou kosten voor haar team van studenten om zoveel foto's te labelen.

Li vond duizenden werkers op Mechanical Turk, het crowdsourcing platform van Amazon waar mensen over de hele wereld kleine taken voor weinig geld uitvoeren. De resulterende geannoteerde dataset, ImageNet genaamd, maakte doorbraken in machinaal leren mogelijk die het vakgebied nieuw leven inbliezen en een decennium van vooruitgang inluidden.

Annotatie blijft een fundamenteel onderdeel van het maken van AI, maar onder ingenieurs heerst vaak het gevoel dat het een voorbijgaande, lastige voorwaarde is voor het meer glamoureuze werk van het bouwen van modellen. Je verzamelt zoveel mogelijk gelabelde data als je zo goedkoop mogelijk kunt krijgen om je model te trainen en als het werkt, in theorie althans, heb je de annotators niet meer nodig. Maar annotatie is nooit echt af. Machine-learningsystemen zijn wat onderzoekers "broos" noemen, ze zijn geneigd om te falen wanneer ze iets tegenkomen dat niet goed vertegenwoordigd is in hun trainingsgegevens. Deze fouten, "randgevallen" genoemd, kunnen ernstige gevolgen hebben. In 2018 doodde een zelfrijdende testauto van Uber een vrouw omdat hij, hoewel hij geprogrammeerd was om fietsers en voetgangers te ontwijken, niet wist wat hij moest doen met iemand die met een fiets over straat liep. Hoe meer AI-systemen op de wereld worden losgelaten om juridisch advies en medische hulp te verlenen, hoe meer randgevallen ze zullen tegenkomen en hoe meer mensen er nodig zullen zijn om ze op te lossen. Dit heeft al geleid tot een wereldwijde industrie die wordt bemand door mensen zoals Joe die hun unieke menselijke vermogens gebruiken om de machines te helpen.

In de afgelopen zes maanden sprak ik met meer dan twee dozijn annotators van over de hele wereld, en terwijl velen van hen geavanceerde chatbots trainden, waren er net zo veel die het alledaagse handwerk deden dat nodig is om AI draaiende te houden. Er zijn mensen die de emotionele inhoud van TikTok-video's, nieuwe varianten van e-mailspam en de precieze seksuele provocatie van online advertenties classificeren. Anderen kijken naar creditcardtransacties en zoeken uit op wat voor soort aankoop ze betrekking hebben of controleren aanbevelingen voor e-commerce en beslissen of dat shirt echt iets is wat je misschien leuk vindt na het kopen van dat andere shirt. Mensen corrigeren chatbots van de klantenservice, luisteren naar Alexa-verzoeken en categoriseren de emoties van mensen tijdens videogesprekken. Ze labelen voedsel zodat slimme koelkasten niet in de war raken van nieuwe verpakkingen, controleren geautomatiseerde beveiligingscamera's voordat ze alarm slaan en identificeren maïs voor verbijsterde autonome tractoren.

"Er is een hele toeleveringsketen", zegt Sonam Jindal, de programmaleider en onderzoeksleider van het non-profit Partnership on AI. "De algemene perceptie in de industrie is dat dit werk geen kritisch onderdeel van de ontwikkeling is en niet lang meer nodig zal zijn. Al het enthousiasme gaat uit naar het bouwen van kunstmatige intelligentie, en als we dat eenmaal gebouwd hebben, is het niet meer nodig, dus waarom zouden we erover nadenken? Maar het is infrastructuur voor AI. Menselijke intelligentie is de basis van kunstmatige intelligentie en we moeten deze banen in de AI-economie waarderen als echte banen die er nog wel een tijdje zullen zijn."

De dataleveranciers achter bekende namen als OpenAI, Google en Microsoft zijn er in verschillende vormen. Er zijn particuliere outsourcingbedrijven met callcenterachtige kantoren, zoals het in Kenia en Nepal gevestigde CloudFactory, waar Joe annotaties maakte voor $1,20 per uur voordat hij overstapte naar Remotasks. Er zijn ook "crowdworking" sites zoals Mechanical Turk en Clickworker waar iedereen zich kan aanmelden om taken uit te voeren. In het midden bevinden zich diensten zoals Scale AI. Iedereen kan zich aanmelden, maar iedereen moet kwalificatie-examens en trainingen afleggen en prestatiecontroles ondergaan. Annotatie is big business. Scale, opgericht in 2016 door de toen 19-jarige Alexandr Wang, werd in 2021 gewaardeerd op 7,3 miljard dollar, waarmee hij wat Forbes noemt "de jongste selfmade miljardair" werd, hoewel het tijdschrift in een recent profiel opmerkte dat zijn belang sindsdien is gedaald op secundaire markten.

Deze wirwar van toeleveringsketens is opzettelijk moeilijk in kaart te brengen. Volgens mensen uit de branche eisen de bedrijven die de gegevens kopen strikte vertrouwelijkheid. (Dit is de reden die Scale aanhaalde om te verklaren waarom Remotasks een andere naam heeft). Annotatie onthult te veel over de systemen die worden ontwikkeld, en het enorme aantal werknemers dat nodig is maakt lekken moeilijk te voorkomen. Annoteerders worden herhaaldelijk gewaarschuwd om niemand over hun baan te vertellen, zelfs niet hun vrienden en collega's, maar bedrijfsaliassen, projectcodenamen en, wat cruciaal is, de extreme verdeling van het werk zorgen ervoor dat ze niet genoeg informatie hebben om te kunnen praten, zelfs als ze dat zouden willen. (De meeste werknemers vroegen om pseudoniemen uit angst om van de platforms geschopt te worden). Bijgevolg zijn er geen gedetailleerde schattingen van het aantal mensen dat annotatiewerk doet, maar het is veel en het groeit. Een recent artikel van Google Research gaf een orde van grootte van "miljoenen" met het potentieel om "miljarden" te worden.

Automatisering ontvouwt zich vaak op onverwachte manieren. Erik Duhaime, CEO van Centaur Labs, een bedrijf dat medische gegevens annoteert, herinnert zich hoe vooraanstaande machine-learning ingenieurs enkele jaren geleden voorspelden dat AI het beroep van radioloog overbodig zou maken. Toen dat niet gebeurde, verschoof de conventionele wijsheid naar radiologen die AI als hulpmiddel gebruiken. Hij ziet geen van beide gebeuren. AI is erg goed in specifieke taken, zei Duhaime, en dat leidt ertoe dat het werk wordt opgesplitst en verdeeld over een systeem van gespecialiseerde algoritmen en even gespecialiseerde mensen. Een AI-systeem zou in staat kunnen zijn om kanker te herkennen, zei hij en gaf een hypothetisch voorbeeld, maar alleen in een bepaald type beeldmateriaal van een bepaald type machine; dus nu heb je een mens nodig om te controleren of de AI het juiste type gegevens krijgt aangeleverd en misschien nog een mens die het werk controleert voordat het wordt doorgegeven aan een andere AI die een rapport schrijft, dat weer naar een ander mens gaat, enzovoort. "AI vervangt werk niet," zei hij. "Maar het verandert wel hoe werk wordt georganiseerd."

Je zou dit kunnen missen als je gelooft dat AI een briljante, denkende machine is. Maar als je het gordijn zelfs maar een beetje terugtrekt, ziet het er meer vertrouwd uit, de nieuwste iteratie van een bijzonder Silicon Valley arbeidsverdeling, waarin de futuristische glans van nieuwe technologieën een uitgestrekt productieapparaat verbergt en de mensen die het laten draaien. Duhaime greep verder terug voor een vergelijking, een digitale versie van de overgang van handwerk naar industriële productie: samenhangende processen opgedeeld in taken en opgesteld langs lopende banden met sommige stappen gedaan door machines en sommige door mensen, maar niets lijkt op wat daarvoor kwam.

Zorgen over AI-gestuurde ontwrichting worden vaak weerlegd met het argument dat AI taken automatiseert, geen banen, en dat dit de saaie taken zullen zijn, zodat mensen meer bevredigend en menselijk werk kunnen doen. Maar het is net zo waarschijnlijk dat de opkomst van AI zal lijken op arbeidsbesparende technologieën uit het verleden, misschien wel zoals de telefoon of de typemachine, die een einde maakten aan de sleur van het bezorgen van berichten en het handschrift, maar zoveel nieuwe correspondentie, handel en papierwerk genereerden dat er nieuwe kantoren met nieuwe soorten werknemers - klerken, boekhouders, typisten - nodig waren om dit te beheren. Als AI je baan overneemt, raak je hem misschien niet kwijt, maar wordt hij misschien wel vreemder, geïsoleerder en vervelender.

Eerder dit jaar schreef ik me in voor Remotasks van Scale AI. Het proces was eenvoudig. Na het invoeren van mijn computerspecificaties, internetsnelheid en wat basiscontactinformatie, bevond ik me in het "trainingscentrum". Om toegang te krijgen tot een betalende taak, moest ik eerst een bijbehorende (onbetaalde) introcursus voltooien.

Het trainingscentrum toonde een reeks cursussen met ondoorgrondelijke namen zoals Glue Swimsuit en Poster Macadamia. Ik klikte op iets dat GFD Chunking heette, en dat ging over het labelen van kleding in social-media foto's. De instructies waren echter vreemd.

De instructies waren echter vreemd. Ten eerste bestonden ze eigenlijk uit dezelfde instructie, herhaald in de eigenzinnig gekleurde en hoofdletters geschreven typografie van een gecollageerde bommelding.

"LABEL voorwerpen die echt zijn en gedragen kunnen worden door mensen of bedoeld zijn om gedragen te worden door echte mensen," stond er.

"Alle items hieronder ZOUDEN gelabeld moeten worden omdat ze echt zijn en gedragen kunnen worden door echte mensen," herhaalde het boven foto's van een Air Jordans advertentie, iemand met een Kylo Ren helm, en mannequins in jurken, waarboven een limoengroen kader stond met, nogmaals, "DO label echte items die gedragen kunnen worden door echte mensen."

Ik bladerde naar de onderkant van de handleiding, waar de instructeur in een groot felrood lettertype had geschreven wat erop lijkt alsof je iemand bij de schouders pakt en door elkaar schudt: "DE VOLGENDE APPARATEN ZIJN NIET gelabeld, omdat een mens geen van deze artikelen kan dragen!" boven een foto van C-3PO, prinses Jasmine uit Aladdin en een cartoonschoen met oogballen.

Vol vertrouwen in mijn vermogen om onderscheid te maken tussen echte kleding die gedragen kan worden door echte mensen en niet-echte kleding die dat niet kan, ging ik verder met de test. Meteen kwam er een ontologische curveball: een foto van een tijdschrift met foto's van vrouwen in jurken. Is een foto van kleding echte kleding? Nee, dacht ik, want een mens kan geen foto van kleding dragen. Fout! Voor AI zijn foto's van echte kleding echte kleding. Vervolgens kwam er een foto van een vrouw die in een schemerige slaapkamer een selfie neemt voor een passpiegel. De blouse en de korte broek die ze draagt zijn echt. En hun spiegelbeeld? Ook echt! Reflecties van echte kleren zijn ook echte kleren.

Na een beschamende hoeveelheid vallen en opstaan kwam ik bij het eigenlijke werk, om tot de afschuwelijke ontdekking te komen dat de instructies die ik met moeite had gevolgd, zo vaak waren bijgewerkt en verduidelijkt dat ze nu 43 pagina's vol richtlijnen bevatten: Label GEEN open koffers vol kleren; label schoenen maar label GEEN slippers; label leggings maar label GEEN panty's; label GEEN handdoeken, zelfs niet als iemand ze draagt; label kostuums maar label GEEN harnassen. En ga zo maar door.

Volgens Milagros Miceli, een onderzoeker aan het Weizenbaum Instituut in Duitsland die datawerk bestudeert, is er algehele verwarring over instructies in de hele industrie. Dit is deels een product van de manier waarop machine-learningsystemen leren. Waar een mens het concept "overhemd" zou krijgen met een paar voorbeelden, hebben machine-lerende programma's er duizenden nodig, en ze moeten worden gecategoriseerd met perfecte consistentie maar toch gevarieerd genoeg (poloshirts, overhemden die buiten worden gedragen, overhemden die aan een rek hangen) dat het zeer letterlijke systeem de diversiteit van de echte wereld aankan. "Stel je voor dat je complexe realiteiten vereenvoudigt tot iets dat leesbaar is voor een machine die helemaal dom is," zei ze.

Het vereenvoudigen van de werkelijkheid voor een machine resulteert in een grote complexiteit voor de mens. Instructieschrijvers moeten regels bedenken die mensen de wereld laten categoriseren met perfecte consistentie. Om dit te doen, maken ze vaak categorieën die geen mens zou gebruiken. Een mens die gevraagd wordt om alle shirts op een foto te taggen, zou waarschijnlijk niet de reflectie van een shirt in een spiegel taggen omdat hij zou weten dat het een reflectie is en niet echt. Maar voor de AI, die de wereld niet begrijpt, zijn het gewoon pixels en zijn de twee perfect identiek. Als er een dataset wordt gevoed met een aantal gelabelde shirts en andere (gereflecteerde) shirts zonder label, werkt het model niet. Dus gaat de ingenieur terug naar de verkoper met een update: label reflecties van shirts. Al snel heb je een gids van 43 pagina's die in rode hoofdletters uitloopt.

"Als je begint, zijn de regels relatief eenvoudig", zegt een voormalige werknemer van Scale die om anonimiteit heeft gevraagd vanwege een NDA. "Dan krijgen ze duizend afbeeldingen terug en dan hebben ze zoiets van, wacht eens even, en dan heb je meerdere ingenieurs en die beginnen met elkaar te ruziën. Het is iets heel menselijks."

De taak van de annotator houdt vaak in dat het menselijk begrip opzij moet worden gezet en dat de instructies zeer letterlijk moeten worden opgevolgd - om, zoals een annotator zei, als een robot te denken. Het is een vreemde mentale ruimte om in te leven, je best doen om onzinnige maar strenge regels te volgen, alsof je een standaard test doet terwijl je hallucinogenen gebruikt. Annotators worden steevast geconfronteerd met verwarrende vragen als: Is dat een rood shirt met witte strepen of een wit shirt met rode strepen? Is een rieten kom een "decoratieve kom" als hij vol appels zit? Welke kleur heeft luipaardprint? Toen instructeurs zeiden dat ze verkeersregelaars moesten labelen, bedoelden ze toen ook dat ze verkeersregelaars moesten labelen die op de stoep aan het lunchen waren? Elke vraag moet worden beantwoord en een verkeerde gok kan je verbannen en naar een nieuwe, totaal andere opdracht met zijn eigen verbijsterende regels sturen.

Het meeste werk op Remotasks wordt betaald op basis van stukloon, waarbij een enkele taak een paar cent tot een paar dollar oplevert. Omdat taken seconden of uren kunnen duren, is het loon moeilijk te voorspellen. Toen Remotasks voor het eerst in Kenia arriveerde, zeiden annotators dat het relatief goed betaalde - gemiddeld ongeveer $5 tot $10 per uur, afhankelijk van de taak - maar het bedrag daalde naarmate de tijd vorderde.

Woordvoerster Anna Franko van Scale AI zei dat de economen van het bedrijf de specifieke kenmerken van een project, de vereiste vaardigheden, de regionale kosten van levensonderhoud en andere factoren analyseren "om een eerlijke en concurrerende vergoeding te garanderen". Voormalige werknemers van Scale zeiden ook dat het loon wordt bepaald door een soort surge-pricing mechanisme dat zich aanpast aan hoeveel annotators er beschikbaar zijn en hoe snel de gegevens nodig zijn.

Volgens werknemers met wie ik heb gesproken en volgens vacatures verdienen annotators van Remotasks in de VS over het algemeen tussen de $10 en $25 per uur, hoewel sommige materiedeskundigen meer kunnen verdienen. Begin dit jaar was het loon voor de Keniaanse annotators die ik sprak gedaald naar $1 tot $3 per uur.

Dat wil zeggen, als ze al geld verdienden. De meest gehoorde klacht over het werk van Remotasks is de variabiliteit; het is stabiel genoeg om lange tijd een fulltime baan te zijn, maar te onvoorspelbaar om op te kunnen vertrouwen. Annotators spenderen uren aan het lezen van instructies en het voltooien van onbetaalde trainingen om vervolgens een dozijn taken uit te voeren en het project te beëindigen. Er kan dagenlang niets nieuws zijn en dan, zonder waarschuwing, verschijnt er een totaal andere taak die enkele uren tot weken kan duren. Elke taak kan de laatste zijn en ze weten nooit wanneer de volgende komt.

Deze boom-and-bust cyclus is volgens ingenieurs en dataleveranciers het gevolg van de cadans van AI-ontwikkeling. Het trainen van een groot model vereist een enorme hoeveelheid annotatie gevolgd door meer iteratieve updates, en ingenieurs willen dit allemaal zo snel mogelijk zodat ze hun beoogde lanceerdatum kunnen halen. Er kan maandenlang vraag zijn naar duizenden annotators, dan weer naar een paar honderd, dan weer naar een dozijn specialisten van een bepaald type, en dan weer naar duizenden. "De vraag is wie de kosten draagt voor deze schommelingen", zegt Jindal van Partnership on AI. "Want op dit moment zijn het de werknemers."

"Ik ben hier echt mijn leven aan het verspillen als ik iemand miljardair heb gemaakt en ik een paar dollar per week verdien."
Om te slagen werken annotators samen. Toen ik Victor, die voor Remotasks begon te werken toen hij op de universiteit in Nairobi zat, vertelde over mijn worstelingen met de taak van verkeersregelaar, vertelde hij me dat iedereen wist dat ze daar weg moesten blijven: te lastig, slecht betaald, niet de moeite waard. Net als veel annotators gebruikt Victor onofficiële WhatsApp-groepen om bekend te maken wanneer er een goede taak binnenkomt. Als hij een nieuwe opdracht heeft bedacht, start hij geïmproviseerde Google Meets om anderen te laten zien hoe het moet. Iedereen kan meedoen en een tijdje samenwerken om tips uit te wisselen. "Het is een cultuur die we hebben ontwikkeld om elkaar te helpen, omdat we weten dat je in je eentje niet alle trucjes kunt weten," zei hij.

Omdat werk verschijnt en verdwijnt zonder waarschuwing, moeten taskers altijd alert zijn. Victor heeft gemerkt dat projecten 's avonds laat opduiken, dus hij heeft de gewoonte om ongeveer elke drie uur wakker te worden om zijn wachtrij te controleren. Als er een taak is, blijft hij zo lang mogelijk wakker om eraan te werken. Eén keer bleef hij 36 uur achter elkaar op om ellebogen en knieën en hoofden in foto's van mensenmassa's te labelen - hij heeft geen idee waarom. Een andere keer bleef hij zo lang op dat zijn moeder hem vroeg wat er mis was met zijn ogen. Hij keek in de spiegel en ontdekte dat ze opgezwollen waren.

Annotators weten over het algemeen alleen dat ze AI trainen voor bedrijven die vaag ergens anders gevestigd zijn, maar soms valt de sluier van anonimiteit weg - instructies waarin een merk of een chatbot wordt genoemd, zeggen te veel. "Ik heb gelezen en gegoogled en kwam erachter dat ik voor een 25-jarige miljardair werk," zei een medewerker die, toen we hem spraken, de emoties aan het labelen was van mensen die belden om Domino's pizza te bestellen. "Ik verspil echt mijn leven hier als ik iemand miljardair heb gemaakt en ik een paar dollar per week verdien."


Victor is een zelfbenoemde "fanaat" over AI en begon met annoteren omdat hij wil helpen een volledig geautomatiseerde toekomst na het werk te bewerkstelligen. Maar eerder dit jaar dropte iemand een Time-verhaal in een van zijn WhatsApp-groepen over werknemers die ChatGPT trainden om giftige inhoud te herkennen en die minder dan $2 per uur betaald kregen door de leverancier Sama AI. "Mensen waren boos dat deze bedrijven zo winstgevend zijn maar zo slecht betalen," zei Victor. Hij was zich er niet van bewust totdat ik hem vertelde over de connectie van Remotasks met Scale. De instructies voor een van de taken waaraan hij werkte waren bijna identiek aan die van OpenAI, wat betekende dat hij waarschijnlijk ook ChatGPT had getraind, voor ongeveer $3 per uur.

[vertaling door DeepL]
Bewerkt: 28 juni 2023 - 12:24 door nnsa
Veel van wat AI kan is eigenlijk nog steeds mensenwerk
28 juni 2023 - 12:12    reactie #5
geplaatst door: nnsa
Deel-2:

"Ik herinner me dat iemand postte dat we in de toekomst herinnerd zullen worden," zei hij. "En iemand anders antwoordde: 'We worden slechter behandeld dan voetsoldaten. We zullen in de toekomst nergens herinnerd worden.' Ik herinner me dat nog heel goed. Niemand zal het werk dat we deden of de moeite die we erin staken herkennen."

Het identificeren van kleding en het labelen van klantenservicegesprekken zijn slechts enkele van de beschikbare annotatieklussen. Het populairste op de markt is de laatste tijd chatbot trainer. Omdat het specifieke expertise of taalvaardigheid vereist en de lonen vaak regionaal worden aangepast, betaalt deze baan meestal beter. Bepaalde soorten gespecialiseerde annotatie kunnen $50 of meer per uur opleveren.

Een vrouw die ik Anna zal noemen was op zoek naar een baan in Texas toen ze op een algemene advertentie voor online werk stuitte en solliciteerde. Het was Remotasks en nadat ze was geslaagd voor een inleidend examen, werd ze in een Slack-kamer van 1500 mensen gebracht die een project trainden met de codenaam Dolphin, waarvan ze later ontdekte dat het de chatbot van Google DeepMind was, Sparrow, een van de vele bots die concurreerden met ChatGPT. Haar taak is om er de hele dag mee te praten. Voor ongeveer $14 per uur, plus bonussen voor hoge productiviteit, "is het zeker beter dan $10 per uur betaald krijgen in de plaatselijke Dollar General-winkel," zei ze.

Ze geniet er ook van. Ze heeft science-fiction romans, wiskundige paradoxen, kinderraadsels en tv-programma's besproken. Soms maakt het antwoord van de bot haar aan het lachen; andere keren heeft ze geen dingen meer om over te praten. "Op sommige dagen hebben mijn hersenen gewoon zoiets van, ik heb letterlijk geen idee wat ik het nu in hemelsnaam moet vragen," zei ze. "Dus ik heb een klein notitieboekje en ik heb ongeveer twee pagina's volgeschreven - ik Google gewoon interessante onderwerpen - dus ik denk dat ik vandaag wel zeven uur vooruit kan, maar dat is niet altijd het geval."

Elke keer dat Anna Sparrow iets vraagt, levert het twee antwoorden en kiest ze de beste, waardoor er iets ontstaat dat "menselijke-feedbackgegevens" wordt genoemd. Toen ChatGPT eind vorig jaar debuteerde, werd de indrukwekkend natuurlijk ogende conversatiestijl toegeschreven aan het feit dat het getraind was op grote hoeveelheden internetgegevens. Maar de taal die ChatGPT en zijn concurrenten voedt, wordt gefilterd door verschillende menselijke annotatierondes. Een groep aannemers schrijft voorbeelden van hoe de ingenieurs willen dat de bot zich gedraagt: vragen gevolgd door correcte antwoorden, beschrijvingen van computerprogramma's gevolgd door functionele code en verzoeken om tips voor het plegen van misdaden gevolgd door beleefde afwijzingen. Nadat het model is getraind op deze voorbeelden, worden er nog meer aannemers ingeschakeld om het aan te sporen en zijn antwoorden te rangschikken. Dit is wat Anna doet met Sparrow. Welke criteria de beoordelaars precies moeten gebruiken varieert - eerlijkheid, behulpzaamheid of gewoon persoonlijke voorkeur. Het punt is dat ze gegevens creëren over de menselijke smaak, en als daar genoeg van is, kunnen de ingenieurs een tweede model trainen om hun voorkeuren op schaal na te bootsen, waarbij het rangschikkingsproces wordt geautomatiseerd en hun AI wordt getraind om te handelen op manieren die mensen goedkeuren. Het resultaat is een bot die er opmerkelijk menselijk uitziet, schadelijke verzoeken meestal afwijst en zijn AI-karakter verklaart met een schijnbaar zelfbewustzijn.

Anders gezegd, ChatGPT lijkt zo menselijk omdat het is getraind door een AI die mensen nabootste die een AI beoordeelden die mensen nabootste die deden alsof ze een betere versie waren van een AI die was getraind op menselijk schrijven.


Deze omslachtige techniek heet "reinforcement learning from human feedback" of RLHF, en is zo effectief dat het de moeite waard is om even stil te staan bij wat het niet doet. Wanneer annotators een model bijvoorbeeld leren om nauwkeurig te zijn, leert het model niet om antwoorden te controleren aan de hand van logica of externe bronnen of over wat nauwkeurigheid als concept eigenlijk is. Het model is nog steeds een tekstvoorspellende machine die patronen in menselijk schrijven nabootst, maar nu is het trainingscorpus aangevuld met op maat gemaakte voorbeelden en is het model gewogen om deze te bevoordelen. Misschien leidt dit ertoe dat het model patronen haalt uit het deel van de taalkundige kaart dat als accuraat is gelabeld en tekst produceert die toevallig overeenkomt met de waarheid, maar het kan er ook toe leiden dat het de zelfverzekerde stijl en het vakjargon van de accurate tekst nabootst terwijl het dingen schrijft die helemaal fout zijn. Er is geen garantie dat de tekst die de labelaars als accuraat hebben gemarkeerd ook echt accuraat is, en als dat wel zo is, is er geen garantie dat het model er de juiste patronen uit leert.

Deze dynamiek maakt van chatbot annotatie een delicaat proces. Het moet rigoureus en consistent zijn omdat slordige feedback, zoals het markeren van materiaal dat alleen maar correct klinkt als accuraat, het risico met zich meebrengt dat modellen worden getraind om nog overtuigender onzin uit te kramen. Een vroeg gezamenlijk project van OpenAI en DeepMind waarbij gebruik werd gemaakt van RLHF, in dit geval om een virtuele robothand te trainen om een voorwerp te pakken, resulteerde ook in het trainen van de robot om zijn hand tussen het voorwerp en zijn beoordelaars te plaatsen en zo te wiebelen dat het alleen voor de menselijke beoordelaars leek alsof hij het voorwerp pakte. Het rangschikken van de antwoorden van een taalmodel zal altijd enigszins subjectief zijn omdat het om taal gaat. Een tekst van elke lengte bevat meerdere elementen die goed of fout kunnen zijn of, samen genomen, misleidend. Onderzoekers van OpenAI liepen tegen dit obstakel aan in een ander vroeg artikel van RLHF. Toen ze probeerden om hun model tekst te laten samenvatten, ontdekten de onderzoekers dat ze het er slechts in 60 procent van de gevallen mee eens waren dat een samenvatting goed was. "In tegenstelling tot veel taken in [machine learning] hebben onze zoekopdrachten geen ondubbelzinnige grondwaarheid," betreurden ze.

Wanneer Anna de antwoorden van Sparrow beoordeelt, wordt ze verondersteld te kijken naar hun nauwkeurigheid, behulpzaamheid en onschadelijkheid terwijl ze ook controleert of het model geen medisch of financieel advies geeft of zichzelf antropomorfiseert of andere criteria overtreedt. Om bruikbare trainingsgegevens te zijn, moeten de antwoorden van het model kwantificeerbaar ten opzichte van elkaar worden gerangschikt: Is een bot die je helpt bij het maken van een bom "beter" dan een bot die zo onschuldig is dat hij weigert vragen te beantwoorden? In een paper van DeepMind, toen de makers van Sparrow om de beurt annoteerden, eindigden vier onderzoekers in een debat over de vraag of hun bot het geslacht had aangenomen van een gebruiker die hem om relatieadvies vroeg. Volgens Geoffrey Irving, een van de onderzoekswetenschappers van DeepMind, houden de onderzoekers van het bedrijf wekelijkse annotatievergaderingen waarin ze zelf gegevens beoordelen en dubbelzinnige gevallen bespreken, waarbij ze overleggen met ethische of materiedeskundigen als een geval bijzonder lastig is.

Er zijn mensen die de emotionele inhoud van TikTok-video's, nieuwe varianten van e-mailspam en de precieze seksuele provocatie van online advertenties classificeren.
Anna moet vaak kiezen tussen twee slechte opties. "Zelfs als ze allebei absoluut, belachelijk fout zijn, moet je nog steeds uitzoeken welke beter is en dan woorden schrijven om uit te leggen waarom," zei ze. Soms, als beide antwoorden slecht zijn, wordt ze aangemoedigd om zelf een beter antwoord te schrijven, wat ze ongeveer de helft van de tijd doet.

Omdat feedbackgegevens moeilijk te verzamelen zijn, brengen ze een hogere prijs op. Basisvoorkeuren van het soort dat Anna produceert, worden volgens mensen met kennis van de industrie verkocht voor ongeveer $1 per stuk. Maar als je een model wilt trainen om juridisch onderzoek te doen, heb je iemand nodig met een juridische opleiding, en dat wordt duur. Alle betrokkenen zijn terughoudend om te zeggen hoeveel ze uitgeven, maar in het algemeen kunnen gespecialiseerde geschreven voorbeelden honderden dollars kosten, terwijl expertbeoordelingen $50 of meer kunnen kosten. Een ingenieur vertelde me dat hij voorbeelden van Socratische dialogen had gekocht voor wel $300 per stuk. Een ander vertelde me dat hij $15 betaalde voor een "duister grappige limerick over een goudvis".

OpenAI, Microsoft, Meta en Anthropic gaven geen commentaar over hoeveel mensen annotaties bijdragen aan hun modellen, hoeveel ze betaald krijgen of waar ter wereld ze zich bevinden. Irving van DeepMind, een dochteronderneming van Google, zei dat de annotators die aan Sparrow werken "ten minste het leefbaar uurloon" krijgen, gebaseerd op hun locatie. Anna weet "absoluut niets" over Remotasks, maar Sparrow is opener geweest. Ze was niet de enige annotator met wie ik sprak die meer informatie kreeg van de AI die ze trainden dan van hun werkgever; verschillende anderen kwamen erachter voor wie ze werkten door de AI te vragen naar de servicevoorwaarden van zijn bedrijf. "Ik vroeg het letterlijk: 'Wat is je doel, Sparrow?'" zei Anna. De AI kreeg een link naar de website van DeepMind en legde uit dat het een AI-assistent is en dat de makers hem met behulp van RLHF hebben getraind om behulpzaam en veilig te zijn.

Tot voor kort was het relatief eenvoudig om slechte output van een taalmodel te herkennen. Het zag eruit als wartaal. Maar dit wordt moeilijker naarmate de modellen beter worden - een probleem dat "schaalbaar overzicht" wordt genoemd. Google liet onbedoeld zien hoe moeilijk het is om de fouten van een modern taalmodel te ontdekken toen er een in het flitsende debuut van zijn AI-assistent Bard terechtkwam. (Het verklaarde zelfverzekerd dat de James Webb Space Telescope "de allereerste foto's van een planeet buiten ons eigen zonnestelsel heeft gemaakt", wat onjuist is). Dit traject betekent dat annotatie steeds meer specifieke vaardigheden en expertise vereist.

Vorig jaar werkte iemand die ik Lewis zal noemen op Mechanical Turk toen hij na het voltooien van een taak een bericht ontving waarin hij werd uitgenodigd om te solliciteren op een platform waar hij nog nooit van had gehoord. Het heette Taskup.ai en de website was opvallend eenvoudig: alleen een marineblauwe achtergrond met tekst GET PAID FOR TASKS ON DEMAND. Hij meldde zich aan.

Het werk betaalde veel beter dan alles wat hij eerder had geprobeerd, vaak rond de 30 dollar per uur. Het was ook uitdagender: het bedenken van complexe scenario's om chatbots gevaarlijke adviezen te laten geven, het testen van het vermogen van een model om in zijn rol te blijven en het voeren van gedetailleerde gesprekken over wetenschappelijke onderwerpen die zo technisch waren dat er uitgebreid onderzoek voor nodig was. Hij vond het werk "bevredigend en stimulerend". Terwijl hij de pogingen van een model om te coderen in Python controleerde, leerde Lewis ook. Hij kon niet langer dan vier uur achter elkaar werken, anders liep hij het risico mentaal uitgeput te raken en fouten te maken, en hij wilde zijn baan houden.

"Als ik iets zou kunnen veranderen, zou ik meer informatie willen hebben over wat er aan de andere kant gebeurt," zei hij. "We weten niet meer dan we moeten weten om het werk gedaan te krijgen, maar als ik meer zou weten, dan zou ik me misschien meer kunnen vestigen en dit misschien als een carrière kunnen voortzetten."

Ik sprak met acht andere werknemers, de meesten gevestigd in de VS, die soortgelijke ervaringen hadden met het beantwoorden van enquêtes of het uitvoeren van taken op andere platforms en die werden gerekruteerd voor Taskup.ai of een aantal soortgelijke generieke sites, zoals DataAnnotation.tech of Gethybrid.io. Hun werk bestond vaak uit het trainen van chatbots, maar met hogere kwaliteitsverwachtingen en meer gespecialiseerde doeleinden dan andere sites waarvoor ze hadden gewerkt. De ene demonstreerde spreadsheetmacro's. Een ander moest gewoon gesprekken voeren en reacties beoordelen op basis van de criteria die zij wilde. Ze vroeg de chatbot vaak dingen die naar voren waren gekomen in gesprekken met haar 7-jarige dochter, zoals "Wat is de grootste dinosaurus?" en "Schrijf een verhaal over een tijger." "Ik heb nog niet helemaal begrepen wat ze ermee proberen te doen," vertelde ze me.

Taskup.ai, DataAnnotation.tech en Gethybrid.io lijken allemaal eigendom te zijn van hetzelfde bedrijf: Surge AI. De CEO, Edwin Chen, wilde de connectie bevestigen noch ontkennen, maar hij was wel bereid om te praten over zijn bedrijf en hoe hij annotatie ziet evolueren.

"Ik heb altijd het gevoel gehad dat het annotatielandschap te simplistisch is", zei Chen tijdens een videogesprek vanuit het kantoor van Surge. Hij richtte Surge op in 2020 nadat het werken aan AI bij Google, Facebook en Twitter hem ervan overtuigde dat crowdsourced labeling niet voldeed. "We willen dat AI grappen vertelt of echt goede marketingteksten schrijft of me helpt als ik therapie nodig heb of wat dan ook," zei Chen. "Je kunt niet aan vijf mensen vragen om onafhankelijk van elkaar een mop te bedenken en die te combineren tot een meerderheidsantwoord. Niet iedereen kan een mop vertellen of een Python-programma oplossen. Het annotatielandschap moet verschuiven van deze lage kwaliteit, lage vaardigheid mindset naar iets dat veel rijker is en het bereik van menselijke vaardigheden en creativiteit en waarden vastlegt die we willen dat AI-systemen bezitten."


Vorig jaar herlabelde Surge Google's dataset die Reddit-posts classificeerde op basis van emotie. Google had elke post ontdaan van context en stuurde ze naar werknemers in India om ze te labelen. Surge-medewerkers die bekend zijn met de Amerikaanse internetcultuur ontdekten dat 30 procent van de labels fout was. Posts als "hell yeah my brother" waren geclassificeerd als ergernis en "Yay, cold McDonald's. Mijn favoriet" als liefde.

Surge beweert dat het zijn werknemers screent op kwalificaties - bijvoorbeeld dat mensen die creatieve schrijftaken uitvoeren ervaring hebben met creatief schrijven - maar hoe Surge precies werknemers vindt is "bedrijfseigen", aldus Chen. Net als bij Remotasks moeten werknemers vaak trainingen volgen, maar in tegenstelling tot Remotasks worden ze daarvoor betaald, volgens de annotators met wie ik sprak. Doordat er minder, beter opgeleide arbeiders zijn die gegevens van hogere kwaliteit produceren, kan Surge beter compenseren dan zijn collega's, zei Chen, hoewel hij daar niet over uitweidde en alleen zei dat de mensen een "eerlijk en ethisch loon" krijgen. De werknemers met wie ik sprak verdienden tussen de $15 en $30 per uur, maar zij zijn een kleine steekproef van alle annotators, een groep die volgens Chen nu uit 100.000 mensen bestaat. De geheimhouding, legde hij uit, komt voort uit de eisen van klanten voor vertrouwelijkheid.

Tot de klanten van Surge behoren OpenAI, Google, Microsoft, Meta en Anthropic. Surge is gespecialiseerd in feedback en taalannotatie en kreeg na de lancering van ChatGPT een toevloed van verzoeken, zei Chen: "Ik dacht dat iedereen de kracht van RLHF kende, maar ik denk dat mensen het gewoon niet echt begrepen."

De nieuwe modellen zijn zo indrukwekkend dat ze een nieuwe ronde van voorspellingen hebben geïnspireerd dat annotatie op het punt staat geautomatiseerd te worden. Gezien de kosten die hiermee gemoeid zijn, is de financiële druk om dit te doen groot. Anthropic, Meta en andere bedrijven hebben onlangs vooruitgang geboekt in het gebruik van AI om de hoeveelheid menselijke annotatie die nodig is om modellen te sturen drastisch te verminderen, en andere ontwikkelaars zijn begonnen met het gebruik van GPT-4 om trainingsgegevens te genereren. Een recent artikel ontdekte echter dat GPT-4-getrainde modellen mogelijk leren om GPT's gezaghebbende stijl met nog minder nauwkeurigheid na te bootsen, en tot nu toe is, wanneer verbeteringen in AI een vorm van annotatie overbodig hebben gemaakt, de vraag naar andere, meer verfijnde vormen van labeling gestegen. Dit debat kwam eerder dit jaar in de openbaarheid toen de CEO van Scale, Wang, tweette dat hij voorspelde dat AI-laboratoria binnenkort evenveel miljarden dollars zullen uitgeven aan menselijke gegevens als aan rekenkracht; de CEO van OpenAI, Sam Altman, antwoordde dat de behoefte aan gegevens zal afnemen naarmate AI verbetert.

"Ik bedoel, wat het kan is verbazingwekkend," zei ze over de chatbot. "Maar het doet nog steeds hele rare dingen."
Chen is sceptisch dat AI een punt zal bereiken waarop menselijke feedback niet langer nodig is, maar hij ziet annotatie wel moeilijker worden naarmate de modellen beter worden. Zoals veel onderzoekers gelooft hij dat AI-systemen mensen zullen helpen om toezicht te houden op andere AI. Surge werkte onlangs samen met Anthropic aan een proof of concept, waarbij menselijke labelaars vragen over een lange tekst beantwoordden met de hulp van een onbetrouwbare AI-assistent, in de veronderstelling dat de mensen de zwakke punten van hun AI-assistent zouden moeten ontdekken en zouden moeten samenwerken om hun weg naar het juiste antwoord te redeneren. Een andere mogelijkheid is dat twee AI's met elkaar in debat gaan en dat een mens het eindoordeel velt over welke van de twee correct is. "We hebben nog steeds geen echt goede praktische implementaties van deze dingen gezien, maar het begint noodzakelijk te worden omdat het voor labelaars echt moeilijk wordt om de modellen bij te houden," zei OpenAI onderzoekswetenschapper John Schulman tijdens een recente lezing op Berkeley.

"Ik denk dat je altijd een mens nodig hebt om in de gaten te houden wat AI's doen, gewoon omdat ze een soort buitenaardse entiteit zijn," zei Chen. Machine-learningsystemen zijn gewoon te vreemd om ooit volledig te vertrouwen. De indrukwekkendste modellen van dit moment hebben wat voor een mens bizarre zwakheden lijken, voegde hij eraan toe, erop wijzend dat GPT-4 weliswaar complexe en overtuigende proza kan genereren, maar niet kan uitzoeken welke woorden bijvoeglijke naamwoorden zijn: "Ofwel dat, ofwel worden modellen zo goed dat ze in alles beter zijn dan mensen, in welk geval je je utopie bereikt en wat maakt het uit?"

Toen 2022 eindigde, begon Joe van zijn studenten te horen dat hun taakwachtrijen vaak leeg waren. Toen kreeg hij een e-mail waarin stond dat de bootcamps in Kenia gingen sluiten. Hij ging door met het online trainen van taskers, maar begon zich zorgen te maken over de toekomst.

"Er waren tekenen dat het niet lang meer zou duren," zei hij. Annotation ging Kenia verlaten. Van collega's die hij online had ontmoet, hoorde hij dat de taken naar Nepal, India en de Filippijnen gingen. "De bedrijven verschuiven van de ene regio naar de andere," zei Joe. "Ze hebben lokaal geen infrastructuur, dus het maakt ze flexibel om te verschuiven naar regio's die hen bevallen in termen van operationele kosten."

Eén manier waarop de AI-industrie verschilt van fabrikanten van telefoons en auto's is de vloeibaarheid ervan. Het werk verandert voortdurend, wordt steeds verder geautomatiseerd en vervangen door nieuwe behoeften aan nieuwe soorten gegevens. Het is een lopende band, maar wel een die eindeloos en ogenblikkelijk opnieuw kan worden geconfigureerd, waarbij het werk wordt verplaatst naar waar de juiste combinatie van vaardigheden, bandbreedte en lonen is.

De laatste tijd is het best betaalde werk te vinden in de VS. In mei begon Scale annotatiebanen te publiceren op zijn eigen website, waarbij mensen werden gevraagd met ervaring op vrijwel elk gebied dat AI naar verwachting zal veroveren. Er waren advertenties voor AI-trainers met expertise in gezondheidscoaching, human resources, financiën, economie, datawetenschap, programmeren, informatica, chemie, biologie, boekhouding, belastingen, voeding, natuurkunde, reizen, K-12 onderwijs, sportjournalistiek en zelfhulp. Je kunt $45 per uur verdienen door robots rechten te leren of $25 per uur door ze poëzie te leren. Er waren ook vacatures voor mensen met een veiligheidsmachtiging, vermoedelijk om militaire AI te helpen trainen. Scale lanceerde onlangs een op defensie gericht taalmodel genaamd Donovan, dat Wang "munitie in de AI-oorlog" noemde, en won een contract om te werken aan het robotgevechtsvoertuigprogramma van het leger.

Anna traint nog steeds chatbots in Texas. Collega's zijn veranderd in reviewers en Slack admins - ze weet niet zeker waarom, maar het heeft haar hoop gegeven dat deze baan een carrière voor de langere termijn zou kunnen zijn. Waar ze zich geen zorgen over maakt, is dat ze haar baan kwijtraakt. "Ik bedoel, wat het kan doen is verbazingwekkend," zei ze over de chatbot. "Maar het doet nog steeds hele rare dingen."

Toen Remotasks voor het eerst in Kenia arriveerde, dacht Joe dat annotatie een goede carrière kon zijn. Zelfs toen het werk naar elders werd verplaatst, was hij vastbesloten om er een carrière van te maken. Er waren duizenden mensen in Nairobi die wisten hoe ze het werk moesten doen, redeneerde hij - hij had er tenslotte veel opgeleid. Joe huurde een kantoorruimte in de stad en begon contracten te zoeken: een baan als annotator van blauwdrukken voor een bouwbedrijf, een andere als labelleraar van door insecten aangetast fruit voor een soort landbouwproject, plus het gebruikelijke werk van annoteren voor zelfrijdende auto's en e-commerce.

Maar zijn visie is moeilijk te verwezenlijken. Hij heeft nog maar één fulltime werknemer, in plaats van twee. "We hebben geen consistente stroom werk," zei hij. Er zijn weken waarin er niets te doen is omdat klanten nog steeds gegevens verzamelen en als ze klaar zijn, moet hij kortetermijncontractanten inschakelen om hun deadlines te halen: "Het maakt de klanten niet uit of we consistent werk hebben of niet. Zolang de datasets klaar zijn, is dat het einde."

In plaats van hun vaardigheden verloren te laten gaan, besloten andere taskers achter het werk aan te gaan, waar het ook naartoe ging. Ze huurden proxyservers om hun locaties te verhullen en kochten valse ID's om door de veiligheidscontroles te komen, zodat ze konden doen alsof ze vanuit Singapore, Nederland, Mississippi of waar dan ook de opdrachten binnenstroomden, werkten. Het is een riskante onderneming. Scale is steeds agressiever geworden in het opschorten van accounts die betrapt werden op het verhullen van hun locatie, volgens meerdere opdrachtgevers. Het was tijdens een van deze onderdrukkingen dat mijn account werd geblokkeerd, waarschijnlijk omdat ik een VPN had gebruikt om te zien wat werknemers in andere landen te zien kregen, en al mijn verdiensten van ongeveer $1,50 werden in beslag genomen.

"Tegenwoordig zijn we een beetje sluw geworden omdat we hebben gemerkt dat ze in andere landen goed betalen," zei Victor, die het dubbele van het Keniaanse tarief verdiende door te werken in Maleisië. "Je doet het voorzichtig."

Een andere Keniaanse annotator zei dat hij, nadat zijn account om mysterieuze redenen was geschorst, besloot om zich niet meer aan de regels te houden. Nu heeft hij meerdere accounts in meerdere landen en doet hij opdrachten waar de beloning het beste is. Hij werkt snel en krijgt hoge cijfers voor kwaliteit, zei hij, dankzij ChatGPT. De bot is geweldig, zei hij, waardoor hij binnen een paar minuten 10 dollar aan opdrachten kan uitvoeren. Toen we elkaar spraken, liet hij de antwoorden van een andere chatbot beoordelen aan de hand van zeven verschillende criteria, waarbij de ene AI de andere trainde.

[vertaling DeepL]
Veel van wat AI kan is eigenlijk nog steeds mensenwerk
28 juni 2023 - 12:54    reactie #6
geplaatst door: ouwemac
Dank je nnsa! :thumbs-up:
Alleen had ik zelf al een vertaling laten maken van de Verge website via de AA’s in de adresbalk.
Binnen tien seconden was het hele artikel vertaald inclusief de tekst op de plaatjes.
Jouw vertaling via Deepl is wel stukken beter.
Optimistisch maar zonder hoop. (Tommy Wieringa)
Veel van wat AI kan is eigenlijk nog steeds mensenwerk
28 juni 2023 - 13:43    reactie #7
geplaatst door: Ziegler
Gisteren een werkstuk van een leerling beoordeeld. Ik zag aan alles dat het Chatgpt was die het meeste schrijfwerk had gedaan. Het interessante was dat het geen goed verslag was (in die zin dat de opdracht niet goed was uitgevoerd). Een enorme brei van informatie die nog heel veel redactie vereist.
Veel van wat AI kan is eigenlijk nog steeds mensenwerk
28 juni 2023 - 14:05    reactie #8
geplaatst door: ouwemac
Vergelijk je het dan met eerder werk van die leerling of kun je het aan andere dingen zien?
Optimistisch maar zonder hoop. (Tommy Wieringa)
Veel van wat AI kan is eigenlijk nog steeds mensenwerk
28 juni 2023 - 14:29    reactie #9
geplaatst door: Ziegler
Je ziet het aan het werk. Het is gewoon een brei aan informatie die ik dan lees. Als de opdracht is om informatie te geven kan dit natuurlijk, maar als de opdracht is iets te analyseren of om een advies te geven dan moeten leerlingen ook afwegen, onderbouwen, concretiseren, keuzes maken. Dat kan ChatGpt niet zomaar. Misschien als je het heel lief vraagt, maar anders niet.
Veel van wat AI kan is eigenlijk nog steeds mensenwerk
28 juni 2023 - 14:44    reactie #10
geplaatst door: mcmt
In dit artikel van de CEO van Surge AI (vermeld in het Verge artikel) wordt uitgelegd hoe Reinforcement Learning with Human Feedback kan toegepast worden in een GPT context.
Veel van wat AI kan is eigenlijk nog steeds mensenwerk
28 juni 2023 - 18:32    reactie #11
geplaatst door: Cesar
Dit weekend nog naar een voorstelling gaan kijken over Ai in Brugge. Heel leerrijk.
https://www.lievenscheire.be
Wij hebben eigenlijk allemaal Ai getraind en wel hiermee:
Google Captcha
Veel van wat AI kan is eigenlijk nog steeds mensenwerk
28 juni 2023 - 21:35    reactie #12
geplaatst door: sluisje

geblokkeerd

Citaat
For example, if you’re asked to identify all the images with traffic lights, Google can use your response to improve its AI’s ability to recognize traffic lights.
Hoe gaat dat in zijn werk? Je wilt een site bezoeken maar krijgt eerste een CAPTCHA, die moet je oplossen en wanneer je die goed hebt kun je verder. Hoe bepaalt de CAPTCHA dat je de puzzel goed hebt? Dan moeten die fotootjes toch al eerst 'gelabeled' zijn?
Veel van wat AI kan is eigenlijk nog steeds mensenwerk
28 juni 2023 - 23:51    reactie #13
geplaatst door: mcmt
Stel dat je plaatjes met katten moet aanduiden. De CAPTCHA test bevat bijv. een aantal plaatjes die al meermaals getoond zijn, en door 99% van de gebruikers die ze beoordeeld hebben als 'kat' gemerkt zijn. Die maken dan deel uit van de eigenlijke test. De CAPTCHA bevat ook één of twee nieuwe(re) plaatjes. Die worden genegeerd door de test, maar wel opgenomen in het labeling proces. Of je moet twee woorden herkennen, waarvan er maar 1 meetelt in de eigenlijke test.

Dit zijn maar een paar mogelijke scenario's die de ronde doen, of varianten daarop.
Bewerkt: 29 juni 2023 - 00:58 door mcmt
Veel van wat AI kan is eigenlijk nog steeds mensenwerk
29 juni 2023 - 10:13    reactie #14
geplaatst door: sluisje

geblokkeerd

Aha, duidelijk. Dankjewel voor deze uitleg.
Veel van wat AI kan is eigenlijk nog steeds mensenwerk
30 juni 2023 - 17:14    reactie #15
geplaatst door: mayo
Ergo, of we het nu hebben over onze telefoons, AI, autos, zonnecellen, waterstof etc het zijn allemaal windmolens die ten koste gaan van een grote groep te laag betaalde in erbarmelijke omstandigheden werkende mensen.
Zolang we hier, op onze dure te apples kunnen praten en klagen,  moeten we ons misschien ook een beetje schamen.
It ain't what you don't know that gets you into trouble. It's what you know for sure that just ain't so - Mark Twain
Veel van wat AI kan is eigenlijk nog steeds mensenwerk
1 juli 2023 - 09:52    reactie #16
geplaatst door: sluisje

geblokkeerd

Nee, dat ga ik niet doen.
Veel van wat AI kan is eigenlijk nog steeds mensenwerk
10 juli 2023 - 15:52    reactie #17
geplaatst door: mayo
vandaar dat er niets veranderd
It ain't what you don't know that gets you into trouble. It's what you know for sure that just ain't so - Mark Twain
Veel van wat AI kan is eigenlijk nog steeds mensenwerk
10 juli 2023 - 16:12    reactie #18
geplaatst door: sluisje

geblokkeerd

Wanneer ik mij er wel voor zou schamen zou er evenmin iets veranderen. Ik ga mijzelf dan ook geen complex (laten) aanpraten.
Veel van wat AI kan is eigenlijk nog steeds mensenwerk
21 september 2023 - 07:12    reactie #19
geplaatst door: ouwemac
ChatGPT onder vuur?
OpenAI de maker van ChatGPT aangeklaagd voor schending auteursrecht.
Het zou eens tijd worden…..
Optimistisch maar zonder hoop. (Tommy Wieringa)
Veel van wat AI kan is eigenlijk nog steeds mensenwerk
21 september 2023 - 09:22    reactie #20
geplaatst door: Chartreuse
ChatGPT onder vuur?
OpenAI de maker van ChatGPT aangeklaagd voor schending auteursrecht.
Het zou eens tijd worden…..
Ja, dit speelt inderdaad al een tijdje en ik ben heel benieuwd hoe het afloopt. Auteurs laten tegenwoordig ook in contracten opnemen dat hun teksten alleen door mensen mogen worden verwekt. In Boekblad werd laatst al geopperd dat een keurmerk als 'door een mens geschreven' misschien dezelfde status gaat krijgen als bijvoorbeeld 'ambachtelijk gebakken brood van natuurlijke ingrediënten.' (Gelukkig heeft mijn werkplek al een vrije uitloop.)