Je hebt al vast wat gehoord over ChatGTP, de chatbot die heel slim lijkt te zijn. ChatGTP is niet de enige ook Google heeft er een. Wat al die chatbots gemeen hebben is dat ze gevoed zijn met miljoenen woorden en zinnen. Die halen ze gewoon van het internet af. Volledig geautomatiseerd worden teksten gekopieerd naar de databases van Microsoft en Google, zonder dat de eigenaars van die websites dat doorhebben of dat er eerst netjes gevraagd is. Dit is ook meteen een van de grote probleem met ChatGTP, ze gebruiken teksten waar auteursrecht op zit en zonder te vragen of te vergoeden worden al die zinnen hergebruikt in de antwoorden die jij krijgt van ChatGTP.
En nu blijkt dat misschien jouw tekst gebruikt wordt door ChatGTP. Want ook deze website komt voor in een grote database ” Common Crawl” genaamd.

Maar liefst 150 duizend woorden van deze website zijn illegaal gekopieerd en worden nu gebruikt door chatbots zoals ChatGTP. Mocht je ooit een reactie hebben geplaats onder een van de artikelen dan is de kans groot dat je hebt bijgedragen aan de slimheid van chatbots.
Wil je meer weten over dit verschijnsel lees dan het artikel van de Groene Amsterdammer: ‘Dat zijn toch gewoon ál onze artikelen?’. Je kunt daar ook zelf kijken of een bepaalde website voorkomt in de database en dientengevolge gebruikt woord door Microsoft en Google hun chtabots. En ook al staat er “Nederlandse websites” er wordt bedoeld “Nederlandstalige webistes”, want ook sporza.be (14 miljoen woorden) en humo.be (9,7 miljoen) zijn ook bronnen van de illegale database.
Mocht je in de technische kant van het onderzoek willen duiken, dan is er dit artikel: Verantwoording bij het onderzoek naar de Nederlandstalige data voor AI-modellen. De code en data voor dit onderzoek zijn te vinden op https://github.com/groene/chatbots.
PS ChatGTP en vergelijkbare chatbots zijn niet slim, wat je zelf ook denkt, gelezen hebt in de media of gehoord aan een van de vele praattafels op tv. ChatGTP is een LLM, een large language model (een groot taalmodel). Groot omdat het miljoenen zinnen bevat. Door naar al die zinnen te kijken kan het heel goed voorspellen welk woord volgt na een eerder woord. Het kijkt ook naar andere woorden in de buurt, zo blijft het zinnen gebruiken die bij het onderwerp passen. Voor een recept is het niet erg dat een kip in stukjes wordt gesneden terwijl op de kinderboerderij dit niet de bedoeling is. Dit is wat die chatbots doen, het zijn taalmodellen niks meer en niks minder. Ze hebben geen besef of ze een zin maken die over een kinderbedoerij gaat, een bot weet niet eens wat een kinderboerderij is, laat staan dat het kan inschatten hoe een recept zal smaken.
Het bijzondere aan ChatGTP is dat de kwaliteit van de zinnen goed is, uitzonderlijk goed. Ik ben de eerste om de makers te feliciteren met hun knappe resultaat. Zo knap zelfs dat er dus nu mensen zijn die denken dat bots slim zijn.
Geef een reactie