Reddit veut être payé pour aider à enseigner les grands systèmes d'IA

Supporté par

Le site Internet est depuis longtemps un forum de discussion sur une grande variété de sujets, et des entreprises comme Google et OpenAI l'utilisent dans leurs projets d'IA.

Par Mike Isaac

Mike Isaac, basé à San Francisco, écrit sur les médias sociaux et l'industrie technologique.

Reddit est depuis longtemps un point chaud pour les conversations sur Internet. Environ 57 millions de personnes visitent le site chaque jour pour discuter de sujets aussi variés que le maquillage, les jeux vidéo et les pointeurs pour les allées de lavage à haute pression.

Ces dernières années, la gamme de chats de Reddit a également été une aide pédagogique gratuite pour des entreprises comme Google, OpenAI et Microsoft. Ces entreprises utilisent les conversations de Reddit dans le développement de systèmes d'intelligence artificielle géants qui, selon de nombreux habitants de la Silicon Valley, sont en passe de devenir la prochaine grande chose de l'industrie technologique.

Maintenant, Reddit veut être payé pour cela. La société a déclaré mardi qu'elle prévoyait de commencer à facturer aux entreprises l'accès à son interface de programmation d'applications, ou API, la méthode par laquelle des entités extérieures peuvent télécharger et traiter la vaste sélection de conversations de personne à personne du réseau social.

"Le corpus de données Reddit est vraiment précieux", a déclaré Steve Huffman, fondateur et directeur général de Reddit, dans une interview. "Mais nous n'avons pas besoin de donner gratuitement toute cette valeur à certaines des plus grandes entreprises du monde."

Cette décision est l'un des premiers exemples significatifs de la facturation par un réseau social de l'accès aux conversations qu'il héberge dans le but de développer des systèmes d'IA comme ChatGPT, le programme populaire d'OpenAI. Ces nouveaux systèmes d'IA pourraient un jour conduire à de grandes entreprises, mais ils ne sont pas susceptibles d'aider beaucoup des entreprises comme Reddit. En fait, ils pourraient être utilisés pour créer des concurrents - des doublons automatisés des conversations de Reddit.

Reddit agit également alors qu'il se prépare à une éventuelle offre publique initiale à Wall Street cette année. L'entreprise, qui a été fondée en 2005, tire la majeure partie de son argent de la publicité et des transactions de commerce électronique sur sa plateforme. Reddit a déclaré qu'il était toujours en train de régler les détails de ce qu'il facturerait pour l'accès à l'API et qu'il annoncerait les prix dans les semaines à venir.

Les forums de conversation de Reddit sont devenus des produits précieux car les grands modèles linguistiques, ou LLM, sont devenus un élément essentiel de la création de nouvelles technologies d'IA.

Les LLM sont essentiellement des algorithmes sophistiqués développés par des sociétés comme Google et OpenAI, qui est un proche partenaire de Microsoft. Pour les algorithmes, les conversations Reddit sont des données, et elles font partie du vaste pool de matériel alimenté dans les LLM pour les développer.

L'algorithme sous-jacent qui a aidé à construire Bard, le service d'IA conversationnelle de Google, est en partie formé sur les données de Reddit. Chat GPT d'OpenAI cite les données de Reddit comme l'une des sources d'informations sur lesquelles il a été formé.

D'autres entreprises commencent également à voir de la valeur dans les conversations et les images qu'elles hébergent. Shutterstock, le service d'hébergement d'images, a également vendu des données d'image à OpenAI pour aider à créer DALL-E, le programme d'IA qui crée des images graphiques vives avec seulement une invite textuelle requise.

Le mois dernier, Elon Musk, le propriétaire de Twitter, a déclaré qu'il réprimait l'utilisation de l'API de Twitter, que des milliers d'entreprises et de développeurs indépendants utilisent pour suivre les millions de conversations sur le réseau. Bien qu'il n'ait pas cité les LLM comme raison du changement, les nouveaux frais pourraient atteindre des dizaines, voire des centaines de milliers de dollars.

Pour continuer à améliorer leurs modèles, les fabricants d'intelligence artificielle ont besoin de deux choses importantes : une énorme quantité de puissance de calcul et une énorme quantité de données. Certains des plus grands développeurs d'IA disposent d'une grande puissance de calcul, mais recherchent toujours en dehors de leurs propres réseaux les données nécessaires pour améliorer leurs algorithmes. Cela inclut des sources comme Wikipedia, des millions de livres numérisés, des articles universitaires et Reddit.

Les représentants de Google, Open AI et Microsoft n'ont pas immédiatement répondu à une demande de commentaire.

Reddit entretient depuis longtemps une relation symbiotique avec les moteurs de recherche d'entreprises telles que Google et Microsoft. Les moteurs de recherche "explorent" les pages Web de Reddit afin d'indexer les informations et de les rendre disponibles pour les résultats de recherche. Ce crawling, ou "grattage", n'est pas toujours bien accueilli par tous les sites sur Internet. Mais Reddit a bénéficié en apparaissant plus haut dans les résultats de recherche.

La dynamique est différente avec les LLM - ils engloutissent autant de données que possible pour créer de nouveaux systèmes d'IA comme les chatbots.

Reddit pense que ses données sont particulièrement précieuses car elles sont continuellement mises à jour. Cette nouveauté et cette pertinence, a déclaré M. Huffman, sont ce dont les grands algorithmes de modélisation du langage ont besoin pour produire les meilleurs résultats.

"Plus que tout autre endroit sur Internet, Reddit est un lieu de conversation authentique", a déclaré M. Huffman. "Il y a beaucoup de choses sur le site que vous ne diriez jamais qu'en thérapie, ou AA, ou jamais du tout."

M. Huffman a déclaré que l'API de Reddit serait toujours gratuite pour les développeurs qui souhaitaient créer des applications aidant les gens à utiliser Reddit. Ils pourraient utiliser les outils pour créer un bot qui suit automatiquement si les commentaires des utilisateurs respectent les règles de publication, par exemple. Les chercheurs qui souhaitent étudier les données de Reddit à des fins académiques ou non commerciales continueront d'y accéder gratuitement.

Reddit espère également intégrer davantage de soi-disant apprentissage automatique dans le fonctionnement du site lui-même. Il pourrait être utilisé, par exemple, pour identifier l'utilisation de texte généré par l'IA sur Reddit et ajouter une étiquette qui avertit les utilisateurs que le commentaire provient d'un bot.

La société a également promis d'améliorer les outils logiciels qui peuvent être utilisés par les modérateurs - les utilisateurs qui donnent de leur temps pour assurer le bon fonctionnement des forums du site et améliorer les conversations entre les utilisateurs. Et les robots tiers qui aident les modérateurs à surveiller les forums continueront d'être pris en charge.

Mais pour les fabricants d'IA, il est temps de payer.

"Crawler Reddit, générer de la valeur et ne rien restituer à nos utilisateurs est quelque chose qui nous pose problème", a déclaré M. Huffman. "C'est le bon moment pour nous de resserrer les choses."

"Nous pensons que c'est juste", a-t-il ajouté.

Mike Isaac est correspondant technologique et auteur de "Super Pumped : The Battle for Uber", un best-seller sur l'ascension et la chute spectaculaires de l'entreprise de covoiturage. Il couvre régulièrement Facebook et la Silicon Valley, et est basé à San Francisco. @MikeIsaac • Facebook

Nouvelles