Intelligence Artificielle

Les tactiques douteuses de formation de l'IA suscitent une préoccupation croissante

Publié 10 février 2025

David Hamilton

Securities.io applique des normes éditoriales rigoureuses et peut percevoir une rémunération pour les liens vérifiés. Nous ne sommes pas un conseiller en investissement agréé et ceci ne constitue pas un conseil en investissement. Veuillez consulter notre divulgation de l'affiliation.

Les tactiques d'entraînement de l'IA continuent d'être scrutées en raison de leur manque de contrôle. Il est courant que les auteurs contemporains s'inspirent et empruntent même des éléments d'histoires antérieures. Si cette pratique fait partie intégrante de l'évolution de l'écriture, il arrive que les œuvres et le style d'un auteur soient copiés sans son consentement.

Dans ce cas, les lois modernes sur la violation du droit d'auteur permettent au créateur de contenu d'origine de récupérer ses pertes. Cependant, il n'en va pas de même pour le nombre croissant de systèmes d'IA qui ont utilisé des œuvres acquises illégalement pour développer leurs modèles. L'industrie se trouve désormais à la croisée des chemins en matière de stratégies de formation et de sanctions pour les personnes ayant subi des pertes. Voici ce que vous devez savoir.

Des tactiques de formation d’IA douteuses

Une rafale de poursuites affirment maintenant qu'OpenAI et META (META ) Les plaignants ont délibérément cherché des solutions de contournement lors de l'acquisition de données de bibliothèque pour la formation de leur modèle. Les plaignants du procès affirment que l'entreprise était consciente et ne se souciait pas du fait qu'elle volait potentiellement des millions de dollars aux auteurs sans compensation, ni même une mention.

De telles affirmations ne sont pas une grande surprise pour ceux qui pensent que la course à l'IA a conduit à un mépris général des lois sur le droit d'auteur. De tels auteurs continuent de s'opposer aux développeurs d'IA, exigeant plus de transparence sur la manière dont les données sont acquises et traitées par ces systèmes.

Même si aucune piste claire n’a encore été dévoilée au public, les preuves commencent à s’accumuler contre les entreprises d’IA. Ces preuves pourraient entraîner des changements radicaux dans les tactiques de formation utilisées par les développeurs d’IA à l’avenir.

Tactiques de formation utilisées par les entreprises pour créer des modèles

La formation d'un système d'IA est un processus complexe qui peut impliquer la collecte et le traitement d'énormes volumes de données provenant de diverses sources. Ces données sont celles auxquelles le système d'IA se réfère lorsqu'il tente de répondre à des questions ou de comprendre de nouveaux scénarios. Par conséquent, la plupart des systèmes d'IA fonctionnent mieux lorsqu'ils disposent de davantage de données sur lesquelles se baser.

Créer l'IA

La principale façon de créer un modèle d’IA consiste à collecter des données. Par le passé, la collecte de données était un processus chronophage qui obligeait les ingénieurs à rechercher des bases de données déjà existantes plutôt qu’à tout créer de toutes pièces. Par exemple, les prestataires de soins de santé peuvent développer une IA qui exploite les statistiques nationales de santé pour fournir des réponses médicales plus pertinentes.

À partir de là, les développeurs décident de l'algorithme à choisir. Les principales options sont l'apprentissage supervisé, l'apprentissage non supervisé, l'apprentissage semi-supervisé, l'apprentissage renforcé, la régression linéaire, l'apprentissage profond, la forêt aléatoire, Bayes naïf et les réseaux neuronaux. Chacun de ces algorithmes présente des avantages et des inconvénients uniques, qui les rendent mieux adaptés à des tâches particulières.

Enfin, le processus de formation itérative commence. À ce stade, le modèle est interrogé et noté en fonction de la précision et des performances fournies. Cette étape permet aux ingénieurs d'affiner et de valider le modèle, améliorant ainsi ses capacités. Cette étape permet également aux ingénieurs de s'assurer que le modèle continue d'apprendre à partir des données de formation, au lieu de simplement les mémoriser.

Source – Uptech.team

Les tactiques actuelles de formation de l’IA sont coûteuses

Le processus d'entraînement des modèles d'IA est long et coûteux, et peut être divisé en deux grandes catégories : l'entraînement et l'exécution. L'entraînement correspond au coût unique de création d'un modèle particulier. Par exemple, ChatGPT a dépensé environ 100 millions de dollars pour son modèle 4o, selon son PDG, Sam Altman.

Il est à noter que ces coûts ont éclipsé les dépenses des modèles précédents. Par exemple, la formation de ChatGPT-3 coûte environ 4 millions de dollars. L’augmentation des coûts de formation de l’IA est le résultat direct de l’augmentation des besoins en calcul. Les modèles les plus récents fonctionnent sur les dernières puces NVIDIA, ce qui augmente leurs coûts.

De plus, l'IA a fait grimper les prix du cloud computing. La plupart des applications d'IA ne fonctionnent pas nativement sur les PC des utilisateurs. Elles s'appuient sur des centres de données de pointe et des algorithmes de cloud computing pour répondre à leurs besoins de calcul massifs. Tous ces facteurs ont rendu la programmation de l'IA coûteuse.

Marchés de l'IA

L’augmentation récente du nombre de marchés de formation en IA indique que de plus en plus de développeurs cherchent à réduire leurs coûts. Les marchés de l’IA permettent aux développeurs, aux créateurs de contenu et à ceux qui recherchent une intégration de l’IA de se rencontrer. Les développeurs peuvent y trouver des modèles déjà créés qu’ils peuvent améliorer ou affiner en fonction de leurs besoins, économisant ainsi beaucoup de temps et d’argent.

Coût d'exécution

Les coûts d'exécution ou d'inférence des systèmes d'IA constituent une autre dépense que les développeurs doivent prendre en compte. Le coût d'inférence correspond au coût de chaque interaction avec l'IA. Le coût d'exploitation de nombreux systèmes d'IA actuels est plus élevé, car le système doit accéder à toutes les données de son modèle pour fournir une réponse précise et pertinente. Cette étape implique que l'IA devra utiliser fréquemment une puissance de calcul importante, issue de machines hautement performantes. Cette exigence augmente considérablement les coûts du système.

Les tactiques de formation de l’IA d’aujourd’hui sont-elles éthiques ?

Lorsqu'on examine les tactiques et stratégies de formation employées par les grandes entreprises d'IA actuelles, on constate aisément l'existence de positions éthiques et morales complexes au sein du secteur. Certes, pour créer les meilleurs systèmes d'IA, les développeurs doivent fournir des données précieuses et précises au modèle. Cependant, certains développeurs affirment que le coût d'obtention des droits d'auteur sur l'ensemble des données utilisées serait astronomique, freinant ainsi l'innovation.

Le droit d’auteur international protège les auteurs contre toute utilisation non autorisée de leurs œuvres, de leur style et de leur image. Les systèmes d’IA semblent avoir trouvé une faille juridique dans la mesure où ils peuvent utiliser des répliques presque exactes de personnes, de lieux, d’informations et d’histoires, sans que l’on ait signalé jusqu’à présent de résistance juridique.

Cependant, les créateurs de contenu sont de plus en plus convaincus que ces systèmes ont obtenu illégalement leurs œuvres et les ont ensuite utilisées pour entraîner des modèles d'IA afin d'en reproduire le format, le ton et le style. Des révélations récentes ont mis en lumière l'utilisation illégale de livres protégés par le droit d'auteur dans les modèles d'entraînement d'OpenAI.

Procès d'OpenAI

Dans l'OpenAI procèsLes plaignants affirment que les développeurs ont sciemment utilisé des bibliothèques fantômes pour éviter de payer pour de grandes collections de livres. Les bibliothèques fantômes sont des plateformes en ligne qui donnent accès gratuitement à des œuvres protégées par le droit d'auteur. Parmi celles citées dans le procès d'OpenAI figurent LibGen, Bok, Sci-Hub et Bibliotik.

Le procès vise à prouver qu’OpenAI et META savaient qu’ils contournaient les lois sur le droit d’auteur. Il démontre comment les entreprises ont utilisé des bibliothèques fantômes et d’autres sources gratuites pour réduire considérablement leurs coûts de formation tout en privant les auteurs de leurs justes paiements.

En réponse à ces allégations, META a d'abord agi comme si elle n'était pas au courant de ces agissements. Cependant, des courriels ont fait surface, révélant que l'entreprise était parfaitement au courant de ses agissements et expliquant qu'elle avait téléchargé plus de 81.7 téraoctets de données provenant de bibliothèques fantômes, soit l'équivalent de millions d'œuvres.

META E-mails non expurgés

Ironiquement, ce sont des courriels internes qui ont révélé que l'entreprise était parfaitement consciente du caractère douteux de sa décision d'utiliser des bibliothèques fantômes. Dans les courriels non expurgés, un ingénieur inquiet du nom de Nikolay Bashlykov remet en question la moralité du projet, avant de plaisanter sur la légalité du plan.

Dans des courriels ultérieurs, l'employé a déclaré qu'il craignait que les adresses IP META ne soient utilisées pour télécharger du contenu piraté par torrent. Conscient que cela pouvait poser problème, META a demandé aux ingénieurs de télécharger les données à partir de serveurs externes non connectés à Facebook ou à META.

Les ordres d'en haut

Interrogé initialement sur l'implication de META dans le téléchargement de torrents, Mark Zuckerberg a déclaré n'avoir aucune idée du processus. Les courriels non censurés ont prouvé le contraire. Ils montreraient que la décision d'utiliser des serveurs autres que ceux de Facebook n'a été prise qu'après l'approbation directe de Zuckerberg.

Les développeurs d’IA utilisent-ils du contenu volé ?

Compte tenu des preuves fournies et de l'essor soudain des capacités de l'IA, il apparaît évident que de nombreux systèmes d'IA se sont tournés vers des bibliothèques fantômes et d'autres moyens pour créer des modèles d'entraînement plus efficaces. Ces ensembles de données contiennent des éléments protégés par le droit d'auteur qui n'ont jamais reçu l'autorisation des auteurs ou des éditeurs pour être utilisés dans l'entraînement des modèles d'IA.

Est-ce illégal ?

S'il devient de plus en plus difficile de nier l'utilisation de contenus piratés dans les modèles d'IA les plus avancés d'aujourd'hui, la légalité de cette pratique demeure sujette à caution. Aucune entreprise d'IA n'a encore été victime de violations de droits d'auteur. De plus, la course à l'IA bat son plein et de nombreux responsables politiques pourraient considérer la limitation de l'accès aux données de leur système d'IA local comme un frein à l'innovation. De ce fait, ils pourraient ne pas prendre de mesures pour rendre la lutte contre les violations de droits d'auteur liées à l'IA aussi simple que les vols traditionnels.

Les poursuites judiciaires se multiplient

Les régulateurs ne sont peut-être pas prêts à mettre la pression sur les entreprises d’IA, mais les créateurs de contenu en ont assez. Les poursuites judiciaires continuent d’affluer de la part d’auteurs déçus qui affirment que leur contenu a été acquis, distribué et dupliqué illégalement sans aucune compensation.

Récemment, le cabinet d'avocats Joseph Saveri a intenté un recours collectif fédéral américain directement à ce sujet. Ce recours, intenté au nom de Sarah Silverman et d'autres auteurs contre OpenAI et META, vise à obtenir réparation pour les pertes causées par la capacité du produit à reproduire son format et son style.

Le recours collectif procès L'entreprise allègue de multiples violations du Digital Millennium Copyright Act, de négligence criminelle et de lois sur la concurrence déloyale. L'objectif de la poursuite est d'obtenir une injonction permanente sur ces tactiques de formation jusqu'à ce qu'une stratégie de compensation et de protection équitable puisse être mise en place pour les auteurs.

DeepSeek est-il formé par ChatGPT ?

Ironiquement, ChatGPT a affirmé être victime d'un vol intellectuel d'un système d'IA après une startup chinoise d'IA, DeepSeek a fait des vagues sur le marchéDeepSeek a suscité un véritable raz-de-marée d’intérêt après que la société a révélé au public ses performances impressionnantes, ses faibles coûts et ses capacités avancées le mois dernier.

Les développeurs d'OpenAI ont accusé DeepSeek d'avoir utilisé les données de ChatGPT pour programmer son modèle, ce qui lui a permis de créer un modèle qui surpasse la concurrence et coûte bien moins cher. En comparaison, DeepSeek a atteint des performances comparables à celles de ChatGPT pour un coût de 6 millions de dollars contre +100 millions de dollars utilisés par ChatGPT.

De plus, DeepSeek parvient à utiliser beaucoup moins de puissance de calcul grâce à sa configuration unique. Les coûts d'inférence de DeepSeek sont bien inférieurs à ceux de ChatGPT en raison de l'utilisation de plusieurs modèles spécialisés au lieu d'un seul modèle massif.

DeepSeek n'a donc besoin que d'activer le modèle faisant référence à la question, ce qui lui permet d'utiliser des puces NVIDIA beaucoup moins chères et plus puissantes. Plus précisément, DeepSeek utilise 1/50ème du coût d'exploitation du dernier modèle Claude 3.5 Sonnet, ce qui en fait une solution plus rentable pour les entreprises à long terme.

Il emprunte

Il est intéressant de noter que DeepSeek ne nie pas l’utilisation de ChatGPT pour développer des scripts « pensants ». Il décrit même le processus dans le livre blanc original de DeepSeek. Les ingénieurs ont estimé que cette approche fournirait à DeepSeek des informations plus précises, ce qui accélérerait son processus de distillation.

De plus, cela a permis de garantir que les données utilisées pour programmer les modèles d'IA concurrents n'ont pas été utilisées pour programmer DeepSeek. Le résultat est un système plus efficace, plus performant que son prédécesseur et dont le coût d'exploitation est minime. Bien sûr, nombreux sont ceux qui estiment que les coûts de ChatGPT devraient être inclus dans le budget de DeepSeek s'ils ont utilisé ce système pour créer le leur.

Crise d'identité de DeepSeek

Dans une récente article, un chercheur en intelligence artificielle est allé à la source pour voir si DeepSeek s'inspirait beaucoup de ChatGPT. Il a commencé par demander au LLM s'il pensait que DeepSeek était plus intelligent que Gemini, le concurrent de Google. Ironiquement, le LLM a répondu qu'il pensait que « c'était ChatGPT ». Cette révélation a été considérée par beaucoup comme la preuve nécessaire pour prouver l'énorme quantité de données que DeepSeek a recueillies à partir de ChatGPT.

Les créateurs de contenu devraient-ils être rémunérés pour l’utilisation de l’IA ?

Les créateurs de contenu suscitent de plus en plus d'inquiétudes sur le marché. À mesure que les systèmes d'IA évoluent, ils vont certainement ingérer encore plus de contenus protégés par des droits d'auteur. Par le passé, les ingénieurs ont vu des entreprises désactiver les informations de gestion des droits d'auteur pour réduire le risque que leurs actions soient repérées. Cependant, la tendance est en train de changer.

En juillet 2023, un groupe de plus de 8000 XNUMX écrivains a signé un lettre Cette lettre a été adressée au PDG de META, Mark Zuckerberg, au PDG d’OpenAI, Sam Altman, au PDG d’Alphabet, Sundar Pichai, au PDG de Stability AI, Emad Mostaque, au PDG d’IBM, Arvind Krishna, et au PDG de Microsoft, Satya Nadella. La lettre stipule que l’IA « imite et régurgite notre langage, nos histoires, notre style et nos idées ». Elle exige une compensation et une reconnaissance.

La Writers Guild of America et la Screen Actors Guild ont également fait entendre leur voix au sujet de l’utilisation de leurs œuvres dans le secteur de l’IA. Elles cherchent à garantir certains droits et une rémunération aux auteurs lorsque leurs œuvres sont utilisées pour créer des modèles d’IA.

Des options de tactiques de formation émergent

Conscient des limites du système actuel et de l’absence de véritable voie légitime à suivre, BookCorpus a décidé de proposer une meilleure solution. L’entreprise a été fondée en 2015 dans le but spécifique d’aider les chercheurs en IA à former des LLM. À ce titre, elle comprend des milliers d’ouvrages et de modèles conçus pour améliorer les performances, sans franchir les limites éthiques.

Plusieurs fournisseurs de services axés sur l’IA font déjà leur entrée sur le marché. Ces entreprises combinent l’accès à des données précieuses, des modèles et bien plus encore. Elles sont conçues pour répondre aux exigences de calcul de l’IA et s’accompagnent souvent d’une forme d’option de cloud computing afin de réduire encore davantage les coûts de développement.

Les entreprises à la pointe de la révolution des LLM en IA

L'essor des LLM a rendu plus facile que jamais l'interaction avec ces systèmes. À partir d'une simple invite de chat, vous pouvez effectuer des recherches approfondies, créer des images et des histoires, et bien plus encore. Par conséquent, les LLM sont considérés comme l'une des plus grandes avancées technologiques en matière d'interaction informatique de toute une vie. Voici une entreprise qui continue de stimuler l'innovation sur le marché des LLM.

Alphabet Inc

Alphabet Inc. (GOOG ) est la société mère de Google et de ses nombreuses filiales. C'est l'une des entreprises les plus reconnues et les plus performantes du secteur de l'IA. Il est intéressant de noter que les ingénieurs ont choisi d'utiliser l'autre modèle de l'entreprise, Google DeepMind, pour créer le LLM Gemini de Google. Gemini est un LLM avancé qui traduit, comprend du contenu, répond aux questions et bien plus encore.

Google DeepMind a notamment travaillé dur pour créer des LLM et de nouvelles fonctionnalités pour l'entreprise. Par exemple, la nouvelle fonctionnalité SELF-DISCOVER crée une architecture spécifique à la tâche au sein des modèles, réduisant ainsi le temps global nécessaire pour répondre avec précision aux questions.

(GOOG )

Compte tenu de la domination de Google sur le marché, de son accès direct à des données massives et de son expansion continue vers des modèles dédiés, Google est une valeur sûre. L'entreprise figure parmi les fournisseurs d'IA les plus performants au monde et dispose du réseau et des finances nécessaires pour intégrer sa technologie et la diffuser efficacement auprès du public.

Comment les tactiques de formation vont-elles évoluer à l'avenir ?

À mesure que le secteur se développe, on peut s’attendre à ce que les tactiques de formation de l’IA s’appuient sur des systèmes d’IA plus perfectionnés pour les données. DeepSeek a démontré que son approche réduisait considérablement les coûts. De plus, il sera plus difficile de revendiquer une violation du droit d’auteur si l’entreprise utilise simplement des données créées par une autre IA plutôt que directement.

Tous ces facteurs et la demande croissante des gouvernements de mener la course à l’IA ont conduit les créateurs de contenu dans une situation très dangereuse. Espérons que dans les mois à venir, les développeurs d’IA créeront des tactiques de formation plus efficaces qui respectent et rémunèrent ceux dont ils exploitent les données pour réussir.

Découvrez d'autres projets d'IA intéressants Maintenant.

Rubriques connexes:Programmation IA chat gpt les coûts DeepMind Recherche profonde tactiques d'entraînement

David Hamilton

David Hamilton est journaliste à plein temps et bitcoiniste de longue date. Il est spécialisé dans la rédaction d'articles sur la blockchain. Ses articles ont été publiés dans plusieurs publications Bitcoin, notamment Bitcoinlightning.com

Titres.io

Les tactiques douteuses de formation de l'IA suscitent une préoccupation croissante

Intelligence Artificielle

Les tactiques douteuses de formation de l'IA suscitent une préoccupation croissante

Table des matières

Des tactiques de formation d’IA douteuses

Tactiques de formation utilisées par les entreprises pour créer des modèles

Créer l'IA

Les tactiques actuelles de formation de l’IA sont coûteuses

Marchés de l'IA

Coût d'exécution

Les tactiques de formation de l’IA d’aujourd’hui sont-elles éthiques ?