Intelligence Artificielle

Le modèle d'intelligence artificielle UNITE peut détecter n'importe quel deepfake sans se fier aux visages

Publié le 28 juillet, 2025

Le kit de préparation mis à jour 6 décembre 2025

Gaurav Roy

Analyse d'une image vidéo pour détecter les deepfakes

Les scientifiques s’attaquent désormais au problème de l’IA avec l’IA elle-même. Des chercheurs de l'UC Riverside ont créé un modèle UNITE pour résoudre le grave problème des deepfakes.

« Les gens méritent de savoir si ce qu'ils voient est réel », a déclaré Rohit Kundu, doctorant au Marlan and Rosemary Bourns College of Engineering de l'UCR, qui a dirigé l'étude.Vers un détecteur vidéo synthétique universel : des manipulations de visages ou d'arrière-plans au contenu entièrement généré par l'IA.¹ « Et à mesure que l’IA s’améliore dans sa capacité à simuler la réalité, nous devons nous améliorer dans notre capacité à révéler la vérité. »

Les chercheurs ont collaboré avec des scientifiques de Google, une Alphabet (GOOG ) entreprise, pour développer un nouveau modèle d'IA qui détecte la falsification vidéo et expose le faux contenu, qui est utilisé pour diffuser de la désinformation et inciter préjudice. L'étude a noté :

« La propagation rapide de la désinformation, en particulier pendant les périodes critiques comme les élections, souligne la nécessité de modèles de détection généralisables capables d'identifier diverses manipulations, y compris le visage, l'arrière-plan et le contenu T2V/I2V entièrement généré par l'IA avec/sans sujets humains. »

Le modèle est capable de détecter des vidéos partiellement manipulées ou entièrement synthétiques. Plutôt que de se concentrer uniquement sur le visage, comme le font la plupart des détecteurs conventionnels, ce modèle analyse des images entières, qu'un sujet humain soit présent ou non dans les vidéos.

Ce en fait un outil puissant qui peut être utilisés par des vérificateurs de faits, des éducateurs, des éditeurs, des plateformes de médias sociaux et d’autres pour empêcher les vidéos trafiquées de devenir virales.

L'essor de l'IA et la surcharge synthétique qui en résulte

Un espace numérique encombré rempli de visages/images hyperréalistes flottant comme des fragments de données.

L'intelligence artificielle (IA) recèle un potentiel énorme in révolutionnant divers aspects de notre vie et de notre travail.

Les capacités de cette technologie en matière d’automatisation, d’analyse de données et de prise de décision ont déjà commencé à transformer les industries, et devraient ajouter plusieurs milliards de dollars à l’économie mondiale d’ici la fin de cette décennie.

Une étude par le géant des prévisions de marché IDC estimations que l'essor de l'IA va stimuler l’économie mondiale d’un montant cumulé de 19.9 billions de dollars d’ici 2030.

Les recherches de McKinsey, quant à elles, s'attendent à ce que la valeur ajoutée de l'IA générative soit aussi élevée que 4.4 XNUMX milliards à travers les 63 cas d'utilisation analysés par le cabinet mondial de conseil en management. Àpropos 75 % de la valeur que l’IA pourrait apporter serait juste dans quatre domaines :

R & D
Génie logiciel
Marketing et Ventes
Opérations client

Bien que l’impact de la technologie soit prévu comme étant significatif dans tous les secteurs, notamment celui de la technologie et de la banque pourriez voient l'impact le plus important en pourcentage de leurs revenus provenant de l'IA de génération. Goldman Sachs est du même vue, s'attendant à une augmentation de 7 % du PIB mondial à partir de IA. Les économistes de la banque, Joseph Briggs et Devesh Kodnani, à l'époque c'est noté:

« Malgré une incertitude importante quant au potentiel de l’IA générative, sa capacité à générer du contenu impossible à distinguer des productions humaines et à briser les barrières de communication entre humains et machines reflète une avancée majeure susceptible d’avoir des effets macroéconomiques importants. »

Cependant, cette même capacité du système informatique à effectuer des tâches telles que l’apprentissage, la résolution de problèmes et la prise de décision Ce qui nécessite généralement une intelligence humaine, et qui est sur le point de bouleverser le monde, est également en train de plonger le monde dans le chaos.

Plus la technologie devient sophistiquée, plus la frontière entre ce qui est réel et ce qui ne l’est pas devient floue.

Pourquoi les anciens détecteurs de deepfakes ne fonctionnent plus

Société	Outil	Mise au point de détection	Limites
UC Riverside + Google	UNIR	Plein format (visage, arrière-plan, T2V/I2V)	Toujours en développement
Microsoft	Authentificateur vidéo	Manipulations basées sur le visage	IA générative obsolète vs. moderne
Intel	FauxCatcher	Authenticité via des signaux physiologiques	Nécessite des images faciales de haute qualité
OpenAI	Filigrane de texte	Sortie d'IA basée sur du texte	Limité pour le contenu visuel
Google	ID de synthétiseur	Détection de filigrane générée par l'IA	Fonctionne uniquement avec les modèles Google AI

Au cours des dernières années, les progrès de l’IA ont conduit à une augmentation sans précédent des médias synthétiques. Estimations suggérer que plus de la moitié des publications LinkedIn les plus longues sont actuellement écrits par AI. Il y a ensuite le « slop AI », qui fait référence au contenu généré par l'IA, de mauvaise qualité et produit en masse.

Mais le plus inquiétant est le deepfake, qui est une image, une vidéo ou un enregistrement audio contenant été généré ou modifié par l'IA. Il s'agit d'un contenu fabriqué qui utilise l'IA pour présenter une fausse représentation comme réaliste.

Aujourd'hui, ce mots du contenu est partout, pénétrant tous les coins d'Internet. Ces médias numériques hyperréalistes sèment la confusion et propagent de fausses informations. Ils constituent également une menace pour la vie privée et la sécurité des personnes.

Les cybercriminels utilisent l'IA pour améliorer leurs techniques, commettant des escroqueries par hameçonnage et des vols d'identité avec une précision alarmante. Selon Kundu :

« C’est effrayant de voir à quel point ces outils sont devenus accessibles. Toute personne dotée de compétences modérées peut contourner les filtres de sécurité et générer des vidéos réalistes de personnalités publiques disant des choses qu’elles n’ont jamais dites.

Lors d'un de ces incidents, des cybercriminels se sont fait passer pour le directeur financier d'une entreprise lors d'une réunion Zoom, ce qui a entraîné une perte de 25 millions de dollars..

Ce ce n'est cependant que le début, comme le souligne Deloitte prédit que les pertes dues à la fraude résultant de tels incidents atteindront 40 milliards de dollars aux États-Unis d'ici 2027, contre 12.3 milliards de dollars en 2023. Un rapport du Trésor américain a également révélé que « les cadres de gestion des risques existants" adoptées par les entreprises « pourraient ne pas être adéquates pour couvrir les technologies d’IA émergentes ».

Cela ne signifie pas qu'il n'existe pas d'outils permettant de détecter le contenu IA et de se protéger contre les risques liés à cette technologie. De nombreux outils sont d'ailleurs disponibles sur le marché.

Le de très Les mêmes entreprises qui lancent de nouveaux outils d'IA pour faciliter la création de nouveaux contenus introduisent également façons pour aider place données synthétiques.

De retour à 2020, géant de la technologie Microsoft (MSFT ) annoncé un authentificateur vidéo pour analyser a photo or vidéo fournir un score de confiance afin de déterminer si les média is manipulé artificiellement. L'outil fonctionne en détectant la limite de fusion du deepfake et la décoloration subtile que l'œil humain peut ne pas être en mesure de détecter.

À l’époque, elle a également introduit une technologie permettant d’identifier les contenus falsifiés et de confirmer l’authenticité des médias avec lesquels les gens interagissent. Il comprenait un outil qui permet un créateur d'ajouter des hachages numériques et des certificats à leur contenu, ce qui vie à l'intérieur comme métadonnées. Un lecteur a été introduit entre-temps pour vérifier les certificats et faire correspondre les hachages pour l'authenticité du contenu.

Le géant de la technologie a toutefois mis en garde contre l'utilité à court terme de cette technologie à l'ère de l'IA. Les deepfakes étant générés par une IA en constante évolution, ce n'est qu'une question de temps avant qu'ils ne surpassent les méthodes de détection traditionnelles.

À peu près à la même époque, Facebook, un Meta (META ) entreprise, également a débuté a concurrence développer un détecteur de deepfakes utilisant le données que les chercheurs n'a pas précédemment avons accès à.

Il y a quelques années, Intel (INTC ) a eu une idée FakeCatcher, un détecteur de deepfake en temps réel qu'il prétend avoir une précision de 96%.

L'outil fait usage de OpenVino exécutera des modèles d'IA pour les algorithmes de détection de visages et de points de repère, tandis que les blocs de vision par ordinateur ont été optimisés au ses primitives de performance intégrées et OpenCV. Quant à son matériel, la plateforme peut exécuter plus de soixante-dix différents flux de détection à la fois sur sa 3e génération Xeon® Processeurs évolutifs.

Au lieu d'essayer de trouver ce qui ne va pas, FakeCatcher recherche des indices authentiques en évaluant ce qui fait de nous des humains, puis ayant les algorithmes traduisent ces signaux en cartes spatio-temporelles, et enfin, grâce à l'apprentissage en profondeur pour détecter instantanément si une vidéo est réelle ou fausse.

L'année dernière, OpenAI a également annoncé qu'il recherchait des outils pour aider à l'authenticité du contenu.

Ce inclut le filigrane de texte, qui, selon lui, est efficace contre les falsifications localisées, mais pas tellement contre la falsification mondialisée. Elle a également déclaré que cela pourrait « avoir un impact disproportionné" des groupes comme les anglophones non natifs.

Cette mise à jour est venu après le journal de Wall Street rapporté que l'entreprise a déjà développé un outil que les filigranes et détecte Texte généré par ChatGPT avec une « haute précision »" pendant un certain temps, mais a encore à prendre une décision pour le libérer.

De plus, OpenAI a rejoint le comité directeur de la C2PA (Coalition pour la provenance et l'authenticité du contenu), une norme largement utilisée pour la certification du contenu numérique. L'entreprise ajoute des métadonnées C2PA à tous le images créées et éditées par tous ses services, dans le cadre d'outils de détection d'images.

Maintenant ça année, Google aussi est venu avec son propre outil de détection de texte, d'image, d'audio et de vidéo généré par l'IA appelé Détecteur SynthID.

L'outil de Google ne fonctionne cependant que pour le contenu c'est a été généré à l'aide des propres services d'IA du géant technologique comme Gémeaux, Imagen, Veo et Lyria. Ce c'est parce que l'outil identifie essentiellement la présence d'un « filigrane" que les produits de Google ont intégrés dans leurs résultats.

Un filigrane est un élément unique et lisible par machine c'est intégré dans le contenu. Méconnaissable by nous, les humains, cela peut être détecté et extrait par des algorithmes construit Dans ce but.

Au cœur de la technologie qui a permis la percée d'UNITE

Un système de vision par ordinateur analysant une image vidéo complète

Ainsi, comme le AI la technologie progresse rapidement, so les outils pour détecter le contenu généré avec son aide. Mais il n’existe pas d’outil universel qui puisse être utilisé par tous sur tous les types de contenu d’IA.

De plus, les techniques de détection de deepfake existantes se concentrent en particulier sur les manipulations faciales. comme synchronisation labiale ou échange de visages, et les progrès dans la technologie les rendent inadéquats.

Grâce aux progrès significatifs réalisés par l'innovation technologique dans les modèles génératifs de texte en vidéo (T2V) et d'image en vidéo (I2V), il est désormais possible pour chacun de créer facilement du contenu synthétique hautement convaincant, entièrement généré par l'IA, et des modifications d'arrière-plan transparentes. Ce, bien sûr, met tout le monde, des individus aux institutions et même aux nations, en grave danger.

Dans ce contexte, la dépendance totale des anciens détecteurs de deepfakes au visage les rend obsolètes dans le monde technologiquement plus avancé d'aujourd'hui.

« S'il n'y a pas de visage dans le cadre, de nombreux détecteurs ne fonctionnent tout simplement pas. Mais la désinformation peut prendre de nombreuses formes. Modifier le contexte d'une scène peut tout aussi facilement déformer la vérité.

– Kundu

Donc, conventionnel les détecteurs ne fonctionnent pas sur les manipulations plus récentes, car le nouveau contenu synthétique comportant désormais des scènes et des arrière-plans complets pose un défi aux méthodes de détection centrées sur le visage.

Ce exige une approche plus polyvalente. Pour résoudre ce problème, des chercheurs de l'UC Riverside ont lancé UNITE.

Le modèle UNITE (Universal Network for Identifying Tampered and Synthetic Videos) capture les manipulations d'images complètes.

« Les deepfakes ont évolué," a déclaré Kundu, dont l'objectif à l'UC Riverside est d'exploiter les modèles fondamentaux pour les tâches de vision avancées, notamment la segmentation d'images et la détection de faux médias. « Il ne s'agit plus seulement d'échanges de visages. Les gens créent désormais des vidéos entièrement fausses - des visages aux arrière-plans - en utilisant des modèles génératifs puissants. Notre système est construit pour attraper tout ça.

Le modèle étend les capacités de détection aux scénarios où il n'y a pas de visages ou aucune sujets humains, et en plus de ça, il peut identifier de subtiles divergences spatiales et temporelles et a même couvrir les modifications d'arrière-plan complexes que les systèmes précédents ont manquées.

Alors, par examiner les visages ainsi que le contexte et les modèles de mouvement, couvrant ainsi images vidéo complètes, UNITE propose l'une des premières tel outils pour identifier les vidéos synthétiques qui ne reposent pas seulement sur le contenu du visage.

Pour cela, le modèle utilise un modèle d'apprentissage profond basé sur un transformateur, un type de réseau neuronal qui utilise un mécanisme d'attention multi-têtes pour traiter des données séquentielles. Ici, texte est converti aux représentations numériques appelées jetons. Cette architecture est effectivement la base de nombreux modèles de langage modernes comme Google Publisher Tag.

En traitant les informations en parallèle, les transformateurs peuvent faciliter une formation plus rapide et des performances améliorées.

Dans le cas d'UNITE, l'architecture basée sur les transformateurs traite des fonctionnalités indépendantes du domaine qui sont extraits à partir de vidéos via le modèle de fondation SigLIP-So400M. Le cadre d’IA fondamental SigLIP extrait des fonctionnalités qui ne sont pas liées à un objet ou à une personne spécifique.

En raison des ensembles de données limités qui couvrent les changements à la fois au niveau du visage/Contexte et texte en vidéo/ contenu image-vidéo, l'équipe d'utiliser des stratégies de formation innovantes pour leur modèle. Ce signifie une formation utilisant des données non pertinentes pour la tâche ainsi que des données deepfake standard.

Ainsi, en plus du jeu de données populaire FaceForensics++, l'équipe a également utilisé le jeu de données SAIL-VOS-3D, qui simule des environnements complexes et offre diverses scènes synthétiques utiles à l'entraînement des modèles de détection d'IA. Il convient de noter que ce jeu de données était initialement un Pour la segmentation d'objets vidéo 3D dans le jeu GTA-V. Bien que non généré par l'IA, l'ensemble de données est entièrement synthétique et, en tant que tel, permet de simuler des médias générés par l'IA. Ce, a constaté l'équipe, améliore la capacité de leur modèle à détecter diverses formes de manipulation synthétique.

Google a fourni l’accès aux ensembles de données nécessaires ainsi qu’aux ressources informatiques pour former le modèle.

Afin de réduire la propension du modèle à focalisation excessive sur les visages, l'équipe aussi d'utiliser une perte de diversité de l'attention (DA), qui encourage une attention spatiale variée tout au long de images vidéo.

La perte AD a été combinée à l'entropie croisée, également connue sous le nom de fonction de perte logarithmique, et couramment utilisée dans l'apprentissage automatique (ML) pour mesurer les performances d'un modèle de classification, afin d'améliorer les performances du modèle dans diverses situations.

Le simple fait de former le modèle sur la perte d'entropie croisée (CE) tend à rendre difficile la gestion des vidéos dans lesquelles il y a un vrai sujet humain avec un arrière-plan manipulé ou un contenu généré par les modèles T2V et I2V.

L'équipe a donc introduit la perte AD, qui incite le système à surveiller plusieurs régions visuelles dans chaque image, augmentant ainsi la capacité de son modèle à capturer des signes importants à la fois premier plan et arrière-plan.

Marques de perte AD le innovation clé dans l'approche de l'équipe, permettant à UNITE non seulement d'exceller dans la détection de vidéos générées par l'IA et modifiées en arrière-plan, mais également avons une amélioration notable dans l'identification le habituel contenu manipulé par le visage.

En comparant les performances d'UNITE avec d'autres modèles, l'équipe a constaté qu'il « surpasse les détecteurs de pointe sur des ensembles de données (dans des paramètres de données croisées) comportant des manipulations de visage/arrière-plan et des vidéos T2V/I2V entièrement synthétiques, démontrant ainsi son adaptabilité et ses capacités de détection généralisables. »

Dans un monde de plus en plus numérisé et automatisé, le nouveau système offre un détecteur universel capable de signaler une gamme de faux, des simples échanges de visages aux plus complexes, Vidéos entièrement synthétiques, créées sans aucune séquence réelle. Selon Kundu :

« C’est un modèle qui gère tous ces scénarios. C'est ce qui le rend universel.

Actuellement en développement, UNITE, selon ses créateurs, est un outil précieux dans le paysage en plein essor de la détection vidéo synthétique. Bientôt, il pourra être attendu jouer un rôle clé dans la défense contre la désinformation vidéo.

Investir dans la détection basée sur l'IA

Dans le domaine de l'IA, Palantir Technologies (PLTR ) is connu pour son intégration de données, sa reconnaissance de formes et sa détection d'anomalies alimentées par l'IA.

L'entreprise exploite quatre plateformes logicielles principales : Gotham, Foundry, Apollo et AIP. Apollo est une couche de contrôle unique qui coordonne la configuration, les mises à jour de sécurité et la mise à disposition de nouvelles fonctionnalités afin d'assurer le fonctionnement continu des systèmes critiques. Gotham permet aux utilisateurs d'identifier des schémas cachés au plus profond des ensembles de données, tandis que Foundry sert de système d'exploitation pour une gestion efficace des actifs et des risques. AIP permet aux entreprises d'exécuter des LLM et d'autres modèles avec un contrôle total.l.

Palantir Technologies (PLTR )

Palantir entretient des liens étroits avec le gouvernement américain, l’armée et les agences de renseignement. Cette année, c'est obtenu un $ 30 mln contrat à apporter Analyse de l'IA à dossiers d'immigration.

Avec une capitalisation boursière de 372 milliards de dollars, l'action PLTR s'échange actuellement à 157.72 dollars, en hausse de 109.35 % depuis le début de l'année, grâce à la demande d'IA, à l'intérêt massif du secteur de la vente au détail et à l'augmentation des contrats gouvernementaux. Son BPA (sur les 0.23 derniers mois) est de 687.90 et son PER (sur les XNUMX derniers mois) de XNUMX.

(PLTR )

Sur le plan financier, Palantir a enregistré une augmentation de 39 % de son chiffre d'affaires en glissement annuel, pour atteindre 884 millions de dollars au premier trimestre 1. Son chiffre d'affaires aux États-Unis, quant à lui, a augmenté de 2025 % en glissement annuel pour atteindre 55 millions de dollars, dont 628 millions de dollars de revenus commerciaux aux États-Unis et 255 millions de dollars de revenus gouvernementaux aux États-Unis.

Au cours de cette période, la société a enregistré son trimestre le plus élevé de valeur totale de contrat commercial aux États-Unis, la valeur restante de la transaction s'élevant à $ 2.32 milliards.

Au premier trimestre 1, le nombre de clients de Palantir a augmenté de 25 % sur un an. Son bénéfice par action (PCGR) s'est établi à 39 $ et son BPA ajusté à 0.08 $. La trésorerie, les équivalents de trésorerie et les titres du Trésor américain à court terme s'élevaient à 0.13 milliards de dollars à la fin du trimestre.

« Nous fournissons le système d’exploitation de l’entreprise moderne à l’ère de l’IA. « Nous sommes au milieu d’un changement tectonique dans l’adoption de nos logiciels, en particulier aux États-Unis »

- PDG Alexander C. Karp

Actualités Palantir Technologies (PLTR) Actualités et développements boursiers

Conclusion

L’avènement de l’intelligence artificielle a complètement changé le monde, avec des individus et des organisations qui adoptent de plus en plus la technologie pour améliorer productivité et de renforcer la prise de décision.

L'IA, dont la contribution à l'économie mondiale se chiffre en milliards de dollars, n'est cependant pas sans danger. Les deepfakes et leur utilisation pour désinformer et escroquer les gens constituent l'un des dangers les plus graves liés à son adoption généralisée.

Alors qu'il devient de plus en plus difficile de distinguer le réel du synthétique, des outils comme UNITE deviennent d'autant plus importants et urgents. Grâce à ce modèle d'IA généralisable comme protection contre les contenus falsifiés, nous pourrions atténuer l'impact négatif de l'IA tout en augmentant et en profitant de ses effets positifs sur notre travail et notre vie.

Cliquez ici pour tout savoir sur l’investissement dans l’intelligence artificielle.

Références:

1. Kundu, R. ; Xiong, H. ; Mohanty, V. ; Balachandran, A. ; Roy‑Chowdhury, A. K. ; et al. Vers un détecteur vidéo synthétique universel : des manipulations de visage ou d'arrière-plan au contenu entièrement généré par l'IA. Préimpression arXiv arXiv:2412.12278 (2024). https://doi.org/10.48550/arXiv.2412.12278

Rubriques connexes:Sécurité IA détection de deepfake Palantir Technologies médias synthétiques vidéo-criminalistique

Gaurav Roy

Gaurav a commencé à trader des crypto-monnaies en 2017 et est depuis tombé amoureux de l’espace crypto. Son intérêt pour tout ce qui concerne la crypto a fait de lui un écrivain spécialisé dans les crypto-monnaies et la blockchain. Bientôt, il s’est retrouvé à travailler avec des sociétés de cryptographie et des médias. Il est également un grand fan de Batman.

Titres.io

Le modèle d'intelligence artificielle UNITE peut détecter n'importe quel deepfake sans se fier aux visages

Intelligence Artificielle

Le modèle d'intelligence artificielle UNITE peut détecter n'importe quel deepfake sans se fier aux visages

Table des matières

L'essor de l'IA et la surcharge synthétique qui en résulte

Pourquoi les anciens détecteurs de deepfakes ne fonctionnent plus

Au cœur de la technologie qui a permis la percée d'UNITE