Intelligenza Artificiale

Il modello di intelligenza artificiale UNITE può rilevare qualsiasi deepfake senza basarsi sui volti

Pubblicato il Luglio 28, 2025

aggiornato 26 aprile 2026

Gaurav Roy

Analisi di un fotogramma video per deepfake

Ora gli scienziati stanno affrontando il problema dell'intelligenza artificiale con l'intelligenza artificiale stessa. I ricercatori dell'UC Riverside hanno creato un modello UNITE per affrontare il grave problema dei deepfake.

"Le persone meritano di sapere se ciò che vedono è reale", ha affermato Rohit Kundu, dottorando presso il Marlan and Rosemary Bourns College of Engineering dell'UCR, che ha guidato la ricerca.Verso un rilevatore video sintetico universale: dalle manipolazioni di volti o sfondi a contenuti completamente generati dall'intelligenza artificiale.¹ "E man mano che l'intelligenza artificiale diventa più brava a simulare la realtà, noi dobbiamo diventare più bravi a rivelare la verità."

I ricercatori hanno collaborato con scienziati di Google, un Alfabeto (GOOG ) azienda, per sviluppare un nuovo modello di intelligenza artificiale che rileva la manomissione dei video e espone contenuti falsi, che viene utilizzato per diffondere disinformazione e incitare danno. Lo studio ha osservato:

“La rapida diffusione della disinformazione, in particolare durante periodi critici come le elezioni, evidenzia la necessità di modelli di rilevamento generalizzabili in grado di identificare diverse manipolazioni, tra cui volti, sfondi e contenuti T2V/I2V completamente generati dall'intelligenza artificiale con/senza soggetti umani”.

Il modello è in grado di rilevare sia video parzialmente manipolati che completamente sintetici. Anziché concentrarsi solo sul volto, come fanno la maggior parte dei rilevatori convenzionali, questo modello analizza interi fotogrammi, indipendentemente dalla presenza o meno di un soggetto umano nei video.

Questo lo rende uno strumento potente che può essere utilizzato da fact-checker, educatori, redattori, piattaforme di social media e altri per impedire che i video ritoccati diventino virali.

L’ascesa dell’intelligenza artificiale e il conseguente sovraccarico sintetico

Uno spazio digitale affollato, pieno di volti/immagini iperreali che fluttuano come frammenti di dati.

L’intelligenza artificiale (IA) ha un potenziale enorme in rivoluzionando vari aspetti della nostra vita e del nostro lavoro.

Le potenzialità di questa tecnologia nell'automazione, nell'analisi dei dati e nel processo decisionale hanno già iniziato a trasformare i settori industriali e si prevede che aggiungeranno miliardi di dollari all'economia globale entro la fine di questo decennio.

Uno studio dal gigante delle previsioni di mercato IDC stime che l'ascesa dell'intelligenza artificiale dare una spinta cumulativa all'economia globale di 19.9 trilioni di dollari entro il 2030.

La ricerca di McKinsey, nel frattempo, prevede che il valore aggiunto dell'intelligenza artificiale generativa sarà pari a $ 4.4 trilioni nei 63 casi d'uso analizzati dalla società globale di consulenza gestionale. Chi siamo Il 75% del valore che l’intelligenza artificiale potrebbe fornire sarebbe ad appena in quattro campi:

R&D
Software Engineering
Marketing e Vendite
Operazioni con i clienti

Sebbene si preveda che l’impatto della tecnologia sarà significativo in tutti i settori, tecnologia e banche potuto vedono l'impatto maggiore in percentuale sui loro ricavi dall'intelligenza artificiale di generazione. Goldman Sachs è dello stesso vista, prevedendo un aumento del 7% del PIL globale da AI. Gli economisti della banca, Joseph Briggs e Devesh Kodnani, all'epoca osservato:

"Nonostante la notevole incertezza sul potenziale dell'intelligenza artificiale generativa, la sua capacità di generare contenuti indistinguibili da quelli creati dall'uomo e di abbattere le barriere comunicative tra esseri umani e macchine rappresenta un progresso importante con potenziali effetti macroeconomici di notevole portata".

Tuttavia, la stessa capacità del sistema informatico di svolgere attività come l'apprendimento, la risoluzione dei problemi e il processo decisionale che normalmente richiederebbero l'intelligenza umana e che sono destinate a sconvolgere il mondo, stanno anche gettando il mondo nel caos.

Quanto più la tecnologia diventa sofisticata, tanto più sfumato diventa il confine tra ciò che è reale e ciò che non lo è.

Perché i vecchi rilevatori di deepfake non funzionano più

Azienda	Chiavetta	Messa a fuoco di rilevamento	Limiti
UC Riverside + Google	UNITE	Full-frame (viso, sfondo, T2V/I2V)	Ancora in fase di sviluppo
Microsoft	Autenticatore video	Manipolazioni basate sul volto	Intelligenza artificiale generativa obsoleta vs. moderna
Intel	Falso cacciatore	Autenticità tramite segnali fisiologici	Richiede riprese facciali di alta qualità
OpenAI	Filigrana del testo	Output di intelligenza artificiale basato su testo	Limitato per i contenuti visivi
Google	SynthID	Rilevamento della filigrana generata dall'intelligenza artificiale	Funziona solo con i modelli di intelligenza artificiale di Google

Negli ultimi anni, i progressi dell'intelligenza artificiale hanno portato a un'ondata senza precedenti di media sintetici. Stime suggerire che più della metà dei post LinkedIn più lunghi sono attualmente scritti di AI. Poi c'è il termine "AI slop", che si riferisce a contenuti di bassa qualità, prodotti in serie e generati dall'intelligenza artificiale.

Ma la cosa più preoccupante di tutte sono i deepfake, ovvero immagini, video o registrazioni audio che hanno è stato generato o alterati tramite intelligenza artificiale. Si tratta di contenuti fabbricati che utilizzano l'intelligenza artificiale per presentare una falsa rappresentazione come realistica.

Oggi, questo tipo del contenuto è ovunque, permeante tutti gli angoli di Internet. Questi media digitali iperrealistici stanno creando confusione e diffondendo disinformazione. Rappresentano inoltre una minaccia per la privacy e la sicurezza delle persone.

I criminali informatici stanno utilizzando l'intelligenza artificiale per migliorare le loro strategie, conducendo truffe di phishing e furti di identità con una precisione allarmante. Secondo Kundu:

"È spaventoso quanto siano diventati accessibili questi strumenti. Chiunque abbia competenze moderate può aggirare i filtri di sicurezza e generare video realistici di personaggi pubblici che dicono cose che non hanno mai detto."

In uno di questi incidenti, i criminali informatici si sono spacciati per il direttore finanziario (CFO) di un'azienda durante una riunione Zoom, causando una perdita di 25 milioni di dollari..

Questo è solo l'inizio, però, come afferma Deloitte predice che le perdite dovute a frodi derivanti da tali incidenti raggiungeranno i 40 miliardi di dollari negli Stati Uniti entro il 2027, rispetto ai 12.3 miliardi di dollari del 2023. Un rapporto del Tesoro statunitense ha inoltre rilevato che “gli attuali quadri di gestione del rischio" adottati dalle aziende “potrebbero non essere adeguati a coprire le tecnologie di intelligenza artificiale emergenti”.

Ciò non significa che non esistano strumenti per rilevare i contenuti di intelligenza artificiale e proteggersi dai rischi di questa tecnologia. In realtà, sul mercato sono disponibili molti strumenti.

Migliori molto Le stesse aziende che stanno lanciando nuovi strumenti di intelligenza artificiale per semplificare la creazione di nuovi contenuti stanno anche introducendo modi per aiutare spot dati sintetici.

Già nel 2020, gigante della tecnologia Microsoft (MSFT ) ha annunciato un Video Authenticator per analizzare a ancora foto or video fornire un punteggio di fiducia per determinare se i media is manipolato artificialmente. Lo strumento funziona rilevando il limite di fusione del deepfake e la sottile dissolvenza che l'occhio umano potrebbe non essere in grado di rilevare.

All'epoca, introdusse anche una tecnologia in grado di identificare contenuti contraffatti e confermare l'autenticità dei media con cui le persone interagiscono. Includeva uno strumento che abilita un creatore per aggiungere hash e certificati digitali al loro contenuto, che vita al suo interno come metadati. Nel frattempo, è stato introdotto un lettore per controllare i certificati e confrontare gli hash per verificare l'autenticità dei contenuti.

Il colosso della tecnologia ha però messo in guardia dall'utilità a breve termine della tecnologia nell'era dominata dall'intelligenza artificiale. Poiché i deepfake sono generati da un'intelligenza artificiale che apprende continuamente, è solo questione di tempo prima che superino i metodi di rilevamento tradizionali.

Nello stesso periodo, Facebook, un Meta (META ) azienda, anche Buttato fuori a concorrenza per sviluppare un rilevatore di deepfake utilizzando , il dati che i ricercatori non ha in precedenza avere accesso a.

Alcuni anni fa, Intel (INTC ) ha inventato un FakeCatcher, un rilevatore di deepfake in tempo reale che sostiene avere una precisione del 96%.

Lo strumento fatto uso di OpenVino eseguirà modelli di intelligenza artificiale per algoritmi di rilevamento di volti e punti di riferimento, mentre i blocchi di visione artificiale sono stati ottimizzati con i suoi primitivi di prestazioni integrati e OpenCV. Per quanto riguarda l'hardware, la piattaforma può funzionare più di settanta diversi flussi di rilevamento contemporaneamente alla sua terza generazione Xeon® Processori scalabili.

Invece di cercare di trovare ciò che non va, FakeCatcher cerca indizi autentici valutando ciò che ci rende umani e poi avendo gli algoritmi traducono quei segnali in mappe spaziotemporali, e infine, utilizzando apprendimento profondo per rilevare immediatamente se un video è reale o falso.

L'anno scorso, OpenAI ha anche ha annunciato che stava ricercando strumenti che aiutassero ad accertare l'autenticità dei contenuti.

Questo include la filigrana del testo, che è stata notata efficace contro la manomissione localizzata ma Non così tanto contro la manomissione globalizzata. Ha inoltre affermato che potrebbe "avere un impatto sproporzionato" gruppi come i non madrelingua inglese.

Questo aggiornamento arrivò dopo il giornale di Wall Street segnalati che l'azienda ha ha già sviluppato uno strumento che filigrane and rileva Testo generato da ChatGPT con "alta precisione"" per un po' di tempo, ma ha ancora a prendere una decisione per rilasciarlo.

Inoltre, OpenAI è entrata a far parte del comitato direttivo di C2PA (Coalition for Content Provenance and Authenticity), uno standard ampiamente utilizzato per la certificazione dei contenuti digitali. L'azienda aggiunge i metadati C2PA a tutti , il immagini create e modificate da tutti i suoi servizi, come parte degli strumenti di rilevamento delle immagini.

Ora questo anno, Google anche è venuto fuori il suo strumento di rilevamento di testo, immagini, audio e video generati dall'intelligenza artificiale chiamato Rilevatore SynthID.

Lo strumento di Google, tuttavia, funziona solo per i contenuti questo è è stato generato utilizzando i servizi di intelligenza artificiale del colosso tecnologico come Gemelli, Imagen, Veo e Lyria. Questo è perché lo strumento identifica sostanzialmente la presenza di una “filigrana" che i prodotti Google hanno incorporato nei loro output.

Una filigrana è un elemento univoco e leggibile dalla macchina questo è incorporato nel contenuto. Irriconoscibile by noi umani, può essere rilevato ed estratto da algoritmi costruito per quello scopo.

All'interno della tecnologia che alimenta la svolta di UNITE

Un sistema di visione artificiale che analizza un fotogramma video completo

Quindi, come il AI Tech avanza rapidamente, so utilizzare gli strumenti per rilevare , il contenuti generati con il suo aiuto. Ma non esiste uno strumento universale che possa essere utilizzato da tutti su tutti i tipi di contenuti di intelligenza artificiale.

Inoltre, l’attenzione delle attuali tecniche di rilevamento dei deepfake, in particolare, rimane rivolta alle manipolazioni facciali. come sincronizzazione labiale o scambio di volti e progressi in Tech li rendono inadeguati.

Grazie ai notevoli progressi compiuti dall'innovazione tecnologica nei modelli generativi testo-video (T2V) e immagine-video (I2V), chiunque può ora creare facilmente contenuti sintetici altamente convincenti, completamente generati dall'intelligenza artificiale, e alterazioni dello sfondo impeccabili. Questo, ovviamente, mette tutti, dai singoli individui alle istituzioni e persino alle nazioni, a serio rischio.

In questo contesto, la completa dipendenza dei primi rilevatori di deepfake dal volto li rende obsoleti nel mondo tecnologicamente più avanzato di oggi.

"Se non c'è un volto nell'inquadratura, molti rilevatori semplicemente non funzionano. Ma la disinformazione può presentarsi in molte forme. Alterare lo sfondo di una scena può distorcere la verità con altrettanta facilità."

– Kundu

Quindi, convenzionale I rilevatori non funzionano con le manipolazioni più recenti, poiché i nuovi contenuti sintetici, ora dotati di scene e sfondi completi, rappresentano una sfida per i metodi di rilevamento incentrati sul volto.

Questo richiede un approccio più versatile. Per risolvere questo problema, i ricercatori dell'UC Riverside hanno introdotto UNITE.

Il modello UNITE (Universal Network for Identifying Tampered and Synthetic Videos) cattura le manipolazioni full-frame.

“I deepfake si sono evoluti," ha affermato Kundu, il cui obiettivo presso l'UC Riverside è sfruttare i modelli di base per attività visive avanzate, tra cui la segmentazione delle immagini e il rilevamento di contenuti multimediali falsi. "Non si tratta più solo di scambiare volti. Le persone ora creano video completamente falsi - dai volti agli sfondi - utilizzando potenti modelli generativi. Il nostro sistema è costruito per catturare tutto ciò."

Il modello estende le capacità di rilevamento a scenari in cui non sono presenti volti o no soggetti umani e in più, può identificare sottili discrepanze spaziali e temporali e persino coprire complesse modifiche di background che i sistemi precedenti non hanno rilevato.

Quindi, da esaminare i volti così come lo sfondo e schemi di movimento, coprendo così fotogrammi video completi, UNITE offre uno dei primi tale strumenti per identificare i video sintetici che non si basano semplicemente sul contenuto facciale.

Per questo, il modello utilizza un modello di apprendimento profondo basato sul trasformatore, un tipo di rete neurale che impiega un meccanismo di attenzione multi-testa per elaborare dati sequenziali. Qui, testo viene convertito a rappresentazioni numeriche chiamate token. Questa architettura è effettivamente la base di molti modelli linguistici moderni come GPT.

Elaborando le informazioni in parallelo, i trasformatori possono favorire una formazione più rapida e prestazioni migliori.

Nel caso di UNITE, l'architettura basata sul trasformatore elabora le caratteristiche indipendenti dal dominio che vengono estratti dai video tramite il modello di base SigLIP-So400M. Il framework fondamentale dell'intelligenza artificiale SigLIP estrae caratteristiche non vincolate a un oggetto o a una persona specifici.

A causa dei set di dati limitati che coprono i cambiamenti sia facciali che/sfondo and testo-in-video/ contenuto immagine-video, il team utilizzato strategie di formazione innovative per il loro modello. Questo significa addestramento utilizzando dati non pertinenti all'attività insieme ai dati standard dei deepfake.

Pertanto, oltre al popolare dataset FaceForensics++, il team ha utilizzato anche il dataset SAIL-VOS-3D, che simula ambienti complessi, offrendo diverse scene sintetiche utili per l'addestramento dei modelli di rilevamento dell'IA. In particolare, questo era originariamente progettato per la segmentazione di oggetti video 3D nel gioco GTA-V. Sebbene non sia generato dall'intelligenza artificiale, il set di dati è completamente sintetico e, in quanto tale, aiuta a simulare contenuti multimediali generati dall'intelligenza artificiale. Questo, ha scoperto il team, migliora la capacità del loro modello di rilevare varie forme di manipolazione sintetica.

Google ha fornito l'accesso ai set di dati necessari nonché alle risorse di elaborazione per addestrare il modello.

Per ridurre la propensione del modello a messa a fuoco eccessiva sui volti, la squadra anche utilizzato una perdita di attenzione-diversità (AD), che incoraggia un'attenzione spaziale varia per tutto fotogrammi video.

La perdita di AD è stata combinata con l'entropia incrociata, nota anche come funzione di perdita logaritmica, e comunemente utilizzata nell'apprendimento automatico (ML) per misurare le prestazioni di un modello di classificazione, al fine di migliorare le prestazioni del modello in diverse situazioni.

Addestrare il modello solo sulla perdita di entropia incrociata (CE) tende a rendere difficile la gestione di video in cui è presente un soggetto umano reale con uno sfondo manipolato o contenuti generati da modelli T2V e I2V.

Pertanto, il team ha introdotto la perdita di AD, che spinge il sistema a monitorare più regioni visive in ogni fotogramma, aumentando così la capacità del suo modello di catturare segnali importanti da entrambi primo piano e sfondo.

segni di perdita AD , il innovazione chiave nell'approccio del team, che consente a UNITE non solo di eccellere nel rilevamento di video generati dall'intelligenza artificiale e con sfondo alterato, ma anche avere un miglioramento notevole nell'identificazione il solito contenuti che mostrano volti manipolati.

Confrontando le prestazioni di UNITE con altri modelli, il team ha scoperto che "supera le prestazioni dei rilevatori più all'avanguardia su set di dati (in contesti crossdata) caratterizzati da manipolazioni di volti/sfondi e video T2V/I2V completamente sintetici, dimostrando la sua adattabilità e capacità di rilevamento generalizzabili".

In un mondo che sta diventando sempre più digitalizzato e automatizzato, il nuovo sistema offre un rilevatore universale in grado di segnalare una vasta gamma di falsi, dai semplici scambi di volti ai più complessi, Video completamente sintetici, creati senza alcuna ripresa reale. Secondo Kundu:

"È un modello che gestisce tutti questi scenari. Ecco cosa lo rende universale."

Attualmente in fase di sviluppo, UNITE, secondo i suoi creatori, è uno strumento prezioso nel panorama in via di sviluppo del rilevamento sintetico dei video. Presto, potrà essere atteso per svolgere un ruolo chiave nella difesa contro la disinformazione video.

Investire nel rilevamento basato sull'intelligenza artificiale

Nel regno dell’intelligenza artificiale, Palantir Technologies (PLTR ) is conosciuto per l'integrazione dei dati basata sull'intelligenza artificiale, il riconoscimento di modelli e il rilevamento delle anomalie.

L'azienda opera attraverso quattro piattaforme software principali: Gotham, Foundry, Apollo e AIP. Apollo è un unico livello di controllo che coordina la configurazione, gli aggiornamenti di sicurezza e la distribuzione di nuove funzionalità per garantire il funzionamento continuo dei sistemi critici. Gotham consente agli utenti di identificare pattern nascosti nei set di dati, mentre Foundry funge da sistema operativo per una gestione efficace delle risorse e del rischio. AIP consente alle aziende di gestire LLM e altri modelli con il pieno controllo.l.

Palantir Technologies (PLTR )

Palantir vanta profondi legami con il governo, l'esercito e le agenzie di intelligence degli Stati Uniti. Quest'anno, è ottenuto a $ 30 milione contratto a portare Analisi dell'intelligenza artificiale a registri di immigrazione.

Con una capitalizzazione di mercato di 372 miliardi di dollari, le azioni di PLTR sono attualmente scambiate a 157.72 dollari, in rialzo di un incredibile 109.35% da inizio anno, grazie alla domanda di intelligenza artificiale, al massiccio interesse del settore retail e all'espansione dei contratti governativi. L'utile per azione (EPS) (TTM) è di 0.23 e il rapporto prezzo/utili (P/E) (TTM) è di 687.90.

(PLTR )

Dal punto di vista finanziario, Palantir ha registrato un aumento del fatturato del 39% su base annua, raggiungendo gli 884 milioni di dollari nel primo trimestre del 1. Nel frattempo, il fatturato negli Stati Uniti è cresciuto del 2025% su base annua, raggiungendo i 55 milioni di dollari, inclusi 628 milioni di dollari di ricavi commerciali negli Stati Uniti e 255 milioni di dollari di ricavi governativi negli Stati Uniti.

Durante questo periodo, la società ha registrato il suo trimestre più alto del valore totale del contratto commerciale negli Stati Uniti, con il valore rimanente dell'accordo a $ 2.32 miliardi.

Il numero di clienti di Palantir nel primo trimestre del 1 è aumentato del 25% su base annua. L'utile per azione GAAP è stato di 39 dollari e l'utile per azione rettificato di 0.08 dollari. La liquidità, le disponibilità liquide e i titoli del Tesoro USA a breve termine ammontavano a 0.13 miliardi di dollari alla fine del trimestre.

"Stiamo fornendo il sistema operativo per l'impresa moderna nell'era dell'intelligenza artificiale. “Siamo nel mezzo di un cambiamento radicale nell’adozione del nostro software, in particolare negli Stati Uniti”

- Amministratore delegato Alexander C. Karp

Ultimissime Palantir Technologies (PLTR) Notizie e sviluppi azionari

Conclusione

L'avvento dell'intelligenza artificiale ha completamente cambiato il mondo, con individui e organizzazioni che abbracciano sempre più la tecnologia per competenze produttività e accrescere il processo decisionale.

Sebbene destinata a contribuire per migliaia di miliardi all'economia mondiale, l'IA non è esente da pericoli. I deepfake e il loro utilizzo per disinformare e frodare le persone rappresentano uno dei rischi più gravi legati alla sua adozione su larga scala.

Poiché diventa sempre più difficile distinguere tra ciò che è reale e ciò che è sintetico, strumenti come UNITE diventano ancora più importanti e urgenti. Con questo modello di intelligenza artificiale generalizzabile come protezione contro i contenuti contraffatti, potremmo essere in grado di mitigare l'impatto negativo dell'intelligenza artificiale, aumentandone e godendone gli effetti positivi sul nostro lavoro e sulla nostra vita.

Clicca qui per scoprire tutto sugli investimenti nell’intelligenza artificiale.

Riferimenti:

1. Kundu, R.; Xiong, H.; Mohanty, V.; Balachandran, A.; Roy‑Chowdhury, A. K.; et al. Verso un rilevatore video sintetico universale: dalle manipolazioni di volti o sfondi a contenuti completamente generati dall'intelligenza artificiale. Preprint di arXiv arXiv:2412.12278 (2024). https://doi.org/10.48550/arXiv.2412.12278

Argomenti correlati:Sicurezza AI rilevamento deepfake Palantir Technologies supporti sintetici analisi forense video

Gaurav Roy

Gaurav ha iniziato a scambiare criptovalute nel 2017 e da allora si è innamorato dello spazio crittografico. Il suo interesse per tutto ciò che riguarda le criptovalute lo ha trasformato in uno scrittore specializzato in criptovalute e blockchain. Ben presto si ritrovò a lavorare con società crittografiche e media. È anche un grande fan di Batman.

Titoli.io

Il modello di intelligenza artificiale UNITE può rilevare qualsiasi deepfake senza basarsi sui volti

Intelligenza Artificiale

Il modello di intelligenza artificiale UNITE può rilevare qualsiasi deepfake senza basarsi sui volti

Sommario

L’ascesa dell’intelligenza artificiale e il conseguente sovraccarico sintetico

Perché i vecchi rilevatori di deepfake non funzionano più

All'interno della tecnologia che alimenta la svolta di UNITE