Ciberseguridad

Cómo los datos falsos protegen a los usuarios reales: el valor de los datos sintéticos

mm
Securities.io maintains rigorous editorial standards and may receive compensation from reviewed links. We are not a registered investment adviser and this is not investment advice. Please view our affiliate disclosure.

La sed interminable de más datos

A medida que el mundo se digitaliza, comienza a producir y requerir cantidades cada vez mayores de datos. Esto plantea un problema, ya que dichos datos a menudo están asociados a personas reales y empresas reales que pueden tener serias preocupaciones de privacidad.

Esto se ha convertido en un problema aún mayor con la aparición de la IA, que no solo puede realizar análisis estadísticos sobre lotes de datos, sino también examinar y analizar el conjunto de datos en profundidad a todos los niveles, desde una persona individual hasta miles de millones de entradas numéricas.

Los datos son ahora tan esenciales para la economía moderna que la demanda de datos reales y de alta calidad ha crecido exponencialmente. Al mismo tiempo, las normas de privacidad de datos más estrictas y los modelos de IA cada vez más grandes han hecho que la recopilación y el etiquetado de datos reales sea cada vez más difícil o poco práctico. – IBM Research

Por eso se inventó los datos sintéticos como solución. Esos datos replican los datos del mundo real pero no contienen información privada que pueda causar problemas. Además, pueden modificarse y adaptarse a casos de uso específicos, situaciones raras o cualquier cosa que el estadístico o probador que los use necesite.

Aquí también, la IA ha sido transformadora. Por un lado, la tecnología de IA es muy útil para generar mejores datos sintéticos, yendo más allá de los métodos puramente estadísticos que se utilizaban hasta ahora. Por otro lado, los datos sintéticos son igualmente útiles para entrenar modelos de IA, desde modelos 3D simulados de proteínas para el descubrimiento de fármacos hasta calles para IA de conducción autónoma.

Inteligencia Artificial Sintética explicada

Los datos sintéticos se refieren a conjuntos de datos que se generan artificialmente pero conservan las propiedades estadísticas subyacentes de los datos originales en los que se basan.

Los datos sintéticos actúan como complemento de los datos del mundo real y ofrecen algunas ventajas clave que permiten a investigadores y analistas ampliar los resultados iniciales obtenidos de encuestas, experimentos y mediciones:

  • Entrenar modelos de IA con datos sintéticos nos permite aumentar el volumen total de datos cuando los datos reales de alta calidad son escasos.
  • En sectores como finanzas y salud, los datos son limitados, su obtención lleva mucho tiempo o es difícil de acceder.

La firma de investigación Gartner estima que para 2030, los datos sintéticos superarán a los datos reales en el entrenamiento de modelos de IA. Gartner también predice que para 2026, el 75 % de las empresas emplearán IA generativa para crear datos sintéticos de clientes.

Tipos de datos sintéticos

Datos sintéticos parciales utilizan conjuntos de datos del mundo real y reemplazan partes de ellos con valores artificiales. Esto se hace generalmente por motivos de privacidad y se usa con frecuencia en investigación clínica, donde se anonimiza la identidad real de los pacientes y los registros médicos.

Datos sintéticos completos son un conjunto de datos totalmente generado, estimando las características de los datos reales e intentando emularlas lo mejor posible: atributos, patrones y relaciones. Esto puede hacerse, por ejemplo, para entrenar contra datos que faltan en un conjunto de usuarios, como datos financieros sin actividades fraudulentas, que son necesarios para entrenar una IA de detección de fraude.

Datos sintéticos híbridos combinan datos reales con datos sintéticos completos.

Cómo generar datos sintéticos

Métodos estadísticos son, de lejos, el método más antiguo para generar datos sintéticos, que se remonta a la década de 1930 con la síntesis de audio y voz, y que condujo a los sintetizadores de software desde la década de 1970 en adelante.

Autoencoders variacionales (VAEs) son programas que producen variaciones de los datos en los que se entrenan. Estos sistemas se usan a menudo para generar imágenes sintéticas, así como otras formas de aprendizaje automático.

Fuente: IBM

Un enfoque relacionado con los VAEs son las redes generativas antagónicas (GANs), un enfoque principal de la inteligencia artificial generativa. Está compuesta por dos redes neuronales:

  • Una genera datos que intentan parecerse al conjunto de datos real.
  • Otra compara los datos generados con un conjunto de datos real.

La segunda red neuronal da retroalimentación a la primera hasta que la primera es capaz de generar un conjunto de datos sintético lo más parecido posible al real.

Fuente: Wikipedia

Modelos transformadores utilizan las herramientas matemáticas empleadas en el desarrollo de muchas IA modernas, incluido ChatGPT (donde la “T” significa “transformer”). “Adivinan” la secuencia de salida estadísticamente más probable al centrarse en los tokens más importantes de la secuencia de entrada.

Por último, la modelización basada en agentes da un paso más y crea “agentes”, mini‑IA que simulan interacciones y comportamientos de agentes para producir datos sintéticos. Por ejemplo, agentes individuales pueden representar a personas individuales en un estudio epidemiológico, cada uno mostrando su propio patrón o tasa de contacto, riesgo de infección, etc.

(Exploramos el futuro papel de los agentes de IA en el lugar de trabajo y la vida diaria en “La aplicación asesina de la IA: Cómo los agentes de IA podrían cambiarlo todo”)

Ventajas de los datos sintéticos

Control y personalización

Al crear los datos desde cero, es mucho más fácil producir el conjunto correcto de datos para una tarea dada, por ejemplo, entrenar un sistema de IA.

También pueden crearse según las especificaciones y necesidades exactas de una empresa o investigador.

Eficiencia

La generación de datos elimina la necesidad de recopilar datos reales costosos y que consumen tiempo, siempre que los datos sintéticos generados sean lo suficientemente cercanos a los datos del mundo real.

Estos datos también vienen preetiquetados, lo que elimina el tedioso paso manual de etiquetar cada punto de datos por un humano, describiendo cada imagen, frase o archivo de audio para que un sistema automatizado pueda entenderlos.

Privacidad

Los datos sintéticos completos no presentan problemas de privacidad, ya que no están vinculados a individuos o empresas reales. Otras formas de datos sintéticos son una buena manera de anonimizar y “limpiar” datos reales de cualquier información protegida, ya sea datos privados individuales o propiedad intelectual con derechos de autor u otras protecciones.

Fuente: Mostly AI

Datos más diversos

Los conjuntos de datos del mundo real demasiado pequeños pueden omitir casos límite o grupos subrepresentados. Esto puede ser un problema al entrenar IA, ya que el modelo resultante ignoraría por completo la existencia de esos casos.

Al ampliar el conjunto de datos inicial y añadir artificialmente los casos faltantes que el diseñador sabe que deben existir, los datos sintéticos híbridos resultantes pueden ser más precisos y representativos de situaciones reales.

Límites de los datos sintéticos

Pérdida de datos

Incluso si, idealmente, los datos sintéticos son prácticamente idénticos a los datos reales, algún nivel de información puede perderse en el proceso. Esto es especialmente cierto con una anonimización fuerte. Por lo tanto, a veces es necesario encontrar un equilibrio entre privacidad y eficiencia.

Sesgo

Dado que los datos sintéticos se esfuerzan por replicar los conjuntos de datos del mundo real, también es probable que reproduzcan cualquier error, sesgo o problema presente en ellos. Por eso suele ser importante mezclar varios conjuntos de datos reales de diferentes regiones, grupos demográficos, periodos de tiempo, etc., al crear datos sintéticos.

“La fidelidad de los datos sintéticos se calcula comparándolos con datos del mundo real mediante pruebas estadísticas y analíticas. Esto incluye una evaluación de qué tan bien los datos sintéticos conservan propiedades estadísticas clave, como medias, varianzas y correlaciones entre variables.”

Raul Salles de Padua – Director de Ingeniería, IA y Cuántica en Multiverse Computing

Colapso del modelo

El entrenamiento de IA puede fallar cuando empieza a entrenarse con demasiado de su propia salida. Un mayor entrenamiento con datos generados por IA produce una calidad decreciente, que a su vez se convierte en la entrada del siguiente ciclo de entrenamiento, provocando la “degeneración” del modelo de IA y su colapso.

Por esta razón, generalmente se recomienda mezclar datos reales con datos sintéticos.

“Entrenar con muestras de otro modelo generativo puede inducir un desplazamiento de distribución, que —con el tiempo— causa el colapso del modelo. Esto a su vez hace que el modelo perciba mal la tarea de aprendizaje subyacente.

Para mantener el aprendizaje durante un período prolongado, debemos asegurarnos de que el acceso a la fuente de datos original se preserve y de que los datos adicionales no generados por LLMs permanezcan disponibles con el tiempo.

Los modelos de IA colapsan cuando se entrenan con datos generados recursivamente – Nature.

Casos de uso de datos sintéticos

Conducción autónoma

Dado que los datos reales de calles de la ciudad pueden ser difíciles de recopilar en número suficiente, la mayoría de las empresas de IA de conducción autónoma utilizan datos sintéticos en cierta medida. Estas calles simuladas, completas con bicicletas, automóviles, peatones y objetos en movimiento con aspecto realista, pueden ayudar a entrenar la IA de conducción autónoma con muchas más horas de experiencia virtual, reduciendo el costo total del entrenamiento.

Finanzas

Desde modelos predictivos para inversión y riesgos (trading, bancos, seguros) hasta detección de fraude, las empresas financieras usan datos sintéticos para mejorar la detección de riesgos, fraude y lavado de dinero.

En este caso, el objetivo no es solo detectar adecuadamente esos riesgos, sino también que los equipos de gestión de las empresas demuestren a reguladores y partes interesadas que se está haciendo todo lo posible para detectar y evitar estos problemas, potencialmente evitando miles de millones en pérdidas o multas.

Salud

Al aumentar la “experiencia” total de una IA en entrenamiento, los datos sintéticos pueden ayudar a entrenar modelos que luego se usan en epidemiología, análisis de imágenes médicas y resultados de laboratorio, o ensayos clínicos.

Estas IA pueden posteriormente probarse retroactivamente en cohortes y estudios poblacionales conocidos, demostrando la precisión de sus predicciones.

Proveedor de datos sintéticos – Tonic.ai

La mayoría de las empresas que usan datos sintéticos tienden a depender de proveedores externos especializados en este campo.

Un ejemplo de ello es Tonic.ai, que puede integrarse con prácticamente cualquier base de datos, permitiendo la minería de datos, desarrollo y pruebas usando los propios datos reales del cliente.

Fuente: Tonic.ai

Entre los servicios que propone la compañía se pueden mencionar:

Fuente: Tonic.ai

Las herramientas de Tonic.ai son usadas por muchas grandes corporaciones, como los desarrolladores de eBay, American Express (ver más abajo), Volvo, Cigna, Walgreens, etc.

Usuario de datos sintéticos – American Express

(AXP )

Uno de los principales proveedores de tarjetas de crédito del mundo, American Express, ha estado a la vanguardia del uso de datos sintéticos para fines empresariales, ya usando aprendizaje profundo antes de 2020 y utilizando hardware de Nvidia.

Usos de IA para clientes

Se informó que utiliza “patrones de fraude falsos generados por IA para afinar la capacidad de sus modelos de detectar estafas raras o poco comunes”.

Estas técnicas tienen un impacto sustancial en la experiencia del cliente, permitiendo a American Express mejorar la velocidad de detección y prevenir pérdidas al automatizar el proceso de toma de decisiones.”

Dmitry Efimov – vicepresidente de investigación en aprendizaje automático en American Express

También utiliza IA y datos sintéticos para agilizar la evaluación del riesgo crediticio, incorporando incluso el comportamiento social y las condiciones del mercado en tiempo real.

Se usa, especialmente con IA generativa, para mejorar los servicios al cliente y reducir los momentos en que el chatbot de la compañía resulta insuficiente para responder a las solicitudes de los clientes.

Mientras tanto, los algoritmos de IA analizan los comportamientos de gasto, preferencias e historiales de transacciones de los clientes para sugerir ofertas y recompensas personalizadas.

Usos internos de IA

Internamente, la IA ha permitido a American Express reducir la escalada a tickets de TI mediante un sistema reactivo de resolución de problemas, y los 9 000 ingenieros de la compañía ahora usan GitHub Copilot para asistencia en la codificación.

También ayuda a los 5 000 asesores de viajes que asesoran a los miembros más élite de la tarjeta Centurión (negra) y a los de la tarjeta Platinum.

“Los asesores de viajes están distribuidos en muchas áreas diferentes. Por ejemplo, un cliente puede preguntar por los sitios imprescindibles en Barcelona, mientras que el siguiente consulta sobre los restaurantes de cinco estrellas en Buenos Aires. Es intentar mantener todo eso en la cabeza de alguien, ¿verdad?”

Hilary Packer, Amex EVP y CTO

Resumen de American Express

Además de IA y datos sintéticos, American Express es una sólida compañía financiera, que espera un crecimiento de ingresos del 8‑10 % en 2025, en línea con su objetivo a largo plazo de crecimiento de ingresos, y ganancias por acción del 12‑16 %.

La compañía también está expandiéndose rápidamente a nivel internacional, después de un largo período de presencia mayormente en el mercado estadounidense, con un crecimiento del 15 % año tras año en el negocio de servicios de tarjetas internacionales facturadas.

Últimas noticias sobre American Express

en español. No traducir nombres de marcas, nombres de compañías, nombres personales, URL, etiquetas HTML, nombres de shortcodes o claves de atributos de shortcodes. Preserve la sintaxis de shortcodes de WordPress, pero traduzca los valores entre comillas visibles para el usuario. Usted es un traductor experto de contenido; su tono debe ser profesional y optimizado para SEO.

Jonathan es un ex investigador de bioquímica que trabajó en análisis genético y ensayos clínicos. Ahora es un analista de acciones y escritor de finanzas con un enfoque en innovación, ciclos del mercado y geopolítica en su publicación The Eurasian Century.