Home Tecnología ¿Los datos sintéticos descarrilarán el impulso generativo de IA o serán el...

¿Los datos sintéticos descarrilarán el impulso generativo de IA o serán el avance que necesitamos?

15
0

Getty Photographs/Yaroslav Kushta

Con el aumento de la IA generativa, las imágenes sintéticas y el texto se han convertido en un conocimiento común, pero ¿está familiarizado con los datos sintéticos? Como su nombre lo indica, el término se refiere a datos que se generan artificialmente y se usa para reemplazar los datos reales. Se utiliza para crear soluciones para la atención médica, las finanzas, la industria automotriz y, lo más importante, la inteligencia synthetic.

Los datos sintéticos son una parte tan integral de la revolución digital que South By Southwest (SXSW) mantuvo una sesión de IA titulada “Impacto de los datos simulados sobre la IA y el futuro”, destinado a analizar la capacidad de la tecnología para reforzar y apoyar la IA generativa, al tiempo que evalúa los riesgos potenciales.

También: 10 razones clave por las que la IA se convirtió en la corriente de la noche a la mañana, y lo que sucede después

El panel presentó a los panelistas expertos Mike Hollinger, director de gestión de productos, software program empresarial Gen AI en NVIDIA; Oji udezue, CPO en typeform; y Tahir Ekin, presidente de Fields en Enterprise Analytics de la Universidad Estatal de Texas, quienes conservaron una perspectiva positiva common de la tecnología.

“Para nosotros, [synthetic data] Hace que nuestra capacidad de construir lo correcto sea más barato y mejor, lo cual es un santo grial “, dijo Udezue.

Para obtener más información sobre el potencial de los datos sintéticos para avanzar en el espacio de IA, sus riesgos y el asesoramiento de los expertos sobre cómo proceder, lea más a continuación.

Las ventajas

Los datos sintéticos permiten a los usuarios simular concepts del mundo actual en situaciones en las que la recopilación de datos reales sería demasiado costoso, que lleva mucho tiempo o podría plantear preocupaciones de privacidad, como involucrar información financiera confidencial.

Su reciente aumento en la popularidad se debe en gran medida a su creciente papel en el entrenamiento y la refinación del aprendizaje automático y los modelos de IA, lo que se ha vuelto cada vez más essential en medio del rápido desarrollo de estos modelos en el último año.

También: ¿pueden los datos sintéticos resolver las preocupaciones de privacidad de la IA? Esta empresa está apostando por ello

“Con ChatGPT, con Gemini, con Claude, con Deepseek, con cualquiera de estos modelos, dentro de los datos de entrenamiento de ese modelo es probablemente un paso de generación sintética”, dijo Hollinger. “Estos datos sintéticos están tomando partes de ese materials de entrenamiento, y lo está amplificando para dar diferentes variaciones para que luego pueda entrenar el modelo para dar lo que sea la salida”.

Los datos sintéticos son especialmente valiosos para los modelos de IA porque requieren conjuntos de datos grandes, diversos y de alta calidad para una capacitación efectiva que pueden ser difícil o poco prácticas de obtener. Esto es particularmente cierto cuando se dirige a los conjuntos de datos de nicho, propiedad u originales que no están disponibles a través del raspado de datos públicos.

En un informe publicado la semana pasada, la firma de investigación Gartner identificó los datos sintéticos como una de las principales tendencias de datos y análisis para 2025. Específicamente, el informe fomenta el uso de datos sintéticos a las áreas de suplemento donde faltan o están incompletas o para reemplazar datos confidenciales para priorizar la privacidad.

Los riesgos

Para crear datos sintéticos, los algoritmos complejos toman un conjunto de datos unique y replican los patrones, estructuras y otras características que se encuentran dentro de esos datos. Sin embargo, como con cualquier otra salida de IA, existe la posibilidad de algunas desviaciones que pueden tener un impacto significativo.

Para ilustrar esa concept, Hollinger usó el ejemplo de cuántas horas había en el día el día de la conferencia, lo cual fue una pregunta complicada porque, técnicamente, el domingo, había 23 horas debido a los ahorros para la luz del día.

Si se tomara una muestra de datos de días aleatorios durante todo el año, sería posible que uno de los días seleccionados fuera de una ciudad con cambios en el tiempo de verano, donde hubo una hora menos. Una tubería de datos sintética construida a partir de esta muestra habría borrado la precisión del modelo.

También: Esto es lo que la IA probablemente significa para las herramientas tradicionales de BI y análisis

En consecuencia, al construir conjuntos de datos sintéticos, es imperativo que los datos se basen en el mundo actual para evitar este tipo de incongruencias y garantizar que el conjunto de datos sea lo más representativo del escenario que debe representar como sea posible. Sin embargo, incluso al tomar esta medida y tener en cuenta la entropía, a menudo es difícil garantizar la precisión, según Udezue.

“Los humanos son impredecibles de maneras impredecibles”, dijo Udezue. “¿Cómo se predice la variación para 8 mil millones de personas?”

Más allá de los desafíos técnicos, uno de los mayores obstáculos a superar obtendrá la confianza del usuario cuando use datos sintéticos como la fuente principal para informar y crear nuevas soluciones. Para construir esa confianza, es importante la transparencia en torno a cómo se generan, validan y aplican los datos sintéticos, con una delineación clara, como a través de tarjetas modelo.

También: Esto es lo que la IA probablemente significa para las herramientas tradicionales de BI y análisis

“El aspecto de la confianza: desde la perspectiva del usuario, estamos utilizando estas herramientas de IA, pero ¿cómo se siente meterse en un automóvil sin conductor que no se probó en la carretera pero que solo se probó utilizando datos simulados?” dijo Ekin.

Pensando en el futuro

A pesar de los desafíos, el panel se mantuvo optimista sobre el uso de la tecnología en el futuro de IA y más allá. Esto no significa que los desafíos no estén allí o que el trabajo no tenga que hacerse, pero su potencial common para alimentar el crecimiento en todos los sectores sigue siendo excelente.

También: Cómo las empresas están acelerando el tiempo al valor de AI de agente

“Los datos simulados, cuando se usan correctamente, elevarán la ciencia, elevarán el software program, elevarán la industria, pero lo que tenemos para obtener la gobernanza y la transparencia correctas, o no podremos aprovecharlo correctamente”, dijo Udezue.



fuente