tesla
Credit: Unsplash

En un reciente análisis sobre el estado actual de la inteligencia artificial (IA), el magnate Elon Musk, uno de los líderes más influyentes en el sector tecnológico, ha señalado que las empresas de IA han llegado a un punto crítico en el que han “agotado” la suma del conocimiento humano disponible para entrenar sus modelos. Este fenómeno, según el informático, ocurrió el año pasado y ha llevado a la necesidad de explorar nuevas fuentes de datos para el desarrollo de sistemas más eficientes.

Por tal razón, Musk ha sugerido que, ante la falta de datos reales, las compañías tecnológicas deberían comenzar a recurrir a datos sintéticos. Este tipo de datos es creado por modelos de IA y muchos lo han visto como una solución viable para construir y ajustar nuevos sistemas.

En este sentido, Musk destaca que el proceso de generación de datos sintéticos ya se está implementando en la industria, donde se utilizan modelos de IA generar nuevos contenidos.

“[Las IA] serán capaces de escribir un ensayo o elaborar una tesis, para luego calificarse a sí mismas. De esta forma, pasarán por un proceso de autoaprendizaje”, aseguró el empresario.

Grandes compañías como Meta, Microsoft, Google y OpenAI ya han comenzado a incorporar datos sintéticos en sus modelos de inteligencia artificial. Meta, por ejemplo, ha utilizado este enfoque para mejorar su modelo de IA llamado Llama, mientras que Microsoft ha aplicado métodos similares en su modelo Phi-4. Esta tendencia parece reflejar una creciente adaptación del sector a los nuevos desafíos relacionados con la obtención de datos.

No obstante, a pesar de las oportunidades que presentan los datos sintéticos, Musk también ha advertido sobre los riesgos asociados, especialmente en lo que respecta a las “alucinaciones” generadas por los modelos de IA. El término “alucinación” se refiere a la producción de resultados inexactos o sin sentido, lo que puede complicar la veracidad de los datos sintéticos. Por tal motivo, Musk ha recalcado que la dificultad radica en discernir si una respuesta generada es válida o simplemente un error del modelo.

La calidad de los datos y el control sobre su uso se han convertido en un campo de batalla legal en el contexto del auge de la IA. OpenAI ha reconocido que es prácticamente imposible desarrollar herramientas como ChatGPT sin acceder a material protegido por derechos de autor. Esto ha suscitado tensiones con las industrias creativas y editoriales, que reclaman compensaciones por el uso de su contenido en el entrenamiento de modelos de IA.