Hemos agotado los datos disponibles para el entrenamiento de IA, dice Elon Musk

No ha pasado mucho tiempo desde inteligencia artificial se hizo cargo de la industria tecnológica. ChatGPT desató una revolución que ha traído enormes avances en tan solo unos años. Durante ese tiempo, las empresas centradas en la IA han estado utilizando datos disponibles públicamente para entrenar sus modelos. Sin embargo, algunas figuras prominentes en el campo, como Elon Muskcreen que la industria ha agotado todos los datos disponibles para el entrenamiento de IA.

Elon Musk y otros expertos dicen que la industria ha agotado los datos sobre entrenamiento de IA

Entrenar modelos complejos de IA requiere enormes cantidades de datos. Muchos podrían pensar que a las empresas les llevaría mucho tiempo utilizar todos los datos disponibles en el mundo. Sin embargo, los expertos afirman que el momento está cerca. Ilya Sutskever, ex científico jefe de OpenAI, participó en la conferencia NeurIPS centrada en el aprendizaje automático en diciembre. Durante el evento, Sutskever afirmó que la industria de la IA ya alcanzó el llamado “datos pico.”

Esto significa que, en opinión del científico, prácticamente hemos alcanzado la cima en cuanto al uso de datos para entrenar la IA. Quedan muy pocos datos sin utilizar, lo que obligará a un cambio de paradigma en el desarrollo de modelos de IA. En consonancia con esto, durante una conversación transmitida en vivo con el presidente de Stagwell, Mark Penn, Elon Musk dijo eso “Básicamente, hemos agotado la suma acumulada del conocimiento humano… en el entrenamiento de IA..”

Musk posee xAI, la división de X (FKA Twitter) centrada en el desarrollo de IA. Grok, un chatbot y generador de imágenes impulsado por IA integrado en X, es el producto más popular de la empresa. Musk afirma que, basado en su experiencia En el campo de la IA, la industria alcanzó el “datos pico«mencionado por Sutskever»básicamente el año pasado.”

Utilizar datos sintéticos podría ser la solución, pero con matices

Dicho esto, existe una manera de obtener nuevos datos para el entrenamiento de IA. Desde hace un tiempo, algunas grandes empresas de inteligencia artificial han estado utilizando datos sintéticos como parte del entrenamiento de sus propios modelos. Los datos sintéticos son básicamente datos generados por otros modelos de IA. “La única manera de complementar [real-world data] es con datos sintéticos, donde la IA crea [training data]» almizcle dijo. “Con datos sintéticos… [AI] se calificará a sí mismo y pasará por este proceso de autoaprendizaje» añadió.

La firma de investigación y consultoría Gartner estima que, para 2024, el 60% de los datos utilizados para los desarrollos basados en IA serán sintéticos. La lista incluye proyectos como Phi-4 de Microsoft, Gemma de Google, Claude 3.5 de Sonnet e incluso Llama de Meta.

Dicho esto, los desarrolladores deben tener cuidado al utilizar este tipo de datos a gran escala. La implementación excesiva de datos sintéticos puede generar un mayor sesgo, lo que reduce la creatividad del modelo. Esto puede afectar la calidad del resultado de una plataforma de IA. Por otro lado, el uso de datos sintéticos genera enormes ahorros de costos.

Fuente: Android Headlines

Elon Musk y otros expertos dicen que la industria ha agotado los datos sobre entrenamiento de IA

Utilizar datos sintéticos podría ser la solución, pero con matices

Deja un comentario Cancelar respuesta