En 2011, Marc Andreessen, cuya firma de capital de riesgo Andreessen Horowitz ha invertido desde entonces en algunas de las mayores empresas emergentes de inteligencia artificial, escribió que “el software se está comiendo al mundo”. Más de una década después, eso es exactamente lo que está haciendo.
La inteligencia artificial, en particular los grandes modelos de lenguaje que la impulsan, es un consumidor voraz de datos. Pero esos datos son finitos y se están agotando. Las empresas han extraído todo de sus entrañas en sus esfuerzos por entrenar a IA cada vez más poderosas: transcripciones y subtítulos de videos de YouTube, publicaciones públicas en Facebook e Instagram, libros y artículos de noticias con derechos de autor, a veces sin permiso , a veces con acuerdos de licencia . ChatGPT de OpenAI, el chatbot que ayudó a popularizar la IA, ya ha sido entrenado en toda la Internet pública , aproximadamente 300 mil millones de palabras, incluidas todas las de Wikipedia y Reddit. En algún momento, no quedará nada.
Los investigadores lo llaman “chocar contra el muro de los datos” y dicen que es probable que suceda tan pronto como en 2026 .
Eso hace que la creación de más datos de entrenamiento de IA sea una pregunta de mil millones de dólares, una que un grupo emergente de empresas emergentes está buscando nuevas formas de responder.
UNA POSIBILIDAD: CREAR DATOS ARTIFICIALES
Así es como Gretel, una startup de cinco años de antigüedad, aborda el problema de los datos de la IA. Crea lo que se conoce como “datos sintéticos”: datos generados por IA que imitan de cerca la información factual, pero que en realidad no son reales. Durante años, la startup, que ahora está valuada en 350 millones de dólares, ha proporcionado datos sintéticos a empresas que trabajan con información personal identificable que necesita ser protegida por razones de privacidad (por ejemplo, datos de pacientes). Pero ahora su director ejecutivo, Ali Golshan, ve una oportunidad de proporcionar a las empresas de IA, que carecen de datos, datos falsos creados desde cero, que pueden usar para entrenar sus modelos de IA.
“Los datos sintéticos fueron una gran opción”, dijo Golshan, ex analista de inteligencia, sobre el problema del muro de datos. “Resolvió dos caras de la misma moneda. Se podía hacer que los datos fueran de alta calidad y seguros”.
Este enfoque de “IA alimenta a IA” ya ha sido adoptado por Anthropic , Meta , Microsoft y Google , que han utilizado datos sintéticos de alguna manera para entrenar sus modelos. El mes pasado, Gretel anunció que pondría sus datos sintéticos a disposición de los clientes que utilicen Databricks, una plataforma de análisis de datos, para construir modelos de IA.