Home Tecnología Estas nuevas empresas están construyendo modelos AI avanzados sin centros de datos

Estas nuevas empresas están construyendo modelos AI avanzados sin centros de datos

32
0

Los investigadores han entrenado Un nuevo tipo de modelo de lenguaje grande (LLM) que utiliza GPU salpicadas en todo el mundo y alimentó datos privados y públicos, un movimiento que sugiere que la forma dominante de construir inteligencia synthetic podría verse alterada.

Flor ai y Vanados nuevas empresas que persiguen enfoques no convencionales para construir IA, trabajaron juntas para crear el nuevo modelo, llamado colectivo-1.

Las técnicas creadas con flores que permiten que el entrenamiento se extienda a través de cientos de computadoras conectadas a través de Web. La tecnología de la compañía ya es utilizada por algunas empresas para capacitar a los modelos de IA sin necesidad de agrupar recursos o datos de cálculo. VANA proporcionó fuentes de datos, incluidos mensajes privados de X, Reddit y Telegram.

Collective-1 es pequeño para los estándares modernos, con 7 mil millones de parámetros, valores que se combinan para darle al modelo sus habilidades, comparadas con cientos de miles de millones para los modelos más avanzados de hoy, como aquellos que impulsan programas como ChatGPT, Claude y Gemini.

Nic Lane, un científico informático de la Universidad de Cambridge y cofundador de Flower AI, cube que el enfoque distribuido promete escalar mucho más allá del tamaño de colectivo-1. Lane agrega que Flower AI está a la mitad de la capacitación de un modelo con 30 mil millones de parámetros utilizando datos convencionales, y planea capacitar a otro modelo con 100 mil millones de parámetros, cerca del tamaño que ofrece los líderes de la industria, este año. “Realmente podría cambiar la forma en que todos piensan sobre la IA, por lo que estamos persiguiendo esto bastante duro”, cube Lane. Él cube que la startup también está incorporando imágenes y audio en el entrenamiento para crear modelos multimodales.

La construcción de modelos distribuidas también podría perturbar la dinámica de poder que ha dado forma a la industria de la IA.

Las compañías de IA actualmente construyen sus modelos combinando grandes cantidades de datos de capacitación con grandes cantidades de cómputo concentrados dentro de los centros de datos rellenos de GPU avanzadas que se conectan en crimson utilizando cables de fibra óptica súper rápidos. También dependen en gran medida de los conjuntos de datos creados al raspar públicamente, aunque a veces con derechos de autor, materiales, incluidos sitios net y libros.

El enfoque significa que solo las compañías más ricas y las naciones con acceso a grandes cantidades de los chips más poderosos pueden desarrollar los modelos más poderosos y valiosos. Incluso los modelos de código abierto, como Meta's Llama y R1 de Deepseek, están construidos por empresas con acceso a grandes centros de datos. Los enfoques distribuidos podrían hacer posible que las empresas y universidades más pequeñas construyan IA avanzada acumulando recursos dispares juntos. O podría permitir a los países que carecen de infraestructura convencional para establecer contactos a varios centros de datos para construir un modelo más poderoso.

Lane cree que la industria de la IA mirará cada vez más hacia nuevos métodos que permiten la capacitación para salir de los centros de datos individuales. El enfoque distribuido “le permite calcular mucho más elegantemente que el modelo de centro de datos”, cube.

Helen Toner, experta en gobernanza de IA en el Centro de Seguridad y Tecnología Emergente, cube que el enfoque de Flower AI es “interesante y potencialmente muy relevante” para la competencia y la gobernanza de la IA. “Probablemente continuará luchando para mantenerse al día con la frontera, pero podría ser un enfoque interesante de seguimiento rápido”, cube Toner.

Dividir y conquistar

La capacitación de IA distribuida implica repensar la forma en que se dividen los cálculos utilizados para construir sistemas de IA potentes. La creación de un LLM implica alimentar grandes cantidades de texto en un modelo que ajusta sus parámetros para producir respuestas útiles a un aviso. Dentro de un centro de datos, el proceso de entrenamiento se divide para que las piezas se puedan ejecutar en diferentes GPU, y luego consolidarse periódicamente en un solo modelo maestro.

El nuevo enfoque permite que el trabajo normalmente realizado dentro de un gran centro de datos se realice en {hardware} que puede estar a muchas millas de distancia y conectarse a través de una conexión a Web relativamente lenta o variable.

fuente