Home Tecnología Los investigadores abren el código fuente Sky-T1, un modelo de IA de...

Los investigadores abren el código fuente Sky-T1, un modelo de IA de 'razonamiento' que se puede entrenar por menos de 450 dólares

35
0

Los llamados modelos de inteligencia synthetic de razonamiento son cada vez más fáciles (y más baratos) de desarrollar.

El viernes, NovaSky, un equipo de investigadores del Sky Computing Lab de UC Berkeley, lanzó Sky-T1-32B-Preview, un modelo de razonamiento que es competitivo con una versión anterior de o1 de OpenAI en una serie de puntos de referencia clave. Sky-T1 parece ser el primer modelo de razonamiento de código abierto en el sentido de que puede replicarse desde cero; el equipo publicó el conjunto de datos que utilizaron para entrenarlo, así como el código de entrenamiento necesario.

“Sorprendentemente, Sky-T1-32B-Preview fue entrenado por menos de $450”, escribió el equipo en un publicación de blog“lo que demuestra que es posible replicar capacidades de razonamiento de alto nivel de manera asequible y eficiente”.

Puede que 450 dólares no parezca tan asequible. Pero no hace mucho que el precio de entrenar un modelo con un rendimiento comparable a menudo oscilaban en los millones de dólares. Los datos de entrenamiento sintéticos, o los datos de entrenamiento generados por otros modelos, han ayudado a reducir los costos. Palmyra X 004, un modelo lanzado recientemente por la empresa de inteligencia synthetic Author, entrenado casi en su totalidad con datos sintéticos, su desarrollo costó sólo 700.000 dólares.

A diferencia de la mayoría de las IA, los modelos de razonamiento se verifican a sí mismos de manera efectiva, lo que les ayuda a evitar algunos de los errores que normalmente hacen tropezar a los modelos. Los modelos de razonamiento tardan un poco más (generalmente de segundos a minutos más) en llegar a soluciones en comparación con un modelo típico sin razonamiento. La ventaja es que tienden a ser más fiables en ámbitos como la física, la ciencia y las matemáticas.

El equipo de NovaSky cube que utilizó otro modelo de razonamiento, el QwQ-32B-Preview de Alibaba, para generar los datos de entrenamiento iniciales para Sky-T1, luego “seleccionó” la combinación de datos y aprovechó el GPT-4o-mini de OpenAI para refactorizar los datos en una versión más completa. formato viable. Entrenar el Sky-T1 de 32 mil millones de parámetros tomó aproximadamente 19 horas usando un bastidor de 8 GPU Nvidia H100. (Los parámetros corresponden aproximadamente a las habilidades de resolución de problemas de un modelo).

Según el equipo de NovaSky, Sky-T1 funciona mejor que una versión preliminar de o1 en MATH500, una colección de desafíos matemáticos de “nivel competitivo”. El modelo también supera la vista previa de o1 en un conjunto de problemas difíciles de LiveCodeBench, una evaluación de codificación.

Sin embargo, Sky-T1 no llega a la vista previa o1 de GPQA-Diamond, que contiene preguntas relacionadas con la física, la biología y la química que se espera que sepa un graduado de doctorado.

También es importante tener en cuenta que la versión GA de o1 de OpenAI es un modelo más potente que la versión preliminar de o1, y que se espera que OpenAI lance un modelo de razonamiento con un rendimiento aún mejor, o3, en las próximas semanas.

Pero el equipo de NovaSky afirma que Sky-T1 sólo marca el comienzo de su viaje para desarrollar modelos de código abierto con capacidades de razonamiento avanzadas.

“En el futuro, nos centraremos en desarrollar modelos más eficientes que mantengan un sólido rendimiento de razonamiento y exploraremos técnicas avanzadas que mejoren aún más la eficiencia y precisión de los modelos en el momento de la prueba”, escribió el equipo en la publicación. “Estén atentos a medida que avanzamos en estas interesantes iniciativas”.

fuente