DEPSEC HowS AI Playbook Rate, y por qué todos lo seguirán
3 min read
Hay más. Para hacer que el uso de la educación de reforzar sea lo más eficiente posible, el grupo DEPSEC también ha creado un nuevo algoritmo llamado Optimización de políticas (GRPO). Utilizó GRPO durante el primer año, para crear un modelo llamado DropeCmath.
Evitaremos Detallado– Solo necesita saber que un posible paso en el aprendizaje de reforzados está involucrado en el cálculo de una puntuación para determinar si los pasos posibles son buenos o peores. Muchas técnicas existentes de refuerzo-sheikh requieren un modelo completamente separado para crear este recuento. En el caso de los grandes modelos de idiomas, significa un segundo modelo que puede ser el primero en hacer y funcionar como costoso. En lugar de usar el segundo modelo para predecir la puntuación, el GRPO simplemente hizo una estimación educada. Es más barato, pero aún lo suficientemente correcto como para trabajar.
Un método común
El uso de la educación de refuerzo en DIPSEC es la principal innovación que la compañía describe su documento R 1. Sin embargo, DipSec no es el único en la prueba de la empresa con esta estrategia. Dos semanas antes de 1 nominación, un equipo de Microsoft Asia anunció un modelo llamado Star-Math, que fue entrenado de manera similar. Matt Jail, fundador y CEO de AI Farm Clearify, dijo: “Acaba de saltar en la actuación.
El algodón de AI2 también se creó utilizando las técnicas hábiles de refuerzo-shekha (pero no en lugar de monitorear el ajuste delicado y RLHF en lugar de los pasos liderados por humanos). Y la cara de abrazo de la firma estadounidense está corriendo para hacer la réplica de R1 con OpenR, un clon del modelo DIPCSM que revelará más elementos de la esperanza de la cara del abrazo y 1 salsa especial de 1.
Además, las principales organizaciones como Open, Google Dipmind y Etnicals ya están utilizando sus propias versiones de las DipcoSes para capacitar a sus modelos de nueva generación. “Estoy seguro de que están haciendo lo mismo, pero tendrán su propio gusto”, dijo la cárcel.
Sin embargo, hay múltiples estrategias para los destituyentes cuya manga. Ha entrenado su modelo base V3 para hacer algo llamado predicción de múltiples token, donde el modelo ha aprendido a predecir una serie de palabras a la vez. Este entrenamiento se vuelve barato, así como para aumentar la precisión. “Si piensas en cómo estás hablando, cuándo estás en la mitad de una oración, sabes lo que está a punto de ser el resto de la oración”, dijo la cárcel. “Estos modelos también deberían poder poder”.
También ha encontrado formas baratas de crear conjuntos de big data. El modelo del año pasado, para la capacitación de ProfectMath, tomó un conjunto de datos gratuito llamado Common Craly, una gran cantidad de documentos raspados de Internet, y utilizando un proceso automático para extraer problemas de matemáticas. Era mucho más barato que crear un nuevo conjunto de datos de problemas matemáticos a mano. Era aún más efectivo: el rastreo normal incluía muchas más matemáticas que cualquier conjunto de datos de matemáticas expertas.
Y en el hardware, DEPSEC ha encontrado nuevas formas de juzgar chips antiguos, permitiendo que los modelos de nivel superior entrenen el último hardware en el mercado sin toser. Zillar dice que la mitad de sus innovaciones provienen directamente de la ingeniería: “Ciertamente tienen algo en ese grupo, muy buen ingeniero de GPU”.