Apple publica modelos lingüísticos OpenELM para trabajar sin Internet

On Apr 26, 2024 7

Apple ha presentado una nueva serie de modelos de lenguaje OpenELM diseñados para funcionar localmente en los dispositivos sin necesidad de conectarse a servicios en la nube. La serie incluye ocho modelos de distintos tamaños y tipos, que van de 270 millones a 3.000 millones de parámetros.

Estos modelos se han entrenado en enormes conjuntos de datos públicos, que incluyen 1,8 billones de tokens de recursos como Reddit, Wikipedia y arXiv.org. Gracias a un alto grado de optimización, los modelos OpenELM pueden funcionar en portátiles convencionales e incluso en algunos smartphones, como se ha demostrado en dispositivos como PC Intel i9 y RTX 4090 y MacBook Pro con chip M2 Max.

Una de las opciones seleccionadas, un modelo con 450 millones de parámetros, con instrucciones, mostró unos resultados excelentes. El modelo OpenELM-1.1B con 1.100 millones de parámetros demostró ser un 2,36% más eficaz que el modelo GPT similar, OLMo, utilizando la mitad de los datos de entrenamiento.

En la prueba de referencia ARC-C, diseñada para poner a prueba el conocimiento y el razonamiento lógico, la versión preentrenada de OpenELM-3B mostró una precisión del 42,24%. En otras pruebas, como MMLU y HellaSwag, el modelo obtuvo un 26,76% y un 73,28% respectivamente.

Apple también ha publicado el código fuente de OpenELM en la plataforma Hugging Face bajo una licencia abierta, proporcionando acceso a modelos entrenados, puntos de referencia e instrucciones para trabajar con estos modelos. Sin embargo, la empresa advierte de que los modelos pueden producir respuestas incorrectas, maliciosas o inaceptables debido a la falta de garantías de seguridad.

Fuente VentureBeat