Apple ha lanzado discretamente la red neuronal Ferret, que funciona con texto e imágenes

En octubre, Apple, con el apoyo de científicos de la Universidad de Cornell, hizo público su propio modelo de lenguaje multimodal a gran escala Ferret, que puede aceptar fragmentos de imágenes como consultas.

La publicación de Ferret en GitHub en octubre no estuvo acompañada de ningún anuncio importante por parte de Apple, pero el proyecto atrajo posteriormente la atención de los expertos del sector. El funcionamiento de Ferret consiste en que el modelo examina el fragmento especificado de la imagen, identifica los objetos de esa zona y los contornea con un marco. El sistema percibe los objetos reconocidos en el fragmento de imagen como parte de la consulta, cuya respuesta se proporciona en formato de texto.

Por ejemplo, un usuario puede seleccionar una imagen de un animal y pedir a Ferret que lo reconozca. El modelo responderá a qué especie pertenece el animal, y podrás hacerle preguntas adicionales en contexto, aclarando información sobre otros objetos o acciones.

El modelo abierto de Ferret es un sistema capaz de “vincular y probar cualquier cosa, en cualquier lugar y con cualquier detalle”, explicó Zhe Gan, investigador de la división de IA de Apple. Los expertos del sector destacan la importancia de dar a conocer el proyecto en este formato, ya que demuestra la apertura de una empresa tradicionalmente cerrada.

Según una versión, Apple dio este paso porque quiere competir con Microsoft y Google, pero no dispone de recursos informáticos comparables. Por ello, no podía contar con lanzar su propio competidor ChatGPT y tuvo que elegir entre asociarse con un hiperescalador basado en la nube o lanzar el proyecto en formato abierto, como había hecho Meta.com anteriormente.

Fuente vsviti
También podría gustarte
Comentarios
Loading...

Este sitio web utiliza cookies para mejorar su experiencia. Suponemos que está de acuerdo, pero puede darse de baja si lo desea. Acepte Seguir leyendo