Apple ha creado una IA que puede superar a GPT-4 en la comprensión de comandos
Los investigadores de Apple han desarrollado un sistema de inteligencia artificial llamado ReALM (Reference Resolution as Language Modeling), cuyo objetivo es mejorar drásticamente la forma en que los asistentes de voz entienden y responden a las órdenes.
En un artículo de investigación divulgado por VentureBeat, Apple presenta un nuevo sistema para resolver el problema del reconocimiento de referencias (indicaciones, referencias o enlaces) mediante grandes modelos lingüísticos. Esto incluye descifrar referencias o descripciones ambiguas de elementos en la pantalla y comprender el contexto de la conversación y los antecedentes generales. Como resultado, ReALM puede dar lugar a interacciones más intuitivas y naturales con los dispositivos.
El reconocimiento de referencias es una parte importante de la comprensión del lenguaje natural, ya que permite a los usuarios utilizar pronombres y otras referencias indirectas en una conversación sin confundirse. Para los asistentes digitales, esta capacidad ha sido históricamente un reto importante, limitado por la necesidad de interpretar una amplia gama de señales verbales e información visual. El sistema ReALM de Apple pretende resolver este problema convirtiendo el complejo proceso de reconocimiento de referencias en una tarea de modelización puramente lingüística. De este modo, puede entender las referencias a los elementos visuales que aparecen en la pantalla e integrar esta comprensión en el flujo de la conversación.
ReALM reconstruye la disposición visual de la pantalla mediante representaciones textuales. Se trata de analizar los elementos de la pantalla y su ubicación para crear un formato de texto que refleje el contenido y la estructura de la pantalla. Los investigadores de Apple descubrieron que esta estrategia, combinada con modificaciones específicas de los modelos lingüísticos para tareas de reconocimiento de referencia, supera significativamente a los métodos tradicionales, incluidas las capacidades GPT-4 de OpenAI.
ReALM puede permitir a los usuarios interactuar más eficazmente con los asistentes digitales teniendo en cuenta lo que hay en ese momento en su pantalla, sin necesidad de instrucciones precisas y detalladas. Esto tiene el potencial de hacer que los asistentes de voz sean mucho más útiles en diversos ámbitos, como ayudar a los conductores a manejar sistemas de infoentretenimiento mientras conducen o asistir a usuarios con discapacidades proporcionándoles una forma más fácil y precisa de interactuar indirectamente.
Apple ya ha publicado varios trabajos de investigación en el campo de la inteligencia artificial. El mes pasado, la empresa presentó un nuevo método de entrenamiento de grandes modelos lingüísticos que integra continuamente información textual y visual. Se espera que Apple desvele una serie de funciones de IA en el Congreso Mundial de Desarrolladores que se celebrará en junio.