Una investigación de Google lanza motor de detección de lenguaje de señas en tiempo real para las videollamadas

En este momento estás viendo Una investigación de Google lanza  motor de detección de lenguaje de señas en tiempo real para las videollamadas
  • Autor de la entrada:
  • Comentarios de la entrada:Sin comentarios
  • Tiempo de lectura:4 minutos de lectura

Un aspecto de las videollamadas que muchos de nosotros damos por sentado es la forma en que pueden cambiar de canal para resaltar a quien está hablando. Genial, si hablar es la forma de comunicarse. El habla silenciosa como el lenguaje de signos no activa esos algoritmos, desafortunadamente, pero esta investigación de Google podría cambiar eso.

Es un motor de detección de lenguaje de señas en tiempo real que puede saber cuándo alguien está haciendo señas (en lugar de sólo moverse) y cuándo ha terminado. Por supuesto que es trivial para los humanos decir este tipo de cosas, pero es más difícil para un sistema de videollamadas que está acostumbrado a sólo empujar píxeles.

Un nuevo artículo de los investigadores de Google, presentado (virtualmente, por supuesto) en el ECCV, muestra cómo se puede hacer con eficiencia y con muy poca latencia. Si la detección del lenguaje de señas funcionara, pero resultara en un vídeo retrasado o degradado, su objetivo era asegurarse de que el modelo fuera ligero y fiable.

El sistema primero ejecuta el video a través de un modelo llamado PoseNet, que estima las posiciones del cuerpo y las extremidades en cada cuadro. Esta información visual simplificada (esencialmente una figura de palo) se envía a un modelo entrenado en datos de poses de video de personas que usan el Lenguaje de Señas Alemán, y compara la imagen en vivo con lo que cree que son las señas.


Este simple proceso ya produce un 80 por ciento de precisión en la predicción de si una persona está haciendo señas o no, y con alguna optimización adicional obtiene hasta un 91,5 por ciento de precisión. Teniendo en cuenta que la detección del «hablante activo» en la mayoría de las llamadas es más o menos la misma para saber si una persona está hablando o tosiendo, esos números son bastante respetables.

Detección de lenguaje de señas en tiempo real
Fuente: Google

Para poder trabajar sin añadir una nueva señal de «una persona está firmando» a las llamadas existentes, el sistema utiliza un pequeño truco inteligente. Utiliza una fuente de audio virtual para generar un tono de 20 kHz, que está fuera del rango de audición humana, pero que es notado por los sistemas de audio de las computadoras. Esta señal se genera siempre que la persona está haciendo señas, haciendo que los algoritmos de detección del habla piensen que está hablando en voz alta.

Por ahora es sólo una demostración, que puedes probar aquí, pero no parece haber ninguna razón por la que no pueda ser integrada en los sistemas de videollamadas existentes o incluso como una aplicación que se apoya en ellos. Puedes leer el artículo completo aquí.

Fuente: Techcrunch.

JJR429

Hola, Soy J. Jose Rodriguez, Founder y editor en Tecxpla, software engineer, me encanta aprender de nuevas tecnologías y compartirlas. Videojuegos, diseños, aplicaciones, criptomonedas, SEO, Starups y más.

Deja una respuesta