Una investigación de Google lanza motor de detección de lenguaje de señas en tiempo real para las videollamadas

Autor de la entrada:JJR429
Publicación de la entrada:4 de octubre de 2020
Comentarios de la entrada:Sin comentarios
Tiempo de lectura:4 minutos de lectura

Un aspecto de las videollamadas que muchos de nosotros damos por sentado es la forma en que pueden cambiar de canal para resaltar a quien está hablando. Genial, si hablar es la forma de comunicarse. El habla silenciosa como el lenguaje de signos no activa esos algoritmos, desafortunadamente, pero esta investigación de Google podría cambiar eso.

Es un motor de detección de lenguaje de señas en tiempo real que puede saber cuándo alguien está haciendo señas (en lugar de sólo moverse) y cuándo ha terminado. Por supuesto que es trivial para los humanos decir este tipo de cosas, pero es más difícil para un sistema de videollamadas que está acostumbrado a sólo empujar píxeles.

Un nuevo artículo de los investigadores de Google, presentado (virtualmente, por supuesto) en el ECCV, muestra cómo se puede hacer con eficiencia y con muy poca latencia. Si la detección del lenguaje de señas funcionara, pero resultara en un vídeo retrasado o degradado, su objetivo era asegurarse de que el modelo fuera ligero y fiable.

El sistema primero ejecuta el video a través de un modelo llamado PoseNet, que estima las posiciones del cuerpo y las extremidades en cada cuadro. Esta información visual simplificada (esencialmente una figura de palo) se envía a un modelo entrenado en datos de poses de video de personas que usan el Lenguaje de Señas Alemán, y compara la imagen en vivo con lo que cree que son las señas.

Este simple proceso ya produce un 80 por ciento de precisión en la predicción de si una persona está haciendo señas o no, y con alguna optimización adicional obtiene hasta un 91,5 por ciento de precisión. Teniendo en cuenta que la detección del «hablante activo» en la mayoría de las llamadas es más o menos la misma para saber si una persona está hablando o tosiendo, esos números son bastante respetables.

Detección de lenguaje de señas en tiempo real — Fuente: Google

Para poder trabajar sin añadir una nueva señal de «una persona está firmando» a las llamadas existentes, el sistema utiliza un pequeño truco inteligente. Utiliza una fuente de audio virtual para generar un tono de 20 kHz, que está fuera del rango de audición humana, pero que es notado por los sistemas de audio de las computadoras. Esta señal se genera siempre que la persona está haciendo señas, haciendo que los algoritmos de detección del habla piensen que está hablando en voz alta.

Por ahora es sólo una demostración, que puedes probar aquí, pero no parece haber ninguna razón por la que no pueda ser integrada en los sistemas de videollamadas existentes o incluso como una aplicación que se apoya en ellos. Puedes leer el artículo completo aquí.

Fuente: Techcrunch.

Etiquetas: Google

JJR429

Hola, Soy J. Jose Rodriguez, Founder y editor en Tecxpla, software engineer, me encanta aprender de nuevas tecnologías y compartirlas. Videojuegos, diseños, aplicaciones, criptomonedas, SEO, Starups y más.

Please Share This Compartir este contenido

También podría gustarte

Google Photos ya no tendrá almacenamiento gratuito e ilimitado

Google Play Películas ahora se llama Google TV e integra Netflix, HBO, Disney+ y más

La batalla de Fortnite con Apple y Google por sacar su videojuego de sus tiendas de aplicaciones

Todo lo que Google ha anunciado en I/O 2021

Gmail tendrá cuentas verificadas y mostrará los logotipos de las marcas para evitar phishing

Google construirá un nuevo campus en San José con oficinas para 20,000 empleados

JJR429

Deja una respuesta Cancelar la respuesta

Compartir este contenido