Hace poco Google dio a conocer mediante una publicación de blog, la liberación de la segunda versión de su codec de audio «Lyra V2», que utiliza técnicas de aprendizaje automático para lograr la máxima calidad de voz cuando se utilizan canales de comunicación muy lentos.
La nueva versión presenta una transición a una nueva arquitectura de red neuronal, soporte para plataformas adicionales, control mejorado de tasa de bits, mejoras de rendimiento y mayor calidad de audio.
Ahora estamos lanzando Lyra V2, con una nueva arquitectura que disfruta de un soporte de plataforma más amplio, brinda capacidades de tasa de bits escalables, tiene un mejor rendimiento y genera audio de mayor calidad. Con este lanzamiento, esperamos seguir evolucionando con la comunidad y, con su creatividad colectiva, ver cómo se desarrollan nuevas aplicaciones y surgen nuevas direcciones.
Sobre Lyra
En cuanto a la calidad de los datos de voz transmitidos a baja velocidad, Lyra es significativamente superior a los códecs tradicionales que utilizan métodos de procesamiento de señales digitales. Para lograr una transmisión de voz de alta calidad en condiciones de una cantidad limitada de información transmitida, además de los métodos habituales de compresión de audio y conversión de señal, Lyra utiliza un modelo de voz basado en un sistema de aprendizaje automático que permite recrear la información que falta. basado en las características típicas del habla.
El códec incluye un codificador y un decodificador. El algoritmo del codificador extrae los parámetros de datos de voz cada 20 milisegundos, los comprime y los transfiere al destinatario a través de la red con una tasa de bits de 3,2 kbps a 9,2 kbps.
En el lado del receptor, el decodificador utiliza un modelo generativo para recrear la señal de voz original en función de los parámetros de audio transmitidos, que incluyen espectrogramas de tiza logarítmica que tienen en cuenta las características de la energía del habla en diferentes rangos de frecuencia y se preparan teniendo en cuenta la percepción auditiva humana.
¿Qué hay de nuevo en Lyra V2?
Lyra V2 utiliza un nuevo modelo generativo basado en la red neuronal SoundStream, que tiene bajos requisitos computacionales, lo que permite la decodificación en tiempo real incluso en sistemas de baja potencia.
El modelo utilizado para generar el sonido se ha entrenado utilizando varios miles de horas de grabaciones de voz en más de 90 idiomas (TensorFlow Lite se utiliza para ejecutar el modelo). El rendimiento de la implementación propuesta es suficiente para codificar y decodificar voz en teléfonos inteligentes del rango de precio más bajo.
Además de utilizar un modelo generativo diferente, la nueva versión también destaca por la inclusión de enlaces con el cuantificador RVQ (Residual Vector Quantizer) en la arquitectura del códec, que se realiza en el lado del emisor antes de la transmisión de datos, y en el lado del receptor después de la recepción de datos.
El cuantificador convierte los parámetros proporcionados por el códec en conjuntos de paquetes, codificando la información en relación con la tasa de bits seleccionada. Para garantizar diferentes niveles de calidad, se proporcionan cuantificadores para tres tasas de bits (3,2 kbps, 6 kbps y 9,2 kbps), cuanto mayor sea la tasa de bits, mejor será la calidad, pero mayores serán los requisitos de ancho de banda.
La nueva arquitectura ha reducido los retrasos en la transmisión de señales de 100 a 20 milisegundos. A modo de comparación, el códec Opus para WebRTC mostró retrasos de 26,5 ms, 46,5 ms y 66,5 ms en las tasas de bits probadas. El rendimiento del codificador y decodificador también ha aumentado significativamente: en comparación con la versión anterior, hay una aceleración de hasta 5 veces. Por ejemplo, en el teléfono inteligente Pixel 6 Pro, el nuevo códec codifica y decodifica una muestra de 20 ms en 0,57 ms, que es 35 veces más rápido de lo necesario para la transmisión en tiempo real.
Además del rendimiento, también logramos mejorar la calidad de la restauración del sonido: según la escala MUSHRA, la calidad del habla a tasas de bits de 3,2 kbps, 6 kbps y 9,2 kbps cuando se usa el códec Lyra V2 corresponde a tasas de bits de 10 kbps, 13 kbps y 14 kbps cuando se usa el códec Opus.
Finalmente si estás interesado en poder conocer más al respecto, puedes consultar los detalles en el siguiente enlace.
from Desde Linux https://ift.tt/pNeTq3U
via IFTTT
No hay comentarios.:
Publicar un comentario