El sistema Speech-to-Text de Google incluye ahora mejoras en la transcripción de llamadas telefónicas y vídeos, puntuación automática y metadatos de reconocimiento.

    Video: La visión de Google para el aprendizaje automático en su G SuitePrabhakar Raghavan, vicepresidente de G Suite para Google Cloud, sobre qué esperar de su conjunto de aplicaciones de trabajo basadas en la nube.

    • Google ha actualizado su API Cloud Speech-to-Text con llamadas telefónicas y transcripciones de vídeo mejoradas para que el servicio sea más útil para las empresas.
    • La actualización de voz a texto de Google incluye puntuación automática y metadatos de reconocimiento opcionales.

    El lunes, Google anunció una importante actualización de su tecnología Cloud Speech-to-Text que hará que la API sea más útil para las empresas, incluida la mejora de las llamadas telefónicas y la transcripción de vídeo.

    El anuncio se produce tras la presentación en marzo de la oferta Cloud Text-to-Speech de Google, que permite a los desarrolladores potenciar los sistemas de respuesta de voz para los centros de llamadas, permitir que los dispositivos de Internet de los objetos (IO) respondan a los usuarios y convertir los medios basados en texto en un formato hablado. Podría indicar que el gigante de la tecnología está cada vez más interesado en llevar a la empresa sus herramientas de inteligencia artificial (IA.

    Nube que hay que leer

    Cloud Speech-to-Text, anteriormente conocida como Cloud Speech API, se presentó por primera vez en 2019 y ha estado disponible durante aproximadamente un año. El uso de la API se ha más que duplicado cada seis meses, según una entrada en el blog de Google de Dan Aharon, director de producto de Cloud AI.

    VER: Glosario rápido: Nube híbrida (Tech Pro Research)

    La actualización de Cloud Speech-to-Text incluye modelos de reconocimiento de voz que se adaptan a casos de uso específicos, incluyendo transcripciones de llamadas telefónicas y transcripciones de audio de vídeo, según el artículo. Los clientes pueden elegir el modelo que mejor se adapte a las necesidades de su negocio.

    La actualización también incluye uno de los primeros programas opt-in de la industria para el registro de datos, con un modelo llamado «enhanced phone_call» que utiliza los datos de los clientes para mejorar el sistema. Los clientes que decidan participar en el programa tendrán acceso al modelo, que tiene un 54% menos de errores que el modelo básico «phone_call», según el post.

    Google también reveló el modelo de vídeo, que ha sido optimizado para procesar audio de videos y/o audio con múltiples altavoces, dijo el post. El modelo de vídeo utiliza el aprendizaje automático -similar al utilizado por los subtítulos de YouTube- y ofrece una reducción del 64% en los errores en comparación con el modelo predeterminado.

    Cloud Speech-to-Text también incluye ahora la puntuación automática en las transcripciones de voz gracias a una nueva red neuronal LSTM. El modelo -ahora disponible en beta- puede sugerir automáticamente comas, signos de interrogación y puntos en el texto. Esto podría ser útil para transcripciones de llamadas en conferencia, o para tomar notas por voz también.

    Los usuarios también pueden puntear en los metadatos de reconocimiento opcionales para etiquetar y agrupar las cargas de trabajo de transcripción, y proporcionar información al equipo de Google para mejorar el producto, señala el artículo. Por ejemplo, puede describir el audio o vídeo transcrito con etiquetas como «comandos de voz para una aplicación de compras» o «programas de televisión de deportes de baloncesto», y Google agrega esa información entre los usuarios de Cloud Speech-to-Text para determinar su próximo proyecto, según el artículo.

    «El acceso a la tecnología de transcripción de voz de calidad abre un mundo de posibilidades para las empresas que quieren conectarse y aprender de sus usuarios», escribió Aharon en el post. «Con esta actualización de Cloud Speech-to-Text, tendrá acceso a las últimas investigaciones de nuestro equipo de expertos en aprendizaje de máquinas, todo a través de una simple API REST».

    Tanto el modelo «enhanced phone_call» como el modelo de vídeo ya están disponibles para la transcripción en inglés, y pronto estarán disponibles para otros idiomas, según el post. En términos de costos, la API es de $0.006 por cada 15 segundos de audio para todos los modelos, excepto el modelo de video, que es de $0.012 por cada 15 segundos. Sin embargo, Google está proporcionando el nuevo modelo de vídeo por 0 euros.006 por 15 segundos por un período de prueba limitado hasta el 31 de mayo.

    Puede obtener más información o probar una demostración en la página de productos de voz al texto.

    Boletín de noticias de Cloud Insights

    Su base de conocimiento para lo último sobre AWS, Microsoft Azure, Google Cloud Platform, Docker, SaaS, IaaaS, seguridad en la nube, contenedores, la nube pública, la nube híbrida, la nube de la industria y mucho más. Lunes de entrega

    mismo