Yaniv Davidson, director ejecutivo de Tunity, explica cómo el aprendizaje automático puede ayudar a transmitir contenido de televisión a su dispositivo móvil.
Cómo el aprendizaje automático puede redefinir la forma en que vemos televisiónEl director ejecutivo de televisionTunity, Yaniv Davidson, explica cómo el aprendizaje automático puede ayudar a transmitir contenido de televisión a su dispositivo móvil.
Yaniv Davidson, CEO de Tunity, y Paul Lindstrom, Jefe de Investigación y Análisis de Tunity, hablaron con Dan Patterson, de ConsejoTecnologico.com, sobre cómo la televisión puede ser transformada a través del aprendizaje a través de la máquina, ya que transmite el contenido de la televisión a los dispositivos móviles. La siguiente es una transcripción editada de la entrevista.
Más información sobre innovación
Dan Patterson: La televisión ha sido relegada a la segunda pantalla. No hace mucho, ese era tu teléfono. Sin embargo, la conexión entre ambos sigue siendo una especie de santo grial para las comunidades empresarial y tecnológica. Tunity hace algo que es muy novedoso y fascinante. Con la aplicación, puede escanear visualmente una pantalla de televisión y hacer que el audio se transmita a su teléfono. Cuéntame un poco sobre cómo funciona la tecnología.
Yaniv Davidson: Utilizamos la visión por ordenador y la tecnología basada en el aprendizaje profundo, por lo que las redes neuronales que entrenamos, con el fin de detectar dónde está la televisión, y detectar qué canal, básicamente comparar lo que el usuario está viendo con alrededor de 140 canales en vivo que apoyamos. Una vez que determinamos qué canal está viendo el usuario, también determinamos el tiempo exacto de lo que el usuario está viendo…. Así que, si yo estoy viendo un partido en Nueva York, y tú lo estás viendo en Los Ángeles, y podría haber una diferencia de 30-40 segundos entre nosotros, eso también lo determinamos. Así que también podemos sincronizar el audio. Además, utilizamos nuestro propio protocolo de audio para transmitir el audio en directo directamente a cada usuario. Si entro en un bar y hay 20 televisores allí, todo lo que tengo que hacer es apuntar mi teléfono al televisor, escanearlo por un segundo, y Tunity detectará automáticamente el canal, la hora y empezaré a escuchar el juego que quiero.
Dan Patterson: Sí. ¿Y cómo funciona la tecnología? ¿De qué manera utiliza el aprendizaje automático? Y cuéntame un poco sobre la parte de atrás.
VER: Desarrollo Web + Desarrollo Móvil (Foros CNET)
Yaniv Davidson: Claro, así que, básicamente, la aplicación en sí misma sólo toma unos pocos fotogramas de vídeo, básicamente para ver lo que el usuario está viendo. Y luego los elementos de aprendizaje de la máquina, – hay un montón de elementos de aprendizaje de la máquina que nos ayudan, digamos, a adivinar mejor qué canales es más probable que veas, en función de quién eres, dónde estás, qué otras personas a tu alrededor están viendo, qué está pasando en el juego en este momento. Luego, básicamente, identificamos los diferentes elementos o características de la imagen y tratamos de hacerla coincidir con los canales o contenidos que sabemos que están en vivo en este momento. Y luego, básicamente, hacemos el ajuste final de fotograma a fotograma para determinar el tiempo exacto. ¿Eso tiene sentido?
Dan Patterson: Si. ¿Qué papel juegan los grandes datos y los análisis?
Yaniv Davidson: Los datos grandes son una palabra muy grande, y mucha gente los usa. Eso es más bien el área de experiencia de Paul. Sólo quiero hacer una especie de aclaración sobre, ya sabes, hay datos, lo que es genial, y hay información, que es en realidad la parte que es útil dentro de los datos. Pero Paul, esto será mejor si lo discutes.
Paul Lindstrom: Lo más importante a tener en cuenta con lo que está sucediendo aquí, es que hay muchas mediciones que intentan determinar qué es lo que la gente está viendo dentro de lugares fuera del hogar: bares, gimnasios, restaurantes, consultorios médicos, lo que sea. Pero casi todo esto se está haciendo utilizando tecnologías de reconocimiento de audio. Y fundamentalmente, eso significa que no son capaces de reconocer la visión que está ocurriendo donde el sonido es silenciado. Por lo tanto, si no hay sonido y está utilizando el reconocimiento de audio, no puede hacerlo. Y hay una relación inversa entre su capacidad para identificar un programa o lo que se sintoniza y la cantidad de ruido ambiental. Por lo tanto, si estás en un bar con mucha gente dentro, es mucho más difícil reconocer que, de hecho, se está afinando.
Y así, en este momento, y no voy a pasar por todos los detalles en términos de cómo llegar allí, pero la gran mayoría de la visión que se está viendo como sintonización fuera de casa es en realidad la visión de los huéspedes en las casas de otras personas. Utilizando un reconocimiento de vídeo, que es lo que Yaniv estaba describiendo, podemos identificar la sintonía que está ocurriendo en estos lugares, donde hay ruido ambiental y donde los equipos están silenciados. Y está proporcionando información que nunca ha estado disponible para nadie antes.
VER:Google lanza VisBug, una extensión de Chrome para el diseño web apuntar y hacer clic (ZDNet)
Dan Patterson: ¿Y cómo trabajas o trabajas con los proveedores de contenido? ¿Existen problemas de derechos cuando se trata de transmitir la información a un dispositivo? ¿Cómo se negocian los acuerdos B2B?
Paul Lindstrom: La forma en que se recoge es que el audio se proporciona cuando alguien se encuentra a una distancia corta de la pantalla, dentro de la distancia a la que usted podría terminar viéndolo. Así que, en efecto, no es mucho más que usar un par de auriculares, y caería bajo un uso justo. No es un caso en el que puedas salir del bar y seguir escuchando un evento en ESPN como si lo estuvieras haciendo en la radio. Así que está cayendo dentro de esos límites. Estamos trabajando con los proveedores del programa para poder mostrarles una idea de esta audiencia que actualmente no está medida ni reportada.
Dan Patterson: ¿Y dónde ve, en los próximos, digamos, de 18 a 36 meses, dónde ve el papel del aprendizaje de datos y máquinas en aplicaciones como Tunity?
Yaniv Davidson: Cuando iniciamos Tunity, hace tres o cuatro años, comenzando a desarrollar la tecnología, ésta se basaba principalmente en la visión por computador y en el aprendizaje clásico a través de la máquina. Lo cual fue fantástico, pero luego empezamos a aprender a fondo, y todo lo que se puede hacer con la visión por computador más el aprendizaje por computadora, se puede hacer mejor con el aprendizaje profundo. La razón es, y por favor, deténgame si me pongo demasiado técnico, pero con el aprendizaje clásico de la máquina hay un límite a la cantidad de cada una de las muestras que usted tiene, en realidad mejorará el rendimiento de su algoritmo. Así que, si tengo 1.000 muestras, lo haré tal vez el doble de bien, como si tuviera 100 muestras. Con el aprendizaje profundo, esa limitación casi desaparece, así que es casi, se puede ver una curva lineal en el rendimiento, basado en el número de muestras. Así que si tengo 1.000.000 de muestras, voy a ser 1.000 veces mejor que si tengo 1.000, para simplificarlo un poco.
VER: tecnología 5G: Guía del líder empresarial (Tech Pro Research)
Por lo tanto, hoy en día Tunity cuenta con decenas de miles de usuarios que lo utilizan cada día. Esto significa que semanalmente podemos mejorar el rendimiento de nuestro sistema, sin afectar a nuestros usuarios. Nadie tiene que descargar una nueva versión de una aplicación ni nada. Todo funciona en la nube. Y todo lo que hacemos es entrenar nuevas y mejores redes neuronales, que en realidad funcionan mejor porque, ya sabes, si le preguntas a un niño de dos años, ¿esto es un coche o no? Entonces, ya sabes, tendrá que adivinar hasta que vea suficientes coches. Cuando ves miles o decenas de miles de televisores al día, y diferentes canales, entonces con un aprendizaje profundo, podemos entrenar a las redes neuronales para que sepan que es un televisor, incluso si estamos en un ángulo extraño, o entender si se trata de un partido de fútbol o de baloncesto, lo que abre esto a muchas más aplicaciones. ¿Es un anuncio de Starbucks o de Budweiser?
Así que básicamente, la forma en que veo el aprendizaje profundo de la tecnología de Tunity es que ahora mismo estamos muy concentrados. Queremos que la gente escuche cualquier televisor apagado. Desea reconocer el canal correctamente. Queremos hacerlo rápido. Y queremos dar la hora exacta, para que el audio y el vídeo estén sincronizados. La siguiente etapa es, obviamente, no sólo el apoyo a 200 o 500 canales en vivo, es la creación de una enorme biblioteca de contenido en la parte superior, y usted puede pensar en los diferentes servicios que podemos servir con eso. Y la siguiente fase es entender qué hay en la televisión ahora mismo, o dónde estoy. ¿Estoy en un bar? ¿Estoy en un gimnasio? Así que así es como lo vemos nosotros.
Próximo boletín informativo de Big Thing
Conoce las ciudades inteligentes, la IA, la Internet de las cosas, la RV, la conducción autónoma, los aviones no tripulados, la robótica y más de las innovaciones tecnológicas más geniales. Entregado los miércoles y viernes