Evernote CTO Anirban Kundu explica cómo el aprendizaje automático y el procesamiento del lenguaje natural se incorporan a la plataforma y ayudan a descubrir el contenido de forma casual.
Cómo Evernote utiliza la IA para recopilar y organizar su vida empresarialEl Director Técnico de Evernote, Anirban Kundu, explica cómo el aprendizaje automático y el procesamiento del lenguaje natural se incorporan a la plataforma y ayudan a descubrir el contenido de forma fortuita.
Dan Patterson, de ConsejoTecnologico.com, pide al CTO de Evernote, Anirban Kundu, que explique cómo el aprendizaje automático en la plataforma Evernote puede conducir a un mundo de contenido. La siguiente es una transcripción editada de la entrevista.
Dan Patterson: La transformación digital afecta a casi todos los negocios, pero a menudo es difícil tender un puente entre el mundo analógico y el digital. Anirban, su empresa ha sido pionera en la transformación de lo táctil, los elementos que tenemos, y que usamos, y que componemos en el mundo digital, o en el mundo tangible para el mundo digital, y sé que sus capacidades de OCR han sido bastante fuertes durante mucho tiempo. Pero ayúdenos a entender la tecnología que hay detrás de cómo funciona el OCR.
Más información sobre innovación
Anirban Kundu: Vale. Así que antes de empezar a rodar, en realidad un poco de contexto, un poco de historia probablemente se aplicaría a esta pregunta en particular. Evernote fue fundado por Stepan Pachikov, un brillante científico ruso, y esencialmente vendió o licenció su tecnología al producto Apple Newton hace 25 años…. en algún momento de ese periodo de tiempo, y continuó trabajando en un producto utilizando un motor de reconocimiento escrito a mano llamado CalliGrapher, que se convirtió en la base de una compañía llamada ParaGraph.
Por lo tanto, la idea de salvar la brecha entre el mundo físico y las cosas que se toman en forma manuscrita, o incluso en forma textual, en forma impresa, y luego ponerla a disposición en alguna forma que podamos recordar, y poder buscar un índice…. que siempre ha sido la base de la empresa. Inicialmente comenzó con varios niveles de redes neuronales que esencialmente le permitieron ser capaz de detectar texto y signos de baja calidad o distorsionados, cosas de ese tipo, y luego avanzar más hacia el reconocimiento óptico de caracteres (OCR) y el reconocimiento inteligente de caracteres, incluso, tecnologías ICR.
VER: Política de grandes datos (Tech Pro Research)
Pero luego fuimos más allá por ese camino, donde nos dimos cuenta de que no podemos limitarlo sólo a las lenguas romanas. Terminamos pasando una tremenda cantidad de tiempo también siendo capaces de reconocer CJKO, chino, japonés, idiomas coreanos, e incluso en la forma escrita a mano. Y la cantidad de trabajo que supone conseguir que esos lenguajes funcionen, lo que incluye no ser capaz de reconocer realmente los límites de una palabra, o incluso en forma manuscrita, entender los símbolos en lugar de los caracteres reales que están bien colocados, fue la base de la empresa durante los primeros 10 años de su existencia.
Por lo tanto, Evernote ha hecho una tremenda cantidad y tiene una tremenda cantidad de patentes relacionadas con la idea de poder pasar de este mundo real en forma manuscrita, y luego llevarlo hasta el final a la forma digital. Es una combinación de aprendizaje automático, en la que las redes neuronales son capaces de distinguir caracteres particulares y luego canalizarlo a varios niveles de SVMs o soportar máquinas vectoriales, que es otra forma de aprendizaje automático, para poder hacerlo a un ritmo muy rápido. Y luego también ser capaz de decir probabilísticamente:»Oh, creo que esta es la palabra o la frase en la que estás tratando de trabajar».
Una de las cosas en las que siempre trabajan los OCRs, es la idea de poder identificar palabras. Bueno, en la tecnología de RC de Evernote, no son sólo palabras, en realidad sólo podemos identificar el contexto de la frase, lo que nos ayuda a averiguar mejor cómo y qué es lo que el usuario estaba diciendo. Así que todos ellos han sido colocados en los cimientos de cómo Evernote esencialmente hace el reconocimiento de caracteres a través de múltiples idiomas.
Dan Patterson: Así que, dijiste la palabra mágica unas cuantas veces, que es»aprendizaje automático». Obviamente, esta es una tecnología que está impulsando gran parte de la transformación digital en todas las industrias. Si usted era un usuario como yo, y ha vertido muchos componentes de su vida, no sólo notas, en Evernote, la búsqueda y las funciones de descubrimiento dentro del producto son casi tan esenciales como las funciones de composición. ¿Cómo ha ayudado el aprendizaje automático a la evolución del producto y cómo ayuda a la experiencia del usuario final?
Anirban Kundu: Yo diría que ha ayudado, el aprendizaje automático ha ayudado de muchas maneras diferentes. Si realmente piensas en Evernote, el contexto central de lo que estamos tratando de hacer comienza con el coleccionismo. ¿Puedo ayudarte a recordar un momento en particular, un punto en el tiempo, verdad? Y a veces se basa visualmente, a veces es algo que has escrito, cosas de ese tipo. Pero todo eso es genial. Si no se puede recuperar en un momento posterior, entonces es una especie de inútil, una especie de inútil en la recolección de esa información esencialmente.
Para nosotros, cuando aplicamos el aprendizaje automático, se aplica en tres contextos diferentes. La primera es obviamente, especialmente si se trata de imágenes o notas manuscritas o cosas de ese tipo, terminamos aplicando nuestra propia tecnología interna de OCR e ICR en ciertos contextos, dependiendo del lenguaje y de las cosas de ese tipo. Ser capaz de identificar cuál es la probabilidad o la puntuación probabilística de qué es lo que estás tratando de recordar? Así que no es sólo una cosa, es una probabilidad dado el contexto de una declaración. Así que lo utilizamos para ayudarle a encontrar ese documento en un momento posterior, muy fácilmente utilizando la tecnología de búsqueda.
La segunda que aplicamos, y bastante, son las recomendaciones para ayudarte a autoetiquetar tu contenido, o autoorganizar tu contenido, para que aunque no hayas dicho algo explícitamente, podamos semánticamente tratar de entender el significado de lo que es, y luego ayudarte a encontrarlo para que no tengas que pensar activamente en, «Oh, tengo que etiquetar este contenido», o, «tengo que crear todos estos elementos esenciales de cómo voy a recordar este contenido mientras estoy creando el contenido». Trabajamos muy duro para tratar de averiguar cómo podemos limitar la cantidad de sobrecarga cognitiva, los cambios cognitivos o el cambio de contexto que hay que hacer mientras se crea y no mientras se recupera el contenido. Así que esa es la segunda categoría.
VER: Política de copias de seguridad de datos del usuario final (Tech Pro Research)
Y luego hay una tercera categoría, que es, especialmente en el contexto de los equipos, porque hemos llegado a reconocer que gran parte del contenido que los usuarios de Evernote terminan creando está en el contexto de los negocios, y en el contexto del trabajo con otras personas. Y así, hay mucho trabajo que terminamos haciendo pensando con quién deberíamos estar nominando este contenido para compartirlo, para conectarnos con él, y luego, cuando esa persona está conectada con él, ¿cómo podemos hacer que sea realmente rápido para que también puedan indexar ese contenido? Cosas de ese tipo.
Así que hay tres categorías de cosas en las que el aprendizaje automático desempeña un papel fundamental para nosotros. Decimos que hay otras cosas relacionadas con el uso y la gestión de contenidos que también tratamos, pero no son cosas que los usuarios ven directamente de inmediato.
Dan Patterson: ¿Hubo desafíos en la implementación de…. Sé que esta es una pregunta masiva, pero al implementar la tecnología de aprendizaje automático para esas tres funcionalidades centrales, ¿hubo algún reto que haya experimentado que otras empresas o CISOs pudieran sacar mucho provecho del aprendizaje? Sé que es difícil hablar de desafíos o problemas sin revelar algo de la salsa secreta, y no quiero que lo hagas, pero creo que el aprendizaje automático está teniendo realmente un impacto en los negocios en general en este momento, y me pregunto si podrías ayudarnos a aprender de algunos de los desafíos que tuviste que enfrentar al implementar estos.
Anirban Kundu: Lo primero que yo diría… Básicamente, quiero hacer dos observaciones al respecto. El primer punto es, realmente comienza tomando la perspectiva del usuario de lo que quiere lograr. ¿Cuál es la característica o funcionalidad de la red que el usuario termina obteniendo y cómo podemos, como resultado, exponer esa funcionalidad a ellos? Así que eso es lo primero que hay que tener, esta visión del usuario primero, no de la corporación o la empresa, o la perspectiva del producto primero. Así que eso es lo primero que yo diría que ha sido muy esclarecedor para mí, en términos de cómo hacemos el aprendizaje automático en Evernote.
El segundo, que es en términos de…. obviamente hay políticas que hay que establecer, en términos de lo que se puede o no se puede aprender a máquina. Hay cosas de ese tipo, pero también hay otras cosas como qué tipo de algoritmo deberíamos usar y en qué contexto… Por lo tanto, hay varios algoritmos diferentes que terminamos utilizando el aprendizaje automático. Es todo el camino desde las redes neuronales para soportar máquinas vectoriales como me referí antes, e incluso los bosques al azar. Depende de la cantidad de datos, de la cantidad de contenido que tengamos para un tipo particular de algoritmo con el que nos encontremos, y de las características que podamos extraer.
Así, por ejemplo, para las redes neuronales y el aprendizaje profundo, las aplicamos más a las tecnologías basadas en imágenes digitales. No se utilizan tanto en autoetiquetado, ni en la búsqueda de una pieza de contenido en particular, porque la diversidad de contenido y la cantidad de contenido contra la que podemos verificar es obviamente limitada en ese caso en comparación con el lado de la imagen digital de las cosas, especialmente con cosas como ImageNet que nos da acceso a una cantidad tremenda de conjuntos de datos, lo que lo hace mucho más simple. Por lo tanto, el algoritmo depende de la cantidad de datos que tengamos y del tipo de aplicación a la que estemos tratando de aplicarlo.
Y luego está la última parte, que es lo que es un nivel aceptable de bondad… Va desde la perfección hasta un cierto nivel de incertidumbre, pero mezclarlo con los múltiples niveles de múltiples algoritmos diferentes, como en un modelo de bosque aleatorio, también es algo que pasamos mucho tiempo pensando. Así que no se trata de,«Oh, tenemos que llegar a nueve si es posible,« nunca llegas a ese nivel, pero ese es el modelo de pensamiento. ¿Qué es lo suficientemente bueno para determinar algo que está listo para ser usado por el usuario? Así que esas son cosas que…
Dan Patterson: Cuando se habla de bien, ¿cómo se definen los conjuntos de valores o el éxito que define bien?
Anirban Kundu: Depende de la aplicación, ¿verdad? Así, por ejemplo, en el reconocimiento de imágenes, en el nivel básico de comprensión de un token o una palabra, eso puede ser un poco menos preciso, pero cuando lo pones en el contexto de una oración cuando los combinas todos juntos, entonces esperas alcanzar ese nivel más alto de probabilidad de que esto sea bueno como una oración, como un contexto, como un todo, por ejemplo. Así que depende del contexto.
En términos de recomendaciones para, «Hey, creo que esto debería ser puesto en este cuaderno pero necesita ser etiquetado en esta forma,» entonces el nivel de bondad puede, de nuevo, caer un poco porque estamos dejando que el usuario interactúe con el sistema. «Oh sí, estoy de acuerdo con su evaluación o no estoy de acuerdo con su evaluación, y luego hacer un cambio, y luego que termina por retroalimentar al sistema haciendo esto mejor. Por lo tanto, la pregunta es, la precisión, en ser capaz de recuperar, es algo que gastamos una tremenda cantidad de tiempo para ser tan bueno como sea posible. Pero cuando se trata de una recomendación en la que el usuario tiene la oportunidad de ver estos varios niveles de la recomendación, entonces puede ser un poco menos natural. Así que depende del contexto, diría yo.
VER: Intel y DARPA se fijan en la IA y en el aprendizaje de máquinas para mejorar la analítica de gráficos en datos de gran tamaño (ZDNet)
Dan Patterson: Ojalá tuviéramos horas para continuar una conversación sobre el aprendizaje automático, el OCR y las otras tecnologías que son el núcleo de Evernote. Pero me pregunto si podría dejarnos con un pronóstico, tal vez mirando hacia adelante de 18 a 36 meses en términos de las capacidades de aprendizaje automático en los negocios y en la empresa. Y pregunto sobre el corto plazo porque se trata de tecnologías de las que las empresas ya tienen conocimientos prácticos y están experimentando la implementación. Así que es muy importante hacer esto bien, ahora mismo.
Anirban Kundu: Hagámoslo, permanezcamos en el contexto del coleccionismo, porque claramente este es un tema muy, muy grande y hay múltiples vías diferentes por las que podemos seguir.
Dan Patterson: Ciertamente.
Anirban Kundu: Pero en el contexto de la colección, yo diría que Evernote está pensando fundamentalmente en tres cosas diferentes, una que no es sólo, «Oye, ¿podemos reconocer esta nota escrita a mano?» Pero aún más que eso, «¿Podemos mapear esa nota manuscrita en algún tipo de significado semántico que pueda alimentar, incluso potencialmente, a un servicio de terceros? Así que, por ejemplo, ¿podemos tomar una nota escrita a mano de que un representante de ventas ha escrito sobre sus conexiones con su cliente potencial, y luego automáticamente introducirlo en algo como la fuerza de ventas? Así que ese es el paso del contenido a una acción que es impulsada por el contenido, así que ese es el primer conjunto de cosas.
La segunda, que es un entendimiento de que la gente no sólo trata con letras y caracteres y palabras, sino que también trata con imágenes y entidades y relaciones que existen entre esas imágenes, cajas y círculos en particular o lo que sea que haya. Así que una de las cosas que estamos tratando de hacer es entender y ser capaces de encontrar relaciones que puedan existir a través de estos diagramas de cajas, o imágenes, estas entidades. Y luego llevando esto un paso más allá, que es decir: «Oh, sabes qué, creo que reconozco que esto es un organigrama de algún tipo», así que cuando el usuario termina haciendo una búsqueda a partir de algo como: «Recuerdo que dibujé un organigrama, pero no puse ninguna palabra que pudiera recordar o buscar», podían decir: «Recuerdo que dibujé un organigrama, ¿puedes encontrarme esa nota en particular que tenía el organigrama en él? O, «Tenía dos cajas y un círculo, creo que eso es lo que parecía, ¿puedes encontrarlo?» Y podemos empezar a ayudarle a encontrar esas piezas particulares de información, y todo ello impulsado por las maravillas del aprendizaje de la máquina, en realidad.
Y luego está la tercera categoría de colección en la que pensamos mucho, que es cómo no sólo trabajas en el contexto del lado visual de las cosas, sino que puedes aplicar eso al audio y los videos en la naturaleza. Y en el contexto del audio, ¿cómo podemos hacer que las transcripciones de audio sean mucho mejores si las entendemos y mapeamos y las combinamos con el contenido que ya tienes? Porque entonces, por ejemplo, un acrónimo que usted utilizó que es único para su corpus de datos o el corpus de datos de su negocio, ese acrónimo en sí puede ser transcrito del audio del que usted habla en un contexto particular. Esas son cosas en las que pensamos mucho y en las que estamos trabajando ahora mismo, y todo ello impulsado por los cimientos del aprendizaje automático como plataforma.
Próximo boletín informativo de Big Thing
Conoce las ciudades inteligentes, la IA, la Internet de las cosas, la RV, la conducción autónoma, los aviones no tripulados, la robótica y más de las innovaciones tecnológicas más geniales. Entregado los miércoles y viernes
mismo