por Stephanie Simone
El CEO de Jannes Aasman, Franz Inc, habló sobre “Analizar conversaciones habladas para el apoyo a la toma de decisiones en tiempo real en aplicaciones de misión crítica” durante su presentación de KMWorld Connect 2020, que forma parte de la pista del Foro de análisis de texto.
Esta charla cubrió el trabajo que hace Franz para analizar las conversaciones habladas entre clientes y CRM o agentes del centro de llamadas en aplicaciones de misión crítica junto con los desafíos adicionales de asegurarse de que la tecnología de voz a texto pueda lidiar con conceptos de dominio.
El análisis de texto está creciendo rápidamente, explicó Aasman, pero el habla está creciendo aún más rápido. El reconocimiento de voz se está convirtiendo en parte de la vida cotidiana, desde el uso de Alexa hasta Cortana y el Asistente de Google.
Las API para el procesamiento de voz mejoran día a día, dijo. Es fácil incorporar esta tecnología en el trabajo.
Al combinar la tecnología del habla, el procesamiento del lenguaje natural y los gráficos de conocimiento, Franz ha podido ayudar a un centro de llamadas inteligente.
Antes de que un vendedor llame a un cliente, investiga a su cliente para iniciar una conversación, explicó. Pero esta empresa tenía tanta información que estaba inundada de datos oscuros.
Franz construyó un gráfico de conocimiento para clasificar los datos estructurados, dijo. La plataforma se construyó sobre AllegroGraph. A través de esta, se pueden construir taxonomías y los elementos se pueden ordenar, clasificar y más.
Para la tecnología de voz, las empresas pueden utilizar un reconocedor de voz capacitado en taxonomía.
Las empresas necesitan un reconocedor de voz personalizable que pueda tomar información directamente de una taxonomía, dijo.
La mayoría de los sistemas de voz a texto tienden a fallar en palabras de dominio muy específicas, en su lugar, es necesario personalizarlo.
“Para los dominios estáticos, entrenamos los modelos de lenguaje mediante el aprendizaje automático, pero el proceso es costoso y lleva más tiempo”, dijo Aasman.
Construir etiquetas alternativas para el habla es un arte en sí mismo y muy diferente de construir etiquetas alternativas para texto escrito, dijo.
Las organizaciones necesitan un reconocedor de voz que proporcione procesamiento por lotes y en tiempo real. El procesamiento por lotes es lo suficientemente bueno para análisis regulares y los usuarios pueden distribuir la transcripción en aquellos períodos en los que hay menos necesidad de procesamiento en tiempo real.
La diarización es muy importante, pero los sistemas comerciales de reconocimiento de voz tienen dificultades con las conversaciones telefónicas. Hace la diferencia quién habla sobre el producto, la competencia, un objeto o sentimientos.
Franz combina las funciones de doble flujo del reconocimiento de voz con un software inteligente que divide los flujos a nivel de PBX, dijo.
“Todo esto es muy nuevo”, dijo Aasman.
Para cada campaña y para cada idioma, las empresas deben tener una conversación estándar de oro. Ejecute eso cada 2 minutos para ver si las palabras y las frases correctas regresan, explicó.
Siempre tenga un humano al tanto, sugirió. Al entrenar una herramienta de reconocimiento de voz a través de taxonomías, parte del inglés regular se deteriora. Solo un humano puede detectar eso.