En esta entrada del blog, le presentamos
Control por voz Digi ConnectCoreuna nueva solución en
La familia de soluciones integradas de Digi que permite el procesamiento de la voz en los dispositivos en el borde de la red sin necesidad de conectividad en la nube. Hay muchas razones por las que la integración de la voz en el diseño de productos es hoy en día de gran interés, y por las que veremos un crecimiento en este espacio a medida que las aplicaciones de los sectores verticales integren el reconocimiento de voz interactivo.
La facilidad de uso suele distinguir a un producto de éxito de los "también trans" del mercado. Para los fabricantes de equipos originales que construyen soluciones con capacidades informáticas integradas, esto a menudo se reduce a la creación de una interfaz de producto intuitiva y fácil de usar. Y las interfaces no son mucho más fáciles de usar que el funcionamiento de un dispositivo controlado por voz.
Las ventajas del control por voz incluyen una mayor higiene, una rápida interacción entre humanos y máquinas, un funcionamiento preciso y mucho más. Y el procesamiento en el borde reduce los costes de conectividad y las preocupaciones por la privacidad de los datos, al tiempo que proporciona tiempos de respuesta más rápidos que lo que es posible con el procesamiento de voz basado en la nube.
Poner a los humanos y a las máquinas en sintonía
Muchos productos con informática integrada requieren la entrada del usuario, y muestran información que debe ser entendida o actuada por los usuarios del dispositivo. Esta parte de la funcionalidad del producto se conoce como interfaz hombre-máquina (HMI). En la actualidad, la HMI suele proporcionarse a través de pantallas de visualización, y los métodos de entrada del usuario han evolucionado desde los botones, ratones y teclados hasta las pantallas táctiles que imitan el funcionamiento de nuestros smartphones.
A partir de 2022, la mayoría de los usuarios esperan una interfaz similar a la de un smartphone en los productos electrónicos. Pero para los fabricantes de equipos originales, esto puede ser difícil y costoso de desarrollar en Embedded Linux y requiere desarrolladores de interfaz de usuario con talento y herramientas de software de interfaz gráfica de usuario (GUI) adicionales para construir. Aunque el software puede ser de código abierto, las herramientas más potentes suelen requerir la compra de un entorno de desarrollo y la concesión de licencias para los dispositivos.
Además, el hardware de la pantalla táctil para el producto final es caro y aumenta considerablemente el coste de la lista de materiales de los productos integrados. Una pantalla de cristal puede romperse o dañarse fácilmente en el uso diario en entornos industriales, lo que requiere una costosa reparación o sustitución. Otro problema al que se enfrentan los fabricantes de dispositivos en los sectores médico y alimentario es el factor de la higiene y el problema de las bacterias en las superficies que se transfieren entre los usuarios.
Por último, la mayoría de los productos táctiles/de pantalla diseñados para el mercado de los smartphones no ofrecen la larga vida útil (más de 10 años) que se espera de los productos comerciales o industriales.
Control por voz: la interfaz hombre-máquina ideal
La respuesta ideal a muchos de estos problemas es el control por voz. Los dispositivos controlados por voz permiten a los usuarios interactuar con un dispositivo a distancia incluso cuando no pueden ver con qué están interactuando. Esto significa que pueden concentrarse en la tarea que están realizando y no en el dispositivo.
El habla es también una forma muy eficaz de introducir datos. La mayoría de la gente habla a unas 150 palabras por minuto, frente a una velocidad media de mecanografía de 40. Estas dos ventajas combinadas permiten a los usuarios hacer peticiones relativamente complejas con rapidez.
El control por voz ofrece importantes ventajas en las aplicaciones industriales, donde, por ejemplo, puede aumentar la seguridad de los usuarios, que pueden concentrarse en la tarea final en lugar de controlar un dispositivo mediante la interacción táctil. En un entorno médico, como un quirófano, los dispositivos controlados por voz permiten una interacción sin contacto, lo que ayuda a evitar la transferencia de bacterias.
Presentamos Digi ConnectCore Control por voz
Digi ConnectCore Voice Control es una solución de software lista para usar que está preintegrada en Digi Embedded Yocto, para su uso con la familia Digi ConnectCore de System on Modules (SOM). ConnectCore Voice Control proporciona reconocimiento de voz en tiempo real y funciones de conversión de texto en voz con una palabra de activación personalizable, un vocabulario de 60.000 palabras personalizable y compatibilidad con 30 idiomas nacionales.
ConnectCore Voice Control aporta un procesamiento de voz completo en el borde de IoT a cualquier dispositivo con un módulo Digi ConnectCore , lo que permite la interacción del usuario con el dispositivo sin necesidad de tocarlo. No requiere aceleradores AI/ML basados en hardware para funcionar, por lo que los desarrolladores de productos pueden añadir capacidades de voz sin costes adicionales de hardware, más allá de los micrófonos y altavoces disponibles en el mercado.
El procesamiento de la voz funciona mejor en la periferia
¿Por qué hacer el procesamiento en el borde de IoT ? Cuando usas aplicaciones de control de voz de consumo populares como Apple Siri o Amazon Alexa, es posible que hayas notado un ligero retraso en la interacción, incluso cuando el dispositivo está justo en tu mano o en la encimera de la cocina. Ese retraso se debe a que el procesamiento informático que hay detrás de casi todas las aplicaciones de voz de consumo se realiza en la nube.
Aunque unas décimas de segundo de retraso pueden no ser un problema si estás seleccionando una canción o enviando un mensaje de texto, esa latencia puede hacer que el control por voz sea menos eficaz en el flujo de información, o cuando se realizan ajustes precisos. Ni que decir tiene que cualquier interrupción en la conectividad con la nube empeora el problema.
Sin embargo, ConnectCore Voice Control realiza su procesamiento de voz localmente, en el borde, lo que permite un rendimiento en tiempo real con tiempos de reacción de menos de 100 milisegundos. El procesamiento de voz en el dispositivo con ConnectCore Voice Control aporta una respuesta en tiempo real, en comparación con las latencias variables cuando se utiliza el procesamiento de voz en la nube. También elimina los costes de conexión de las soluciones basadas en la nube.
30 idiomas, 60.000 palabras
La mayoría de las aplicaciones de control por voz del mercado sólo funcionan en dos idiomas: inglés y chino mandarín. ConnectCore Voice tiene la capacidad de comunicarse en 30 idiomas nacionales, lo que supone una gran ventaja a la hora de desarrollar un producto para su implantación global.
El procesamiento de los datos a nivel local elimina prácticamente los problemas de privacidad y seguridad que surgen al transferir los datos a los servicios en la nube a través de la red. Protege la privacidad de los datos, ya que nunca necesita conectarse a Internet. ConnectCore Voice Control cumple con el Reglamento General de Protección de Datos (RGPD) de la Unión Europea, otra ventaja clave para la implantación global.
Casos de uso del control por voz
El control por voz es una capacidad muy valiosa en muchos casos de uso. Si tenemos en cuenta que la mayoría de las personas hablan aproximadamente 150 palabras por minuto, en comparación con la velocidad media de escritura de 40 palabras por minuto, la mejora de la velocidad y la precisión en una serie de escenarios de interacción hombre-máquina tiene un enorme valor. He aquí algunos ejemplos:
- Ciudad inteligente y comercio minorista
- Parquímetros
- Quioscos informativos o terminales que proporcionan información sobre la orientación o los eventos
- Máquinas expendedoras
- Operaciones industriales
- El control de grúas industriales con voz permite al operador de la grúa observar los materiales que se mueven, en lugar de una unidad de control
- Control de robots que permiten a los usuarios iniciar operaciones con comandos preestablecidos
- Control de procesos, por ejemplo, en entornos difíciles donde se necesitan guantes y las pantallas táctiles no funcionan bien
- Dispositivos de medición con interacción de voz para recoger las lecturas de los sensores y otros datos de medición
- Informes de trabajo de los técnicos y recogida de datos
- Medicina y sanidad
- Dispositivos de quirófano: interactuar con los dispositivos a través de la voz ofrece ventajas de comodidad e higiene frente a las pantallas táctiles o los teclados
- Atención sanitaria a domicilio: registro de enfermería para la medicación, el tratamiento, etc.
- Listas de comprobación con voz médica en los hospitales, por ejemplo, para preparar/comprobar a los pacientes antes de los tratamientos
- La transcripción de notas clínicas ofrece mayor eficacia
Añadir el control por voz de Digi ConnectCore a su próximo producto
Para los desarrolladores de OEM que estén pensando en una interfaz de voz para su próximo producto, ya sea como una función actual o como una mejora futura, Digi ConnectCore Voice Control ofrece un software preintegrado y listo para usar para desarrollar en los módulos de Digi ConnectCore .
El software de desarrollo está disponible para su descarga en la página web de documentación deDigi ConnectCore Voice Control. Como parte de la descarga, Digi proporciona una única licencia de software para la evaluación y el desarrollo a los clientes que ya hayan adquirido un kit de desarrolloDigi ConnectCore 8M Nano. (Para el despliegue, los OEM pueden adquirir licencias del proveedor de software o a través de Digi para cada dispositivo que vendan). Esta descarga de software puede utilizarse para desarrollar una prueba de concepto, para demostrar las capacidades de voz y para diseñar la aplicación de control por voz para un nuevo producto del cliente.
Para obtener más información, descargue la hoja de datos deDigi ConnectCore Voice Control.
Próximos pasos