¿Escuchas nuestras conversaciones de Alexa, Google o Siri? | Tecnología

¿Escuchas nuestras conversaciones de Alexa, Google o Siri?  |  Tecnología

“Alexa, pon la alarma a las ocho”, “Alexa, reproduce la película oppenheimer» o “Alexa, diez centavos qué tiempo hará en Semana Santa”. Todas estas interacciones con alta inteligencia están tomadas y están disponibles para cualquier usuario que las solicite en Amazon. Esto es lo que pasó con la criminóloga María Aperador. Me sorprendió descubrir que algunos audios no estaban precedidos por la palabra de activación, «Alexa», y también lo mencioné una vez en un video en TikTok e Instagram que se convirtió en viral. Cómo es posible ?

La política de Amazon es clara al respecto: no se pueden grabar ni enviar nuevos audios, a menos que el dispositivo detecte la pregunta de activación. Puedo confirmar esto desde la empresa. Y entonces el usuario sabrá que Alexa está enviando su petición al corazón para obtener un indicador de luz azul o un sonido de alta frecuencia.

Para ello, David Arroyo, investigador del CSIC especializado en ciberseguridad y datos, ofrece una alternativa: “El sistema que permite activarse sólo cuando alguien dice la palabra de activación. Pero, por diversos motivos, es posible que tengas falsos positivos. Tendemos a verlo hasta que es robusto contra elementos que son perturbados por la interpretación de esta palabra de activación”.

Los sistemas de aprendizaje automático de interpretación de voz, como los que utilizan Alexa, Google o Superior Voices de Apple, incorporan elementos dispares para mejorar su funcionalidad. Pero, sin embargo, no es fácil. “Estos sistemas están diseñados para identificar cuáles son los elementos de variabilidad por pronunciación”, dice Arroyo en referencia a los diferentes aspectos y formas de trabajo, pero también a los cambios en la resonancia o reverberación de la estancia en lo que se encuentran. el dispositivo. “Conozco en detalle cuál es la tarea de precisión y los falsos positivos que realmente tiene el algoritmo que utiliza Amazon”.

EL PAÍS trabajó con María Aperador para conocer un poco más las capturas, que tienen una duración de 6 segundos. Son fragmentos de conversaciones casuales, de ella o de personas que se instalan en su casa. Criminología no revisó los más de 500 archivos de audio enviados por Amazon, pero sí en uno de los 50 que encontró a dos personas que no tenían palabra de alerta.

Un estudio desarrollado por investigadores de la Universidad del Ruhr en Bochum y el Instituto Max Planck para la Seguridad y la Privacidad tiene como objetivo mitigar la importancia de las activaciones accidentales de sonidos inteligentes. Después de analizar 11 dispositivos de diferentes fabricantes, publicó información sobre más de 1.000 activaciones no intencionadas. «Tenemos sistemas de reconocimiento de voz que dependen de cómo se implementen, que pueden funcionar mejor o mejor», destacó sobre la posibilidad de falsos positivos Josep Albors, director de investigación y diseño de la empresa de ciberseguridad ESET España.

Cómo detectar voces fuertes de la palabra de activación

Para activar al escuchar el discurso de Alexa o las frases «ok, Google» o «EySiri», las voces altas inteligentes tienen un sistema de rastreo constante de este término. «Los últimos dispositivos escuchan constantemente. Pero eso también es lo que haces teléfonos inteligentes o muchas puertas automáticas. Esto no es exclusivo de Alexa”, informa Albors.

Arroyo también tiene esta valoración. “Cuando pones el altavoz con la esperanza de que se active, este involucra que en todo momento está absorbiendo lo que escuchas. No por favor. Pero el algoritmo está en proceso porque ha visto qué palabras se pronuncian”.

Se trata de un algoritmo que funciona localmente, en el propio dispositivo, utilizando los patrones acústicos correspondientes a la clave de activación. Fuentes de Amazon indican que su tecnología se basa únicamente en el procedimiento de información de ondas sonoras para detectar el término. Además, también puedes activar la función con un botón para evitar el control del sonido. En el caso de capturas de pantalla que se producen cuando se activa el dispositivo, es posible que los usuarios no guarden sus opciones de privacidad.

¿Qué pasa con la tecla de acceso rápido permanente? Los dos especialistas en seguridad informática coinciden en que si se procesa el sonido para extraer datos más allá de la búsqueda de la clave, los problemas de confidencialidad serán muy graves. Pero también coincide con el hecho de que no hay evidencia de que suceda así. “Hay mucho interés en que esto no tenga éxito, porque implica la pérdida de confianza en todos los dispositivos y una ganancia económica muy considerable para estas empresas”, afirma Albors.

Puedes seguir un EL PAÍS Tecnología fr. FacebookX o haga clic aquí para recibir el nuestro boletín semanal.