El reconocimiento de voz es la capacidad de un sistema de control de accesos para la identificación de una persona a través de su voz, basándose en las características fisiológicas y los hábitos lingüísticos de cada individuo. El reconocimiento de voz implica la captura del audio, su procesado para extraer los rasgos inherentes al locutor y la búsqueda de coincidencias mediante el reconocimiento de patrones previamente almacenados en la base de datos.
Reconocimiento de voz
El reconocimiento de voz es un sistema de identificación biométrica, que aunque cuenta con fiabilidad alta, no está muy extendido, debido a que en el proceso de identificación pueden influir varios factores que pueden generar un alto margen de error.
La voz es una de las características con las que más fácilmente identificamos a una persona, de tal manera que gracias al reconocimiento de voz podemos identificar a alguien, aun cuando no podamos ver su rostro o su cuerpo.
El reconocimiento de una persona a través de la voz es un tipo de reconocimiento natural, ya que todos estamos acostumbrados a reconocer a nuestro interlocutor por su voz.
De igual forma los sistemas de identificación mediante la voz, logran establecer bases de datos a partir de una grabación y posteriormente pueden identificar el autor de un discurso, haciendo comparaciones y buscando similitudes.
Algunos factores que se tienen en cuenta en el reconocimiento de voz son la velocidad, la frecuencia, la estructura hablada y los hábitos lingüísticos.
Funcionamiento del reconocimiento de voz
En el reconocimiento de voz se identifica el sonido y ritmo de voz de una persona. A estos datos se les asigna una puntuación numérica, que posteriormente sirve para ser comparada con puntuaciones similares.
Así pues, el reconocimiento de voz conlleva un procesado de audio, la extracción de los rasgos inherentes al locutor y la posterior búsqueda de coincidencias comparando con los patrones almacenados en la base de datos.
La extracción de los rasgos inherentes al locutor con la finalidad de guardarlos en la base de datos se denomina "fase de entrenamiento", mientras que la extracción de las características del locutor para poder compararlas con las que se encuentran almacenadas en la base de datos se llama "fase de test".
En función de la cooperación por parte del locutor distinguimos dos tipos de reconocimiento de voz:
- Sistemas de reconocimiento de voz dependientes del texto: utilizan la misma palabra o frase tanto en la fase de parte de entrenamiento como en la de test, por lo que necesitan la cooperación del locutor. Estos sistemas se utilizan habitualmente en control de acceso y seguridad.
- Sistemas de reconocimiento de voz independientes del texto: no se basan en ninguna palabra o frase en concreto, por lo que no necesitan la cooperación del locutor, pues con la voz ya es suficiente. Estos sistemas se utilizan a menudo en investigación forense o judicial, para identificar locutores o verificar su identidad.
Una ventaja de los sistemas de reconocimiento de la voz, aunque no es un sistema tan simple de implementar como parece, es que es fácilmente aceptado, puesto que nadie teme pronunciar unas palabras ante un micrófono.
Nivel de seguridad del reconocimiento de voz
Como sistema de seguridad, el reconocimiento de voz no alcanza todavía los niveles de otros sistemas biométricos, como son las huellas dactilares y el reconocimiento de iris. Veamos sus calificaciones:
- Fiabilidad: alta.
- Facilidad de uso: alta.
- Prevención de ataques: media.
- Aceptación: alta.
- Estabilidad: media.
En estos sistemas pueden influir algunos factores que pueden entorpecer el proceso de identificación, como puede ser el ruido del ambiente, las condiciones de salud en las que se encuentre el usuario y la calidad de los micrófonos y dispositivos usados.
En el caso de que la identificación se haga a través de un teléfono, factores como la señal y la calidad de aparato son muy importantes.