Início » Sem categoria » No comando da voz

Blog

No comando da voz

Vivemos uma realidade na qual é cada vez mais comum a integração tecnológica de funcionalidades que buscam tornar as interfaces mais amigáveis e eficientes. O desafio dessa realidade é tornar os dispositivos móveis ou não, em tecnologias menos disruptivas e mais integradas à realidade e ao dia a dia das pessoas.

Embora a fama da tecnologia seja tornar nossas vidas mais práticas, o que tem ocorrido com freqüência é a interrupção de nossas atividades e a sobreposição de tarefas. Isso indica que o uso dessas ferramentas ainda não tem se revelado tão fluido quanto prometido nas propagandas de smartphones, tablets, computadores portáteis, dentre outros.

Para dar funcionamento a esses dispositivos, todos precisamos portar senhas, clicar em vários locais e validar códigos. Essas ferramentas personalizadas tem como objetivo dar segurança a nossos dados e informações. A grande questão, é que cada vez mais, tais artefatos tem dado lugar a validações biométricas, das impressões digitais aos timbres vocais.

Até pouco tempo, ao se falar em reconhecimento de voz ou de fala, nossa primeira lembrança eram os filmes de ficção científica nos quais os personagens falavam palavras chave e acionavam comandos específicos em computadores que, ao confirmar a identidade das pessoas executavam a função desejada. Hoje, tal realidade ocorre em atendimento eletrônico ao consumidor “fale pausadamente a opção desejada” ou mesmo, em aplicativos que fazem “escuta” de determinado trecho de música para proceder à identificação. Automóveis já são comandados por voz e ligações são realizadas e recebidas internamente em automóveis por meio do comando da voz.

Um estudo realizado por Gustavo Fernandes Rodrigues, Professor da Universidade Federal de São João del Rei (UFSJ), que é Doutor em Engenharia Elétrica pela Universidade Federal de Minas Gerais (UFMG), a tecnologia do reconhecimento de comando pela voz vem sendo melhor pesquisada e desenvolvida a fim de aumentar a eficiência e a fidelidade de sua aplicação. O estudo intitulado “Reconhecimento automático de fala utilizando técnicas de mascaramento espectral e análise em componentes independentes”, investiga e propõe soluções para o problema do reconhecimento automático de fala em ambientes reais.

Segundo Rodrigues, o maior desafio no estudo de reconhecimento de fala refere-se ao seu desempenho em ambientes ruidosos. Isso porque em todos os nossos ambientes (casa, escola, carro, indústria), as ferramentas que possuímos acabam expostas a múltiplas fontes de ruído.

No projeto desenvolvido pelo pesquisador, o foco de estudo é o ambiente industrial. Teoricamente, dos ambientes citados, o mais ruidoso. Segundo ele, a eficiência do comando de voz torna-se consideravelmente reduzida quando usada em espaços barulhentos, isso porque os ruídos são processados justamente ao sinal de voz, o que prejudica, ou impossibilita, o equipamento de realizar as funções demandas.

É aí que Rodrigues recorreu a mecanismo de separação cega de voz, em ambientes reais, com o intuito de atuar na etapa de pré-processamento dos dados de entrada dos dispositivos, com o objetivo de separar o sinal da voz de interesse das sonoridades interferentes.

Assim, os sinais de voz foram obtidos por meio de microfones omnidirecionais, postos em ambientes reais, onde havia outras sonoridades. Na etapa seguinte, por meio de um sistema de separação de fontes desenvolvido por Rodrigues, foram realizadas as medições para aferir a relação sinal-ruído u sinal-interferência da freqüência sonora separada. De posse dela, já sem a interferência de outros sinais, informações úteis foram extraídas para o processo de reconhecimento ou de classificação de padrões. Para concluir o estudo, a tarefa de identificação de voz foi realizada a partir do desenvolvimento de um sistema baseado em redes neurais artificiais. Nessa rede, a partir da análise dos dados de entrada, o sistema deverá ser capaz de reconhecer o sinal de fala.

Para nosso cérebro, ouvir e proceder à conexão entre as palavras com o objetivo de interpretá-las são funções fáceis. Mas, para um sistema computacional, a compreensão torna-se mais simples, na medida em que cada palavra é pronunciada separadamente e de forma mais pausada.

Para o autor da pesquisa o grande ganho está na verificação dos limites de melhoria de performance dos sistemas de reconhecimento, sob a influência de ruídos.

Os resultados encontrados sugerem a possibilidade de melhorarmos as taxas de acertos de sistemas de reconhecimento de fala, por meio do uso de técnicas de mascaramento espectral,contribuindo, dessa maneira, para a melhoria do sistema de tais dispositivos. (RODRIGUES, 2014, p. 32)

Quando olhamos para a tecnologia considerando os diversos contextos em que já foi aplicada e sobretudo de forma crescente em dispositivos móveis, pode-se inferir que há tendência de que os sistemas de reconhecimento de fala sejam cada vez mais modernizados e difundidos.

Fonte: Revista Minas Faz Ciência (2014)

Deixe uma resposta

O seu endereço de email não será publicado Campos obrigatórios são marcados *

Você pode usar estas tags e atributos de HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>