Getty Images Quatro mulheres na faixa dos trinta conversando com bebidas nas mãosImagens Getty

Em grupos, as pessoas filtram as conversas ao seu redor – e agora a tecnologia pode fazer o mesmo

É o eterno “problema dos coquetéis”: ficar em uma sala cheia de pessoas, com uma bebida na mão, tentando ouvir o que o outro convidado está dizendo.

Na verdade, os seres humanos são notavelmente hábeis em manter uma conversa com uma pessoa enquanto filtram vozes concorrentes.

No entanto, talvez surpreendentemente, é uma habilidade que a tecnologia até recentemente não conseguia replicar.

E isso importa quando se trata de usar evidências de áudio em processos judiciais. Vozes ao fundo podem dificultar ter certeza de quem está falando e o que está sendo dito, potencialmente tornando as gravações inúteis.

O engenheiro eletricista Keith McElveen, fundador e diretor de tecnologia da Wave Sciences, se interessou pelo problema quando trabalhava para o governo dos EUA em um caso de crimes de guerra.

“O que estávamos tentando descobrir era quem ordenou o massacre de civis. Algumas das evidências incluíam gravações com várias vozes falando ao mesmo tempo – e foi aí que descobri qual era o “problema do coquetel””, ele diz.

“Eu tinha conseguido remover ruídos como sons de automóveis, condicionadores de ar ou ventiladores da fala, mas quando comecei a tentar remover a fala da fala, descobri que não era apenas um problema muito difícil, mas também um dos problemas clássicos da acústica.

“Sons ricocheteiam em uma sala e é matematicamente horrível resolvê-los.”

Paul Cheney Keith McElveen está em frente a um quadro branco segurando uma caneta marcadoraPaul Cheney

Keith McElveen fundou a Wave Sciences em 2008 para se concentrar no “problema dos coquetéis”

A resposta, ele diz, foi usar IA para tentar identificar e filtrar todos os sons concorrentes com base em onde eles vieram originalmente em uma sala.

Isso não se aplica apenas a outras pessoas que podem estar falando. Também há uma quantidade significativa de interferência na maneira como os sons são refletidos em uma sala, com a voz do falante alvo sendo ouvida direta e indiretamente.

Em um perfeito anecóico câmara – uma totalmente livre de ecos – um microfone por alto-falante seria suficiente para captar o que todos estivessem dizendo; mas em uma sala real, o problema requer um microfone para cada som refletido também.

O Sr. McElveen fundou a Wave Sciences em 2009, esperando desenvolver uma tecnologia que pudesse separar vozes sobrepostas. Inicialmente, a empresa usou um grande número de microfones no que é conhecido como array beamforming.

No entanto, o feedback de potenciais parceiros comerciais foi que o sistema exigia muitos microfones em relação ao custo envolvido para dar bons resultados em muitas situações – e não teria desempenho algum em muitas outras.

“O refrão comum era que se pudéssemos encontrar uma solução que abordasse essas preocupações, eles ficariam muito interessados”, diz o Sr. McElveen.

E ele acrescenta: “Sabíamos que tinha que haver uma solução, porque é possível fazer isso com apenas duas orelhas.”

A empresa finalmente resolveu o problema após 10 anos de pesquisa financiada internamente e entrou com um pedido de patente em setembro de 2019.

Keith McElveen Ondas sonoras na tela do computador de Keith McElveenKeith McElveen

A Wave Sciences levou 10 anos para resolver o “problema do coquetel”

O que eles criaram foi uma IA que consegue analisar como o som ricocheteia em uma sala antes de chegar ao microfone ou ao ouvido.

“Captamos o som conforme ele chega em cada microfone, voltamos para descobrir de onde ele veio e, então, basicamente, suprimimos qualquer som que não possa ter vindo de onde a pessoa está sentada”, diz o Sr. McElveen.

O efeito é comparável em certos aspectos a quando uma câmera foca em um objeto e desfoca o primeiro e o fundo.

“Os resultados não parecem muito claros quando você só pode usar uma gravação muito barulhenta para aprender, mas ainda assim são impressionantes.”

A tecnologia teve seu primeiro uso forense no mundo real em um caso de assassinato nos Estados Unidos, onde as evidências que ela foi capaz de fornecer foram essenciais para as condenações.

Depois que dois assassinos foram presos por matar um homem, o FBI queria provar que eles tinham sido contratados por uma família que estava passando por uma disputa pela custódia de um filho. O FBI arranjou um jeito de enganar a família, fazendo-a acreditar que eles estavam sendo chantageados por seu envolvimento – e então se sentou para ver a reação.

Embora os textos e as chamadas telefónicas fossem razoavelmente fáceis de aceder pelo FBI, o acesso pessoal reuniões em dois restaurantes eram um assunto diferente. Mas o tribunal autorizou o uso do algoritmo da Wave Sciences, o que significa que o áudio passou de inadmissível a uma peça essencial de evidência.

Desde então, outros laboratórios governamentais, incluindo no Reino Unido, o submeteram a uma bateria de testes. A empresa agora está comercializando a tecnologia para o exército dos EUA, que a usou para analisar sinais de sonar.

Também poderia ter aplicações em negociações de reféns e cenários de suicídio, diz o Sr. McElveen, para garantir que ambos os lados de uma conversa possam ser ouvidos – não apenas o negociador com um megafone.

No final do ano passado, a empresa lançou um aplicativo de software usando seu algoritmo de aprendizado para uso por laboratórios governamentais que realizam análises forenses de áudio e acústicas.

Getty Images Uma jovem mãe e seu filho pequeno falam com um alto-falante inteligente na mesa em frente a elesImagens Getty

Eventualmente, a Wave quer lançar versões de seu produto para uso em alto-falantes inteligentes

Eventualmente, a empresa pretende lançar versões personalizadas de seu produto para uso em kits de gravação de áudio, interfaces de voz para carros, alto-falantes inteligentes, realidade aumentada e virtual, sonares e aparelhos auditivos.

Então, por exemplo, se você falar com seu carro ou alto-falante inteligente, não importa se houver muito barulho ao seu redor, o dispositivo ainda será capaz de entender o que você está dizendo.

A IA já está sendo usada em outras áreas da ciência forense também, de acordo com a educadora forense Terri Armenta, da Academia de Ciências Forenses.

“ML [machine learning] Os modelos analisam padrões de voz para determinar a identidade dos falantes, um processo particularmente útil em investigações criminais, onde evidências de voz precisam ser autenticadas”, diz ela.

“Além disso, as ferramentas de IA podem detectar manipulações ou alterações em gravações de áudio, garantindo a integridade das evidências apresentadas no tribunal.”

E a IA também está abrindo caminho em outros aspectos da análise de áudio.

Bosch Samarjit Das segurando o Bosch SoundSeeBosch

Samarjit Das com o SoundSee, que pode prever o mau funcionamento de um carro antes que aconteça

A Bosch tem uma tecnologia chamada SoundSee, que usa algoritmos de processamento de sinais de áudio para analisar, por exemplo, o som de um motor e prever um mau funcionamento antes que ele aconteça.

“Os recursos tradicionais de processamento de sinais de áudio não conseguem entender o som da mesma forma que nós, humanos, entendemos”, afirma o Dr. Samarjit Das, diretor de pesquisa e tecnologia da Bosch EUA.

“A IA de áudio permite uma compreensão mais profunda e uma interpretação semântica do som das coisas ao nosso redor melhor do que nunca — por exemplo, sons ambientais ou sinais sonoros provenientes de máquinas.”

Testes mais recentes do algoritmo Wave Sciences mostraram que, mesmo com apenas dois microfones, a tecnologia pode ter um desempenho tão bom quanto o ouvido humano — e melhor ainda, quando mais microfones são adicionados.

E eles também revelaram outra coisa.

“A matemática em todos os nossos testes mostra semelhanças notáveis ​​com a audição humana. Há pequenas esquisitices sobre o que nosso algoritmo pode fazer, e quão precisamente ele pode fazer isso, que são surpreendentemente similares a algumas das esquisitices que existem na audição humana”, diz McElveen.

“Suspeitamos que o cérebro humano pode estar usando a mesma matemática — que ao resolver o problema do coquetel, podemos ter tropeçado no que realmente está acontecendo no cérebro.”



Source link