A nova tecnologia de leitura labial da Sony pode melhorar a acessibilidade – ou invadir a privacidade

O software de reconhecimento de rosto pode identificar rostos em uma multidão, mas que tal gravar conversas sem a ajuda de microfones próximos? O Visual Speech Enablement da Sony faz exatamente isso, usando sensores de câmera e IA para melhorar a leitura labial em qualquer ambiente.

Mark Hanson, vice-presidente de tecnologia e inovação de produtos da Sony, deu uma olhada limitada na tecnologia durante uma palestra na CES. É um novo caso de uso para a Sony Sensor de imagem inteligente e usa IA para isolar os lábios do usuário e, em seguida, traduzir seus movimentos em palavras, independentemente do ruído de fundo ou primeiro plano. Na verdade, não precisa de microfone. A distância entre o sensor e o usuário não importa e pode funcionar por muitos metros apenas com um sensor de resolução mais alta, Hanson nos disse na semana passada.

A Sony planeja inicialmente comercializar a tecnologia para um punhado de casos de uso, como automação de fábrica, quiosques e caixas eletrônicos ativados por voz. A ativação de voz visual é otimizada para uso em computadores, embora versões voltadas para o consumidor do recurso possam ser lançadas em hardware móvel no futuro, de acordo com Hanson, vendo-o como uma tecnologia assistiva em vez de uma ferramenta de vigilância. Isso poderia, por exemplo, melhorar as legendas geradas automaticamente ou reduzir a necessidade de um operador de retransmissão ou um intermediário de reconhecimento de voz automatizado que requer uma conexão de dados sólida e ruído de fundo mínimo.

Com todo o potencial para o bem, entretanto, também existe a possibilidade de que possa ser mal utilizado. De acordo com Hanson, a tecnologia captura apenas lábios, não rostos, portanto, nenhuma informação identificável do usuário é armazenada. O que não foi abordado é a capacidade de combinar Visual Speech Enablement com outras tecnologias, muitas das quais usam câmeras e podem incluir sensores aprimorados por IA da Sony. Se o Visual Speech Enablement ficasse próximo a uma câmera de reconhecimento facial, os dados poderiam ser agregados e desfazer a proteção de dados embutida da Sony.

Claro, poucos meios de comunicação permanecem realmente privados. Os sites rastreiam você Biscoitos;; Alguns ISPs e operadoras de celular vendem seus dados. Apesar de algumas batidas em algumas cidades e estados, a tecnologia de reconhecimento facial já está sendo usada nas ruas e nas lojas. O tempo dirá onde algo como a ativação visual de voz se encaixa.

leitura adicional

Avaliações da câmera

Melhor seleção de câmera

Leave a Reply

Your email address will not be published. Required fields are marked *

Back To Top