Esta ferramenta pode extrair palavras-chave de textos em qualquer idioma sobre qualquer assunto

Chama-se YAKE! (“Yet Another Keyword Extractor”), um programa desenvolvido pelo INESC TEC – Instituto de Engenharia de Sistemas e Computadores, Tecnologia e Ciência, em Portugal. Os desenvolvedores afirmam que a ferramenta pode ser usada em qualquer tamanho de texto, em qualquer idioma, em qualquer tópico. YAKE! usa estatísticas para entender quais palavras no texto são mais relevantes para que a entrada de outros corpora de texto não seja necessária para aprender quais palavras são mais importantes – como normalmente é o caso do aprendizado de máquina.

Por que precisamos de palavras-chave?

As pessoas podem ter uma ideia geral de que a quantidade de dados produzidos todos os dias é enorme. Mas você pode realmente imaginar quantos dados são produzidos em um minuto? Por exemplo, para cada minuto de 2020, os usuários do Instagram compartilharam 65.000 fotos, os usuários do Twitter postaram 575.000 tweets e o Google realizou 5,7 milhões de pesquisas. Pelo menos 175 novos, de acordo com Siteefy paginas web são criados a cada minuto e estima-se que a Amazon publique mais de 7.500 eBooks Kindle por dia. A mesma coisa acontece com artigos de notícias: O Washington Post sozinho publica cerca de 1.200 histórias por dia.

“A necessidade de organizar e, sobretudo, processar as informações se deve ao alto volume de dados que são gerados diariamente. Uma ferramenta como YAKE! é um valioso auxiliar na extração automática de informações, adicionando uma série de palavras-chave relevantes que caracterizam o próprio texto.

Se você é um estudante, YAKE! pode ajudá-lo a resumir capítulos de livros ou textos que você precisa estudar para o próximo exame. Você também pode se beneficiar do YAKE! se você notar uma tendência em artigos de notícias publicados sobre um tópico específico (por exemplo, COVID-19) ou mesmo argumentos conflitantes sobre os discursos de um determinado político durante seu mandato. Esses são apenas alguns exemplos do que essa ferramenta pode fazer por você, mas por que você a usaria para extrair palavras-chave?

Uma nova maneira de classificar as informações

“Extrair palavras-chave é um desafio particularmente complexo com relativamente pouca eficácia/desempenho. YAKE! pode ajudar qualquer pessoa a extrair palavras-chave e classificar informações de forma fácil e rápida”, afirma Ricardo Campos. Uma das razões pelas quais é tão rápido é o fato de que, diferentemente das soluções de aprendizado de máquina, não requer corpora de texto anterior para funcionar corretamente. “Em nossa abordagem, identificamos palavras-chave relevantes com base em estatísticas extraídas dos documentos, em vez de trabalhar em uma coleção de documentos”, acrescentou. Além disso YAKE! funciona em qualquer lugar, como uma solução plug-and-play que pode ser usada para documentos de qualquer tamanho, idioma ou assunto.

A tecnologia está disponível gratuitamente e inclui um site que pode extrair palavras-chave de um texto ou de uma página da web e um aplicativo Android disponível na playstore. Para os desenvolvedores, há também uma API que permite a integração da tecnologia com outras ferramentas.

O índice geral e outros usos

YAKE! já foi utilizado em vários projetos até hoje, mas nenhum chegou perto do trabalho desenvolvido para Índice geral. Este projeto teve como objetivo catalogar 107 milhões de artigos científicos para facilitar a localização das informações neles contidas. O novo banco de dados de 38 terabytes foi lançado em outubro e é um enorme índice de 19 bilhões de palavras-chave extraídas com YAKE! Programas. A coleção está disponível no Internet Archive, o maior arquivo de preservação de conteúdo digital do mundo, sob licença de domínio público. No entanto, esta ferramenta tem sido utilizada em muitos contextos diferentes para realizar diferentes tarefas. Isso inclui a compilação de textos didáticos para a geração automática de questões de compreensão; a geração de perguntas de esclarecimento em sistemas de perguntas e respostas, o reconhecimento de palavras-chave de tendência no Twitter; Uso de mineração de texto em relatórios de acidentes; Gere nuvens de palavras para representar visualmente a opinião pública sobre o COVID-19 nas mídias sociais e até gere poesia persa a partir de corpora em prosa.

YAKE! é também utilizado pela Biblioteca Nacional da Finlândia, Chartbeat Labs – textacy e no âmbito do projeto INESC TEC Conta-me Histórias, que se encontra no arquivo web português arquivo.pt.

O software é atualmente citado ou usado em mais de 270 artigos, com mais de 860 estrelas no Github e 141 forks, o que faz mais de 1000 instalações no sistema Android. Em 2018 foi premiado com o “Best Short Paper” na mais importante conferência europeia sobre recuperação de informação, o ECIR.

Além de Ricardo Campos, a equipe que YAKE! é composto por Alípio Jorge, Célia Nunes, Adam Jatowt, Vítor Mangaravite e Arian Pasquali.


Tecnologia de fala para o resto do mundo


Mais Informações:
Ricardo Campos et ai., YAKE! Extração de palavras-chave de documentos individuais usando várias funções locais, Ciência da Informação (2019). DOI: 10.1016 / j.ins.2019.09.013

Ricardo Campos et al., Um método baseado em recursos de texto para extração automática de palavras-chave para documentos individuais, Avanços na coleta de informações (2018). DOI: 10.1007 / 978-3-319-76941-7_63

Ricardo Campos et ai., YAKE! Extrator automático de palavras-chave independente de coleção, Avanços na coleta de informações (2018). DOI: 10.1007 / 978-3-319-76941-7_80

Fornecido pelo INESC Bruxelas HUB

Citar: Nova ferramenta pode extrair palavras-chave de textos em qualquer idioma sobre qualquer tópico (2022, 11 de janeiro), acessado em 11 de janeiro de 2022 em https://techxplore.com/news/2022-01-tool-keywords-texts-language – topic.html

Este documento está sujeito a direitos autorais. Exceto para comércio justo para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.

By Carlos Jorge

"Proud coffee expert. Webaholic. Zombie guru. Introvert. Avid beer aficionado. Analyst. Total TV practitioner. Award-winning foodie. Student."

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *