Um modelo para a seleção de n-gramas significativos e não redundantes em tarefas de mineração de textos.

Informe múltiplos e-mails separados por vírgula.

imagem

Autoria: MOURA, M. F.; NOGUEIRA, B. M.; CONRADO, M. da S.; SANTOS, F. F. dos; REZENDE, S. O.

Resumo: Uma proposta completa para resolver o problema de selecionar automaticamente atributos não redundantes do tipo n-gramas é apresentada neste trabalho. Geralmente, o uso de n-gramas é um requisito para melhorar a interpretação subjetiva dos resultados em tarefas de mineração de textos, nesses casos, eles são estatisticamente gerados e selecionados. Após a seleção, em geral, há a presença de redundâncias, por exemplo, o termo "informática agropecuária" e seus componentes "informática" e "agropecuária". Assim, propõe-se um modelo que envolve a remoção de stopwords estatisticamente identificadas, uma seleção estatística eficiente para os atributos do tipo n-grama e a remoção das redundâncias apresentadas após a seleção. Observa-se, pelos resultados experimentais apresentados, sobre os atributos originais e os atributos sem as redundâncias, que, como esperado, após a eliminação das redundâncias não há perda de representatividade. Além disso, a redução no número de atributos é expressiva, o que pode significar ganhos em desempenho nas tarefas de extração de padrões, bem como na interpretabilidade subjetiva dos resultados. Deve-se salientar que o método proposto é útil a qualquer algoritmo de aprendizado de máquina aplicado a uma tarefa de mineração de textos, e, parece ser igualmente aplicável a textos em quaisquer línguas.

Ano de publicação: 2010

Tipo de publicação: Folhetos

Observações

1 - Por padrão são exibidas publicações dos últimos 20 anos. Para encontrar publicações mais antigas, configure o filtro ano de publicação, colocando o ano a partir do qual você deseja encontrar publicações. O filtro está na coluna da esquerda na busca acima. 

2 - Para ler algumas publicações da Embrapa (apenas as que estão em formato ePub), é necessário ter, no celular ou computador, um desses softwares gratuitos. Sistemas Android: Google Play Livros; IOS: iBooks; Windows e Linux: software Calibre.

 


Acesse outras publicações

Acesse a Base de Dados da Pesquisa Agropecuária (BDPA) para consultar o acervo completo das bibliotecas da Embrapa.