Winning some of the document preprocessing challenges in a text mining process.
Winning some of the document preprocessing challenges in a text mining process.
Autoria: NOGUEIRA, B. M.; MOURA, M. F.; CONRADO, M. da S.; ROSSI, R. G.; MARCACINI, R. M.; REZENDE, S. O.
Resumo: Considering the huge growth of the number of documents in the digital universe and the possibility of obtaining some competitive advantage in processing them, this paper describes some of the difficulties of working with text collections. More specifically, it shows some of the challenges on the step considered one of the most important of the Text Mining process - the data preprocessing - focusing on two of its main tasks: attribute generation and selection, considering not only single terms but composed terms too. In order to overcome the challenges imposed by these problems, this paper presents efficient unsupervised solutions. The application of these solutions in three real data sets is presented in order to evaluate them and to show a way to treat the data step by step. Good results were obtained at the end of the whole process.
Ano de publicação: 2008
Tipo de publicação: Artigo em anais e proceedings
Unidade: Embrapa Agricultura Digital
Palavras-chave: Dados semânticos, Mineração de textos, Text mining
Observações
1 - Por padrão são exibidas publicações dos últimos 20 anos. Para encontrar publicações mais antigas, configure o filtro ano de publicação, colocando o ano a partir do qual você deseja encontrar publicações. O filtro está na coluna da esquerda na busca acima.
2 - Para ler algumas publicações da Embrapa (apenas as que estão em formato ePub), é necessário ter, no celular ou computador, um desses softwares gratuitos. Sistemas Android: Google Play Livros; IOS: iBooks; Windows e Linux: software Calibre.
Acesse outras publicações
Acesse a Base de Dados da Pesquisa Agropecuária (BDPA) para consultar o acervo completo das bibliotecas da Embrapa.