Tratamento de texto extraído de livros digitais para a indexação em mecanismo de busca.
Tratamento de texto extraído de livros digitais para a indexação em mecanismo de busca.
Autoria: VAZ, G. J.; VEIGA, P. H. R. da C. da; CALDAS, R. G.; VIDAL, W. C. L.; ASSIS, C. P. de; CORREA, J. L.; MOURA, M. F.
Resumo: Este trabalho apresenta uma metodologia de tratamento dos textos extraídos dos livros digitais da Coleção 500 Perguntas 500 Respostas da Embrapa a fim de que seu conteúdo possa ser indexado e acessado via um mecanismo de busca específico. A metodologia envolve a extração dos elementos essenciais dos livros, como imagens e arquivos HTML, o pré-processamento desses elementos, sua análise e edição, e a construção de componentes adequados para sua indexação. Além de um intenso trabalho de análise humana, são consideradas tecnologias como o formato Epub para livros digitais, o editor Sigil, scriptspara processamento de texto, padrões web de representação e Elasticsearch. Experimentos mostram que a metodologia viabiliza a disponibilização de textos bem formatados para sua indexação e seu uso em mecanismos de busca, propiciando uma rica experiência ao usuário, além de possibilitar a construção de novas soluções digitais. Nesse contexto, a curadoria digital é fundamental para agregar valor aos recursos digitais e atender às necessidades específicas de seus usuários.
Ano de publicação: 2023
Tipo de publicação: Artigo de periódico
Unidade: Embrapa Agricultura Digital
Observações
1 - Por padrão são exibidas publicações dos últimos 20 anos. Para encontrar publicações mais antigas, configure o filtro ano de publicação, colocando o ano a partir do qual você deseja encontrar publicações. O filtro está na coluna da esquerda na busca acima.
2 - Para ler algumas publicações da Embrapa (apenas as que estão em formato ePub), é necessário ter, no celular ou computador, um desses softwares gratuitos. Sistemas Android: Google Play Livros; IOS: iBooks; Windows e Linux: software Calibre.
Acesse outras publicações
Acesse a Base de Dados da Pesquisa Agropecuária (BDPA) para consultar o acervo completo das bibliotecas da Embrapa.