Use este identificador para citar ou linkar para este item:
https://rima.ufrrj.br/jspui/handle/20.500.14407/18650
Tipo do documento: | Dissertação |
Título: | Classificação de publicações em Humanidades Digitais apoiada em abordagem taxonômica |
Título(s) alternativo(s): | Taxonomic-based digital humanities publications classification |
Autor(es): | Jesus, Luiz Carlos de |
Orientador(a): | Corrêa, Ricardo Cordeiro |
Primeiro membro da banca: | Corrêa, Ricardo Cordeiro |
Segundo membro da banca: | Fortes, Alexandre |
Terceiro membro da banca: | Mello, Carlos Eduardo Ribeiro de |
Quarto membro da banca: | Carvalho, Lucas Correia |
Palavras-chave: | Humanidades Digitais;Processamento de Linguagem Natural;Classificação de Textos;Taxonomia;Digital Humanities;Natural Language Processing;Text Classification;Taxonomy |
Área(s) do CNPq: | Ciência da Computação |
Idioma: | por |
Data do documento: | 28-Abr-2022 |
Editor: | Universidade Federal Rural do Rio de Janeiro |
Sigla da instituição: | UFRRJ |
Departamento: | Instituto Multidisciplinar de Nova Iguaçu |
Programa: | Programa de Pós-Graduação Interdisciplinar em Humanidades Digitais |
Citação: | JESUS, Luiz Carlos de. Classificação de publicações em humanidades digitais apoiada em abordagem taxonômica. 2022. 90 f. Dissertação (Mestrado em Humanidades Digitais) - Instituto Multidisciplinar de Nova Iguaçu, Universidade Federal Rural do Rio de Janeiro, Nova Iguaçu, 2022. |
Resumo: | As publicações em periódicos científicos e em conferências especializadas desempenham o papel primordial de expressar os temas de interesse de autores e leitores em um de- terminado campo do conhecimento. Nesse sentido, o esforço de organizar a produção científica é vital para o avanço da difusão dos conteúdos produzidos de forma inequí- voca, rápida e segura. Considerando a atual inundação informacional provocada pelas ferramentas digitais, a questão da classificação automatizada se torna premente e deve obrigatoriamente ser abordada em todo repositório ou plataforma digital de publicações científicas. Dentre outros aspectos, sobressai-se o uso de uma taxonomia pela sua capaci- dade de adicionar um elemento semântico hierárquico ao ato de classificar ou categorizar conceitos e informações específicas que definem o domínio de um campo do conhecimento. Particularmente no campo das Humanidades Digitais, a cultura epistemológica que vem sendo construída pela sua crescente comunidade tem feito nascer e crescer projetos in- ternacionais que abordam a questão em um ambiente com desafios adicionais devido ao seu perfil fortemente interdisciplinar. O objetivo desta dissertação é usar ferramentas computacionais de análise por tópicos de textos para desenvolver um método auxiliar de classificação léxica de publicações apoiado em uma taxonomia denominada TaDiRAH – Taxonomy of Digital Research Activities in the Humanities. O método proposto pode ser visto como uma combinação da abordagem semântica da taxonomia com a abordagem léxica da análise automatizada de textos. Suas categorias são de uso livre e prático. No entanto, não é incomum, e até esperado pelo perfil interdisciplinar, que uma publicação possa ser classificada em diferentes categorias de níveis diferentes ou de mesmo nível da taxonomia, criando assim sobreposições. Somado a isso, a quantidade de publicações já classificadas artesanalmente pela comunidade científica ainda é relativamente pequena e, sobretudo, extremamente desbalanceada entre as categorias da taxonomia. Esses dois aspectos que caracterizam a amostragem disponível tornam a tarefa de classificar com fi- dedignidade publicações em Humanidades Digitais particularmente difícil. Propomos um método que combina modelos de classificação bayesianos da literatura com abordagens originais para lidar com sobreposições e desbalanceamento entre as categorias da taxo- nomia. Resultados de experimentos computacionais realizados com um universo de 443 publicações mostraram que as abordagens propostas são, de fato, capazes de melhorar profundamente o desempenho dos métodos de classificação empregados. |
Abstract: | Publications in scientific journals and in specialized conferences play a key role in ex- pressing the topics of interest to authors and readers in a given field of knowledge. In this sense, the effort to organize scientific production is vital for the advancement of the dissemination of contents produced in an unequivocal, fast and safe way. Considering the current information flood caused by digital tools, the issue of automated classification becomes urgent and must be addressed in every repository or digital platform of scien- tific publications. Among other aspects, the use of a taxonomy stands out for its ability to add a hierarchical semantic element to the act of classifying or categorizing concepts and specific information that define the domain of a field of knowledge. Particularly in the field of Digital Humanities, the epistemological culture that has been built by its growing community has given rise to international projects that address the issue in an environment with additional challenges due to its strongly interdisciplinary profile. The objective of this dissertation is to use computational tools for analysis by topics of texts to develop an auxiliary method of lexical classification of publications supported by a taxonomy called TaDiRAH – Taxonomy of Digital Research Activities in the Humanities. The proposed method can be seen as a combination of the semantic approach of taxonomy with the lexical approach of automated text analysis. Its categories are free and practical. However, it is not uncommon, and even expected by the interdisciplinary profile, that a publication can be classified into different categories of different levels or the same level of the taxonomy, thus creating overlaps. In addition, the number of publications already classified by the scientific community is still relatively small and, above all, extremely unbalanced between the taxonomy categories. These two aspects that characterize the available sample make the task of reliably classifying publications in Digital Humanities particularly difficult. We propose a method that combines Bayesian classification models from the literature with original approaches to deal with overlaps and imbalances between taxonomy categories. Results of computational experiments carried out with a universe of 443 publications showed that the proposed approaches are, in fact, capable of profoundly improving the performance of the classification methods use. |
URI: | https://rima.ufrrj.br/jspui/handle/20.500.14407/18650 |
Aparece nas coleções: | Mestrado em Humanidades Digitais |
Se for cadastrado no RIMA, poderá receber informações por email.
Se ainda não tem uma conta, cadastre-se aqui!
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
2022 - Luiz Carlos de Jesus.Pdf | 1.45 MB | Adobe PDF | Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.