Please use this identifier to cite or link to this item:
Full metadata record
DC FieldValueLanguage
dc.contributor.authorSeco, Daniel Bonatto-
dc.identifier.citationSECO, Daniel Bonatto. Viés em geração de linguagem natural na era dos modelos de grande escala sob a perspectiva das humanidades digitais. 2024. 106 f. Dissertação (Mestrado em Humanidades Digitas) - Instituto Multidisciplinar de Nova Iguaçu, Universidade Federal Rural do Rio de Janeiro, Nova Iguaçu, RJ, 2023.pt_BR
dc.description.abstractA presente dissertação investiga o problema do viés em grandes modelos de lin- guagem (LLMs) baseados na arquitetura Transformers e seus impactos na disseminação e reprodução de preconceitos e injustiças. Contextualizado na era da Inteligência Artificial e do Big Data e avaliado sob a luz das humanidades digitais, o trabalho parte de uma revisão histórica dos métodos em processamento de linguagem natural (PLN) e das parti- cularidades dos métodos atuais, explorando a questão da confiabilidade e sua aplicação no meio digital, especialmente nos modelos de linguagem, identificando potenciais problemas associados. É conduzida uma análise em dez modelos multilinguais com alguns treinados exclusivamente em português sobre um possível viés em sua capacidade de gerar continu- ações tóxicas de prompts a partir do gênero identificado. Questões transversais, como a proveniência e gerência de dados, representatividade linguística e cultural, e a importância da iniciativa de código aberto na construção de modelos éticos e transparentes são dis- cutidas, enfatizando a necessidade de abordagens mais inclusivas, justas e transparentes. Por fim, a urgência pela regulação da Inteligência Artificial é destacada, considerando os aspectos éticos, de segurança e de controle dos dados e dos modelos gerados, com uma análise dos principais projetos de lei em tramitação e suas implicações. Assim, a disser- tação contribui para o entendimento dos desafios éticos e técnicos associados aos modelos de linguagem, promovendo uma reflexão sobre a importância de abordagens confiáveis, justas e regulamentadas na construção e aplicação desses sistemas na sociedade.pt_BR
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESpt_BR
dc.publisherUniversidade Federal Rural do Rio de Janeiropt_BR
dc.subjectProcessamento de linguagem naturalpt_BR
dc.subjectHumanidades Digitaispt_BR
dc.subjectInteligência Artificialpt_BR
dc.subjectArtificial Intelligenceen
dc.subjectDigital Humanitiesen
dc.subjectNatural Language Processingen
dc.titleViés em geração de linguagem natural na era dos modelos de grande escala sob a perspectiva das humanidades digitaispt_BR
dc.title.alternativeBias in natural language processing in the era of large language models from the digital humanities perspectiveen
dc.description.abstractOtherThis thesis investigates the problem of bias in large language models (LLMs) based on the Transformers architecture and its impact on the dissemination and reproduction of stigmas and injustice. Contextualized in the era of Artificial Intelligence and Big Data and evaluated in the light of digital humanities, the thesis starts with a historical re- view of natural language processing (NLP) methods and the particularities of current methods, exploring the issue of reliability and its application in the digital environment, especially in language models, identifying potential associated problems. An analysis is conducted on 10 multilingual models or those trained exclusively in Portuguese, regarding a possible bias in their ability to generate toxic continuations of prompts based on the genre presented. Parallel issues such as data provenance and management, linguistic and cultural representativeness, and the importance of the open source initiative in building ethical and transparent models are discussed, emphasizing the need for more inclusive, fair and transparent approaches. Finally, the urgency of regulating Artificial Intelligence is highlighted, considering the ethical, security and control aspects of the data and models generated, with an analysis of the main bills currently being considered and their impli- cations. In this way, the dissertation contributes to an understanding of the ethical and technical challenges associated with language models, promoting a better understanding of these issues.en
dc.contributor.advisor1Alvim, Leandro Guimaraes Marques-
dc.contributor.referee1Alvim, Leandro Guimarães Marques-
dc.contributor.referee2Pagano, Adriana Silvina-
dc.contributor.referee3Mello, Carlos Eduardo Ribeiro de-
dc.publisher.departmentInstituto Multidisciplinar de Nova Iguaçupt_BR
dc.publisher.programPrograma de Pós-Graduação Interdisciplinar em Humanidades Digitaispt_BR
