Por favor, use este identificador para citar o enlazar este ítem: https://rima.ufrrj.br/jspui/handle/20.500.14407/18211
Tipo do documento: Dissertação
Título: Viés em geração de linguagem natural na era dos modelos de grande escala sob a perspectiva das humanidades digitais
Otros títulos: Bias in natural language processing in the era of large language models from the digital humanities perspective
Autor: Seco, Daniel Bonatto
Orientador(a): Alvim, Leandro Guimaraes Marques
Primeiro membro da banca: Alvim, Leandro Guimarães Marques
Segundo membro da banca: Pagano, Adriana Silvina
Terceiro membro da banca: Mello, Carlos Eduardo Ribeiro de
Palabras clave: Processamento de linguagem natural;Humanidades Digitais;Inteligência Artificial;Artificial Intelligence;Digital Humanities;Natural Language Processing
Área(s) do CNPq: Multidisciplinar
Idioma: por
Fecha de publicación: 6-may-2024
Editorial: Universidade Federal Rural do Rio de Janeiro
Sigla da instituição: UFRRJ
Departamento: Instituto Multidisciplinar de Nova Iguaçu
Programa: Programa de Pós-Graduação Interdisciplinar em Humanidades Digitais
Citación: SECO, Daniel Bonatto. Viés em geração de linguagem natural na era dos modelos de grande escala sob a perspectiva das humanidades digitais. 2024. 106 f. Dissertação (Mestrado em Humanidades Digitas) - Instituto Multidisciplinar de Nova Iguaçu, Universidade Federal Rural do Rio de Janeiro, Nova Iguaçu, RJ, 2023.
Resumen: A presente dissertação investiga o problema do viés em grandes modelos de lin- guagem (LLMs) baseados na arquitetura Transformers e seus impactos na disseminação e reprodução de preconceitos e injustiças. Contextualizado na era da Inteligência Artificial e do Big Data e avaliado sob a luz das humanidades digitais, o trabalho parte de uma revisão histórica dos métodos em processamento de linguagem natural (PLN) e das parti- cularidades dos métodos atuais, explorando a questão da confiabilidade e sua aplicação no meio digital, especialmente nos modelos de linguagem, identificando potenciais problemas associados. É conduzida uma análise em dez modelos multilinguais com alguns treinados exclusivamente em português sobre um possível viés em sua capacidade de gerar continu- ações tóxicas de prompts a partir do gênero identificado. Questões transversais, como a proveniência e gerência de dados, representatividade linguística e cultural, e a importância da iniciativa de código aberto na construção de modelos éticos e transparentes são dis- cutidas, enfatizando a necessidade de abordagens mais inclusivas, justas e transparentes. Por fim, a urgência pela regulação da Inteligência Artificial é destacada, considerando os aspectos éticos, de segurança e de controle dos dados e dos modelos gerados, com uma análise dos principais projetos de lei em tramitação e suas implicações. Assim, a disser- tação contribui para o entendimento dos desafios éticos e técnicos associados aos modelos de linguagem, promovendo uma reflexão sobre a importância de abordagens confiáveis, justas e regulamentadas na construção e aplicação desses sistemas na sociedade.
Abstract: This thesis investigates the problem of bias in large language models (LLMs) based on the Transformers architecture and its impact on the dissemination and reproduction of stigmas and injustice. Contextualized in the era of Artificial Intelligence and Big Data and evaluated in the light of digital humanities, the thesis starts with a historical re- view of natural language processing (NLP) methods and the particularities of current methods, exploring the issue of reliability and its application in the digital environment, especially in language models, identifying potential associated problems. An analysis is conducted on 10 multilingual models or those trained exclusively in Portuguese, regarding a possible bias in their ability to generate toxic continuations of prompts based on the genre presented. Parallel issues such as data provenance and management, linguistic and cultural representativeness, and the importance of the open source initiative in building ethical and transparent models are discussed, emphasizing the need for more inclusive, fair and transparent approaches. Finally, the urgency of regulating Artificial Intelligence is highlighted, considering the ethical, security and control aspects of the data and models generated, with an analysis of the main bills currently being considered and their impli- cations. In this way, the dissertation contributes to an understanding of the ethical and technical challenges associated with language models, promoting a better understanding of these issues.
URI: https://rima.ufrrj.br/jspui/handle/20.500.14407/18211
Aparece en las colecciones:Mestrado em Humanidades Digitais

Se for cadastrado no RIMA, poderá receber informações por email.
Se ainda não tem uma conta, cadastre-se aqui!

Ficheros en este ítem:
Fichero Descripción TamañoFormato 
2024 - DANIEL BONATTO SECO.pdf12.97 MBAdobe PDFVista previa
Visualizar/Abrir


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.