Para treinar modelos de linguagem grandes e mais poderosos, os pesquisadores usam vastas coleções de conjuntos de dados que combinam dados diversos de milhares de fontes da web.
Mas, à medida que esses conjuntos de dados são combinados e recombinados em várias coleções, informações importantes sobre suas origens e restrições sobre como eles podem ser usados geralmente são perdidas ou confundidas na confusão.
Isso não só levanta preocupações legais e éticas, como também pode prejudicar o desempenho de um modelo. Por exemplo, se um conjunto de dados for categorizado incorretamente, alguém treinando um modelo de machine learning para uma determinada tarefa pode acabar usando involuntariamente dados que não foram projetados para essa tarefa.
Além disso, dados de fontes desconhecidas podem conter vieses que fazem com que um modelo faça previsões injustas quando implantado.
Para melhorar a transparência de dados, uma equipe de pesquisadores multidisciplinares do MIT e de outros lugares lançou uma auditoria sistemática de mais de 1.800 conjuntos de dados de texto em sites de hospedagem populares. Eles descobriram que mais de 70% desses conjuntos de dados omitiam algumas informações de licenciamento, enquanto cerca de 50% tinham informações que continham erros.
Com base nesses insights, eles desenvolveram uma ferramenta fácil de usar chamada Data Provenance Explorer, que gera automaticamente resumos fáceis de ler sobre os criadores, fontes, licenças e usos permitidos de um conjunto de dados.
“Esses tipos de ferramentas podem ajudar reguladores e profissionais a tomar decisões informadas sobre a implantação de IA e promover o desenvolvimento responsável da IA”, diz Alex “Sandy” Pentland, professor do MIT, líder do Human Dynamics Group no MIT Media Lab e coautor de um novo artigo de acesso aberto sobre o projeto.
O Data Provenance Explorer pode ajudar os profissionais de IA a construir modelos mais eficazes, permitindo que eles selecionem conjuntos de dados de treinamento que se encaixem na finalidade pretendida do modelo. A longo prazo, isso pode melhorar a precisão dos modelos de IA em situações do mundo real, como aquelas usadas para avaliar solicitações de empréstimo ou responder a consultas de clientes.
“Uma das melhores maneiras de entender as capacidades e limitações de um modelo de IA é entender em quais dados ele foi treinado. Quando você tem atribuição incorreta e confusão sobre de onde os dados vieram, você tem um sério problema de transparência”, diz Robert Mahari, um estudante de pós-graduação no MIT Human Dynamics Group, um candidato a JD na Harvard Law School e coautor principal do artigo.
Mahari e Pentland são acompanhados no artigo pelo coautor principal Shayne Longpre, um estudante de pós-graduação no Media Lab; Sara Hooker, que lidera o laboratório de pesquisa Cohere for AI; bem como outros no MIT, na University of California em Irvine, na University of Lille na França, na University of Colorado em Boulder, no Olin College, na Carnegie Mellon University, na Contextual AI, no ML Commons e no Tidelift. A pesquisa é publicada hoje em Natureza Máquina Inteligência.
Foco no ajuste fino
Os pesquisadores geralmente usam uma técnica chamada fine-tuning para melhorar as capacidades de um grande modelo de linguagem que será implantado para uma tarefa específica, como responder a perguntas. Para fine-tuning, eles constroem cuidadosamente conjuntos de dados selecionados, projetados para impulsionar o desempenho de um modelo para essa tarefa.
Os pesquisadores do MIT se concentraram nesses conjuntos de dados de ajuste fino, que geralmente são desenvolvidos por pesquisadores, organizações acadêmicas ou empresas e licenciados para usos específicos.
Quando plataformas de crowdsourcing agregam esses conjuntos de dados em coleções maiores para os profissionais usarem para ajustes finos, algumas dessas informações de licença originais geralmente são deixadas para trás.
“Essas licenças devem ser importantes e executáveis”, diz Mahari.
Por exemplo, se os termos de licenciamento de um conjunto de dados estiverem errados ou ausentes, alguém pode gastar muito dinheiro e tempo desenvolvendo um modelo que pode ser forçado a retirar do ar mais tarde porque alguns dados de treinamento contêm informações privadas.
“As pessoas podem acabar treinando modelos sem nem mesmo entender as capacidades, preocupações ou riscos desses modelos, que, em última análise, derivam dos dados”, acrescenta Longpre.
Para começar este estudo, os pesquisadores definiram formalmente a procedência dos dados como a combinação da origem, criação e licenciamento de um conjunto de dados, bem como suas características. A partir daí, eles desenvolveram um procedimento de auditoria estruturado para rastrear a procedência dos dados de mais de 1.800 coleções de conjuntos de dados de texto de repositórios online populares.
Após descobrir que mais de 70 por cento desses conjuntos de dados continham licenças “não especificadas” que omitiam muitas informações, os pesquisadores trabalharam de trás para frente para preencher as lacunas. Por meio de seus esforços, eles reduziram o número de conjuntos de dados com licenças “não especificadas” para cerca de 30 por cento.
O trabalho deles também revelou que as licenças corretas eram muitas vezes mais restritivas do que aquelas atribuídas pelos repositórios.
Além disso, eles descobriram que quase todos os criadores de conjuntos de dados estavam concentrados no norte global, o que poderia limitar as capacidades de um modelo se ele fosse treinado para implantação em uma região diferente. Por exemplo, um conjunto de dados em idioma turco criado predominantemente por pessoas nos EUA e na China pode não conter nenhum aspecto culturalmente significativo, explica Mahari.
“Quase nos iludimos ao pensar que os conjuntos de dados são mais diversos do que realmente são”, diz ele.
Curiosamente, os pesquisadores também observaram um aumento drástico nas restrições impostas aos conjuntos de dados criados em 2023 e 2024, o que pode ser motivado por preocupações de acadêmicos de que seus conjuntos de dados poderiam ser usados para fins comerciais não intencionais.
Uma ferramenta de fácil utilização
Para ajudar outros a obter essas informações sem a necessidade de uma auditoria manual, os pesquisadores construíram o Data Provenance Explorer. Além de classificar e filtrar conjuntos de dados com base em certos critérios, a ferramenta permite que os usuários baixem um cartão de proveniência de dados que fornece uma visão geral sucinta e estruturada das características do conjunto de dados.
“Esperamos que este seja um passo, não apenas para entender o cenário, mas também para ajudar as pessoas a fazerem escolhas mais informadas sobre os dados com os quais estão treinando”, diz Mahari.
No futuro, os pesquisadores querem expandir suas análises para investigar a procedência de dados multimodais, incluindo vídeo e fala. Eles também querem estudar como os termos de serviço em sites que servem como fontes de dados são ecoados em conjuntos de dados.
À medida que expandem suas pesquisas, eles também estão entrando em contato com reguladores para discutir suas descobertas e as implicações exclusivas de direitos autorais do ajuste fino de dados.
“Precisamos de procedência de dados e transparência desde o início, quando as pessoas estão criando e divulgando esses conjuntos de dados, para tornar mais fácil para outros obterem esses insights”, diz Longpre.