Pode ser possível algum dia usar Large Language Models (LLM) para ler automaticamente notas clínicas em registros médicos e extrair informações relevantes de forma confiável e eficiente para dar suporte ao atendimento ao paciente ou à pesquisa. Mas uma pesquisa recente da Columbia University Mailman School of Public Health usando ChatGPT-4 para ler notas médicas de admissões no Departamento de Emergência para determinar se os ciclistas e patinetes feridos estavam usando capacetes descobriu que o LLM ainda não consegue fazer isso de forma confiável. As descobertas foram publicadas em Rede JAMA aberta.

Em um estudo de 54.569 visitas ao departamento de emergência entre pacientes feridos ao andar de bicicleta, patinete ou outro meio de transporte de micromobilidade de 2019 a 2022, o AI LLM teve dificuldade em replicar os resultados de uma abordagem baseada em busca de sequência de texto para extrair o status do capacete de notas clínicas. O LLM só teve um bom desempenho quando o prompt incluiu todo o texto usado na abordagem baseada em busca de sequência de texto. O LLM também teve dificuldade em replicar seu trabalho em todos os testes em cada um dos cinco dias consecutivos, ele se saiu melhor ao replicar suas alucinações do que seu trabalho preciso. Ele teve dificuldades principalmente quando as frases foram negadas, como ler “s/capacete” ou “sem capacete” e relatar que o paciente usava um capacete.

Grandes quantidades de dados clinicamente relevantes são incluídas em registros médicos eletrônicos na forma de notas clínicas escritas, um tipo de dado não estruturado. Maneiras eficientes de ler e extrair informações dessas notas seriam extremamente úteis para a pesquisa. Atualmente, as informações dessas notas clínicas podem ser extraídas usando abordagens simples de busca de texto de correspondência de strings ou por meio de abordagens mais sofisticadas baseadas em inteligência artificial (IA), como processamento de linguagem natural. A esperança era que o novo LLM, como o ChatGPT-4, pudesse extrair informações de forma mais rápida e confiável.

Embora vejamos potenciais ganhos de eficiência no uso do LLM de IA generativa para tarefas de extração de informações, problemas de confiabilidade e alucinações atualmente limitam sua utilidade”, disse Andrew Rundle, DrPH, professor de Epidemiologia na Columbia Mailman School e autor sênior. “Quando usamos prompts altamente detalhados que incluíam todas as sequências de texto relacionadas a capacetes, em alguns dias o ChatGPT-4 conseguia extrair dados precisos das notas clínicas. Mas o tempo necessário para definir e testar todo o texto que tinha que ser incluído no prompt e a incapacidade do ChatGPT-4 de replicar seu trabalho, dia após dia, nos indica que o ChatGPT-4 ainda não estava à altura dessa tarefa.”

Usando dados de 2019 a 2022 disponíveis publicamente do US Consumer Product Safety Commission’s National Electronic Injury Surveillance System, uma amostra de 96 hospitais dos EUA, Rundle e colegas analisaram registros de departamentos de emergência de pacientes feridos em acidentes de e-bike, bicicleta, hoverboard e scooter motorizada. Eles compararam os resultados das análises dos registros do ChatGPT-4 com dados gerados usando pesquisas mais tradicionais baseadas em sequências de texto e, para 400 registros, eles compararam as análises do ChatGPT com sua própria leitura das notas clínicas nos registros.

Esta pesquisa se baseia em seu trabalho estudando como prevenir lesões entre usuários de micromobilidade (ou seja, ciclistas, pilotos de e-bike, pilotos de patinete). “O uso de capacete é um fator-chave na gravidade da lesão, mas na maioria dos registros médicos e relatórios de incidentes do departamento de emergência, as informações sobre o uso de capacete estão enterradas nas notas clínicas escritas pelo médico ou respondente do EMS. Há uma necessidade significativa de pesquisa para poder acessar essas informações de forma confiável e eficiente.” disse Kathryn Burford, a autora principal do artigo e bolsista de pós-doutorado no Departamento de Epidemiologia da Mailman School.

“Nosso estudo examinou o potencial de um LLM para extrair informações de notas clínicas, uma rica fonte de informações para profissionais de saúde e pesquisadores”, disse Rundle. “Mas na época em que usamos o ChatGPT-4, ele não conseguia nos fornecer dados de forma confiável.”



Source link