Em diversas partes do mundo, instituições de saúde têm adotado chatbots de inteligência artificial para dar suporte aos pacientes.
Esses sistemas oferecem orientação sobre sintomas e funcionam como um primeiro ponto de contato antes do atendimento médico presencial.
O argumento das instituições é que essas IAs acertam quase todas as questões de provas médicas, às vezes mais de 90%, o que chamou atenção de gestores interessados em reduzir custos e ampliar acesso.
No entanto, um estudo da Universidade de Oxford, em parceria com a organização MLCommons, mostra que o desempenho das IAs em exames não se traduz em eficácia no uso real por leigos. Publicada na Nature Medicine, a pesquisa é considerada o maior estudo de usuários sobre chatbots médicos feito até o momento.
O estudo analisou se a assistência de chatbots melhora a capacidade de pessoas sem formação médica de identificar problemas de saúde e decidir quando buscar atendimento. Foram identificados três problemas principais: comunicação incompleta dos sintomas, respostas inconsistentes das IAs e baixa adesão às recomendações corretas.
Para testar isso, 1.298 voluntários do Reino Unido receberam cenários clínicos fictícios, como “você é uma pessoa de 20 anos com dor de cabeça súbita e intensa”, e tiveram que decidir se procurariam médico, pronto-socorro ou cuidariam de si mesmos. Alguns contaram com chatbots de IA (GPT-4o, Llama 3 ou Command R+), enquanto outros usaram Google ou suas próprias análises.
Os resultados mostram que, embora os LLMs identifiquem corretamente condições médicas em 95% dos casos e o nível de urgência em 56%, os usuários leigos acertaram apenas 34% das condições e 44% das urgências.
Em outras palavras, o uso do chatbot piorou as decisões médicas dos participantes em comparação com outras fontes de informação.
O estudo destaca um paradoxo, o risco não está nos erros da IA, mas na forma como pessoas leigas interpretam suas respostas.
Chatbots fornecem informações inconsistentes, criando uma falsa sensação de segurança que pode levar pacientes a subestimar situações graves. Um exemplo citado foi um caso de hemorragia cerebral em que a IA recomendou “descansar em quarto escuro” em vez de buscar atendimento de emergência.
Ela reforça que, apesar do avanço tecnológico, a IA ainda não está pronta para substituir ou orientar decisões médicas de forma confiável.