Redefinir a Avaliação do TSR com IA: Perspectivas dos Cientistas de Dados

Como é que a IA está a revolucionar a avaliação do TSR, a melhorar as decisões clínicas e a moldar

Linha de apoio ao cliente IMP Diagnostics

Segunda - Sexta
9H00 - 20H00

Redefinir a Avaliação do TSR com IA: Perspectivas dos Cientistas de Dados

Como é que a IA está a revolucionar a avaliação do TSR, a melhorar as decisões clínicas e a moldar o futuro dos cuidados de saúde? O projeto ARABESC resulta de uma parceria colaborativa entre a WSK Medical e a IMP Diagnostics. Desde 2023, as duas empresas têm vindo a trabalhar em conjunto no desenvolvimento de um algoritmo baseado em inteligência artificial para a avaliação da razão tumor-estroma (TSR).

Na primeira edição da nossa série de entrevistas, falámos com dois patologistas sobre o potencial transformador da IA na avaliação do TSR, o seu impacto na tomada de decisões clínicas e os desafios da sua adoção na saúde. Nesta segunda edição, entrevistámos Felix Dikland e Cyrine Fekih — dois cientistas de dados com vasta experiência na aplicação de aprendizagem automática a ferramentas e aplicações clínicas.

Entrevista com os nossos patologistas Diana Montezuma e Domingos Oliveira sobre o projeto ARABESC e o impacto da IA na saúde

Nesta entrevista, pode esperar uma discussão franca sobre:

  • Controlo da variabilidade e do viés
  • Validação e mudança do paradigma científico
  • Ligação entre tecnologia e medicina
  • Considerações-chave para a implementação da IA na prática clínica

Controlo da Variabilidade e do Viés

Entrevistador (I) – Como desenhariam uma pipeline de IA para lidar com variações de cor em lâminas coradas com H&E de diferentes laboratórios?

Felix Dikland (FD) – Tradicionalmente, estas variações de cor são ultrapassadas através do pré-processamento das imagens, como normalização de cor ou deconvolução da coloração. Estas técnicas padronizam o input, tornando o modelo mais fiável, mas não mais robusto. Para alcançar robustez, é essencial introduzir aumentos de dados (data augmentation) durante o treino.

Cyrine Fekih (CF) – Na verdade, para lidar com variações de cor em lâminas H&E de diferentes laboratórios, o pipeline de IA deve começar com uma etapa de normalização de cor, de forma a padronizar as variações da coloração.

I – Como abordariam a variabilidade inter-lâmina na preparação dos tecidos, que pode afetar a precisão da quantificação do TSR?

FD – Do ponto de vista tradicional do treino de modelos de segmentação semântica, o pré-processamento adequado e a aumentação de dados, em combinação com um conjunto de dados grande e equilibrado, são a base de um modelo robusto. Ter um dataset “equilibrado” implica também uma boa distribuição de instituições, scanners, subtipos tumorais e métodos de aquisição, como espécimes cirúrgicos, biópsias pré-tratamento e polipectomias.

I – Que medidas de controlo de qualidade implementariam para a normalização de cor entre diferentes scanners?

CF – É possível usar métricas estatísticas, como similaridade dos vetores de coloração ou comparação de histogramas de cor, para avaliar a consistência antes e depois da normalização. Outro método seria incluir lâminas de referência ou alvos de calibração de cor digitalizados em cada dispositivo. A inspeção visual por especialistas em anatomia patológica também pode ser usada numa amostra de lâminas para validar a consistência percebida.

I – Como enfrentariam possíveis viéses no desempenho do algoritmo entre diferentes grupos demográficos ou subtipos tumorais?

CF – Num cenário ideal, o dataset de treino incluiria uma ampla gama de dados demográficos – idade, etnia, tipos tumorais e subtipos moleculares. Como isso nem sempre é possível, tomaria várias medidas para reduzir o risco de viés: validar o modelo com dados de diferentes instituições ou grupos de pacientes, mesmo que os conjuntos sejam pequenos, usar a incerteza do modelo para assinalar previsões menos confiáveis (indicando possíveis casos sub-representados) e comunicar claramente as limitações dos dados de treino e os viéses identificados.

I – Que estratégias usariam para aplicar a ferramenta noutros cancros epiteliais (ex.: mama, pâncreas)?

FD – A maior parte do trabalho de desenvolvimento está em criar um padrão sólido para anotação, extração de dados, aumento de dados, pipeline de treino e validação. Estes padrões podem ser adaptados a novos cancros epiteliais. Cada local clínico, no entanto, apresenta tecidos únicos e, portanto, problemas únicos.

Apresentamos o ARABESC, Solução de IA para Análise Automatizada de Amostras de Cancro Colorretal

Validação e Mudança no Paradigma Científico

I – Como assegurariam que os valores de corte do TSR do algoritmo estão alinhados com os limiares prognósticos estabelecidos (ex.: 50% estroma)?

FD – A literatura mostra que o TSR tende a ser subestimado pelos observadores humanos. Tecidos como necrose, mucina e áreas do lúmen devem ser excluídos, mas visualmente podem ser interpretados como tumor devido à sua aparência escura. Isso leva a subestimações sistemáticas no método manual. Mesmo que o valor automatizado seja mais preciso, pode não corresponder ao score manual validado clinicamente.

I – Que passos dariam para validar o desempenho da ferramenta face à avaliação manual dos patologistas (em estudos multicêntricos)?

FD – O maior desafio é comparar o score automatizado com o padrão-ouro atual: a estimativa visual. O método automático é determinístico e reproduz resultados idênticos. O método manual é semiquantitativo, com espaço para subjetividade. Para validar corretamente, é necessário criar setups específicos que avaliem cada passo do processo, identificando se as divergências vêm da subjetividade humana ou de erros do modelo.

I – Como lidariam com discordâncias entre o TSR gerado por IA e o dos patologistas, em casos limítrofes?

CF – É fundamental comparar diretamente o output da ferramenta com a avaliação do especialista, tanto em termos de identificação tecidular como na cálculo do TSR. A análise dessas diferenças ajuda a entender a origem do desacordo. O feedback dos patologistas pode então ser usado para melhorar e re-treinar o modelo, reforçando a sua fiabilidade.

I – Como padronizariam a área de tecido analisada (ex.: 1,0 mm vs. 2,0 mm) para garantir desempenho prognóstico consistente?

CF – Primeiramente, implementaríamos um algoritmo de controlo de qualidade para verificar se cada lâmina cumpre os padrões de calibração espacial (pixel-para-mícron). O pipeline automático usaria uma área circular fixa com diâmetro baseado em diretrizes clínicas. No modo manual, permitiríamos ao utilizador escolher um ROI circular entre 1,8 mm e 2,2 mm – oferecendo flexibilidade, mantendo consistência clínica.

I – Que funcionalidades na interface seriam necessárias para garantir a confiança e adoção clínica da avaliação automatizada do TSR?

FD – A ferramenta identifica e segmenta tecidos, classificando pixel a pixel tumor, estroma e outros tecidos. Além do score percentual, fornece um mapa de segmentação colorido sobre a região analisada. O patologista deve avaliar a fiabilidade do score com base na precisão da segmentação visível.

I – Que salvaguardas implementariam para evitar a dependência excessiva nos scores automáticos de TSR?

FD – Mesmo que o score automático seja mais preciso, a estimativa semiquantitativa dos patologistas é o único método com valor prognóstico clinicamente testado. Até que o score automatizado seja validado como indicador independente, o patologista deve concordar com o resultado. Mesmo após validação, deve verificar sempre a segmentação antes de utilizar o score como base para decisão clínica.

I – Como quantificariam o impacto da ferramenta na redução da variabilidade entre observadores na classificação estroma-rico vs. estroma-pobre?

FD – Existe uma métrica chamada discrepancy ratio, que mede a correlação da ferramenta com os observadores, normalizada pela variabilidade entre observadores. Se a média da variabilidade entre cada observador e a ferramenta for menor do que entre os próprios observadores, o discrepancy ratio > 1, provando que a ferramenta reduz a variabilidade.

Integração Clínica e Colaboração Multidisciplinar

I – Como integrar esta ferramenta nos workflows de patologia digital existentes sem atrasar os diagnósticos?

FD – O produto final é uma pipeline com pré-processamento, previsão e pós-processamento de uma imagem de lâmina. Esta pipeline pode ser instalada localmente ou na cloud. Muitos visualizadores de patologia digital já permitem evocar modelos diretamente. Adaptando os endpoints à entrada e saída esperada do visualizador, a ferramenta pode ser utilizada com um simples clique direito.

I – Como estruturariam a colaboração entre developers de IA, patologistas e oncologistas durante a melhoria da ferramenta?

CF – A colaboração pode ser estruturada como um ciclo de feedback contínuo. Patologistas avaliam a relevância clínica dos outputs, e reuniões regulares permitem discutir casos complexos, definir prioridades clínicas e orientar as atualizações iterativas.

I – Que requisitos de dados de treino especificariam aos patologistas colaboradores?

FD – Com o crescimento de modelos fundacionais, o foco passou de “grandes volumes” para dados de qualidade. Pedimos aos patologistas que anotem pequenas áreas com elevado detalhe. Estas anotações passam por controlo de qualidade, são reanotadas se necessário e depois usadas para treino.

CF – Anotações de alta qualidade, com regiões bem delineadas de tumor e estroma em lâminas H&E representativas, são essenciais para treinar eficazmente o modelo.

I – Como comunicariam as limitações da ferramenta a profissionais clínicos não técnicos?

FD – É essencial que o utilizador compreenda que nenhum modelo de IA é 100% preciso. Os erros fazem parte do seu funcionamento. A segmentação completa é apresentada para que o utilizador possa verificar erros, e não para confiar cegamente no score. A transparência serve para capacitar o utilizador, não para o levar a ignorar a ferramenta.

Considerações-Chave para Implementação Clínica

I – Como assegurariam que o algoritmo permanece adaptável a novos sistemas de classificação ou biomarcadores emergentes?

FD – Sendo o modelo, na sua essência, um segmentador de tecido, é altamente adaptável. Pode ser treinado para identificar tecidos linfáticos, detectar brotamento tumoral, segmentar estroma para avaliar configuração estromal ou até detetar invasão linfática/vascular.

I – Que KPIs rastreariam para demonstrar a utilidade clínica da ferramenta além da precisão técnica?

FD – KPIs importantes seriam indicadores de viés e taxas de adoção. Isto pode ser feito com registos que contem o número de utilizadores, frequência de uso, tipos tumorais com menor desempenho, etc.

CF – É importante medir o tempo poupado por caso, a melhoria na consistência da classificação estroma-alto vs. estroma-baixo e também fazer inquéritos sobre utilidade percebida e confiança do utilizador.

A IA está a reformular a forma como abordamos o TSR, oferecendo consistência, transparência e apoio clínico. Com uma abordagem cuidadosa e colaborativa, aproximamo-nos de ferramentas que não são apenas poderosas, mas também práticas. O futuro do TSR não é apenas automatizado — é aumentado, colaborativo e clinicamente relevante.

Scroll to Top
Consentimento de Cookies com Real Cookie Banner