DeBERTa Healthcare PT (1024 tokens)

Este modelo é uma versão adaptada do microsoft/deberta-base, treinada com dados clínicos reais em português para tarefas de Masked Language Modeling (MLM) no domínio da saúde.

Foi ajustado para suportar contexto expandido de até 1024 tokens, o que o torna ideal para processar anotações médicas longas, laudos e evoluções clínicas.

📌 Introdução

O modelo foi treinado com uma base real de 10.000 exames médicos, contendo textos como:

  • Anotações de evolução clínica
  • Resultados laboratoriais
  • Comentários de médicos e assistentes

Todas as informações sensíveis foram anonimizadas antes do treinamento, incluindo:

  • CPF
  • CRM
  • Telefones
  • Nomes próprios

💻 Como Usar

🔹 Masked Language Modeling

from transformers import AutoTokenizer, AutoModelForMaskedLM

model = AutoModelForMaskedLM.from_pretrained("ronaldo-lage-pessoa/deberta-healthcare-pt-1024")
tokenizer = AutoTokenizer.from_pretrained("ronaldo-lage-pessoa/deberta-healthcare-pt-1024")

text = "Paciente apresenta sintomas de [MASK] respiratória aguda."
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)

🔹 Classificação de Texto (ex: Achados Críticos, CID-10, etc.)

from transformers import AutoTokenizer, AutoModelForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained("ronaldo-lage-pessoa/deberta-healthcare-pt-1024")
model = AutoModelForSequenceClassification.from_pretrained(
    "ronaldo-lage-pessoa/deberta-healthcare-pt-1024",
    num_labels=2  # ajuste conforme sua tarefa
)

text = "Paciente com dor intensa no quadrante inferior direito e febre."
inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True, max_length=1024)
outputs = model(**inputs)
predicted_class = outputs.logits.argmax(dim=-1).item()

Para tarefas de classificação, é necessário treinar uma cabeça (head) de classificação usando Trainer ou outro método supervisionado com seus próprios rótulos.

🧾 Dados de Treinamento

  • Volume: 10.000 exames médicos (anonimizados)
  • Linguagem: Português (BR)
  • Domínio: Saúde/Hospitalar
  • Tamanho médio dos textos: 100–800 tokens
  • Tokenização: Byte-Level BPE (30k tokens)

📊 Resultados

  • Treinado por: Ronaldo Lage Pessoa
  • Arquitetura: DeBERTa Base
  • max_position_embeddings: 1024
  • Técnica: Masked Language Modeling (MLM)

Métricas como loss e perplexity são disponibilizadas no log de treinamento (MLflow ou W&B).

⚠️ Limitações

  • O modelo não deve ser usado para diagnóstico clínico automático.
  • Pode refletir padrões ou viés dos dados de origem.
  • Deve ser interpretado com suporte profissional em saúde.

📄 Licença

MIT License — uso livre com atribuição.


Autor: Ronaldo Lage Pessoa
Hugging Face Repo: ronaldo-lage-pessoa/deberta-healthcare-pt-1024

Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support