DeBERTa Healthcare PT (1024 tokens)
Este modelo é uma versão adaptada do microsoft/deberta-base
, treinada com dados clínicos reais em português para tarefas de Masked Language Modeling (MLM) no domínio da saúde.
Foi ajustado para suportar contexto expandido de até 1024 tokens, o que o torna ideal para processar anotações médicas longas, laudos e evoluções clínicas.
📌 Introdução
O modelo foi treinado com uma base real de 10.000 exames médicos, contendo textos como:
- Anotações de evolução clínica
- Resultados laboratoriais
- Comentários de médicos e assistentes
Todas as informações sensíveis foram anonimizadas antes do treinamento, incluindo:
- CPF
- CRM
- Telefones
- Nomes próprios
💻 Como Usar
🔹 Masked Language Modeling
from transformers import AutoTokenizer, AutoModelForMaskedLM
model = AutoModelForMaskedLM.from_pretrained("ronaldo-lage-pessoa/deberta-healthcare-pt-1024")
tokenizer = AutoTokenizer.from_pretrained("ronaldo-lage-pessoa/deberta-healthcare-pt-1024")
text = "Paciente apresenta sintomas de [MASK] respiratória aguda."
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)
🔹 Classificação de Texto (ex: Achados Críticos, CID-10, etc.)
from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("ronaldo-lage-pessoa/deberta-healthcare-pt-1024")
model = AutoModelForSequenceClassification.from_pretrained(
"ronaldo-lage-pessoa/deberta-healthcare-pt-1024",
num_labels=2 # ajuste conforme sua tarefa
)
text = "Paciente com dor intensa no quadrante inferior direito e febre."
inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True, max_length=1024)
outputs = model(**inputs)
predicted_class = outputs.logits.argmax(dim=-1).item()
Para tarefas de classificação, é necessário treinar uma cabeça (head) de classificação usando
Trainer
ou outro método supervisionado com seus próprios rótulos.
🧾 Dados de Treinamento
- Volume: 10.000 exames médicos (anonimizados)
- Linguagem: Português (BR)
- Domínio: Saúde/Hospitalar
- Tamanho médio dos textos: 100–800 tokens
- Tokenização: Byte-Level BPE (30k tokens)
📊 Resultados
- Treinado por: Ronaldo Lage Pessoa
- Arquitetura: DeBERTa Base
max_position_embeddings
: 1024- Técnica: Masked Language Modeling (MLM)
Métricas como
loss
eperplexity
são disponibilizadas no log de treinamento (MLflow ou W&B).
⚠️ Limitações
- O modelo não deve ser usado para diagnóstico clínico automático.
- Pode refletir padrões ou viés dos dados de origem.
- Deve ser interpretado com suporte profissional em saúde.
📄 Licença
MIT License — uso livre com atribuição.
Autor: Ronaldo Lage Pessoa
Hugging Face Repo: ronaldo-lage-pessoa/deberta-healthcare-pt-1024