Klassifikationsmodell für OPS-Codes

⚠️ Wichtiger Hinweis

Dieses Modell ist nicht für den Produktionseinsatz geeignet und dient lediglich als Demonstration.

Einführung

OPS-Codes (Operationen- und Prozedurenschlüssel) sind ein wesentlicher Bestandteil des deutschen Gesundheitssystems. Sie werden zur Klassifikation von medizinischen Prozeduren verwendet und sind entscheidend für die Abrechnung und statistische Auswertung im Gesundheitswesen.

Haftungsausschluss

Die Daten, die zum Trainieren des Modells verwendet wurden, wurden von gesund.bund.de gescraped und sind Eigentum des Urheberrechtsinhabers. Der alleinige Zweck dieses Datensatzes und der zugehörigen Codebasis sowie anderer Materialien ist es, die deutsche medizinische Gemeinschaft bei der Erstellung hochspezialisierter deutscher Modelle zu unterstützen.

Originaler Datensatz: Hugging Face Dataset

Wenn Sie an vorab geparsten Daten interessiert sind, die als Baseline für diese synthetischen Daten verwendet wurden, können Sie diese unter folgender Adresse abrufen: regmi.dev/ops

Hardware

Das Modell wurde auf einem Nvidia Jetson Nano Super trainiert: Silicon Highway Direct

Metadaten zum Training

Anzahl der Epochen: 20
Accuracy: 0.8083
Precision: 0.8323
Recall: 0.8083
F1-Score: 0.8042

Voraussetzungen

Python 3.12 (Dies ist die Version, die wir verwendet haben; andere Versionen könnten ebenfalls kompatibel sein.)

Installation

Um das Modell zu verwenden, installieren Sie die folgende Version des Transformers-Pakets:

pip install transformers==4.49.0

Ausgabe

label: Der vom Modell erkannte OPS-Code
score: Confidence-Score des Modells (1 entspricht 100%: höchste Confidence, 0 entspricht 0% Confidence)

Verwendung

Das Modell kann wie folgt in den Speicher geladen werden:

from transformers import AutoModelForSequenceClassification
from transformers import AutoTokenizer
from transformers import pipeline

model = AutoModelForSequenceClassification.from_pretrained("regmibijay/ops-klassifikation-v1")
tokenizer = AutoTokenizer.from_pretrained("regmibijay/ops-klassifikation-v1")

classifier = pipeline("text-classification", model=model, tokenizer=tokenizer)

Jetzt ist das Modell bereit zur Verwendung:

Klassifikation eines einzelnen Strings

classifier("Arthroskopische Operation am Tarsalgelenk")

ergibt die folgende Ausgabe:

[{'label': '5-810.2n', 'score': 0.6497781872749329}]

Klassifikation mehrerer Strings

texts = ["Arthroskopische Operation am Tarsalgelenk", "Appendektomie"]
results = classifier(texts)

ergibt die folgende Ausgabe:

[
    {'label': '5-810.2n', 'score': 0.6497781872749329},
    {'label': '5-470.0', 'score': 0.7321234567890123}
]

Die Ausgabe kann hier überprüft werden: regmi.dev/ops_codes.html

Allgemeine Leistungsüberlegungen

Das Modell ist für Demonstrationszwecke optimiert und kann in ressourcenbeschränkten Umgebungen wie dem Nvidia Jetson Nano Super betrieben werden. Beachten Sie jedoch, dass die Leistung je nach Hardware und Eingabedaten variieren kann.

Mitwirken

Beiträge sind jederzeit willkommen. Unterstützung erhalten Sie unter: [email protected]

Lizenz

Dieses Projekt steht unter der MIT-Lizenz.

Über mich

Github: https://github.com/regmibijay
Blog: https://blog.regmi.dev/blog/data-engineering-4/ein-medizinisches-ki-modell-mit-synthetischen-daten-9
Impressum: https://blog.regmi.dev/legal-stuff

regmibijay
/

ops-klassifikation-v1