|
--- |
|
library_name: transformers |
|
tags: |
|
- medical |
|
language: |
|
- ru |
|
base_model: |
|
- ai-forever/ruT5-base |
|
pipeline_tag: summarization |
|
datasets: |
|
- smakov/ru_medsum |
|
metrics: |
|
- bleu |
|
- rouge |
|
- meteor |
|
--- |
|
|
|
# ruT5_MedSum |
|
|
|
## Model description |
|
|
|
This is a finetuned version of [ai-forevert/ruT5-base](https://huggingface.co/ai-forever/ruT5-base) on summarization task of medical abstracts. |
|
|
|
## Intended uses & limitations |
|
|
|
#### How to use |
|
|
|
|
|
```python |
|
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM |
|
|
|
model_name = "smakov/rut5_medsum" |
|
tokenizer = AutoTokenizer.from_pretrained(model_name) |
|
model = AutoModelForSeq2SeqLM.from_pretrained(model_name) |
|
|
|
article_text = "введение. новый коронавирус тяжелого острого респираторного синдрома 2 (sars-cov-2) был объявлен всемирной организацией здравоохраненияпандемиейв марте 2020 г. новые волны различных генотипов вируса регулярно прокатываются по земному шару. последние исследования демонстрируют худшие прогнозы для пациентов с имеющимся сердечнососудистым заболеванием, указывая на возможную связь между инфекциейsars-cov-2и увеличением числа новых случаевсердечно-сосудистых заболеванийи диабета независимо от тяжести патологии. если эта тенденция верна, то с сотнями миллионов инфицированных бремя болезней может предвещать потенциально тревожный ростсердечно-сосудистых заболеванийи диабета в будущем.цель - изучить лабораторные показатели пациентов с новой коронавирусной инфекцией covid-19 на фоне сахарного диабета (сд) 2-го типа и хронической сердечной недостаточности.материалы и методы. в исследование включен 51 пациент с верифицированных диагнозом новой короновирусной инфекции covid-19 средней степени тяжести на фоне сд 2-го типа и хронической сердечной недостаточностью. всем пациентам проведено количественное определение лабораторных показателей крови. корреляционный анализ проводился с использованием коэффициента ранговойкорреляции спирмена.результаты и обсуждение. наиболее интересными, на наш взгляд, оказались многочисленные корреляционные связи между концентрацией глюкозы и маркерами дисфункции внутренних органов и систем: с концентрацией билирубина, международным нормализованным отношением, креатинином, с концентрацией углекислого газа (ctco2 ), оснований (ве), с концентрацией бикарбоната (hco3 act). наиболее выраженной (rs = 0,74) оказалась корреляционная связь концентрации глюкозы с количеством базофилов, что может свидетельствовать о возможном влиянии механизмов гиперчувствительности на выраженность гипергликемии у пациентов с covid-19.выводы. уровень гипергликемии - это маркер выраженности не только метаболического ацидоза, но и дисфункции внутренних органов и систем у пациентов с новой коронавирусной инфекцией covid-19, протекающей на фоне сд 2-го типа и сердечной недостаточности." |
|
|
|
input_ids = tokenizer( |
|
[article_text], |
|
max_length=512, |
|
padding="max_length", |
|
truncation=True, |
|
return_tensors="pt", |
|
)["input_ids"] |
|
|
|
output_ids = model.generate( |
|
input_ids=input_ids, |
|
max_length=max_length, |
|
num_beams=3, |
|
early_stopping=True |
|
)[0] |
|
|
|
summary = tokenizer.decode(output_ids, skip_special_tokens=True) |
|
print(summary) |
|
|
|
# 'лабораторные показатели пациентов с новой коронавирусной инфекцией covid-19 на фоне сахарного диабета 2-го типа и хронической сердечной недостаточности' |
|
|
|
``` |
|
|
|
## Training data |
|
|
|
- Dataset: [ru_MedSum](https://huggingface.co/datasets/smakov/ru_medsum) |
|
|
|
## Training procedure |
|
|
|
- Training notebook: [train.ipynb](https://github.com/smvkvv/rut5_medsum/blob/main/train.ipynb) |
|
|
|
## Evaluating |
|
|
|
- Evaluating notebook: [evaluate.ipynb](https://github.com/smvkvv/rut5_medsum/blob/main/evaluate.ipynb) |
|
|
|
## Eval results |
|
|
|
* Train dataset: **ru_MedSum train** |
|
* Test dataset: **ru_MedSum test** |
|
* Source max_length: **512** |
|
* Target max_length: **128** |
|
* num_beams: **3** |
|
|
|
| Model | R-1-f | R-2-f | R-L-f | BLEU | METEOR | Avg char length | |
|
|:--------------------------|:------|:------|:------|:-------|:-------|:----------------| |
|
| LSA | 23.1 | 14.3 | 18.5 | 2.6 | 14.7 | 220 | |
|
| Luhn | 22.9 | 14.7 | 18.8 | 2.4 | 16.2 | 252 | |
|
| TextRank | 20.1 | 12.1 | 15.8 | 1.7 | 14.7 | 304 | |
|
| LexRank ([paper](https://arxiv.org/abs/1109.2128)) | 26.0 | 17.6 | 22.0 | 3.5 | 17.3 | 197 | |
|
| [cointegrated/rut5-base-absum](https://huggingface.co/cointegrated/rut5-base-absum) | 29.9 | 21.1 | 26.1 | 6.2 | 17.7 | 127 | |
|
| [smakov/rut5_medsum](https://huggingface.co/smakov/rut5_medsum) | 54.1 | 44.9 | 50.1 | 23.6 | 38.6 | 99 | |