File size: 6,486 Bytes
69c9cd9 cb4b3ea c47f3a3 cb4b3ea ad432c6 69c9cd9 ad432c6 69c9cd9 ad432c6 69c9cd9 ee5e2f3 69c9cd9 ad432c6 69c9cd9 ad432c6 69c9cd9 ad432c6 69c9cd9 ad432c6 69c9cd9 ad432c6 69c9cd9 ad432c6 69c9cd9 ad432c6 69c9cd9 ad432c6 69c9cd9 ad432c6 69c9cd9 ad432c6 69c9cd9 ad432c6 69c9cd9 ad432c6 69c9cd9 ad432c6 69c9cd9 97caacd 69c9cd9 7ac8548 97caacd 7ac8548 ad432c6 69c9cd9 ad432c6 69c9cd9 ad432c6 6a2b957 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 |
---
library_name: transformers
tags:
- medical
language:
- ru
base_model:
- ai-forever/ruT5-base
pipeline_tag: summarization
datasets:
- smakov/ru_medsum
metrics:
- bleu
- rouge
- meteor
---
# ruT5_MedSum
## Model description
This is a finetuned version of [ai-forevert/ruT5-base](https://huggingface.co/ai-forever/ruT5-base) on summarization task of medical abstracts.
## Intended uses & limitations
#### How to use
```python
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
model_name = "smakov/rut5_medsum"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
article_text = "введение. новый коронавирус тяжелого острого респираторного синдрома 2 (sars-cov-2) был объявлен всемирной организацией здравоохраненияпандемиейв марте 2020 г. новые волны различных генотипов вируса регулярно прокатываются по земному шару. последние исследования демонстрируют худшие прогнозы для пациентов с имеющимся сердечнососудистым заболеванием, указывая на возможную связь между инфекциейsars-cov-2и увеличением числа новых случаевсердечно-сосудистых заболеванийи диабета независимо от тяжести патологии. если эта тенденция верна, то с сотнями миллионов инфицированных бремя болезней может предвещать потенциально тревожный ростсердечно-сосудистых заболеванийи диабета в будущем.цель - изучить лабораторные показатели пациентов с новой коронавирусной инфекцией covid-19 на фоне сахарного диабета (сд) 2-го типа и хронической сердечной недостаточности.материалы и методы. в исследование включен 51 пациент с верифицированных диагнозом новой короновирусной инфекции covid-19 средней степени тяжести на фоне сд 2-го типа и хронической сердечной недостаточностью. всем пациентам проведено количественное определение лабораторных показателей крови. корреляционный анализ проводился с использованием коэффициента ранговойкорреляции спирмена.результаты и обсуждение. наиболее интересными, на наш взгляд, оказались многочисленные корреляционные связи между концентрацией глюкозы и маркерами дисфункции внутренних органов и систем: с концентрацией билирубина, международным нормализованным отношением, креатинином, с концентрацией углекислого газа (ctco2 ), оснований (ве), с концентрацией бикарбоната (hco3 act). наиболее выраженной (rs = 0,74) оказалась корреляционная связь концентрации глюкозы с количеством базофилов, что может свидетельствовать о возможном влиянии механизмов гиперчувствительности на выраженность гипергликемии у пациентов с covid-19.выводы. уровень гипергликемии - это маркер выраженности не только метаболического ацидоза, но и дисфункции внутренних органов и систем у пациентов с новой коронавирусной инфекцией covid-19, протекающей на фоне сд 2-го типа и сердечной недостаточности."
input_ids = tokenizer(
[article_text],
max_length=512,
padding="max_length",
truncation=True,
return_tensors="pt",
)["input_ids"]
output_ids = model.generate(
input_ids=input_ids,
max_length=max_length,
num_beams=3,
early_stopping=True
)[0]
summary = tokenizer.decode(output_ids, skip_special_tokens=True)
print(summary)
# 'лабораторные показатели пациентов с новой коронавирусной инфекцией covid-19 на фоне сахарного диабета 2-го типа и хронической сердечной недостаточности'
```
## Training data
- Dataset: [ru_MedSum](https://huggingface.co/datasets/smakov/ru_medsum)
## Training procedure
- Training notebook: [train.ipynb](https://github.com/smvkvv/rut5_medsum/blob/main/train.ipynb)
## Evaluating
- Evaluating notebook: [evaluate.ipynb](https://github.com/smvkvv/rut5_medsum/blob/main/evaluate.ipynb)
## Eval results
* Train dataset: **ru_MedSum train**
* Test dataset: **ru_MedSum test**
* Source max_length: **512**
* Target max_length: **128**
* num_beams: **3**
| Model | R-1-f | R-2-f | R-L-f | BLEU | METEOR | Avg char length |
|:--------------------------|:------|:------|:------|:-------|:-------|:----------------|
| LSA | 23.1 | 14.3 | 18.5 | 2.6 | 14.7 | 220 |
| Luhn | 22.9 | 14.7 | 18.8 | 2.4 | 16.2 | 252 |
| TextRank | 20.1 | 12.1 | 15.8 | 1.7 | 14.7 | 304 |
| LexRank ([paper](https://arxiv.org/abs/1109.2128)) | 26.0 | 17.6 | 22.0 | 3.5 | 17.3 | 197 |
| [cointegrated/rut5-base-absum](https://huggingface.co/cointegrated/rut5-base-absum) | 29.9 | 21.1 | 26.1 | 6.2 | 17.7 | 127 |
| [smakov/rut5_medsum](https://huggingface.co/smakov/rut5_medsum) | 54.1 | 44.9 | 50.1 | 23.6 | 38.6 | 99 | |