rut5_medsum / README.md
smakov's picture
Update README.md
97caacd verified
---
library_name: transformers
tags:
- medical
language:
- ru
base_model:
- ai-forever/ruT5-base
pipeline_tag: summarization
datasets:
- smakov/ru_medsum
metrics:
- bleu
- rouge
- meteor
---
# ruT5_MedSum
## Model description
This is a finetuned version of [ai-forevert/ruT5-base](https://huggingface.co/ai-forever/ruT5-base) on summarization task of medical abstracts.
## Intended uses & limitations
#### How to use
```python
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
model_name = "smakov/rut5_medsum"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
article_text = "введение. новый коронавирус тяжелого острого респираторного синдрома 2 (sars-cov-2) был объявлен всемирной организацией здравоохраненияпандемиейв марте 2020 г. новые волны различных генотипов вируса регулярно прокатываются по земному шару. последние исследования демонстрируют худшие прогнозы для пациентов с имеющимся сердечнососудистым заболеванием, указывая на возможную связь между инфекциейsars-cov-2и увеличением числа новых случаевсердечно-сосудистых заболеванийи диабета независимо от тяжести патологии. если эта тенденция верна, то с сотнями миллионов инфицированных бремя болезней может предвещать потенциально тревожный ростсердечно-сосудистых заболеванийи диабета в будущем.цель - изучить лабораторные показатели пациентов с новой коронавирусной инфекцией covid-19 на фоне сахарного диабета (сд) 2-го типа и хронической сердечной недостаточности.материалы и методы. в исследование включен 51 пациент с верифицированных диагнозом новой короновирусной инфекции covid-19 средней степени тяжести на фоне сд 2-го типа и хронической сердечной недостаточностью. всем пациентам проведено количественное определение лабораторных показателей крови. корреляционный анализ проводился с использованием коэффициента ранговойкорреляции спирмена.результаты и обсуждение. наиболее интересными, на наш взгляд, оказались многочисленные корреляционные связи между концентрацией глюкозы и маркерами дисфункции внутренних органов и систем: с концентрацией билирубина, международным нормализованным отношением, креатинином, с концентрацией углекислого газа (ctco2 ), оснований (ве), с концентрацией бикарбоната (hco3 act). наиболее выраженной (rs = 0,74) оказалась корреляционная связь концентрации глюкозы с количеством базофилов, что может свидетельствовать о возможном влиянии механизмов гиперчувствительности на выраженность гипергликемии у пациентов с covid-19.выводы. уровень гипергликемии - это маркер выраженности не только метаболического ацидоза, но и дисфункции внутренних органов и систем у пациентов с новой коронавирусной инфекцией covid-19, протекающей на фоне сд 2-го типа и сердечной недостаточности."
input_ids = tokenizer(
[article_text],
max_length=512,
padding="max_length",
truncation=True,
return_tensors="pt",
)["input_ids"]
output_ids = model.generate(
input_ids=input_ids,
max_length=max_length,
num_beams=3,
early_stopping=True
)[0]
summary = tokenizer.decode(output_ids, skip_special_tokens=True)
print(summary)
# 'лабораторные показатели пациентов с новой коронавирусной инфекцией covid-19 на фоне сахарного диабета 2-го типа и хронической сердечной недостаточности'
```
## Training data
- Dataset: [ru_MedSum](https://huggingface.co/datasets/smakov/ru_medsum)
## Training procedure
- Training notebook: [train.ipynb](https://github.com/smvkvv/rut5_medsum/blob/main/train.ipynb)
## Evaluating
- Evaluating notebook: [evaluate.ipynb](https://github.com/smvkvv/rut5_medsum/blob/main/evaluate.ipynb)
## Eval results
* Train dataset: **ru_MedSum train**
* Test dataset: **ru_MedSum test**
* Source max_length: **512**
* Target max_length: **128**
* num_beams: **3**
| Model | R-1-f | R-2-f | R-L-f | BLEU | METEOR | Avg char length |
|:--------------------------|:------|:------|:------|:-------|:-------|:----------------|
| LSA | 23.1 | 14.3 | 18.5 | 2.6 | 14.7 | 220 |
| Luhn | 22.9 | 14.7 | 18.8 | 2.4 | 16.2 | 252 |
| TextRank | 20.1 | 12.1 | 15.8 | 1.7 | 14.7 | 304 |
| LexRank ([paper](https://arxiv.org/abs/1109.2128)) | 26.0 | 17.6 | 22.0 | 3.5 | 17.3 | 197 |
| [cointegrated/rut5-base-absum](https://huggingface.co/cointegrated/rut5-base-absum) | 29.9 | 21.1 | 26.1 | 6.2 | 17.7 | 127 |
| [smakov/rut5_medsum](https://huggingface.co/smakov/rut5_medsum) | 54.1 | 44.9 | 50.1 | 23.6 | 38.6 | 99 |