File size: 6,486 Bytes

69c9cd9
 
cb4b3ea
 
 
 
 
c47f3a3
cb4b3ea
ad432c6
 
 
 
 
 
69c9cd9
 
ad432c6
69c9cd9
ad432c6
69c9cd9
ee5e2f3
69c9cd9
ad432c6
69c9cd9
ad432c6
69c9cd9
 
ad432c6
 
69c9cd9
ad432c6
 
 
69c9cd9
ad432c6
69c9cd9
ad432c6
 
 
 
 
 
 
69c9cd9
ad432c6
 
 
 
 
 
69c9cd9
ad432c6
 
69c9cd9
ad432c6
69c9cd9
ad432c6
69c9cd9
ad432c6
69c9cd9
ad432c6
69c9cd9
ad432c6
69c9cd9
97caacd
69c9cd9
7ac8548
 
97caacd
7ac8548
ad432c6
69c9cd9
ad432c6
 
 
 
 
69c9cd9
ad432c6
6a2b957

---
library_name: transformers
tags:
- medical
language:
- ru
base_model:
- ai-forever/ruT5-base
pipeline_tag: summarization
datasets:
- smakov/ru_medsum
metrics:
- bleu
- rouge
- meteor
---

# ruT5_MedSum

## Model description

This is a finetuned version of [ai-forevert/ruT5-base](https://huggingface.co/ai-forever/ruT5-base) on summarization task of medical abstracts.

## Intended uses & limitations

#### How to use


```python
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

model_name = "smakov/rut5_medsum"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

article_text = "введение. новый коронавирус тяжелого острого респираторного синдрома 2 (sars-cov-2) был объявлен всемирной организацией здравоохраненияпандемиейв марте 2020 г. новые волны различных генотипов вируса регулярно прокатываются по земному шару. последние исследования демонстрируют худшие прогнозы для пациентов с имеющимся сердечнососудистым заболеванием, указывая на возможную связь между инфекциейsars-cov-2и увеличением числа новых случаевсердечно-сосудистых заболеванийи диабета независимо от тяжести патологии. если эта тенденция верна, то с сотнями миллионов инфицированных бремя болезней может предвещать потенциально тревожный ростсердечно-сосудистых заболеванийи диабета в будущем.цель - изучить лабораторные показатели пациентов с новой коронавирусной инфекцией covid-19 на фоне сахарного диабета (сд) 2-го типа и хронической сердечной недостаточности.материалы и методы. в исследование включен 51 пациент с верифицированных диагнозом новой короновирусной инфекции covid-19 средней степени тяжести на фоне сд 2-го типа и хронической сердечной недостаточностью. всем пациентам проведено количественное определение лабораторных показателей крови. корреляционный анализ проводился с использованием коэффициента ранговойкорреляции спирмена.результаты и обсуждение. наиболее интересными, на наш взгляд, оказались многочисленные корреляционные связи между концентрацией глюкозы и маркерами дисфункции внутренних органов и систем: с концентрацией билирубина, международным нормализованным отношением, креатинином, с концентрацией углекислого газа (ctco2 ), оснований (ве), с концентрацией бикарбоната (hco3 act). наиболее выраженной (rs = 0,74) оказалась корреляционная связь концентрации глюкозы с количеством базофилов, что может свидетельствовать о возможном влиянии механизмов гиперчувствительности на выраженность гипергликемии у пациентов с covid-19.выводы. уровень гипергликемии - это маркер выраженности не только метаболического ацидоза, но и дисфункции внутренних органов и систем у пациентов с новой коронавирусной инфекцией covid-19, протекающей на фоне сд 2-го типа и сердечной недостаточности."

input_ids = tokenizer(
    [article_text],
    max_length=512,
    padding="max_length",
    truncation=True,
    return_tensors="pt",
)["input_ids"]

output_ids = model.generate(
    input_ids=input_ids,
    max_length=max_length,
    num_beams=3,
    early_stopping=True
)[0]

summary = tokenizer.decode(output_ids, skip_special_tokens=True)
print(summary)

# 'лабораторные показатели пациентов с новой коронавирусной инфекцией covid-19 на фоне сахарного диабета 2-го типа и хронической сердечной недостаточности'

```

## Training data

- Dataset: [ru_MedSum](https://huggingface.co/datasets/smakov/ru_medsum)

## Training procedure

- Training notebook: [train.ipynb](https://github.com/smvkvv/rut5_medsum/blob/main/train.ipynb)

## Evaluating

- Evaluating notebook: [evaluate.ipynb](https://github.com/smvkvv/rut5_medsum/blob/main/evaluate.ipynb)

## Eval results

* Train dataset: **ru_MedSum train**
* Test dataset: **ru_MedSum test**
* Source max_length: **512**
* Target max_length: **128**
* num_beams: **3**

| Model                     | R-1-f | R-2-f | R-L-f | BLEU | METEOR | Avg char length |
|:--------------------------|:------|:------|:------|:-------|:-------|:----------------|
| LSA                       | 23.1  | 14.3  | 18.5  | 2.6   | 14.7   | 220             |
| Luhn                      | 22.9  | 14.7  | 18.8  | 2.4   | 16.2   | 252             |
| TextRank                  | 20.1  | 12.1  | 15.8  | 1.7   | 14.7   | 304             |
| LexRank ([paper](https://arxiv.org/abs/1109.2128)) | 26.0  | 17.6  | 22.0  | 3.5   | 17.3   | 197             |
| [cointegrated/rut5-base-absum](https://huggingface.co/cointegrated/rut5-base-absum) | 29.9  | 21.1  | 26.1  | 6.2   | 17.7   | 127             |
| [smakov/rut5_medsum](https://huggingface.co/smakov/rut5_medsum) | 54.1  | 44.9  | 50.1  | 23.6  | 38.6   | 99              |