VerbACxSS
/

sempl-it-v3-nominalizations-awq

@@ -23,4 +23,86 @@ The complete text simplification pipeline follows eight sequential steps:
 6. [nominalizations](https://huggingface.co/VerbACxSS/sempl-it-v3-nominalizations-awq) (this)
 7. [verbs](https://huggingface.co/VerbACxSS/sempl-it-v3-verbs-awq)
 8. [sentence-reorganizer](https://huggingface.co/VerbACxSS/sempl-it-v3-sentence-reorganizer-awq)
-9. [explain](https://huggingface.co/VerbACxSS/sempl-it-v3-explain-awq)

 6. [nominalizations](https://huggingface.co/VerbACxSS/sempl-it-v3-nominalizations-awq) (this)
 7. [verbs](https://huggingface.co/VerbACxSS/sempl-it-v3-verbs-awq)
 8. [sentence-reorganizer](https://huggingface.co/VerbACxSS/sempl-it-v3-sentence-reorganizer-awq)
+9. [explain](https://huggingface.co/VerbACxSS/sempl-it-v3-explain-awq)
+## Usage
+Install the following dependencies:
+```sh
+pip install transformers==4.49.0
+pip install autoawq==0.2.9
+pip install peft==0.15.0
+```
+Define the system prompt and the text to simplify:
+```py
+PROMPT = """Sei un esperto redattore di documenti istituzionali italiani.
+Trasforma le nominalizzazioni deverbali. **Non alterare il contenuto e lo stile del testo originale**.
+# Steps
+1. Leggi attentamente il testo istituzionale.
+2. Individua tutti i sostantivi che derivano da un verbo (nominalizzazioni deverbali).
+3. Escludi dalla ricerca i participi passati dei verbi
+4. Escludi dalla ricerca le forme passive.
+5. Escludi dalla ricerca i termini con effetto giuridico.
+6. Trasforma, quando possibile, le nominalizzazioni deverbali individuate.
+7. Non introdurre errori grammaticali e mantieni la coerenza del testo.
+# Output Format
+Il testo modificato con l'originale formattazione e suddivisione in sezioni e paragrafi.
+# Examples
+- **Input**: L'ufficio si occuperà della redazione dei documenti.
+  **Output**: L'ufficio si occuperà di redigere i documenti.
+- **Input**: È necessaria la compilazione del modulo.
+  **Output**: È necessario compilare il modulo.
+# Notes
+- Il testo fornito può essere complesso e richiede attenzione ai dettagli.
+- Esegui solamente le operazioni descritte, **non eliminare e non modificare altri contenuti**.
+- Assicurati che le implicazioni giuridiche e legali del documento siano mantenute.
+- Non modificare il testo tra virgolette."""
+TEXT_TO_SIMPLIFY = """Il documento individua le esigenze di sviluppo necessarie per assicurare che i principi delineati dalla Legge Regionale 23 dicembre 2004, n. 29 e dai successivi atti normativi, sulla essenziale funzione della ricerca e innovazione nelle Aziende Sanitarie della Regione Emilia-Romagna, si traducano in azioni concrete nel Servizio Sanitario Regionale.
+Alla luce delle evidenze della letteratura internazionale, delle indicazioni della normativa nazionale e della valutazione di quanto già attuato a livello regionale negli anni passati, vengono individuati gli obiettivi di sviluppo e le linee per il raggiungimento dei suddetti obiettivi."""
+```
+Load SEMPL-IT model and tokenizer:
+```py
+from transformers import AutoModelForCausalLM, AutoTokenizer
+tokenizer = AutoTokenizer.from_pretrained("VerbACxSS/sempl-it-v3-nominalizations-awq")
+model = AutoModelForCausalLM.from_pretrained("VerbACxSS/sempl-it-v3-nominalizations-awq").to("cuda")
+```
+Define and apply chat template:
+```py
+chat = [
+  {"role": "system", "content": PROMPT},
+  {"role": "assistant", "content": TEXT_TO_SIMPLIFY},
+]
+formatted_chat = tokenizer.apply_chat_template(
+    chat,
+    tokenize=False,
+    add_generation_prompt=True
+)
+model_inputs = tokenizer([formatted_chat], return_tensors="pt").to("cuda")
+```
+Use SEMPL_IT model with following sampling parameters to generate `simplified_text`:
+```py
+generated_ids = model.generate(
+    **model_inputs,
+    max_new_tokens=4096,
+    temperature=0.1,
+    top_p=0.2
+)
+simplified_text = tokenizer.decode(generated_ids[0][len(model_inputs.input_ids[0]):], skip_special_tokens=True)
+print(simplified_text)
+```
+## Acknowledgements
+This contribution is a result of the research conducted within the framework of the PRIN 2020 (Progetti di Rilevante Interesse Nazionale) "VerbACxSS: on analytic verbs, complexity, synthetic verbs, and simplification. For accessibility" (Prot. 2020BJKB9M), funded by the Italian Ministero dell'Università e della Ricerca.