Spaces:

Sravan1214
/

Text_Summarzier

Sleeping

App Files Files Community

Sravan1214 commited on Apr 25, 2024

Commit

82ea83d

verified ·

1 Parent(s): 91d58be

checking the code

Browse files

Files changed (1) hide show

app.py +6 -20

app.py CHANGED Viewed

@@ -10,11 +10,8 @@ from transformers import (DebertaTokenizerFast,
 import tensorflow as tf
 import spacy
 import streamlit as st
-from scraper import scrape_text
-os.environ['TF_USE_LEGACY_KERAS'] = "1"
 class NERLabelEncoder:
     '''
     Label Encoder to encode and decode the entity labels
@@ -75,7 +72,6 @@ def load_ner_models():
 ner_model, ner_label_encoder, ner_tokenizer, nlp = load_ner_models()
 ############ NER MODEL & VARS INITIALIZATION END ####################
 ############ NER LOGIC START ####################
@@ -151,9 +147,10 @@ def ner_inference_long_text(txt):
     entities = []
     doc = nlp(txt)
     for sent in doc.sents:
-        entities.extends(ner_inference(sent.text))
     return entities
 def get_ner_text(article_txt, ner_result):
     res_txt = ''
     start = 0
@@ -177,7 +174,6 @@ def get_ner_text(article_txt, ner_result):
 ############ NER LOGIC END ####################
 ############ SUMMARIZATION MODEL & VARS INITIALIZATION START ####################
 SUMM_CHECKPOINT = "facebook/bart-base"
 SUMM_INPUT_N_TOKENS = 400
@@ -213,23 +209,13 @@ def summ_inference_tokenize(input_: list, n_tokens: int):
     tokenized_data = summ_tokenizer(text=input_, max_length=SUMM_TARGET_N_TOKENS, truncation=True, padding="max_length", return_tensors="tf")
     return summ_tokenizer, tokenized_data
-def clean_summary(summary: str):
-    summary = summary.strip()
-    if summary[-1] != '.':
-        sents = summary.split(". ")
-        summary = ". ".join(sents[:-1])
-        summary += "."
-    summary = re.sub(r'^-', "", summary)
-    summary = summary.strip()
-    if len(summary) <= 5:
-        summary = ""
-    return summary
 def summ_inference(txt: str):
     txt = summ_preprocess(txt)
-    inference_tokenizer, tokenized_data = summ_inference_tokenize(input_=[txt], n_tokens=SUMM_INPUT_N_TOKENS)
     pred = summ_model.generate(**tokenized_data, max_new_tokens=SUMM_TARGET_N_TOKENS)
-    result = "" if txt=="" else clean_summary(inference_tokenizer.decode(pred[0], skip_special_tokens=True))
     return result
 ############ SUMMARIZATION MODEL & VARS INITIALIZATION END ####################

 import tensorflow as tf
 import spacy
 import streamlit as st
 class NERLabelEncoder:
     '''
     Label Encoder to encode and decode the entity labels
 ner_model, ner_label_encoder, ner_tokenizer, nlp = load_ner_models()
 ############ NER MODEL & VARS INITIALIZATION END ####################
 ############ NER LOGIC START ####################
     entities = []
     doc = nlp(txt)
     for sent in doc.sents:
+        entities.extend(ner_inference(sent.text))
     return entities
 def get_ner_text(article_txt, ner_result):
     res_txt = ''
     start = 0
 ############ NER LOGIC END ####################
 ############ SUMMARIZATION MODEL & VARS INITIALIZATION START ####################
 SUMM_CHECKPOINT = "facebook/bart-base"
 SUMM_INPUT_N_TOKENS = 400
     tokenized_data = summ_tokenizer(text=input_, max_length=SUMM_TARGET_N_TOKENS, truncation=True, padding="max_length", return_tensors="tf")
     return summ_tokenizer, tokenized_data
 def summ_inference(txt: str):
     txt = summ_preprocess(txt)
+    test_data = [txt]
+    inference_tokenizer, tokenized_data = summ_inference_tokenize(input_=test_data, n_tokens=SUMM_INPUT_N_TOKENS)
     pred = summ_model.generate(**tokenized_data, max_new_tokens=SUMM_TARGET_N_TOKENS)
+    result = inference_tokenizer.decode(pred[0])
+    result = re.sub("<.*?>", "", result).strip()
     return result
 ############ SUMMARIZATION MODEL & VARS INITIALIZATION END ####################