Spaces:

medmediani
/

Arabic-KW

Sleeping

medmediani commited on May 1, 2023

Commit

c9bc296

1 Parent(s): 03e9f5b

Changed the model path

Files changed (2) hide show

.ipynb_checkpoints/kwextractor-checkpoint.py CHANGED Viewed

@@ -39,7 +39,15 @@ class KeyWordExtractor():
                                                           stop_words=None)
                           )
         print("KWS=",kws,file=sys.stderr)
-        return sorted(kws, key=lambda x: x[1],reverse=True)[:nkws]
     def extract(self, ctxt, nkws=None, max_kw_ngs=None):
         nkws= nkws if nkws is not None else self.NKW
@@ -47,5 +55,6 @@ class KeyWordExtractor():
         #Since we are taking only 512 tokens, let's do by paragraph
         kw=self._extract_by_paragraph(ctxt,nkws,max_kw_ngs)
         return ", ".join(w for w,_ in kw)

                                                           stop_words=None)
                           )
         print("KWS=",kws,file=sys.stderr)
+        kws.sort(key=lambda x: x[1],reverse=True)
+        ukws=set()
+        for kw,_ in kws:
+            if len(ukws)>=nkws:
+                return ukws
+            ukws.add(kw)
+        return ukws
     def extract(self, ctxt, nkws=None, max_kw_ngs=None):
         nkws= nkws if nkws is not None else self.NKW
         #Since we are taking only 512 tokens, let's do by paragraph
         kw=self._extract_by_paragraph(ctxt,nkws,max_kw_ngs)
+        return ", ".join(kw)
         return ", ".join(w for w,_ in kw)

kwextractor.py CHANGED Viewed

@@ -39,7 +39,15 @@ class KeyWordExtractor():
                                                           stop_words=None)
                           )
         print("KWS=",kws,file=sys.stderr)
-        return sorted(kws, key=lambda x: x[1],reverse=True)[:nkws]
     def extract(self, ctxt, nkws=None, max_kw_ngs=None):
         nkws= nkws if nkws is not None else self.NKW
@@ -47,5 +55,6 @@ class KeyWordExtractor():
         #Since we are taking only 512 tokens, let's do by paragraph
         kw=self._extract_by_paragraph(ctxt,nkws,max_kw_ngs)
         return ", ".join(w for w,_ in kw)

                                                           stop_words=None)
                           )
         print("KWS=",kws,file=sys.stderr)
+        kws.sort(key=lambda x: x[1],reverse=True)
+        ukws=set()
+        for kw,_ in kws:
+            if len(ukws)>=nkws:
+                return ukws
+            ukws.add(kw)
+        return ukws
     def extract(self, ctxt, nkws=None, max_kw_ngs=None):
         nkws= nkws if nkws is not None else self.NKW
         #Since we are taking only 512 tokens, let's do by paragraph
         kw=self._extract_by_paragraph(ctxt,nkws,max_kw_ngs)
+        return ", ".join(kw)
         return ", ".join(w for w,_ in kw)