Spaces:

Roberta2024
/

YAHOO_NLP

Sleeping

App Files Files Community

Roberta2024 commited on Aug 6, 2024

Commit

46427cb

verified ·

1 Parent(s): 64b8404

Update app.py

Browse files

Files changed (1) hide show

app.py +24 -11

app.py CHANGED Viewed

@@ -1,4 +1,7 @@
 import requests
 import jieba
 from keybert import KeyBERT
 from sklearn.feature_extraction.text import CountVectorizer
@@ -22,9 +25,6 @@ download_font(font_url, font_path)
 # 設置字體
 font_prop = FontProperties(fname=font_path)
-# 讀取繁體中文詞典
-# jieba.set_dictionary('path_to_your_dict.txt')  # 繁體中文詞典的實際路徑，若需要繁體字典請取消註解並設置正確路徑
 # 定義斷詞函數
 def jieba_tokenizer(text):
     return jieba.lcut(text)
@@ -52,13 +52,26 @@ def plot_keywords(keywords, title):
     plt.yticks(fontproperties=font_prop)
     st.pyplot(plt)
-# 建立Streamlit網頁應用程式
 st.title("中文關鍵詞提取工具")
-doc = st.text_area("請輸入文章：")
-if st.button("提取關鍵詞"):
-    if doc:
-        keywords = extract_keywords(doc)
         st.write("關鍵詞提取結果：")
         for keyword in keywords:
             st.write(f"{keyword[0]}: {keyword[1]:.4f}")
@@ -67,11 +80,11 @@ if st.button("提取關鍵詞"):
         # 使用另一個模型進行關鍵詞提取
         kw_model_multilingual = KeyBERT(model='distiluse-base-multilingual-cased-v1')
-        keywords_multilingual = kw_model_multilingual.extract_keywords(doc, vectorizer=vectorizer)
         st.write("多語言模型關鍵詞提取結果：")
         for keyword in keywords_multilingual:
             st.write(f"{keyword[0]}: {keyword[1]:.4f}")
         plot_keywords(keywords_multilingual, "多語言模型關鍵詞提取結果")
-    else:
-        st.write("請輸入文章內容以進行關鍵詞提取。")

+# -*- coding: utf-8 -*-
 import requests
+from bs4 import BeautifulSoup
+import pandas as pd
 import jieba
 from keybert import KeyBERT
 from sklearn.feature_extraction.text import CountVectorizer
 # 設置字體
 font_prop = FontProperties(fname=font_path)
 # 定義斷詞函數
 def jieba_tokenizer(text):
     return jieba.lcut(text)
     plt.yticks(fontproperties=font_prop)
     st.pyplot(plt)
+# Web scraping部分
+def fetch_article(url):
+    response = requests.get(url)
+    soup = BeautifulSoup(response.content, 'html.parser')
+    title = soup.find('h1').get_text()
+    content_paragraphs = soup.find_all('p')
+    content = ' '.join([para.get_text() for para in content_paragraphs])
+    return title, content
+# Streamlit應用程式
 st.title("中文關鍵詞提取工具")
+url = st.text_input("請輸入Yahoo新聞文章的URL：")
+if url:
+    title, content = fetch_article(url)
+    st.write("文章標題：", title)
+    st.write("文章內容：", content)
+    if st.button("提取關鍵詞"):
+        keywords = extract_keywords(content)
         st.write("關鍵詞提取結果：")
         for keyword in keywords:
             st.write(f"{keyword[0]}: {keyword[1]:.4f}")
         # 使用另一個模型進行關鍵詞提取
         kw_model_multilingual = KeyBERT(model='distiluse-base-multilingual-cased-v1')
+        keywords_multilingual = kw_model_multilingual.extract_keywords(content, vectorizer=vectorizer)
         st.write("多語言模型關鍵詞提取結果：")
         for keyword in keywords_multilingual:
             st.write(f"{keyword[0]}: {keyword[1]:.4f}")
         plot_keywords(keywords_multilingual, "多語言模型關鍵詞提取結果")
+else:
+    st.write("請輸入文章的URL以進行關鍵詞提取。")