Spaces:

Roberta2024
/

TCN_DATA_0814

Sleeping

App Files Files Community

Roberta2024 commited on Aug 14, 2024

Commit

4a00c92

verified ·

1 Parent(s): f5a9890

Update app.py

Browse files

Files changed (1) hide show

app.py +31 -32

app.py CHANGED Viewed

@@ -4,36 +4,36 @@ from bs4 import BeautifulSoup
 import pandas as pd
 # 定義爬取數據的函數
-def fetch_data(hospital_url, hospital_name, table_id):
     response = requests.get(hospital_url)
     soup = BeautifulSoup(response.text, 'html.parser')
     table = soup.find('table', {'id': table_id})
     rows = table.find_all('tr')
     data = []
-    for row in rows[1:]:
-        columns = row.find_all('td')
-        if len(columns) == 5:
-            bed_type = columns[0].get_text(strip=True)
-            bed_count = columns[1].get_text(strip=True)
-            inpatient_count = columns[2].get_text(strip=True)
-            empty_bed_count = columns[3].get_text(strip=True)
-            occupancy_rate = columns[4].get_text(strip=True)
-            # 检查所有数据是否为空
-            if not all([bed_type, bed_count, inpatient_count, empty_bed_count, occupancy_rate]):
-                continue
-            data.append({
-                '病床種類': bed_type,
-                '床位別數': bed_count,
-                '住院人數': inpatient_count,
-                '空床數': empty_bed_count,
-                '佔床率': occupancy_rate,
-                '醫院': hospital_name
-            })
-    return pd.DataFrame(data)
 # Streamlit UI
 st.title("醫院床位分配表爬取工具")
@@ -56,24 +56,23 @@ hospital_options = {
 selected_hospitals = st.multiselect("選擇醫院", list(hospital_options.keys()))
-# 当用户按下按钮时，开始爬取数据
 if st.button("爬取資料"):
     st.write("正在爬取資料...")
-    # 顯示進度條
     progress_bar = st.progress(0)
     all_data = pd.DataFrame()
     for i, hospital_name in enumerate(selected_hospitals):
         hospital_data = hospital_options[hospital_name]
-        df = fetch_data(hospital_data["url"], hospital_name, hospital_data["table_id"])
         if df.empty:
             st.warning(f"{hospital_name} 的數據爬取結果為空，請檢查是否存在問題。")
         else:
             all_data = pd.concat([all_data, df], ignore_index=True)
         # 更新進度條
         progress_bar.progress((i + 1) / len(selected_hospitals))

 import pandas as pd
 # 定義爬取數據的函數
+def fetch_data(hospital_url, table_id, hospital_name):
     response = requests.get(hospital_url)
     soup = BeautifulSoup(response.text, 'html.parser')
     table = soup.find('table', {'id': table_id})
+    if not table:
+        return pd.DataFrame()  # 若表格未找到，返回空的DataFrame
     rows = table.find_all('tr')
     data = []
+    if hospital_name == "成大醫院":
+        # 成大醫院的表格結構不同
+        columns = [th.text.strip() for th in rows[0].find_all("th")]
+        data_rows = rows[1:]
+        for row in data_rows:
+            row_data = [td.text.strip() for td in row.find_all("td")]
+            if all(row_data):  # 確保數據不為空
+                data.append(row_data)
+    else:
+        # 台南醫院和奇美醫院的表格結構類似
+        for row in rows[1:]:  # 跳過標題行
+            columns = ['病床種類', '床位別數', '住院人數', '空床數', '佔床率']
+            cols = row.find_all('td')
+            if len(cols) == 5:
+                row_data = [col.get_text(strip=True) for col in cols]
+                if all(row_data):  # 確保數據不為空
+                    data.append(row_data)
+    return pd.DataFrame(data, columns=columns)
 # Streamlit UI
 st.title("醫院床位分配表爬取工具")
 selected_hospitals = st.multiselect("選擇醫院", list(hospital_options.keys()))
+# 當用戶按下按鈕時，開始爬取數據
 if st.button("爬取資料"):
     st.write("正在爬取資料...")
     progress_bar = st.progress(0)
     all_data = pd.DataFrame()
     for i, hospital_name in enumerate(selected_hospitals):
         hospital_data = hospital_options[hospital_name]
+        df = fetch_data(hospital_data["url"], hospital_data["table_id"], hospital_name)
         if df.empty:
             st.warning(f"{hospital_name} 的數據爬取結果為空，請檢查是否存在問題。")
         else:
+            df['醫院'] = hospital_name
             all_data = pd.concat([all_data, df], ignore_index=True)
         # 更新進度條
         progress_bar.progress((i + 1) / len(selected_hospitals))