Spaces:

Kapex13
/

tv_show_symantic

Sleeping

App Files Files Community

Kapex13 commited on Aug 9

Commit

080b8e9

verified ·

1 Parent(s): e10e9b9

Update src/streamlit_app.py

Browse files

Files changed (1) hide show

src/streamlit_app.py +17 -21

src/streamlit_app.py CHANGED Viewed

@@ -39,7 +39,6 @@ def list_str_to_text(x):
 def clean_actors_string(val):
     v = str(val).strip().lower()
-    # если фраза мусорная или вообще нет букв — заменяем на "Неизвестно"
     if any(bad in v for bad in BAD_ACTORS) or not re.search(r'[a-zа-яё]', v):
         return "Неизвестно"
     return val
@@ -58,26 +57,27 @@ def extract_intro_paragraph(text, max_sentences=4):
 def clean_tvshows_data(path):
     df = pd.read_csv(path)
-    # actors: списки в строки + чистка мусора
     df["actors"] = df["actors"].apply(list_str_to_text)
     df["actors"] = df["actors"].apply(clean_actors_string)
-    # genres: списки в строки
     df["genres"] = df["genres"].apply(list_str_to_text)
     df["year"] = pd.to_numeric(df["year"], errors="coerce").fillna(0).astype(int)
     df["num_seasons"] = pd.to_numeric(df["num_seasons"], errors="coerce").fillna(0).astype(int)
     df["tvshow_title"] = df["tvshow_title"].fillna("Неизвестно")
     df["description"] = df["description"].fillna("Нет описания").astype(str).str.strip()
-    # Удаляем короткие описания (<15 слов)
     df = df[df["description"].apply(lambda x: len(str(x).split())) >= 15]
-    # Удаляем часто повторяющиеся описания (>=3)
     to_drop_exact = df["description"].value_counts()[lambda x: x >= 3].index
     df = df[~df["description"].isin(to_drop_exact)]
-    # Мусорные шаблоны
     garbage_patterns = [
         r"(всё в порядке[.!?~ ,]*){3,}",
         r"(я не знаю[^.!?]*){2,}",
@@ -90,14 +90,14 @@ def clean_tvshows_data(path):
         return any(re.search(p, text) for p in garbage_patterns)
     df = df[~df["description"].apply(matches_garbage)]
-    # Мусорные подстроки
     bad_phrase_parts = [
         "однадцатая секретаря", "тридцать третья", "оу, оу-у-у",
         "всё в порядке?", "я не знаю, что делать"
     ]
     df = df[~df["description"].str.lower().apply(lambda t: any(p in t for p in bad_phrase_parts))]
-    # Бинарные one-hot-колонки
     genre_onehots = [
         c for c in df.columns
         if c not in ['tvshow_title','year','genres','actors','rating','description',
@@ -106,13 +106,13 @@ def clean_tvshows_data(path):
     ]
     df = df.drop(columns=genre_onehots, errors="ignore")
-    # Нормализуем жанры
     df["basic_genres"] = df["genres"].apply(filter_to_basic_genres)
-    # Колонка type (Фильм/Сериал)
     df["type"] = df["num_seasons"].apply(lambda x: "Сериал" if pd.notna(x) and int(x) > 1 else "Фильм")
-    # Гарантия колонок
     for col in ["image_url", "url", "rating", "language", "country"]:
         if col not in df.columns:
             df[col] = None
@@ -151,17 +151,11 @@ def semantic_search(query, embedder, index, df, genre=None, year=None, country=N
 @st.cache_resource(ttl=3600)
 def init_groq_llm():
-    # 1. Пробуем вытащить из переменных окружения (HF Spaces)
-    key = os.environ.get("GROQ_API_KEY") \
-          or (st.secrets.get("GROQ_API_KEY") if hasattr(st, "secrets") else None) \
-          or st.text_input("Введите API-ключ Groq:", type="password")
     if not key:
         st.warning("Введите ваш Groq API ключ для генерации ответов.")
         return None
     os.environ["GROQ_API_KEY"] = key
     try:
         return ChatGroq(model="deepseek-r1-distill-llama-70b", temperature=0, max_tokens=2000)
     except Exception as e:
@@ -191,7 +185,6 @@ def main():
     df = load_data()
-    # Гарантия колонки type
     if "type" not in df.columns:
         df["type"] = df["num_seasons"].apply(lambda x: "Сериал" if pd.notna(x) and int(x) > 1 else "Фильм")
@@ -200,6 +193,7 @@ def main():
     llm = init_groq_llm()
     colf1, colf2, colf3, colf4 = st.columns(4)
     with colf1:
         genres = ["Все"] + sorted(set(sum([g.split(", ") for g in df["basic_genres"].unique()], [])))
         genre_filter = st.selectbox("Жанр", genres)
@@ -259,8 +253,10 @@ def main():
                     f" | {row['type']} | {row['num_seasons']} сез."
                 )
                 st.write(extract_intro_paragraph(row["description"]))
-                if row["actors"]: st.caption(f"Актёры: {row['actors']}")
-                if row["url"]: st.markdown(f"[Подробнее]({row['url']})")
             st.divider()
         if st.button("AI: почему эти подходят и что ещё посмотреть"):

 def clean_actors_string(val):
     v = str(val).strip().lower()
     if any(bad in v for bad in BAD_ACTORS) or not re.search(r'[a-zа-яё]', v):
         return "Неизвестно"
     return val
 def clean_tvshows_data(path):
     df = pd.read_csv(path)
+    # Преобразуем actors в строки и чистим мусор
     df["actors"] = df["actors"].apply(list_str_to_text)
     df["actors"] = df["actors"].apply(clean_actors_string)
+    # Преобразуем genres в строки
     df["genres"] = df["genres"].apply(list_str_to_text)
+    # Обработка числовых колонок
     df["year"] = pd.to_numeric(df["year"], errors="coerce").fillna(0).astype(int)
     df["num_seasons"] = pd.to_numeric(df["num_seasons"], errors="coerce").fillna(0).astype(int)
     df["tvshow_title"] = df["tvshow_title"].fillna("Неизвестно")
     df["description"] = df["description"].fillna("Нет описания").astype(str).str.strip()
+    # Фильтрация описаний короче 15 слов
     df = df[df["description"].apply(lambda x: len(str(x).split())) >= 15]
+    # Удаление часто повторяющихся описаний (3 и более)
     to_drop_exact = df["description"].value_counts()[lambda x: x >= 3].index
     df = df[~df["description"].isin(to_drop_exact)]
+    # Удаление мусорных шаблонов
     garbage_patterns = [
         r"(всё в порядке[.!?~ ,]*){3,}",
         r"(я не знаю[^.!?]*){2,}",
         return any(re.search(p, text) for p in garbage_patterns)
     df = df[~df["description"].apply(matches_garbage)]
+    # Удаление строк с известными мусорными подстроками
     bad_phrase_parts = [
         "однадцатая секретаря", "тридцать третья", "оу, оу-у-у",
         "всё в порядке?", "я не знаю, что делать"
     ]
     df = df[~df["description"].str.lower().apply(lambda t: any(p in t for p in bad_phrase_parts))]
+    # Удаление бинарных one-hot колонок жанров
     genre_onehots = [
         c for c in df.columns
         if c not in ['tvshow_title','year','genres','actors','rating','description',
     ]
     df = df.drop(columns=genre_onehots, errors="ignore")
+    # Нормализация жанров
     df["basic_genres"] = df["genres"].apply(filter_to_basic_genres)
+    # Колонка type (Фильм/Сериал) по кол-ву сезонов
     df["type"] = df["num_seasons"].apply(lambda x: "Сериал" if pd.notna(x) and int(x) > 1 else "Фильм")
+    # Гарантия существования нужных колонок
     for col in ["image_url", "url", "rating", "language", "country"]:
         if col not in df.columns:
             df[col] = None
 @st.cache_resource(ttl=3600)
 def init_groq_llm():
+    key = os.environ.get("GROQ_API_KEY") or (st.secrets.get("GROQ_API_KEY") if hasattr(st, "secrets") else None) or st.text_input("Введите API-ключ Groq:", type="password")
     if not key:
         st.warning("Введите ваш Groq API ключ для генерации ответов.")
         return None
     os.environ["GROQ_API_KEY"] = key
     try:
         return ChatGroq(model="deepseek-r1-distill-llama-70b", temperature=0, max_tokens=2000)
     except Exception as e:
     df = load_data()
     if "type" not in df.columns:
         df["type"] = df["num_seasons"].apply(lambda x: "Сериал" if pd.notna(x) and int(x) > 1 else "Фильм")
     llm = init_groq_llm()
     colf1, colf2, colf3, colf4 = st.columns(4)
     with colf1:
         genres = ["Все"] + sorted(set(sum([g.split(", ") for g in df["basic_genres"].unique()], [])))
         genre_filter = st.selectbox("Жанр", genres)
                     f" | {row['type']} | {row['num_seasons']} сез."
                 )
                 st.write(extract_intro_paragraph(row["description"]))
+                if row["actors"]:
+                    st.caption(f"Актёры: {row['actors']}")
+                if row["url"]:
+                    st.markdown(f"[Подробнее]({row['url']})")
             st.divider()
         if st.button("AI: почему эти подходят и что ещё посмотреть"):