Spaces:

Kapex13
/

tv_show_symantic

Sleeping

App Files Files Community

Kapex13 commited on Aug 10

Commit

f574870

verified ·

1 Parent(s): a93787e

Update src/streamlit_app.py

Browse files

Files changed (1) hide show

src/streamlit_app.py +68 -52

src/streamlit_app.py CHANGED Viewed

@@ -1,10 +1,4 @@
 import os
-# Обеспечить, что Streamlit пишет конфиги в доступную директорию
-os.environ["HOME"] = os.getenv("HOME", "/tmp")
-os.environ["XDG_CONFIG_HOME"] = os.getenv("XDG_CONFIG_HOME", "/tmp/.config")
-os.environ["STREAMLIT_CONFIG_DIR"] = os.getenv("STREAMLIT_CONFIG_DIR", "tv_show_symantic/src/streamlit_app.py")
 import streamlit as st
 import pandas as pd
 import numpy as np
@@ -17,12 +11,16 @@ import ast
 import random
 import tempfile
-# Пути к файлам относительно текущего скрипта
 HERE = os.path.dirname(os.path.abspath(__file__))
 CSV_PATH = os.path.join(HERE, "tvshows_processed2.csv")
 EMB_PATH = os.path.join(HERE, "embeddings.npy")
 FAISS_PATH = os.path.join(HERE, "faiss_index.index")
 BASIC_GENRES = [
     "комедия", "драма", "боевик", "фэнтези", "ужасы", "триллер", "романтика",
     "научная фантастика", "приключения", "криминал", "мюзикл",
@@ -33,6 +31,7 @@ BAD_ACTORS = [
     "нет актёров", "нет актеров", "unknown", "—", ""
 ]
 def list_str_to_text(x):
     try:
         lst = ast.literal_eval(x) if isinstance(x, str) else x
@@ -59,7 +58,7 @@ def extract_intro_paragraph(text, max_sentences=4):
 def clean_tvshows_data(path):
     if not os.path.exists(path):
-        st.error(f"Файл данных не найден: {path}. Пожалуйста, загрузите его в корень репозитория Space.")
         st.stop()
     df = pd.read_csv(path)
     df["actors"] = df["actors"].apply(list_str_to_text).apply(clean_actors_string)
@@ -97,7 +96,7 @@ def clean_tvshows_data(path):
             df[col] = None
     return df.reset_index(drop=True)
-@st.cache_resource
 def load_data():
     return clean_tvshows_data(CSV_PATH)
@@ -118,7 +117,7 @@ def load_embeddings_and_index():
 def semantic_search(query, embedder, index, df, genre=None, year=None, country=None, vtype=None, k=5):
     if not query.strip():
-        return df.iloc[0:0].copy()
     query_embedding = embedder.encode([query])
     faiss.normalize_L2(query_embedding)
     dists, idxs = index.search(query_embedding, max(k*3, k))
@@ -139,13 +138,13 @@ def init_groq_llm():
     key = os.environ.get("GROQ_API_KEY") or (st.secrets.get("GROQ_API_KEY") if hasattr(st, "secrets") else None) or st.text_input("🔐 Введите API-ключ Groq:", type="password")
     if not key:
         st.warning("Введите Groq API ключ.")
-        return None
     os.environ["GROQ_API_KEY"] = key
     try:
         return ChatGroq(model="deepseek-r1-distill-llama-70b", temperature=0, max_tokens=2000)
     except Exception as e:
         st.error(f"Ошибка инициализации Groq: {e}")
-        return None
 def format_docs_for_prompt(results_df):
     parts = []
@@ -168,68 +167,74 @@ def main():
     st.set_page_config(page_title="Поиск фильмов и сериалов + AI", layout="wide")
     st.title("Семантический поиск фильмов и сериалов с AI")
-    # Состояния
-    for key, default in {
-        "query": "", "genre_filter": "Все", "year_filter": "Все",
-        "country_filter": "Все", "type_filter": "Все",
-        "search_clicked": False, "ai_clicked": False
-    }.items():
-        if key not in st.session_state:
-            st.session_state[key] = default
     df = load_data()
-    if "type" not in df.columns:
-        df["type"] = df["num_seasons"].apply(lambda x: "Сериал" if x > 1 else "Фильм")
     embedder = init_embedder()
     _, index = load_embeddings_and_index()
     llm = init_groq_llm()
-    # Фильтры
     colf1, colf2, colf3, colf4 = st.columns(4)
     with colf1:
         genres = ["Все"] + sorted(set(sum([g.split(", ") for g in df["basic_genres"].dropna().unique()], [])))
-        st.session_state.genre_filter = st.selectbox("Жанр", genres, index=genres.index(st.session_state.genre_filter) if st.session_state.genre_filter in genres else 0)
     with colf2:
         years = ["Все"] + [str(y) for y in sorted(df["year"].unique())]
-        st.session_state.year_filter = st.selectbox("Год", years, index=years.index(str(st.session_state.year_filter)) if str(st.session_state.year_filter) in years else 0)
     with colf3:
         countries = ["Все"] + sorted([c for c in df["country"].dropna().unique()])
-        st.session_state.country_filter = st.selectbox("Страна", countries, index=countries.index(st.session_state.country_filter) if st.session_state.country_filter in countries else 0)
     with colf4:
         vtypes = ["Все"] + sorted(df["type"].dropna().unique())
-        st.session_state.type_filter = st.selectbox("Тип", vtypes, index=vtypes.index(st.session_state.type_filter) if st.session_state.type_filter in vtypes else 0)
-    k = st.slider("Количество результатов:", 1, 20, 5)
-    query = st.text_input("Введите ключевые слова или сюжет:", value=st.session_state.query)
-    if query != st.session_state.query:
-        st.session_state.query = query
         st.session_state.ai_clicked = False
     nav1, nav2, nav3, nav4 = st.columns(4)
     with nav1:
         if st.button("Случайный фильм/сериал"):
-            st.session_state.query = random.choice(df["tvshow_title"])
-            st.session_state.search_clicked = True
     with nav2:
         if st.button("ТОП по жанру") and st.session_state.genre_filter != "Все":
-            st.session_state.query = st.session_state.genre_filter
-            st.session_state.search_clicked = True
     with nav3:
         if st.button("Новинки"):
-            st.session_state.query = str(max(df["year"]))
-            st.session_state.search_clicked = True
     with nav4:
         if st.button("Искать"):
-            st.session_state.search_clicked = True
-    results = pd.DataFrame()
-    if st.session_state.search_clicked and st.session_state.query.strip():
-        results = semantic_search(
-            st.session_state.query, embedder, index, df,
-            st.session_state.genre_filter, st.session_state.year_filter,
-            st.session_state.country_filter, st.session_state.type_filter, k
-        )
         if results.empty:
             st.warning("Ничего не найдено.")
         else:
@@ -237,7 +242,13 @@ def main():
             for _, row in results.iterrows():
                 col1, col2 = st.columns([1, 3])
                 with col1:
-                    st.image(row["image_url"], use_container_width=True) if row["image_url"] else st.info("Нет изображения")
                 with col2:
                     st.markdown(f"### {row['tvshow_title']} ({row['year']})")
                     st.caption(f"{row['basic_genres']} | {row['country'] or '—'} | {row['rating'] or '—'} | {row['type']} | {row['num_seasons']} сез.")
@@ -247,16 +258,21 @@ def main():
                     if row["url"]:
                         st.markdown(f"[Подробнее]({row['url']})")
                 st.divider()
-            if st.button("AI: почему эти подходят и что ещё посмотреть"):
                 st.session_state.ai_clicked = True
-        # сброс флага поиска
         st.session_state.search_clicked = False
-    if st.session_state.ai_clicked and not results.empty and llm is not None:
         st.markdown("### Рекомендации AI:")
-        st.write(generate_rag_response(st.session_state.query, results, llm))
     st.sidebar.write(f"Всего записей: {len(df)}")
 if __name__ == "__main__":
-    main()

 import os
 import streamlit as st
 import pandas as pd
 import numpy as np
 import random
 import tempfile
+# 1. Удаляем блок с ручной установкой env vars
+# Streamlit должен работать с .streamlit/config.toml, который вы создали
+# 2. Пути к файлам относительно текущего скрипта
 HERE = os.path.dirname(os.path.abspath(__file__))
 CSV_PATH = os.path.join(HERE, "tvshows_processed2.csv")
 EMB_PATH = os.path.join(HERE, "embeddings.npy")
 FAISS_PATH = os.path.join(HERE, "faiss_index.index")
+# Статические данные (не изменяются во время работы)
 BASIC_GENRES = [
     "комедия", "драма", "боевик", "фэнтези", "ужасы", "триллер", "романтика",
     "научная фантастика", "приключения", "криминал", "мюзикл",
     "нет актёров", "нет актеров", "unknown", "—", ""
 ]
+# Функции, которые можно кэшировать
 def list_str_to_text(x):
     try:
         lst = ast.literal_eval(x) if isinstance(x, str) else x
 def clean_tvshows_data(path):
     if not os.path.exists(path):
+        st.error(f"Файл данных не найден: {path}.")
         st.stop()
     df = pd.read_csv(path)
     df["actors"] = df["actors"].apply(list_str_to_text).apply(clean_actors_string)
             df[col] = None
     return df.reset_index(drop=True)
+@st.cache_data
 def load_data():
     return clean_tvshows_data(CSV_PATH)
 def semantic_search(query, embedder, index, df, genre=None, year=None, country=None, vtype=None, k=5):
     if not query.strip():
+        return pd.DataFrame() # Возвращаем пустой DataFrame, если запрос пуст
     query_embedding = embedder.encode([query])
     faiss.normalize_L2(query_embedding)
     dists, idxs = index.search(query_embedding, max(k*3, k))
     key = os.environ.get("GROQ_API_KEY") or (st.secrets.get("GROQ_API_KEY") if hasattr(st, "secrets") else None) or st.text_input("🔐 Введите API-ключ Groq:", type="password")
     if not key:
         st.warning("Введите Groq API ключ.")
+        st.stop()
     os.environ["GROQ_API_KEY"] = key
     try:
         return ChatGroq(model="deepseek-r1-distill-llama-70b", temperature=0, max_tokens=2000)
     except Exception as e:
         st.error(f"Ошибка инициализации Groq: {e}")
+        st.stop()
 def format_docs_for_prompt(results_df):
     parts = []
     st.set_page_config(page_title="Поиск фильмов и сериалов + AI", layout="wide")
     st.title("Семантический поиск фильмов и сериалов с AI")
+    # 3. Инициализация состояния
+    if "search_clicked" not in st.session_state:
+        st.session_state.search_clicked = False
+    if "ai_clicked" not in st.session_state:
+        st.session_state.ai_clicked = False
+    if "query_input" not in st.session_state:
+        st.session_state.query_input = ""
+    if "genre_filter" not in st.session_state:
+        st.session_state.genre_filter = "Все"
+    if "year_filter" not in st.session_state:
+        st.session_state.year_filter = "Все"
+    if "country_filter" not in st.session_state:
+        st.session_state.country_filter = "Все"
+    if "type_filter" not in st.session_state:
+        st.session_state.type_filter = "Все"
     df = load_data()
     embedder = init_embedder()
     _, index = load_embeddings_and_index()
     llm = init_groq_llm()
+    # 4. Фильтры
     colf1, colf2, colf3, colf4 = st.columns(4)
     with colf1:
         genres = ["Все"] + sorted(set(sum([g.split(", ") for g in df["basic_genres"].dropna().unique()], [])))
+        st.session_state.genre_filter = st.selectbox("Жанр", genres, key="genre_filter_key")
     with colf2:
         years = ["Все"] + [str(y) for y in sorted(df["year"].unique())]
+        st.session_state.year_filter = st.selectbox("Год", years, key="year_filter_key")
     with colf3:
         countries = ["Все"] + sorted([c for c in df["country"].dropna().unique()])
+        st.session_state.country_filter = st.selectbox("Страна", countries, key="country_filter_key")
     with colf4:
         vtypes = ["Все"] + sorted(df["type"].dropna().unique())
+        st.session_state.type_filter = st.selectbox("Тип", vtypes, key="type_filter_key")
+    k = st.slider("Количество результатов:", 1, 20, 5, key="k_slider")
+    st.text_input("Введите ключевые слова или сюжет:", key="query_input")
+    # 5. Обработка кнопок
+    def handle_search(query):
+        st.session_state.query_input = query
+        st.session_state.search_clicked = True
         st.session_state.ai_clicked = False
     nav1, nav2, nav3, nav4 = st.columns(4)
     with nav1:
         if st.button("Случайный фильм/сериал"):
+            handle_search(random.choice(df["tvshow_title"]))
     with nav2:
         if st.button("ТОП по жанру") and st.session_state.genre_filter != "Все":
+            handle_search(st.session_state.genre_filter)
     with nav3:
         if st.button("Новинки"):
+            handle_search(str(max(df["year"])))
     with nav4:
         if st.button("Искать"):
+            handle_search(st.session_state.query_input)
+    # 6. Отображение результатов
+    if st.session_state.search_clicked and st.session_state.query_input.strip():
+        with st.spinner("Поиск..."):
+            results = semantic_search(
+                st.session_state.query_input, embedder, index, df,
+                st.session_state.genre_filter, st.session_state.year_filter,
+                st.session_state.country_filter, st.session_state.type_filter, k
+            )
         if results.empty:
             st.warning("Ничего не найдено.")
         else:
             for _, row in results.iterrows():
                 col1, col2 = st.columns([1, 3])
                 with col1:
+                    if row["image_url"]:
+                        try:
+                            st.image(row["image_url"], use_container_width=True)
+                        except:
+                            st.info("Нет изображения или не удалось загрузить")
+                    else:
+                        st.info("Нет изображения")
                 with col2:
                     st.markdown(f"### {row['tvshow_title']} ({row['year']})")
                     st.caption(f"{row['basic_genres']} | {row['country'] or '—'} | {row['rating'] or '—'} | {row['type']} | {row['num_seasons']} сез.")
                     if row["url"]:
                         st.markdown(f"[Подробнее]({row['url']})")
                 st.divider()
+            # Кнопка для AI-рекомендаций должна быть вне цикла
+            if st.button("AI: почему эти подходят и что ещё посмотреть", key="ai_button"):
                 st.session_state.ai_clicked = True
+        # Сброс флага поиска
         st.session_state.search_clicked = False
+    if st.session_state.ai_clicked and "results" in locals() and not results.empty and llm is not None:
         st.markdown("### Рекомендации AI:")
+        with st.spinner("Генерация ответа AI..."):
+            st.write(generate_rag_response(st.session_state.query_input, results, llm))
     st.sidebar.write(f"Всего записей: {len(df)}")
 if __name__ == "__main__":
+    main()