Spaces:

Kapex13
/

tv_show_symantic

Sleeping

App Files Files Community

Kapex13 commited on Aug 10

Commit

e2c8e0f

verified ·

1 Parent(s): 48b49d7

Update src/streamlit_app.py

Browse files

Files changed (1) hide show

src/streamlit_app.py +16 -24

src/streamlit_app.py CHANGED Viewed

@@ -77,7 +77,6 @@ def clean_tvshows_data(path):
     df["tvshow_title"] = df.get("tvshow_title", "").fillna("Неизвестно")
     df["description"] = df.get("description", "").fillna("Нет описания").astype(str).str.strip()
-    # === Расширенная фильтрация мусорных описаний ===
     garbage_patterns = [
         r"(всё в порядке[.!?~ ,]*){3,}",
         r"(я не знаю[^.!?]*){2,}",
@@ -88,33 +87,26 @@ def clean_tvshows_data(path):
         r"(\s*ё\s*){2,}",
         r"(\s*ј\s*){2,}",
         r"(\s*ѕј\s*){2,}",
-        r"(.)\1{3,}", # Последовательность одинаковых символов (например, 'хм хм хм')
         r"(\s*[.,;!?'`~]{2,}\s*)",
         r"(\s*[0-9]{2,}\s*)",
-        r"([a-zA-Zа-яА-ЯёЁ]{1}\s*){10,}", # слишком много однобуквенных слов
-        r"(\s*(хм){2,}\s*)", # "хм хм"
-        r"(\s*(красавчик){1,}\s*)", # "красавчик"
-        r"([ё,ј,ѕ,Ѕ,л,€,д,ь]+)", # мусорные символы
     ]
     def matches_garbage(text):
         t = str(text).lower()
-        if len(t.split()) < 15: # Удаляем слишком короткие
             return True
         return any(re.search(p, t) for p in garbage_patterns)
-    # Применяем фильтр к описаниям
     df = df[~df["description"].apply(matches_garbage)]
-    # Удаляем часто повторяющиеся описания (>=3)
     try:
         to_drop_exact = df["description"].value_counts()[lambda x: x >= 3].index
         df = df[~df["description"].isin(to_drop_exact)]
     except Exception:
         pass
     df = df[~df["description"].str.lower().apply(lambda text: any(phrase in text for phrase in BAD_PHRASE_PARTS))]
     cols_to_ignore = {
         'tvshow_title','year','genres','actors','rating','description',
         'image_url','url','language','country','directors','page_url','num_seasons'
@@ -165,27 +157,27 @@ def cached_load_embeddings_and_index():
     index = faiss.read_index(FAISS_PATH)
     return embeddings, index
 @st.cache_resource(ttl=3600)
 def init_groq_llm():
     """
-    Инициализирует LLM от Groq, считывая API-ключ из Streamlit Secrets.
     """
     try:
-        # Пытаемся получить ключ из st.secrets
-        groq_api_key = st.secrets["GROQ_API_KEY"]
-        # Устанавливаем ключ в переменные окружения
         os.environ["GROQ_API_KEY"] = groq_api_key
-        # Инициализируем LLM
         return ChatGroq(model="deepseek-r1-distill-llama-70b", temperature=0, max_tokens=2000)
-    except KeyError:
-        st.error("Ошибка: API-ключ Groq не найден в secrets.toml. Пожалуйста, добавьте его.")
-        return None
     except Exception as e:
         st.error(f"Ошибка инициализации Groq: {e}")
         return None
 # --- Автоматическое определение жанра из запроса ---
 def infer_genre_from_query(query):
     query_lower = query.lower()

     df["tvshow_title"] = df.get("tvshow_title", "").fillna("Неизвестно")
     df["description"] = df.get("description", "").fillna("Нет описания").astype(str).str.strip()
     garbage_patterns = [
         r"(всё в порядке[.!?~ ,]*){3,}",
         r"(я не знаю[^.!?]*){2,}",
         r"(\s*ё\s*){2,}",
         r"(\s*ј\s*){2,}",
         r"(\s*ѕј\s*){2,}",
+        r"(.)\1{3,}",
         r"(\s*[.,;!?'`~]{2,}\s*)",
         r"(\s*[0-9]{2,}\s*)",
+        r"([a-zA-Zа-яА-ЯёЁ]{1}\s*){10,}",
+        r"(\s*(хм){2,}\s*)",
+        r"(\s*(красавчик){1,}\s*)",
+        r"([ё,ј,ѕ,Ѕ,л,€,д,ь]+)",
     ]
     def matches_garbage(text):
         t = str(text).lower()
+        if len(t.split()) < 15:
             return True
         return any(re.search(p, t) for p in garbage_patterns)
     df = df[~df["description"].apply(matches_garbage)]
     try:
         to_drop_exact = df["description"].value_counts()[lambda x: x >= 3].index
         df = df[~df["description"].isin(to_drop_exact)]
     except Exception:
         pass
     df = df[~df["description"].str.lower().apply(lambda text: any(phrase in text for phrase in BAD_PHRASE_PARTS))]
     cols_to_ignore = {
         'tvshow_title','year','genres','actors','rating','description',
         'image_url','url','language','country','directors','page_url','num_seasons'
     index = faiss.read_index(FAISS_PATH)
     return embeddings, index
+# --- ИСПРАВЛЕННАЯ ФУНКЦИЯ для Groq ---
 @st.cache_resource(ttl=3600)
 def init_groq_llm():
     """
+    Инициализирует LLM от Groq, считывая API-ключ из переменных окружения.
     """
     try:
+        groq_api_key = os.getenv("GROQ_API_KEY")
+        if not groq_api_key:
+            st.error("Ошибка: переменная окружения GROQ_API_KEY не найдена. Убедитесь, что ключ задан в Variables and Secrets Streamlit.")
+            return None
         os.environ["GROQ_API_KEY"] = groq_api_key
         return ChatGroq(model="deepseek-r1-distill-llama-70b", temperature=0, max_tokens=2000)
     except Exception as e:
         st.error(f"Ошибка инициализации Groq: {e}")
         return None
+# ... остальной код без изменений ...
 # --- Автоматическое определение жанра из запроса ---
 def infer_genre_from_query(query):
     query_lower = query.lower()