Spaces:

ekaterina-simonova
/

NK_pomogator

Runtime error

App Files Files Community

ekaterina-simonova commited on Jul 15

Commit

4e59b84

verified ·

1 Parent(s): 907aa22

Update app.py

Browse files

Files changed (1) hide show

app.py +26 -33

app.py CHANGED Viewed

@@ -160,11 +160,11 @@ class HybridSearch:
         """Основная инициализация BM25"""
         if not os.path.exists(self.db_path):
             raise FileNotFoundError(f"Файл БД не найден: {self.db_path}")
         conn = sqlite3.connect(self.db_path)
         conn.row_factory = sqlite3.Row
         cursor = conn.cursor()
         try:
             cursor.execute("SELECT COUNT(*) FROM content")
             count = cursor.fetchone()[0]
@@ -172,7 +172,7 @@ class HybridSearch:
             if count == 0:
                 raise ValueError("Таблица content пуста")
             cursor.execute("SELECT id, chunk_text FROM content")
             valid_docs = 0
@@ -183,28 +183,27 @@ class HybridSearch:
                         continue
                     tokens = self._preprocess_text(text)
-                    if tokens and len(tokens) >= 2:  # Проверяем, что токены не пустые
                         self.corpus.append(tokens)
                         self.doc_ids.append(row['id'])
                         valid_docs += 1
-                        if valid_docs % 1000 == 0:  # Логируем прогресс
                             logger.info(f"Обработано {valid_docs} документов")
                 except Exception as e:
                     logger.warning(f"Ошибка обработки документа ID {row['id']}: {str(e)}")
             if valid_docs == 0:
                 raise ValueError("Нет пригодных документов после обработки")
             logger.info(f"Создание BM25 индекса для {valid_docs} документов")
             self.bm25 = BM25Okapi(self.corpus)
             logger.info(f"BM25 успешно инициализирован с {valid_docs} документами")
         except Exception as e:
             logger.error(f"Ошибка при инициализации BM25: {str(e)}")
             raise
         finally:
             conn.close()
     def _create_fallback_index(self):
         """Создаем минимальный резервный индекс"""
@@ -219,11 +218,10 @@ class HybridSearch:
                 "измерительные приборы"
             ]
             self.corpus = [self._preprocess_text(doc) for doc in test_docs]
-            self.corpus = [doc for doc in self.corpus if doc]  # Убираем пустые документы
         if not self.corpus:
             logger.error("Не удалось создать даже тестовый корпус")
-            # Создаем минимальный корпус, чтобы избежать None
             self.corpus = [["пусто"]]
             self.doc_ids = [0]
         else:
@@ -234,39 +232,34 @@ class HybridSearch:
             logger.info(f"Резервный индекс создан с {len(self.corpus)} документами")
         except Exception as e:
             logger.error(f"Ошибка создания резервного индекса: {str(e)}")
-            # Создаем минимальный индекс
             self.corpus = [["пусто"]]
             self.doc_ids = [0]
             self.bm25 = BM25Okapi(self.corpus)
     def _preprocess_text(self, text):
-        """Улучшенная обработка текста"""
         try:
             if not text or not isinstance(text, str):
                 return []
             text = re.sub(r"[^\w\s\-']", " ", text.lower())
-        try:
-            # Пробуем использовать NLTK токенизацию
-            tokens = word_tokenize(text, language='russian')
         except Exception as e:
-            # При ошибке используем простую токенизацию
-            logger.warning(f"Ошибка NLTK токенизации: {str(e)}")
-            tokens = text.split()
-        # Фильтруем токены
-        return [
-            token for token in tokens
-            if token not in self.stop_words
-            and len(token) > 2
-            and not token.isdigit()
-        ]
-    except Exception as e:
-        logger.warning(f"Ошибка обработки текста: {str(e)}")
-        # Возвращаем простую токенизацию как последнее средство
-        return [t for t in text.lower().split() if len(t) > 2]
     def search(self, query, top_k=5):
         """Поиск с помощью BM25"""

         """Основная инициализация BM25"""
         if not os.path.exists(self.db_path):
             raise FileNotFoundError(f"Файл БД не найден: {self.db_path}")
         conn = sqlite3.connect(self.db_path)
         conn.row_factory = sqlite3.Row
         cursor = conn.cursor()
         try:
             cursor.execute("SELECT COUNT(*) FROM content")
             count = cursor.fetchone()[0]
             if count == 0:
                 raise ValueError("Таблица content пуста")
             cursor.execute("SELECT id, chunk_text FROM content")
             valid_docs = 0
                         continue
                     tokens = self._preprocess_text(text)
+                    if tokens and len(tokens) >= 2:
                         self.corpus.append(tokens)
                         self.doc_ids.append(row['id'])
                         valid_docs += 1
+                        if valid_docs % 1000 == 0:
                             logger.info(f"Обработано {valid_docs} документов")
                 except Exception as e:
                     logger.warning(f"Ошибка обработки документа ID {row['id']}: {str(e)}")
             if valid_docs == 0:
                 raise ValueError("Нет пригодных документов после обработки")
             logger.info(f"Создание BM25 индекса для {valid_docs} документов")
             self.bm25 = BM25Okapi(self.corpus)
             logger.info(f"BM25 успешно инициализирован с {valid_docs} документами")
         except Exception as e:
             logger.error(f"Ошибка при инициализации BM25: {str(e)}")
             raise
         finally:
             conn.close()
     def _create_fallback_index(self):
         """Создаем минимальный резервный индекс"""
                 "измерительные приборы"
             ]
             self.corpus = [self._preprocess_text(doc) for doc in test_docs]
+            self.corpus = [doc for doc in self.corpus if doc]
         if not self.corpus:
             logger.error("Не удалось создать даже тестовый корпус")
             self.corpus = [["пусто"]]
             self.doc_ids = [0]
         else:
             logger.info(f"Резервный индекс создан с {len(self.corpus)} документами")
         except Exception as e:
             logger.error(f"Ошибка создания резервного индекса: {str(e)}")
             self.corpus = [["пусто"]]
             self.doc_ids = [0]
             self.bm25 = BM25Okapi(self.corpus)
     def _preprocess_text(self, text):
+        """Улучшенная обработка текста с запасным вариантом"""
         try:
             if not text or not isinstance(text, str):
                 return []
             text = re.sub(r"[^\w\s\-']", " ", text.lower())
+            try:
+                tokens = word_tokenize(text, language='russian')
+            except Exception as e:
+                logger.warning(f"Ошибка NLTK токенизации: {str(e)}")
+                tokens = text.split()
+            return [
+                token for token in tokens
+                if token not in self.stop_words
+                and len(token) > 2
+                and not token.isdigit()
+            ]
         except Exception as e:
+            logger.warning(f"Ошибка обработки текста: {str(e)}")
+            return [t for t in text.lower().split() if len(t) > 2]
     def search(self, query, top_k=5):
         """Поиск с помощью BM25"""