Spaces:

ekaterina-simonova
/

NK_pomogator

Runtime error

File size: 39,491 Bytes

6916d77
153549c
 
8c2a487
153549c
 
 
24706be
3828b37
 
 
71f5f89
 
 
 
6f53211
 
 
7a09aab
98e3f90
71f5f89
8e79d28
6f53211
 
 
 
 
 
 
 
8c2a487
 
98e3f90
 
 
 
 
 
 
8e79d28
42296a7
 
 
3bc35bc
 
42296a7
 
8e79d28
98e3f90
08f45ea
 
3bc35bc
98e3f90
3bc35bc
 
 
 
42296a7
8e79d28
3bc35bc
42296a7
 
 
 
 
 
 
 
 
 
 
3bc35bc
8e79d28
98e3f90
42296a7
8e79d28
60e3d2e
24706be
60e3d2e
8e79d28
60e3d2e
e6fe1b0
 
 
 
 
 
98e3f90
e6fe1b0
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
8e79d28
4aa8998
 
8e79d28
0b6af86
 
4aa8998
 
 
 
153549c
 
 
 
 
 
 
 
 
 
98e3f90
 
 
 
3f4faae
98e3f90
 
3f4faae
98e3f90
 
 
 
4dcd9fb
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
98e3f90
71f5f89
 
 
4386f20
e6fe1b0
4386f20
aec63ba
71f5f89
 
 
4386f20
71f5f89
4386f20
 
6c1e923
4386f20
 
e6fe1b0
4386f20
 
e6fe1b0
4386f20
aec63ba
4386f20
 
 
 
4e59b84
4386f20
 
 
4e59b84
e6fe1b0
 
 
907aa22
 
e6fe1b0
 
4e59b84
e6fe1b0
 
 
 
 
 
 
 
 
 
4e59b84
e6fe1b0
 
 
4e59b84
907aa22
e6fe1b0
 
4e59b84
e6fe1b0
 
 
907aa22
e6fe1b0
907aa22
4e59b84
e6fe1b0
 
 
 
 
4386f20
 
82d9c01
 
 
 
 
 
 
 
 
 
 
 
4e59b84
 
82d9c01
 
 
 
 
 
 
 
 
 
 
 
 
 
 
e69cbe6
71f5f89
4e59b84
6c1e923
 
 
 
4386f20
4e59b84
 
 
 
 
 
 
 
 
 
 
 
 
6c1e923
4e59b84
 
 
4386f20
71f5f89
e6fe1b0
71f5f89
4386f20
71f5f89
4386f20
8e79d28
4386f20
 
 
8e79d28
4386f20
 
8e79d28
4386f20
8e79d28
4386f20
 
8e79d28
4386f20
8e79d28
 
 
6c1e923
8e79d28
 
 
 
 
 
 
6c1e923
4386f20
 
8e79d28
 
 
4386f20
6c1e923
8e79d28
 
 
 
 
 
4386f20
8e79d28
 
4386f20
8e79d28
e6fe1b0
8e79d28
0330944
24706be
3828b37
fd6fe45
 
 
 
 
 
 
3828b37
 
fd6fe45
e6fe1b0
 
3828b37
fd6fe45
3828b37
 
 
 
 
 
 
 
 
 
 
fd6fe45
 
 
 
3828b37
 
 
 
 
 
 
 
fd6fe45
3828b37
 
 
 
 
 
 
 
 
 
fd6fe45
 
 
 
 
 
 
3828b37
 
 
 
71f5f89
 
3828b37
 
 
 
 
 
 
 
24706be
71f5f89
 
 
 
 
 
 
 
e6fe1b0
 
 
 
 
f2c8577
 
 
71f5f89
f2c8577
 
24706be
f2c8577
e6fe1b0
 
f2c8577
 
e6fe1b0
f2c8577
e6fe1b0
4aa8998
e6fe1b0
 
4aa8998
f2c8577
e6fe1b0
 
4aa8998
e6fe1b0
f2c8577
 
 
e6fe1b0
 
 
4aa8998
f2c8577
 
 
e6fe1b0
4aa8998
 
e6fe1b0
 
2c1ccbe
8e79d28
 
 
 
 
 
 
 
e6fe1b0
 
bc63e48
 
e6fe1b0
bc63e48
 
 
 
3f4faae
 
 
98e3f90
 
 
 
08f45ea
98e3f90
 
 
 
 
 
bc63e48
 
08f45ea
bc63e48
 
 
 
 
 
 
 
 
 
 
e6fe1b0
bc63e48
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7c6995c
bc63e48
 
 
 
 
8e79d28
bc63e48
 
 
 
 
 
 
 
3f4faae
e6fe1b0
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
75cfe15
e6fe1b0
9cf07b6
 
 
 
 
 
 
 
 
 
 
 
 
 
75cfe15
9cf07b6
75cfe15
e6fe1b0
9cf07b6
 
 
75cfe15
e6fe1b0
 
 
 
 
 
 
 
 
bc63e48
e6fe1b0
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
24706be
 
760dccb
 
 
 
fd6fe45
 
 
 
 
 
 
 
 
 
 
 
 
760dccb
 
 
 
 
 
fd6fe45
 
2c1ccbe
760dccb
 
24706be
2c1ccbe
ca946e9
153549c
e6fe1b0
fd6fe45
760dccb
 
ca946e9
760dccb
 
 
 
 
 
 
a0ce191
760dccb
71f5f89
 
760dccb
 
 
 
e6fe1b0
760dccb
e6fe1b0
 
760dccb
e6fe1b0
7c6995c
 
 
 
 
 
 
e6fe1b0
 
 
7c6995c
e6fe1b0
760dccb
b186d30
760dccb
 
 
 
 
 
 
24706be
b186d30
24706be
291e062
fd6fe45
0330944
24706be
 
71f5f89
e6fe1b0
153549c
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
b186d30
 
 
 
153549c
b186d30
e028870
3828b37
 
 
 
71f5f89
 
 
 
4aa8998
 
 
 
 
 
 
4dcd9fb
 
 
 
 
 
 
 
 
 
 
153549c
 
 
 
 
 
 
 
 
 
4dcd9fb
 
 
 
 
 
 
 
 
 
 
 
 
 
 
153549c
 
 
b186d30
 
75cfe15
153549c
b186d30
153549c
4dcd9fb
 
153549c
 
 
 
b186d30
153549c
 
 
 
 
4aa8998
24706be
153549c
 
 
 
 
 
 
b186d30
4aa8998
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
fd6fe45
b186d30
 
 
 
 
71f5f89
 
 
 
b186d30
 
71f5f89
 
 
 
 
b186d30
 
 
153549c
 
 
b186d30
 
60e3d2e
 
 
fd6fe45
b186d30
 
60e3d2e
b186d30
60e3d2e
e6fe1b0

import streamlit as st
import pandas as pd
import json
import os
import logging
import re
from fuzzywuzzy import fuzz
import sqlite3
import faiss
import numpy as np
from sentence_transformers import SentenceTransformer
from rank_bm25 import BM25Okapi
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import openai
import time
from huggingface_hub import model_info
from datetime import datetime
import torch  # Убедитесь, что этот импорт есть

# 1. Настройка логирования
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(levelname)s - %(message)s',
    handlers=[
        logging.FileHandler("model_loading.log"),
        logging.StreamHandler()
    ]
)
logger = logging.getLogger()

# Добавляем информацию о PyTorch и CUDA
logger.info(f"PyTorch version: {torch.__version__}")
logger.info(f"CUDA available: {torch.cuda.is_available()}")
if torch.cuda.is_available():
    logger.info(f"CUDA device: {torch.cuda.get_device_name(0)}")


# 2. Проверка загрузки модели
try:
    logger.info("="*50)
    logger.info("Начало принудительной проверки модели")
    
    device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
    test_model = SentenceTransformer(
        "cointegrated/LaBSE-en-ru",
        cache_folder="/tmp/hf_cache_force"
    )
    # Изменяем порядок инициализации
    test_model = test_model.to('cpu')  # Сначала явно переносим на CPU
    
    # Проверяем работоспособность
    test_text = ["тестовый текст"]
    with torch.no_grad():
        embeddings = test_model.encode(test_text)
    
    logger.info(f"Модель загружена. Размерность: {test_model.get_sentence_embedding_dimension()}")
    del test_model
    
except Exception as e:
    logger.critical(f"Тестовая загрузка модели провалилась: {str(e)}", exc_info=True)
    st.error("""
    ❌ Критическая ошибка: модель не загружается!
    Проверьте:
    1. Интернет-соединение
    2. Доступ к Hugging Face Hub
    3. Логи в файле model_loading.log
    """)
    raise


# 3. Инициализация NLTK


# 4. Константы
XLSX_FILE_PATH = "Test_questions_from_diagnostpb (1).xlsx"
SQLITE_DB_PATH = "knowledge_base_v1.db"
LOG_FILE = "chat_logs.json"
EMBEDDING_MODEL = "cointegrated/LaBSE-en-ru"

# Определяем базовую директорию и пути к файлам
BASE_DIR = os.path.dirname(os.path.abspath(__file__))
VECTOR_DB_DIR = os.path.join(BASE_DIR, "vectorized_knowledge_base")
VECTOR_DB_PATH = os.path.join(VECTOR_DB_DIR, "processed_knowledge_base_v1.db")
FAISS_INDEX_PATH = os.path.join(VECTOR_DB_DIR, "faiss_index.bin")


# Добавляем проверку прав доступа
if os.path.exists(VECTOR_DB_PATH):
    logger.info(f"File permissions: {oct(os.stat(VECTOR_DB_PATH).st_mode)[-3:]}")
    logger.info(f"File size: {os.path.getsize(VECTOR_DB_PATH)} bytes")

# Добавьте отладочное логирование
logger.info(f"BASE_DIR: {BASE_DIR}")
logger.info(f"VECTOR_DB_DIR: {VECTOR_DB_DIR}")
logger.info(f"VECTOR_DB_PATH: {VECTOR_DB_PATH}")
logger.info(f"Directory exists: {os.path.exists(VECTOR_DB_DIR)}")
logger.info(f"Database file exists: {os.path.exists(VECTOR_DB_PATH)}")

# После определения путей
required_files = [
    (VECTOR_DB_PATH, "База данных векторов"),
    (FAISS_INDEX_PATH, "FAISS индекс"),
    (SQLITE_DB_PATH, "SQLite база знаний"),
    (XLSX_FILE_PATH, "Excel файл с вопросами")
]

for file_path, description in required_files:
    if not os.path.exists(file_path):
        logger.error(f"Не найден файл: {description} ({file_path})")
        st.error(f"❌ Отсутствует необходимый файл: {description}")
        st.stop()
    elif os.path.getsize(file_path) == 0:
        logger.error(f"Файл пуст: {description} ({file_path})")
        st.error(f"❌ Файл пуст: {description}")
        st.stop()

# 5. Инициализация OpenAI
openai_api_key = os.getenv('VSEGPT_API_KEY')
if openai_api_key is None:
    logger.error("Переменная окружения VSEGPT_API_KEY не установена")
    st.warning("Не настроен API-ключ для OpenAI")   
    raise ValueError("Переменная окружения VSEGPT_API_KEY не установена")

openai.api_key = openai_api_key
openai.api_base = "https://api.vsegpt.ru/v1"

# Инициализация сессии
if "logs" not in st.session_state:
    st.session_state.logs = []
if "chat_history" not in st.session_state:
    st.session_state.chat_history = []
if "user_input" not in st.session_state:
    st.session_state.user_input = ''
if "widget" not in st.session_state:
    st.session_state.widget = ''

def setup_nltk():
    try:
        nltk.download('punkt', quiet=True)
        nltk.download('stopwords', quiet=True)
        # Используем базовый токенизатор без специфичных для языка ресурсов
        from nltk.tokenize import word_tokenize
        test_text = "тестовый текст"
        tokens = word_tokenize(test_text)  # Убираем параметр language
        logger.info(f"NLTK успешно инициализирован. Тестовая токенизация: {tokens}")
    except Exception as e:
        logger.warning(f"Ошибка инициализации NLTK: {e}")

setup_nltk()

def get_documents_list():
    try:
        conn = sqlite3.connect(VECTOR_DB_PATH)
        cursor = conn.cursor()
        cursor.execute("""
            SELECT DISTINCT doc_type_short, doc_number, file_name 
            FROM documents 
            ORDER BY doc_type_short, doc_number
        """)
        documents = cursor.fetchall()
        conn.close()
        
        # Форматируем список документов
        formatted_docs = []
        for doc in documents:
            doc_parts = [
                str(part) for part in doc 
                if part is not None and str(part).strip()
            ]
            if doc_parts:
                formatted_docs.append(" ".join(doc_parts))
        
        return formatted_docs
        
    except Exception as e:
        logger.error(f"Ошибка при получении списка документов: {e}")
        return []


class HybridSearch:
    def __init__(self, db_path):
        self.db_path = db_path
        self.stop_words = set(stopwords.words('russian')).union({
            '', ' ', '  ', '\t', '\n', '\r', 'nbsp'
        })
        logger.info(f"Загружено стоп-слов: {len(self.stop_words)}")
        self.bm25 = None
        self.corpus = []
        self.doc_ids = []
        self._init_bm25_with_fallback()
    
    def _init_bm25_with_fallback(self):
        """Инициализация с резервным вариантом при ошибках"""
        try:
            self._init_bm25()
            if not self.bm25:
                logger.warning("Основная инициализация BM25 не удалась, создаем резервный индекс")
                self._create_fallback_index()
        except Exception as e:
            logger.error(f"Ошибка при инициализации BM25: {str(e)}")
            self._create_fallback_index()

    def _init_bm25(self):
        """Основная инициализация BM25"""
        if not os.path.exists(self.db_path):
            raise FileNotFoundError(f"Файл БД не найден: {self.db_path}")

        conn = sqlite3.connect(self.db_path)
        conn.row_factory = sqlite3.Row
        cursor = conn.cursor()

        try:
            cursor.execute("SELECT COUNT(*) FROM content")
            count = cursor.fetchone()[0]
            logger.info(f"Найдено {count} документов в таблице content")
            
            if count == 0:
                raise ValueError("Таблица content пуста")

            cursor.execute("SELECT id, chunk_text FROM content")
            valid_docs = 0
            
            for row in cursor:
                try:
                    text = str(row['chunk_text']).strip()
                    if not text:
                        continue
                        
                    tokens = self._preprocess_text(text)
                    if tokens and len(tokens) >= 2:
                        self.corpus.append(tokens)
                        self.doc_ids.append(row['id'])
                        valid_docs += 1
                        if valid_docs % 1000 == 0:
                            logger.info(f"Обработано {valid_docs} документов")
                except Exception as e:
                    logger.warning(f"Ошибка обработки документа ID {row['id']}: {str(e)}")

            if valid_docs == 0:
                raise ValueError("Нет пригодных документов после обработки")
            
            logger.info(f"Создание BM25 индекса для {valid_docs} документов")
            self.bm25 = BM25Okapi(self.corpus)
            logger.info(f"BM25 успешно инициализирован с {valid_docs} документами")

        except Exception as e:
            logger.error(f"Ошибка при инициализации BM25: {str(e)}")
            raise
        finally:
            conn.close()

    def _create_fallback_index(self):
        """Создаем минимальный резервный индекс"""
        logger.warning("Создание резервного индекса BM25")
        
        if not self.corpus:
            test_docs = [
                "метрология это наука об измерениях",
                "государственный эталон единицы измерения",
                "поверка средств измерений",
                "метрологическое обеспечение",
                "измерительные приборы"
            ]
            self.corpus = [self._preprocess_text(doc) for doc in test_docs]
            self.corpus = [doc for doc in self.corpus if doc]

        if not self.corpus:
            logger.error("Не удалось создать даже тестовый корпус")
            self.corpus = [["пусто"]]
            self.doc_ids = [0]
        else:
            self.doc_ids = list(range(len(self.corpus)))
        
        try:
            self.bm25 = BM25Okapi(self.corpus)
            logger.info(f"Резервный индекс создан с {len(self.corpus)} документами")
        except Exception as e:
            logger.error(f"Ошибка создания резервного индекса: {str(e)}")
            self.corpus = [["пусто"]]
            self.doc_ids = [0]
            self.bm25 = BM25Okapi(self.corpus)

    def _preprocess_text(self, text):
        """Улучшенная обработка текста с запасным вариантом"""
        try:
            if not text or not isinstance(text, str):
                return []
                
            text = re.sub(r"[^\w\s\-']", " ", text.lower())
            
            try:
                tokens = word_tokenize(text, language='russian')
            except Exception as e:
                logger.warning(f"Ошибка NLTK токенизации: {str(e)}")
                tokens = text.split()
            
            return [
                token for token in tokens 
                if token not in self.stop_words 
                and len(token) > 2
                and not token.isdigit()
            ]
        except Exception as e:
            logger.warning(f"Ошибка обработки текста: {str(e)}")
            return [t for t in text.lower().split() if len(t) > 2]


    def search(self, query, top_k=5):
        """Поиск с помощью BM25"""
        if not self.bm25:
            logger.error("BM25 не инициализирован!")
            return []

        try:
            tokens = self._preprocess_text(query)
            if not tokens:
                logger.warning("Запрос не содержит значимых токенов")
                return []

            scores = self.bm25.get_scores(tokens)
            top_indices = np.argsort(scores)[-top_k:][::-1]

            results = []
            conn = sqlite3.connect(self.db_path)
            conn.row_factory = sqlite3.Row
            cursor = conn.cursor()

            for idx in top_indices:
                if scores[idx] <= 0:
                    continue
                    
                doc_id = self.doc_ids[idx]
                cursor.execute("""
                    SELECT c.chunk_text, d.doc_type_short, d.doc_number, d.file_name
                    FROM content c
                    JOIN documents d ON c.document_id = d.id
                    WHERE c.id = ?
                """, (doc_id,))
                
                if row := cursor.fetchone():
                    source = " ".join(filter(None, [
                        str(row['doc_type_short']) if row['doc_type_short'] else None,
                        str(row['doc_number']) if row['doc_number'] else None,
                        str(row['file_name']) if row['file_name'] else None
                    ])) or "Неизвестный источник"
                    
                    results.append({
                        "text": row['chunk_text'],
                        "source": source,
                        "score": float(scores[idx]),
                        "type": "bm25"
                    })

            conn.close()
            return results

        except Exception as e:
            logger.error(f"Ошибка поиска BM25: {str(e)}")
            return []

# Подключение к SQLite базе
def get_db_connection(db_path):
    try:
        conn = sqlite3.connect(db_path)
        conn.row_factory = sqlite3.Row
        return conn
    except Exception as e:
        logger.error(f"Ошибка подключения к базе данных: {e}")
        raise

# Векторный поиск
def vector_search(question, top_k=5, threshold=0.3):
    global model, faiss_index
    
    if model is None or faiss_index is None:
        logger.warning("Модель или FAISS индекс не загружены")
        return []
        
    try:
        question_embedding = model.encode([question])
        question_embedding = question_embedding.astype('float32')
        distances, indices = faiss_index.search(question_embedding, top_k)
        
        conn = get_db_connection(VECTOR_DB_PATH)
        cursor = conn.cursor()
        
        results = []
        for distance, faiss_id in zip(distances[0], indices[0]):
            similarity = 1 - distance
            
            if similarity < threshold:
                continue
                
            cursor.execute("SELECT chunk_id FROM map WHERE faiss_id = ?", (int(faiss_id),))
            map_result = cursor.fetchone()
            
            if not map_result:
                continue
                
            chunk_id = map_result['chunk_id']
            
            cursor.execute("""
                SELECT c.chunk_text, d.doc_type_short, d.doc_number, d.file_name
                FROM content c
                JOIN documents d ON c.document_id = d.id
                WHERE c.id = ?
            """, (chunk_id,))
            chunk_result = cursor.fetchone()
            
            if chunk_result:
                chunk_text = chunk_result['chunk_text']
                source_parts = [
                    str(chunk_result['doc_type_short']) if chunk_result['doc_type_short'] else None,
                    str(chunk_result['doc_number']) if chunk_result['doc_number'] else None,
                    str(chunk_result['file_name']) if chunk_result['file_name'] else None
                ]
                source = " ".join(filter(None, source_parts)) or "Неизвестный источник"
                
                results.append({
                    "text": chunk_text,
                    "source": source,
                    "score": float(similarity),
                    "type": "vector"
                })
        
        conn.close()
        return results
    
    except Exception as e:
        logger.error(f"Ошибка векторного поиска: {e}")
        return []

# Гибридный поиск
def hybrid_search_results(question, top_k=5):
    vector_results = vector_search(question, top_k=top_k*2)
    bm25_results = hybrid_search.search(question, top_k=top_k*2) if hybrid_search else []
    
    # Объединяем результаты
    all_results = vector_results + bm25_results
    
    if not all_results:
        logger.warning("Не найдено результатов ни одним методом поиска")
        return []
    
    try:
        # Нормализуем оценки отдельно для каждого метода
        vector_scores = [r['score'] for r in all_results if r['type'] == 'vector']
        bm25_scores = [r['score'] for r in all_results if r['type'] == 'bm25']
        
        max_vector_score = max(vector_scores) if vector_scores else 1
        max_bm25_score = max(bm25_scores) if bm25_scores else 1
        
        # Нормализация и комбинирование оценок
        for result in all_results:
            if result['type'] == 'vector':
                result['normalized_score'] = result['score'] / max_vector_score
                result['combined_score'] = 0.7 * result['normalized_score']  # Больший вес для векторного поиска
            else:
                result['normalized_score'] = result['score'] / max_bm25_score
                result['combined_score'] = 0.3 * result['normalized_score']
        
        # Сортируем по комбинированной оценке
        all_results.sort(key=lambda x: x['combined_score'], reverse=True)
        
        # Удаляем дубликаты, сохраняя лучшие оценки
        unique_results = []
        seen_texts = set()
        
        for result in all_results:
            text_hash = hash(result['text'])
            if text_hash not in seen_texts:
                seen_texts.add(text_hash)
                unique_results.append(result)
                if len(unique_results) >= top_k:
                    break
        
        logger.info(f"Найдено результатов: vector={len(vector_results)}, bm25={len(bm25_results)}")
        logger.info(f"После дедупликации: {len(unique_results)}")
        
        return unique_results
    
    except Exception as e:
        logger.error(f"Ошибка в гибридном поиске: {str(e)}")
        return all_results[:top_k] if all_results else []

# Загрузка данных из XLSX
@st.cache_data
def load_data():
    try:
        return pd.read_excel(XLSX_FILE_PATH)
    except Exception as e:
        logger.error(f"Ошибка загрузки XLSX файла: {e}")
        return pd.DataFrame()

# Загрузка моделей
@st.cache_data
def load_models():
    """Загрузка моделей с расширенной проверкой"""
    try:
        logger.info("="*80)
        logger.info(f"Начало загрузки модели: {EMBEDDING_MODEL}")
        
        # Добавляем определение start_time
        start_time = time.time()
        
        model = SentenceTransformer(
            EMBEDDING_MODEL,
            cache_folder=os.path.expanduser("~/.cache/huggingface/hub")
        )
        model = model.to('cpu')  # Сначала явно переносим на CPU
        
        # Проверяем работоспособность
        test_text = ["тестовый текст"]
        with torch.no_grad():
            embeddings = model.encode(test_text)
        
        logger.info(f"Модель загружена за {time.time()-start_time:.2f} сек")
        logger.info(f"Размерность эмбеддингов: {model.get_sentence_embedding_dimension()}")

        
        # 2. Загрузка FAISS индекса
        logger.info(f"Загрузка FAISS индекса: {FAISS_INDEX_PATH}")
        if not os.path.exists(FAISS_INDEX_PATH):
            error_msg = f"Индекс не найден: {FAISS_INDEX_PATH}"
            logger.error(error_msg)
            raise FileNotFoundError(error_msg)
        
        faiss_index = faiss.read_index(FAISS_INDEX_PATH)
        logger.info(f"Индекс загружен (размерность: {faiss_index.d}, векторов: {faiss_index.ntotal})")
        
        # 3. Инициализация гибридного поиска
        logger.info(f"Инициализация гибридного поиска: {VECTOR_DB_PATH}")
        
        # Проверка существования файла БД для BM25
        if not os.path.exists(VECTOR_DB_PATH):
            logger.error(f"Файл базы данных для BM25 не найден: {VECTOR_DB_PATH}")
            st.error(f"Файл базы данных для BM25 не найден: {VECTOR_DB_PATH}")
            return model, faiss_index, None
        
        # Проверка размера файла БД
        db_size = os.path.getsize(VECTOR_DB_PATH)
        logger.info(f"Размер файла БД: {db_size} байт")
        if db_size == 0:
            logger.error("Файл базы данных пуст!")
            st.error("Файл базы данных пуст!")
            return model, faiss_index, None
        
        hybrid_search = HybridSearch(VECTOR_DB_PATH)
        
        if hybrid_search and hybrid_search.bm25:
            logger.info(f"BM25 успешно инициализирован! Документов: {len(hybrid_search.corpus)}")
            
            
        else:
            logger.error("Не удалось инициализировать BM25!")
            st.error("Не удалось инициализировать текстовый поиск (BM25)")
            
        return model, faiss_index, hybrid_search

    except Exception as e:
        logger.critical(f"Фатальная ошибка при загрузке: {str(e)}", exc_info=True)
        st.error("""
        Критическая ошибка инициализации системы. Проверьте:
        1. Наличие всех файлов данных
        2. Логи в model_loading.log
        3. Доступ к интернету для загрузки моделей
        """)
        return None, None, None

# Загружаем модели с логированием
logger.info("="*80)
logger.info("Начинается процесс загрузки всех моделей")
try:
    model, faiss_index, hybrid_search = load_models()

    if model is None:
        logger.critical("Не удалось загрузить SentenceTransformer модель!")
        st.error("❌ Не удалось загрузить модель для векторного поиска")
        st.stop()
    if faiss_index is None:
        logger.critical("Не удалось загрузить FAISS индекс!")
        st.error("❌ Не удалось загрузить индекс FAISS")
        st.stop()
    if hybrid_search is None:
        logger.critical("Не удалось инициализировать гибридный поиск!")
        st.error("❌ Не удалось инициализировать гибридный поиск")
        st.stop()

    logger.info("Все модели успешно загружены")
    
except Exception as e:
    logger.critical(f"Критическая ошибка при загрузке моделей: {str(e)}")
    st.error("❌ Критическая ошибка при инициализации системы")
    st.stop()

# Генерация ответа с помощью GPT
def generate_gpt_response(question, context_chunks):
    try:
        # Формируем контекст для модели
        context = "\n\n".join([f"Фрагмент {i+1}:\n{chunk['text']}\nИсточник: {chunk['source']}" 
                             for i, chunk in enumerate(context_chunks)])
        
        prompt = f"""
        Ты - ассистент-эксперт по неразрушающему контролю, который помогает находить ответы на вопросы в технической документации.
        
        ВАЖНО: 
        1. Отвечай ТОЛЬКО на вопросы, касающиеся неразрушающего контроля и связанных с ним тем (метрология, измерения, 
           контроль качества, техническая диагностика, стандарты и нормативные документы в этой области).
        
        2. Анализируй понятность вопроса:
           - Если вопрос содержит неясные сокращения или термины - попроси уточнения
           - Если вопрос слишком общий или неконкретный - попроси детализации
           - Если вопрос четкий и понятный - давай прямой ответ из документов
        
        3. При ответе:
           - Если в документах есть прямой ответ - используй его
           - Если информации недостаточно - укажи это
           - Не проси уточнений, если ответ очевиден из контекста
        
        Пользователь задал вопрос: "{question}"
        
        Ниже приведены релевантные фрагменты из документов:
        {context}
        
        Сформулируй четкий и структурированный ответ, основываясь на предоставленных фрагментах.
        Не указывай источники в конце ответа, они будут добавлены автоматически.

        Ответ:
        """
        
        response = openai.ChatCompletion.create(
            model="openai/gpt-4.1-nano",
            messages=[{"role": "system", "content": prompt}],
            temperature=0.2,
            max_tokens=1000
        )
        
        return response.choices[0].message['content'].strip()
    
    except Exception as e:
        logger.error(f"Ошибка при генерации ответа GPT: {e}")
        return "Не удалось сгенерировать ответ. Пожалуйста, попробуйте другой вопрос."

# Логирование
def save_log(question, answer):
    log_entry = {
        "timestamp": datetime.now().strftime("%Y-%m-%d %H:%M:%S"),
        "question": question,
        "answer": answer
    }
    st.session_state.logs.append(log_entry)
    
    try:
        with open(LOG_FILE, "a", encoding="utf-8") as f:
            json.dump(log_entry, f, ensure_ascii=False)
            f.write("\n")
    except Exception as e:
        logger.error(f"Ошибка при сохранении лога: {e}")

# Поиск ответа
def get_answer(question):
    # Получаем все релевантные результаты
    results = []
    
    # 1. Проверка в базе данных
    if "метролог" in question.lower():
        conn = get_db_connection(SQLITE_DB_PATH)
        cursor = conn.cursor()
        cursor.execute("""
            SELECT c.chunk_text, d.doc_type_short, d.doc_number, d.file_name
            FROM content c
            JOIN documents d ON c.document_id = d.id
            WHERE c.id = 20
        """)
        result = cursor.fetchone()
        conn.close()
        
        if result:
            results.append({
                "text": result['chunk_text'],
                "source": f"{result['doc_type_short'] or '?'} {result['doc_number'] or ''} {result['file_name'] or ''}".strip(),
                "score": 1.0,
                "type": "exact"
            })
    
    # 2. Поиск в Excel
    qa_df = load_data()
    excel_responses = []
    excel_sources = []
    
    for _, row in qa_df.iterrows():
        table_question = str(row['Вопрос']).lower()
        if fuzz.partial_ratio(question.lower(), table_question) > 85:
            response = re.sub(r"^[a-zA-Zа-яА-Я]$\s*", "", str(row['Правильный ответ']))
            source = str(row['Источник ответа']) if pd.notna(row['Источник ответа']) else "?"
            excel_responses.append(response)
            excel_sources.append(source)
    
    if excel_responses:
        results.append({
            "text": ", ".join(set(excel_responses)),
            "source": ", ".join([s for s in set(excel_sources) if s != '?']),
            "score": 1.0,
            "type": "excel"
        })
    
    # 3. Гибридный поиск
    hybrid_results = hybrid_search_results(question)
    if hybrid_results:
        results.extend(hybrid_results)
    
    # Если есть результаты, генерируем ответ с помощью GPT
    if results:
        try:
            gpt_answer = generate_gpt_response(question, results)
            
            # Формируем полный ответ
            answer = f"🤖 Ответ:\n\n{gpt_answer}\n\n"
            
            # Собираем уникальные источники
            unique_sources = list(set(res['source'] for res in results))
            
            if unique_sources:
                answer += "📚 Использованные источники:\n"
                for source in unique_sources:
                    answer += f"- {source}\n"
            
            save_log(question, answer)
            return answer
                
        except Exception as e:
            logger.error(f"Ошибка при генерации ответа GPT: {str(e)}")
            
    # 4. Если не удалось сгенерировать ответ через GPT, возвращаем обычный поиск
    if results:
        answer = "Найдены следующие релевантные фрагменты:\n\n"
        for idx, res in enumerate(results, 1):
            answer += f"### Фрагмент {idx}\n"
            answer += f"{res['text']}\n"
            answer += f"\n📚 Источник: {res['source']}\n\n"
        
        save_log(question, answer)
        return answer
    
    # 5. Ответ по умолчанию
    answer = "К сожалению, не удалось найти точный ответ. Попробуйте переформулировать вопрос."
    save_log(question, answer)
    return answer

# Интерфейс Streamlit
st.markdown(
    """
    <style>
    .stApp {
        background-color: #f0f2f6;
        padding: 15px;
    }
    .stButton>button {
        background-color: #4CAF50 !important;
        color: white !important;
        border: none !important;
        border-radius: 12px !important;
        padding: 10px 20px !important;
        transition: all 0.3s !important;
    }
    .stButton>button:hover {
        background-color: #45a049 !important;
        transform: scale(1.02);
    }
    .stTextInput>div>div>input,
    .stTextArea>div>div>textarea {
        border: 2px solid #4CAF50 !important;
        border-radius: 12px !important;
        padding: 10px !important;
    }
    .chunk-box {
        background-color: #ffffff;
        border: 1px solid #dddddd;
        border-radius: 8px;
        padding: 15px;
        margin-bottom: 15px;
    }
    .vector-result {
        background-color: #f8f9fa;
        border-left: 4px solid #4285f4;
    }
    .bm25-result {
        background-color: #f8f9fa;
        border-left: 4px solid #34a853;
    }
    .gpt-response {
        background-color: #e8f5e9;
        border-left: 4px solid #2e7d32;
        padding: 15px;
        margin-bottom: 20px;
        border-radius: 8px;
    }
    .sidebar-content {
        background-color: #f8f9fa;
    }
    .sidebar .sidebar-content {
        padding: 1rem;
    }
    .stExpander {
        border: 1px solid #e0e0e0;
        border-radius: 8px;
        margin-bottom: 1rem;
    }
    </style>
    """,
    unsafe_allow_html=True
)

try:
    st.image("logo.png", width=150)
except FileNotFoundError:
    st.warning("Файл logo.png не найден")

st.sidebar.markdown("### Документы для поиска")
st.sidebar.markdown("Этот помощник ответит на вопросы по следующим документам:")

# Получаем список документов
documents = get_documents_list()

# Создаем expander для списка документов
with st.sidebar.expander("Показать/скрыть список документов", expanded=False):
    if documents:
        for doc in documents:
            st.markdown(f"- {doc}")
    else:
        st.warning("Не удалось загрузить список документов")


with st.sidebar.expander("Инструкция", expanded=False):
    st.markdown("""
    ### Как использовать:
    1. Введите ваш вопрос в текстовое поле
    2. Нажмите кнопку "Найти ответ"
    3. Просмотрите найденные ответы.
    """)
st.title("🔍 Поиск в технической документации")



def submit():
    st.session_state.user_input = st.session_state.widget
    st.session_state.widget = ''

st.text_area("Введите ваш вопрос:", height=100, key="widget", on_change=submit)

if st.button("Найти ответ"):
    if not st.session_state.user_input.strip():
        st.warning("Пожалуйста, введите вопрос")
    else:
        with st.spinner("Ищем релевантные фрагменты и генерируем ответ..."):
            answer = get_answer(st.session_state.user_input)
            
            st.session_state.chat_history.append({
                "question": st.session_state.user_input,
                "answer": answer
            })
            
            st.markdown(f"### Вопрос:\n{st.session_state.user_input}")
            
            if "🤖 Сгенерированный ответ:" in answer:
                # Разбираем ответ на части
                gpt_part = answer.split("🤖 Сгенерированный ответ:")[1].split("🔍 Использованные фрагменты документов:")[0]
                chunks_part = answer.split("🔍 Использованные фрагменты документов:")[1]
                
                # Отображаем сгенерированный ответ
                st.markdown('<div class="gpt-response">' + gpt_part + '</div>', unsafe_allow_html=True)
                
                # Отображаем использованные фрагменты
                st.success("Использованные фрагменты документов:")
                parts = chunks_part.split("### Фрагмент")[1:]
                for part in parts:
                    chunk_num, rest = part.split("\n", 1)
                    chunk_text, source = rest.split("📚 Источник:", 1)
                    
                    # Определяем класс CSS в зависимости от типа поиска
                    search_type = "vector" if "векторный" in answer else "bm25" if "BM25" in answer else "hybrid"
                    css_class = f"{search_type}-result"
                    
                    with st.container():
                        st.markdown(f"#### Фрагмент {chunk_num.strip()}")
                        if "оценка:" in chunk_num:
                            score = re.search(r"оценка: ([\d.]+)", chunk_num)
                            if score:
                                st.caption(f"Оценка: {score.group(1)}")
                        st.markdown(f'<div class="chunk-box {css_class}">{chunk_text.strip()}</div>', unsafe_allow_html=True)
                        st.markdown(f"**Источник:** {source.strip()}")
            elif "### Фрагмент" in answer:
                st.success("Найдены релевантные фрагменты!")
                parts = answer.split("### Фрагмент")[1:]
                for part in parts:
                    chunk_num, rest = part.split("\n", 1)
                    chunk_text, source = rest.split("📚 Источник:", 1)
                    
                    # Определяем класс CSS в зависимости от типа поиска
                    search_type = "vector" if "векторный" in answer else "bm25" if "BM25" in answer else "hybrid"
                    css_class = f"{search_type}-result"
                    
                    with st.container():
                        st.markdown(f"#### Фрагмент {chunk_num.strip()}")
                        if "оценка:" in chunk_num:
                            score = re.search(r"оценка: ([\d.]+)", chunk_num)
                            if score:
                                st.caption(f"Оценка: {score.group(1)}")
                        st.markdown(f'<div class="chunk-box {css_class}">{chunk_text.strip()}</div>', unsafe_allow_html=True)
                        st.markdown(f"**Источник:** {source.strip()}")
            else:
                st.markdown(f"### Ответ:\n{answer}")
            
            st.session_state.user_input = ""

if st.checkbox("Показать историю запросов"):
    st.subheader("История поиска")
    try:
        with open(LOG_FILE, "r", encoding="utf-8") as f:
            logs = [json.loads(line) for line in f.readlines()]
            for log in reversed(logs[-5:]):
                with st.expander(f"{log['timestamp']}: {log['question']}"):
                    st.markdown(log["answer"])
    except FileNotFoundError:
        st.warning("Логи пока не созданы")
    except Exception as e:
        st.warning(f"Ошибка при загрузке логов: {e}")