File size: 39,491 Bytes
6916d77
153549c
 
8c2a487
153549c
 
 
24706be
3828b37
 
 
71f5f89
 
 
 
6f53211
 
 
7a09aab
98e3f90
71f5f89
8e79d28
6f53211
 
 
 
 
 
 
 
8c2a487
 
98e3f90
 
 
 
 
 
 
8e79d28
42296a7
 
 
3bc35bc
 
42296a7
 
8e79d28
98e3f90
08f45ea
 
3bc35bc
98e3f90
3bc35bc
 
 
 
42296a7
8e79d28
3bc35bc
42296a7
 
 
 
 
 
 
 
 
 
 
3bc35bc
8e79d28
98e3f90
42296a7
8e79d28
60e3d2e
24706be
60e3d2e
8e79d28
60e3d2e
e6fe1b0
 
 
 
 
 
98e3f90
e6fe1b0
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
8e79d28
4aa8998
 
8e79d28
0b6af86
 
4aa8998
 
 
 
153549c
 
 
 
 
 
 
 
 
 
98e3f90
 
 
 
3f4faae
98e3f90
 
3f4faae
98e3f90
 
 
 
4dcd9fb
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
98e3f90
71f5f89
 
 
4386f20
e6fe1b0
4386f20
aec63ba
71f5f89
 
 
4386f20
71f5f89
4386f20
 
6c1e923
4386f20
 
e6fe1b0
4386f20
 
e6fe1b0
4386f20
aec63ba
4386f20
 
 
 
4e59b84
4386f20
 
 
4e59b84
e6fe1b0
 
 
907aa22
 
e6fe1b0
 
4e59b84
e6fe1b0
 
 
 
 
 
 
 
 
 
4e59b84
e6fe1b0
 
 
4e59b84
907aa22
e6fe1b0
 
4e59b84
e6fe1b0
 
 
907aa22
e6fe1b0
907aa22
4e59b84
e6fe1b0
 
 
 
 
4386f20
 
82d9c01
 
 
 
 
 
 
 
 
 
 
 
4e59b84
 
82d9c01
 
 
 
 
 
 
 
 
 
 
 
 
 
 
e69cbe6
71f5f89
4e59b84
6c1e923
 
 
 
4386f20
4e59b84
 
 
 
 
 
 
 
 
 
 
 
 
6c1e923
4e59b84
 
 
4386f20
71f5f89
e6fe1b0
71f5f89
4386f20
71f5f89
4386f20
8e79d28
4386f20
 
 
8e79d28
4386f20
 
8e79d28
4386f20
8e79d28
4386f20
 
8e79d28
4386f20
8e79d28
 
 
6c1e923
8e79d28
 
 
 
 
 
 
6c1e923
4386f20
 
8e79d28
 
 
4386f20
6c1e923
8e79d28
 
 
 
 
 
4386f20
8e79d28
 
4386f20
8e79d28
e6fe1b0
8e79d28
0330944
24706be
3828b37
fd6fe45
 
 
 
 
 
 
3828b37
 
fd6fe45
e6fe1b0
 
3828b37
fd6fe45
3828b37
 
 
 
 
 
 
 
 
 
 
fd6fe45
 
 
 
3828b37
 
 
 
 
 
 
 
fd6fe45
3828b37
 
 
 
 
 
 
 
 
 
fd6fe45
 
 
 
 
 
 
3828b37
 
 
 
71f5f89
 
3828b37
 
 
 
 
 
 
 
24706be
71f5f89
 
 
 
 
 
 
 
e6fe1b0
 
 
 
 
f2c8577
 
 
71f5f89
f2c8577
 
24706be
f2c8577
e6fe1b0
 
f2c8577
 
e6fe1b0
f2c8577
e6fe1b0
4aa8998
e6fe1b0
 
4aa8998
f2c8577
e6fe1b0
 
4aa8998
e6fe1b0
f2c8577
 
 
e6fe1b0
 
 
4aa8998
f2c8577
 
 
e6fe1b0
4aa8998
 
e6fe1b0
 
2c1ccbe
8e79d28
 
 
 
 
 
 
 
e6fe1b0
 
bc63e48
 
e6fe1b0
bc63e48
 
 
 
3f4faae
 
 
98e3f90
 
 
 
08f45ea
98e3f90
 
 
 
 
 
bc63e48
 
08f45ea
bc63e48
 
 
 
 
 
 
 
 
 
 
e6fe1b0
bc63e48
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7c6995c
bc63e48
 
 
 
 
8e79d28
bc63e48
 
 
 
 
 
 
 
3f4faae
e6fe1b0
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
75cfe15
e6fe1b0
9cf07b6
 
 
 
 
 
 
 
 
 
 
 
 
 
75cfe15
9cf07b6
75cfe15
e6fe1b0
9cf07b6
 
 
75cfe15
e6fe1b0
 
 
 
 
 
 
 
 
bc63e48
e6fe1b0
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
24706be
 
760dccb
 
 
 
fd6fe45
 
 
 
 
 
 
 
 
 
 
 
 
760dccb
 
 
 
 
 
fd6fe45
 
2c1ccbe
760dccb
 
24706be
2c1ccbe
ca946e9
153549c
e6fe1b0
fd6fe45
760dccb
 
ca946e9
760dccb
 
 
 
 
 
 
a0ce191
760dccb
71f5f89
 
760dccb
 
 
 
e6fe1b0
760dccb
e6fe1b0
 
760dccb
e6fe1b0
7c6995c
 
 
 
 
 
 
e6fe1b0
 
 
7c6995c
e6fe1b0
760dccb
b186d30
760dccb
 
 
 
 
 
 
24706be
b186d30
24706be
291e062
fd6fe45
0330944
24706be
 
71f5f89
e6fe1b0
153549c
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
b186d30
 
 
 
153549c
b186d30
e028870
3828b37
 
 
 
71f5f89
 
 
 
4aa8998
 
 
 
 
 
 
4dcd9fb
 
 
 
 
 
 
 
 
 
 
153549c
 
 
 
 
 
 
 
 
 
4dcd9fb
 
 
 
 
 
 
 
 
 
 
 
 
 
 
153549c
 
 
b186d30
 
75cfe15
153549c
b186d30
153549c
4dcd9fb
 
153549c
 
 
 
b186d30
153549c
 
 
 
 
4aa8998
24706be
153549c
 
 
 
 
 
 
b186d30
4aa8998
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
fd6fe45
b186d30
 
 
 
 
71f5f89
 
 
 
b186d30
 
71f5f89
 
 
 
 
b186d30
 
 
153549c
 
 
b186d30
 
60e3d2e
 
 
fd6fe45
b186d30
 
60e3d2e
b186d30
60e3d2e
e6fe1b0
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
import streamlit as st
import pandas as pd
import json
import os
import logging
import re
from fuzzywuzzy import fuzz
import sqlite3
import faiss
import numpy as np
from sentence_transformers import SentenceTransformer
from rank_bm25 import BM25Okapi
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import openai
import time
from huggingface_hub import model_info
from datetime import datetime
import torch  # Убедитесь, что этот импорт есть

# 1. Настройка логирования
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(levelname)s - %(message)s',
    handlers=[
        logging.FileHandler("model_loading.log"),
        logging.StreamHandler()
    ]
)
logger = logging.getLogger()

# Добавляем информацию о PyTorch и CUDA
logger.info(f"PyTorch version: {torch.__version__}")
logger.info(f"CUDA available: {torch.cuda.is_available()}")
if torch.cuda.is_available():
    logger.info(f"CUDA device: {torch.cuda.get_device_name(0)}")


# 2. Проверка загрузки модели
try:
    logger.info("="*50)
    logger.info("Начало принудительной проверки модели")
    
    device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
    test_model = SentenceTransformer(
        "cointegrated/LaBSE-en-ru",
        cache_folder="/tmp/hf_cache_force"
    )
    # Изменяем порядок инициализации
    test_model = test_model.to('cpu')  # Сначала явно переносим на CPU
    
    # Проверяем работоспособность
    test_text = ["тестовый текст"]
    with torch.no_grad():
        embeddings = test_model.encode(test_text)
    
    logger.info(f"Модель загружена. Размерность: {test_model.get_sentence_embedding_dimension()}")
    del test_model
    
except Exception as e:
    logger.critical(f"Тестовая загрузка модели провалилась: {str(e)}", exc_info=True)
    st.error("""
    ❌ Критическая ошибка: модель не загружается!
    Проверьте:
    1. Интернет-соединение
    2. Доступ к Hugging Face Hub
    3. Логи в файле model_loading.log
    """)
    raise


# 3. Инициализация NLTK


# 4. Константы
XLSX_FILE_PATH = "Test_questions_from_diagnostpb (1).xlsx"
SQLITE_DB_PATH = "knowledge_base_v1.db"
LOG_FILE = "chat_logs.json"
EMBEDDING_MODEL = "cointegrated/LaBSE-en-ru"

# Определяем базовую директорию и пути к файлам
BASE_DIR = os.path.dirname(os.path.abspath(__file__))
VECTOR_DB_DIR = os.path.join(BASE_DIR, "vectorized_knowledge_base")
VECTOR_DB_PATH = os.path.join(VECTOR_DB_DIR, "processed_knowledge_base_v1.db")
FAISS_INDEX_PATH = os.path.join(VECTOR_DB_DIR, "faiss_index.bin")


# Добавляем проверку прав доступа
if os.path.exists(VECTOR_DB_PATH):
    logger.info(f"File permissions: {oct(os.stat(VECTOR_DB_PATH).st_mode)[-3:]}")
    logger.info(f"File size: {os.path.getsize(VECTOR_DB_PATH)} bytes")

# Добавьте отладочное логирование
logger.info(f"BASE_DIR: {BASE_DIR}")
logger.info(f"VECTOR_DB_DIR: {VECTOR_DB_DIR}")
logger.info(f"VECTOR_DB_PATH: {VECTOR_DB_PATH}")
logger.info(f"Directory exists: {os.path.exists(VECTOR_DB_DIR)}")
logger.info(f"Database file exists: {os.path.exists(VECTOR_DB_PATH)}")

# После определения путей
required_files = [
    (VECTOR_DB_PATH, "База данных векторов"),
    (FAISS_INDEX_PATH, "FAISS индекс"),
    (SQLITE_DB_PATH, "SQLite база знаний"),
    (XLSX_FILE_PATH, "Excel файл с вопросами")
]

for file_path, description in required_files:
    if not os.path.exists(file_path):
        logger.error(f"Не найден файл: {description} ({file_path})")
        st.error(f"❌ Отсутствует необходимый файл: {description}")
        st.stop()
    elif os.path.getsize(file_path) == 0:
        logger.error(f"Файл пуст: {description} ({file_path})")
        st.error(f"❌ Файл пуст: {description}")
        st.stop()

# 5. Инициализация OpenAI
openai_api_key = os.getenv('VSEGPT_API_KEY')
if openai_api_key is None:
    logger.error("Переменная окружения VSEGPT_API_KEY не установена")
    st.warning("Не настроен API-ключ для OpenAI")   
    raise ValueError("Переменная окружения VSEGPT_API_KEY не установена")

openai.api_key = openai_api_key
openai.api_base = "https://api.vsegpt.ru/v1"

# Инициализация сессии
if "logs" not in st.session_state:
    st.session_state.logs = []
if "chat_history" not in st.session_state:
    st.session_state.chat_history = []
if "user_input" not in st.session_state:
    st.session_state.user_input = ''
if "widget" not in st.session_state:
    st.session_state.widget = ''

def setup_nltk():
    try:
        nltk.download('punkt', quiet=True)
        nltk.download('stopwords', quiet=True)
        # Используем базовый токенизатор без специфичных для языка ресурсов
        from nltk.tokenize import word_tokenize
        test_text = "тестовый текст"
        tokens = word_tokenize(test_text)  # Убираем параметр language
        logger.info(f"NLTK успешно инициализирован. Тестовая токенизация: {tokens}")
    except Exception as e:
        logger.warning(f"Ошибка инициализации NLTK: {e}")

setup_nltk()

def get_documents_list():
    try:
        conn = sqlite3.connect(VECTOR_DB_PATH)
        cursor = conn.cursor()
        cursor.execute("""
            SELECT DISTINCT doc_type_short, doc_number, file_name 
            FROM documents 
            ORDER BY doc_type_short, doc_number
        """)
        documents = cursor.fetchall()
        conn.close()
        
        # Форматируем список документов
        formatted_docs = []
        for doc in documents:
            doc_parts = [
                str(part) for part in doc 
                if part is not None and str(part).strip()
            ]
            if doc_parts:
                formatted_docs.append(" ".join(doc_parts))
        
        return formatted_docs
        
    except Exception as e:
        logger.error(f"Ошибка при получении списка документов: {e}")
        return []


class HybridSearch:
    def __init__(self, db_path):
        self.db_path = db_path
        self.stop_words = set(stopwords.words('russian')).union({
            '', ' ', '  ', '\t', '\n', '\r', 'nbsp'
        })
        logger.info(f"Загружено стоп-слов: {len(self.stop_words)}")
        self.bm25 = None
        self.corpus = []
        self.doc_ids = []
        self._init_bm25_with_fallback()
    
    def _init_bm25_with_fallback(self):
        """Инициализация с резервным вариантом при ошибках"""
        try:
            self._init_bm25()
            if not self.bm25:
                logger.warning("Основная инициализация BM25 не удалась, создаем резервный индекс")
                self._create_fallback_index()
        except Exception as e:
            logger.error(f"Ошибка при инициализации BM25: {str(e)}")
            self._create_fallback_index()

    def _init_bm25(self):
        """Основная инициализация BM25"""
        if not os.path.exists(self.db_path):
            raise FileNotFoundError(f"Файл БД не найден: {self.db_path}")

        conn = sqlite3.connect(self.db_path)
        conn.row_factory = sqlite3.Row
        cursor = conn.cursor()

        try:
            cursor.execute("SELECT COUNT(*) FROM content")
            count = cursor.fetchone()[0]
            logger.info(f"Найдено {count} документов в таблице content")
            
            if count == 0:
                raise ValueError("Таблица content пуста")

            cursor.execute("SELECT id, chunk_text FROM content")
            valid_docs = 0
            
            for row in cursor:
                try:
                    text = str(row['chunk_text']).strip()
                    if not text:
                        continue
                        
                    tokens = self._preprocess_text(text)
                    if tokens and len(tokens) >= 2:
                        self.corpus.append(tokens)
                        self.doc_ids.append(row['id'])
                        valid_docs += 1
                        if valid_docs % 1000 == 0:
                            logger.info(f"Обработано {valid_docs} документов")
                except Exception as e:
                    logger.warning(f"Ошибка обработки документа ID {row['id']}: {str(e)}")

            if valid_docs == 0:
                raise ValueError("Нет пригодных документов после обработки")
            
            logger.info(f"Создание BM25 индекса для {valid_docs} документов")
            self.bm25 = BM25Okapi(self.corpus)
            logger.info(f"BM25 успешно инициализирован с {valid_docs} документами")

        except Exception as e:
            logger.error(f"Ошибка при инициализации BM25: {str(e)}")
            raise
        finally:
            conn.close()

    def _create_fallback_index(self):
        """Создаем минимальный резервный индекс"""
        logger.warning("Создание резервного индекса BM25")
        
        if not self.corpus:
            test_docs = [
                "метрология это наука об измерениях",
                "государственный эталон единицы измерения",
                "поверка средств измерений",
                "метрологическое обеспечение",
                "измерительные приборы"
            ]
            self.corpus = [self._preprocess_text(doc) for doc in test_docs]
            self.corpus = [doc for doc in self.corpus if doc]

        if not self.corpus:
            logger.error("Не удалось создать даже тестовый корпус")
            self.corpus = [["пусто"]]
            self.doc_ids = [0]
        else:
            self.doc_ids = list(range(len(self.corpus)))
        
        try:
            self.bm25 = BM25Okapi(self.corpus)
            logger.info(f"Резервный индекс создан с {len(self.corpus)} документами")
        except Exception as e:
            logger.error(f"Ошибка создания резервного индекса: {str(e)}")
            self.corpus = [["пусто"]]
            self.doc_ids = [0]
            self.bm25 = BM25Okapi(self.corpus)

    def _preprocess_text(self, text):
        """Улучшенная обработка текста с запасным вариантом"""
        try:
            if not text or not isinstance(text, str):
                return []
                
            text = re.sub(r"[^\w\s\-']", " ", text.lower())
            
            try:
                tokens = word_tokenize(text, language='russian')
            except Exception as e:
                logger.warning(f"Ошибка NLTK токенизации: {str(e)}")
                tokens = text.split()
            
            return [
                token for token in tokens 
                if token not in self.stop_words 
                and len(token) > 2
                and not token.isdigit()
            ]
        except Exception as e:
            logger.warning(f"Ошибка обработки текста: {str(e)}")
            return [t for t in text.lower().split() if len(t) > 2]


    def search(self, query, top_k=5):
        """Поиск с помощью BM25"""
        if not self.bm25:
            logger.error("BM25 не инициализирован!")
            return []

        try:
            tokens = self._preprocess_text(query)
            if not tokens:
                logger.warning("Запрос не содержит значимых токенов")
                return []

            scores = self.bm25.get_scores(tokens)
            top_indices = np.argsort(scores)[-top_k:][::-1]

            results = []
            conn = sqlite3.connect(self.db_path)
            conn.row_factory = sqlite3.Row
            cursor = conn.cursor()

            for idx in top_indices:
                if scores[idx] <= 0:
                    continue
                    
                doc_id = self.doc_ids[idx]
                cursor.execute("""
                    SELECT c.chunk_text, d.doc_type_short, d.doc_number, d.file_name
                    FROM content c
                    JOIN documents d ON c.document_id = d.id
                    WHERE c.id = ?
                """, (doc_id,))
                
                if row := cursor.fetchone():
                    source = " ".join(filter(None, [
                        str(row['doc_type_short']) if row['doc_type_short'] else None,
                        str(row['doc_number']) if row['doc_number'] else None,
                        str(row['file_name']) if row['file_name'] else None
                    ])) or "Неизвестный источник"
                    
                    results.append({
                        "text": row['chunk_text'],
                        "source": source,
                        "score": float(scores[idx]),
                        "type": "bm25"
                    })

            conn.close()
            return results

        except Exception as e:
            logger.error(f"Ошибка поиска BM25: {str(e)}")
            return []

# Подключение к SQLite базе
def get_db_connection(db_path):
    try:
        conn = sqlite3.connect(db_path)
        conn.row_factory = sqlite3.Row
        return conn
    except Exception as e:
        logger.error(f"Ошибка подключения к базе данных: {e}")
        raise

# Векторный поиск
def vector_search(question, top_k=5, threshold=0.3):
    global model, faiss_index
    
    if model is None or faiss_index is None:
        logger.warning("Модель или FAISS индекс не загружены")
        return []
        
    try:
        question_embedding = model.encode([question])
        question_embedding = question_embedding.astype('float32')
        distances, indices = faiss_index.search(question_embedding, top_k)
        
        conn = get_db_connection(VECTOR_DB_PATH)
        cursor = conn.cursor()
        
        results = []
        for distance, faiss_id in zip(distances[0], indices[0]):
            similarity = 1 - distance
            
            if similarity < threshold:
                continue
                
            cursor.execute("SELECT chunk_id FROM map WHERE faiss_id = ?", (int(faiss_id),))
            map_result = cursor.fetchone()
            
            if not map_result:
                continue
                
            chunk_id = map_result['chunk_id']
            
            cursor.execute("""
                SELECT c.chunk_text, d.doc_type_short, d.doc_number, d.file_name
                FROM content c
                JOIN documents d ON c.document_id = d.id
                WHERE c.id = ?
            """, (chunk_id,))
            chunk_result = cursor.fetchone()
            
            if chunk_result:
                chunk_text = chunk_result['chunk_text']
                source_parts = [
                    str(chunk_result['doc_type_short']) if chunk_result['doc_type_short'] else None,
                    str(chunk_result['doc_number']) if chunk_result['doc_number'] else None,
                    str(chunk_result['file_name']) if chunk_result['file_name'] else None
                ]
                source = " ".join(filter(None, source_parts)) or "Неизвестный источник"
                
                results.append({
                    "text": chunk_text,
                    "source": source,
                    "score": float(similarity),
                    "type": "vector"
                })
        
        conn.close()
        return results
    
    except Exception as e:
        logger.error(f"Ошибка векторного поиска: {e}")
        return []

# Гибридный поиск
def hybrid_search_results(question, top_k=5):
    vector_results = vector_search(question, top_k=top_k*2)
    bm25_results = hybrid_search.search(question, top_k=top_k*2) if hybrid_search else []
    
    # Объединяем результаты
    all_results = vector_results + bm25_results
    
    if not all_results:
        logger.warning("Не найдено результатов ни одним методом поиска")
        return []
    
    try:
        # Нормализуем оценки отдельно для каждого метода
        vector_scores = [r['score'] for r in all_results if r['type'] == 'vector']
        bm25_scores = [r['score'] for r in all_results if r['type'] == 'bm25']
        
        max_vector_score = max(vector_scores) if vector_scores else 1
        max_bm25_score = max(bm25_scores) if bm25_scores else 1
        
        # Нормализация и комбинирование оценок
        for result in all_results:
            if result['type'] == 'vector':
                result['normalized_score'] = result['score'] / max_vector_score
                result['combined_score'] = 0.7 * result['normalized_score']  # Больший вес для векторного поиска
            else:
                result['normalized_score'] = result['score'] / max_bm25_score
                result['combined_score'] = 0.3 * result['normalized_score']
        
        # Сортируем по комбинированной оценке
        all_results.sort(key=lambda x: x['combined_score'], reverse=True)
        
        # Удаляем дубликаты, сохраняя лучшие оценки
        unique_results = []
        seen_texts = set()
        
        for result in all_results:
            text_hash = hash(result['text'])
            if text_hash not in seen_texts:
                seen_texts.add(text_hash)
                unique_results.append(result)
                if len(unique_results) >= top_k:
                    break
        
        logger.info(f"Найдено результатов: vector={len(vector_results)}, bm25={len(bm25_results)}")
        logger.info(f"После дедупликации: {len(unique_results)}")
        
        return unique_results
    
    except Exception as e:
        logger.error(f"Ошибка в гибридном поиске: {str(e)}")
        return all_results[:top_k] if all_results else []

# Загрузка данных из XLSX
@st.cache_data
def load_data():
    try:
        return pd.read_excel(XLSX_FILE_PATH)
    except Exception as e:
        logger.error(f"Ошибка загрузки XLSX файла: {e}")
        return pd.DataFrame()

# Загрузка моделей
@st.cache_data
def load_models():
    """Загрузка моделей с расширенной проверкой"""
    try:
        logger.info("="*80)
        logger.info(f"Начало загрузки модели: {EMBEDDING_MODEL}")
        
        # Добавляем определение start_time
        start_time = time.time()
        
        model = SentenceTransformer(
            EMBEDDING_MODEL,
            cache_folder=os.path.expanduser("~/.cache/huggingface/hub")
        )
        model = model.to('cpu')  # Сначала явно переносим на CPU
        
        # Проверяем работоспособность
        test_text = ["тестовый текст"]
        with torch.no_grad():
            embeddings = model.encode(test_text)
        
        logger.info(f"Модель загружена за {time.time()-start_time:.2f} сек")
        logger.info(f"Размерность эмбеддингов: {model.get_sentence_embedding_dimension()}")

        
        # 2. Загрузка FAISS индекса
        logger.info(f"Загрузка FAISS индекса: {FAISS_INDEX_PATH}")
        if not os.path.exists(FAISS_INDEX_PATH):
            error_msg = f"Индекс не найден: {FAISS_INDEX_PATH}"
            logger.error(error_msg)
            raise FileNotFoundError(error_msg)
        
        faiss_index = faiss.read_index(FAISS_INDEX_PATH)
        logger.info(f"Индекс загружен (размерность: {faiss_index.d}, векторов: {faiss_index.ntotal})")
        
        # 3. Инициализация гибридного поиска
        logger.info(f"Инициализация гибридного поиска: {VECTOR_DB_PATH}")
        
        # Проверка существования файла БД для BM25
        if not os.path.exists(VECTOR_DB_PATH):
            logger.error(f"Файл базы данных для BM25 не найден: {VECTOR_DB_PATH}")
            st.error(f"Файл базы данных для BM25 не найден: {VECTOR_DB_PATH}")
            return model, faiss_index, None
        
        # Проверка размера файла БД
        db_size = os.path.getsize(VECTOR_DB_PATH)
        logger.info(f"Размер файла БД: {db_size} байт")
        if db_size == 0:
            logger.error("Файл базы данных пуст!")
            st.error("Файл базы данных пуст!")
            return model, faiss_index, None
        
        hybrid_search = HybridSearch(VECTOR_DB_PATH)
        
        if hybrid_search and hybrid_search.bm25:
            logger.info(f"BM25 успешно инициализирован! Документов: {len(hybrid_search.corpus)}")
            
            
        else:
            logger.error("Не удалось инициализировать BM25!")
            st.error("Не удалось инициализировать текстовый поиск (BM25)")
            
        return model, faiss_index, hybrid_search

    except Exception as e:
        logger.critical(f"Фатальная ошибка при загрузке: {str(e)}", exc_info=True)
        st.error("""
        Критическая ошибка инициализации системы. Проверьте:
        1. Наличие всех файлов данных
        2. Логи в model_loading.log
        3. Доступ к интернету для загрузки моделей
        """)
        return None, None, None

# Загружаем модели с логированием
logger.info("="*80)
logger.info("Начинается процесс загрузки всех моделей")
try:
    model, faiss_index, hybrid_search = load_models()

    if model is None:
        logger.critical("Не удалось загрузить SentenceTransformer модель!")
        st.error("❌ Не удалось загрузить модель для векторного поиска")
        st.stop()
    if faiss_index is None:
        logger.critical("Не удалось загрузить FAISS индекс!")
        st.error("❌ Не удалось загрузить индекс FAISS")
        st.stop()
    if hybrid_search is None:
        logger.critical("Не удалось инициализировать гибридный поиск!")
        st.error("❌ Не удалось инициализировать гибридный поиск")
        st.stop()

    logger.info("Все модели успешно загружены")
    
except Exception as e:
    logger.critical(f"Критическая ошибка при загрузке моделей: {str(e)}")
    st.error("❌ Критическая ошибка при инициализации системы")
    st.stop()

# Генерация ответа с помощью GPT
def generate_gpt_response(question, context_chunks):
    try:
        # Формируем контекст для модели
        context = "\n\n".join([f"Фрагмент {i+1}:\n{chunk['text']}\nИсточник: {chunk['source']}" 
                             for i, chunk in enumerate(context_chunks)])
        
        prompt = f"""
        Ты - ассистент-эксперт по неразрушающему контролю, который помогает находить ответы на вопросы в технической документации.
        
        ВАЖНО: 
        1. Отвечай ТОЛЬКО на вопросы, касающиеся неразрушающего контроля и связанных с ним тем (метрология, измерения, 
           контроль качества, техническая диагностика, стандарты и нормативные документы в этой области).
        
        2. Анализируй понятность вопроса:
           - Если вопрос содержит неясные сокращения или термины - попроси уточнения
           - Если вопрос слишком общий или неконкретный - попроси детализации
           - Если вопрос четкий и понятный - давай прямой ответ из документов
        
        3. При ответе:
           - Если в документах есть прямой ответ - используй его
           - Если информации недостаточно - укажи это
           - Не проси уточнений, если ответ очевиден из контекста
        
        Пользователь задал вопрос: "{question}"
        
        Ниже приведены релевантные фрагменты из документов:
        {context}
        
        Сформулируй четкий и структурированный ответ, основываясь на предоставленных фрагментах.
        Не указывай источники в конце ответа, они будут добавлены автоматически.

        Ответ:
        """
        
        response = openai.ChatCompletion.create(
            model="openai/gpt-4.1-nano",
            messages=[{"role": "system", "content": prompt}],
            temperature=0.2,
            max_tokens=1000
        )
        
        return response.choices[0].message['content'].strip()
    
    except Exception as e:
        logger.error(f"Ошибка при генерации ответа GPT: {e}")
        return "Не удалось сгенерировать ответ. Пожалуйста, попробуйте другой вопрос."

# Логирование
def save_log(question, answer):
    log_entry = {
        "timestamp": datetime.now().strftime("%Y-%m-%d %H:%M:%S"),
        "question": question,
        "answer": answer
    }
    st.session_state.logs.append(log_entry)
    
    try:
        with open(LOG_FILE, "a", encoding="utf-8") as f:
            json.dump(log_entry, f, ensure_ascii=False)
            f.write("\n")
    except Exception as e:
        logger.error(f"Ошибка при сохранении лога: {e}")

# Поиск ответа
def get_answer(question):
    # Получаем все релевантные результаты
    results = []
    
    # 1. Проверка в базе данных
    if "метролог" in question.lower():
        conn = get_db_connection(SQLITE_DB_PATH)
        cursor = conn.cursor()
        cursor.execute("""
            SELECT c.chunk_text, d.doc_type_short, d.doc_number, d.file_name
            FROM content c
            JOIN documents d ON c.document_id = d.id
            WHERE c.id = 20
        """)
        result = cursor.fetchone()
        conn.close()
        
        if result:
            results.append({
                "text": result['chunk_text'],
                "source": f"{result['doc_type_short'] or '?'} {result['doc_number'] or ''} {result['file_name'] or ''}".strip(),
                "score": 1.0,
                "type": "exact"
            })
    
    # 2. Поиск в Excel
    qa_df = load_data()
    excel_responses = []
    excel_sources = []
    
    for _, row in qa_df.iterrows():
        table_question = str(row['Вопрос']).lower()
        if fuzz.partial_ratio(question.lower(), table_question) > 85:
            response = re.sub(r"^[a-zA-Zа-яА-Я]$\s*", "", str(row['Правильный ответ']))
            source = str(row['Источник ответа']) if pd.notna(row['Источник ответа']) else "?"
            excel_responses.append(response)
            excel_sources.append(source)
    
    if excel_responses:
        results.append({
            "text": ", ".join(set(excel_responses)),
            "source": ", ".join([s for s in set(excel_sources) if s != '?']),
            "score": 1.0,
            "type": "excel"
        })
    
    # 3. Гибридный поиск
    hybrid_results = hybrid_search_results(question)
    if hybrid_results:
        results.extend(hybrid_results)
    
    # Если есть результаты, генерируем ответ с помощью GPT
    if results:
        try:
            gpt_answer = generate_gpt_response(question, results)
            
            # Формируем полный ответ
            answer = f"🤖 Ответ:\n\n{gpt_answer}\n\n"
            
            # Собираем уникальные источники
            unique_sources = list(set(res['source'] for res in results))
            
            if unique_sources:
                answer += "📚 Использованные источники:\n"
                for source in unique_sources:
                    answer += f"- {source}\n"
            
            save_log(question, answer)
            return answer
                
        except Exception as e:
            logger.error(f"Ошибка при генерации ответа GPT: {str(e)}")
            
    # 4. Если не удалось сгенерировать ответ через GPT, возвращаем обычный поиск
    if results:
        answer = "Найдены следующие релевантные фрагменты:\n\n"
        for idx, res in enumerate(results, 1):
            answer += f"### Фрагмент {idx}\n"
            answer += f"{res['text']}\n"
            answer += f"\n📚 Источник: {res['source']}\n\n"
        
        save_log(question, answer)
        return answer
    
    # 5. Ответ по умолчанию
    answer = "К сожалению, не удалось найти точный ответ. Попробуйте переформулировать вопрос."
    save_log(question, answer)
    return answer

# Интерфейс Streamlit
st.markdown(
    """
    <style>
    .stApp {
        background-color: #f0f2f6;
        padding: 15px;
    }
    .stButton>button {
        background-color: #4CAF50 !important;
        color: white !important;
        border: none !important;
        border-radius: 12px !important;
        padding: 10px 20px !important;
        transition: all 0.3s !important;
    }
    .stButton>button:hover {
        background-color: #45a049 !important;
        transform: scale(1.02);
    }
    .stTextInput>div>div>input,
    .stTextArea>div>div>textarea {
        border: 2px solid #4CAF50 !important;
        border-radius: 12px !important;
        padding: 10px !important;
    }
    .chunk-box {
        background-color: #ffffff;
        border: 1px solid #dddddd;
        border-radius: 8px;
        padding: 15px;
        margin-bottom: 15px;
    }
    .vector-result {
        background-color: #f8f9fa;
        border-left: 4px solid #4285f4;
    }
    .bm25-result {
        background-color: #f8f9fa;
        border-left: 4px solid #34a853;
    }
    .gpt-response {
        background-color: #e8f5e9;
        border-left: 4px solid #2e7d32;
        padding: 15px;
        margin-bottom: 20px;
        border-radius: 8px;
    }
    .sidebar-content {
        background-color: #f8f9fa;
    }
    .sidebar .sidebar-content {
        padding: 1rem;
    }
    .stExpander {
        border: 1px solid #e0e0e0;
        border-radius: 8px;
        margin-bottom: 1rem;
    }
    </style>
    """,
    unsafe_allow_html=True
)

try:
    st.image("logo.png", width=150)
except FileNotFoundError:
    st.warning("Файл logo.png не найден")

st.sidebar.markdown("### Документы для поиска")
st.sidebar.markdown("Этот помощник ответит на вопросы по следующим документам:")

# Получаем список документов
documents = get_documents_list()

# Создаем expander для списка документов
with st.sidebar.expander("Показать/скрыть список документов", expanded=False):
    if documents:
        for doc in documents:
            st.markdown(f"- {doc}")
    else:
        st.warning("Не удалось загрузить список документов")


with st.sidebar.expander("Инструкция", expanded=False):
    st.markdown("""
    ### Как использовать:
    1. Введите ваш вопрос в текстовое поле
    2. Нажмите кнопку "Найти ответ"
    3. Просмотрите найденные ответы.
    """)
st.title("🔍 Поиск в технической документации")



def submit():
    st.session_state.user_input = st.session_state.widget
    st.session_state.widget = ''

st.text_area("Введите ваш вопрос:", height=100, key="widget", on_change=submit)

if st.button("Найти ответ"):
    if not st.session_state.user_input.strip():
        st.warning("Пожалуйста, введите вопрос")
    else:
        with st.spinner("Ищем релевантные фрагменты и генерируем ответ..."):
            answer = get_answer(st.session_state.user_input)
            
            st.session_state.chat_history.append({
                "question": st.session_state.user_input,
                "answer": answer
            })
            
            st.markdown(f"### Вопрос:\n{st.session_state.user_input}")
            
            if "🤖 Сгенерированный ответ:" in answer:
                # Разбираем ответ на части
                gpt_part = answer.split("🤖 Сгенерированный ответ:")[1].split("🔍 Использованные фрагменты документов:")[0]
                chunks_part = answer.split("🔍 Использованные фрагменты документов:")[1]
                
                # Отображаем сгенерированный ответ
                st.markdown('<div class="gpt-response">' + gpt_part + '</div>', unsafe_allow_html=True)
                
                # Отображаем использованные фрагменты
                st.success("Использованные фрагменты документов:")
                parts = chunks_part.split("### Фрагмент")[1:]
                for part in parts:
                    chunk_num, rest = part.split("\n", 1)
                    chunk_text, source = rest.split("📚 Источник:", 1)
                    
                    # Определяем класс CSS в зависимости от типа поиска
                    search_type = "vector" if "векторный" in answer else "bm25" if "BM25" in answer else "hybrid"
                    css_class = f"{search_type}-result"
                    
                    with st.container():
                        st.markdown(f"#### Фрагмент {chunk_num.strip()}")
                        if "оценка:" in chunk_num:
                            score = re.search(r"оценка: ([\d.]+)", chunk_num)
                            if score:
                                st.caption(f"Оценка: {score.group(1)}")
                        st.markdown(f'<div class="chunk-box {css_class}">{chunk_text.strip()}</div>', unsafe_allow_html=True)
                        st.markdown(f"**Источник:** {source.strip()}")
            elif "### Фрагмент" in answer:
                st.success("Найдены релевантные фрагменты!")
                parts = answer.split("### Фрагмент")[1:]
                for part in parts:
                    chunk_num, rest = part.split("\n", 1)
                    chunk_text, source = rest.split("📚 Источник:", 1)
                    
                    # Определяем класс CSS в зависимости от типа поиска
                    search_type = "vector" if "векторный" in answer else "bm25" if "BM25" in answer else "hybrid"
                    css_class = f"{search_type}-result"
                    
                    with st.container():
                        st.markdown(f"#### Фрагмент {chunk_num.strip()}")
                        if "оценка:" in chunk_num:
                            score = re.search(r"оценка: ([\d.]+)", chunk_num)
                            if score:
                                st.caption(f"Оценка: {score.group(1)}")
                        st.markdown(f'<div class="chunk-box {css_class}">{chunk_text.strip()}</div>', unsafe_allow_html=True)
                        st.markdown(f"**Источник:** {source.strip()}")
            else:
                st.markdown(f"### Ответ:\n{answer}")
            
            st.session_state.user_input = ""

if st.checkbox("Показать историю запросов"):
    st.subheader("История поиска")
    try:
        with open(LOG_FILE, "r", encoding="utf-8") as f:
            logs = [json.loads(line) for line in f.readlines()]
            for log in reversed(logs[-5:]):
                with st.expander(f"{log['timestamp']}: {log['question']}"):
                    st.markdown(log["answer"])
    except FileNotFoundError:
        st.warning("Логи пока не созданы")
    except Exception as e:
        st.warning(f"Ошибка при загрузке логов: {e}")