Spaces:

VitaliyPolovyyEN
/

rag-embedding-tester

Running

File size: 11,237 Bytes

import gradio as gr
import time
import datetime
from sentence_transformers import SentenceTransformer
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity
import traceback
from langchain.text_splitter import RecursiveCharacterTextSplitter
import io

# Configuration
EMBEDDING_MODELS = {
    "sentence-transformers/all-MiniLM-L6-v2": "MiniLM (Multilingual)",
    "ai-forever/FRIDA": "FRIDA (RU-EN)",
    "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2": "Multilingual MiniLM",
    "cointegrated/rubert-tiny2": "RuBERT Tiny",
    "ai-forever/sbert_large_nlu_ru": "Russian SBERT Large"
}

CHUNK_SIZE = 1024
CHUNK_OVERLAP = 200
TOP_K_RESULTS = 4
OUTPUT_FILENAME = "rag_embedding_test_results.txt"

# Global storage
embeddings_cache = {}
document_chunks = []
current_document = ""

def chunk_document(text):
    """Split document into chunks using RecursiveCharacterTextSplitter"""
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=CHUNK_SIZE,
        chunk_overlap=CHUNK_OVERLAP,
        length_function=len,
    )
    chunks = text_splitter.split_text(text)
    return [chunk for chunk in chunks if len(chunk.strip()) > 50]

def test_single_model(model_name, chunks, question):
    """Test embedding with a single model"""
    try:
        start_time = time.time()
        
        # Load model
        model = SentenceTransformer(model_name)
        load_time = time.time() - start_time
        
        # Create embeddings
        embed_start = time.time()
        chunk_embeddings = model.encode(chunks, show_progress_bar=False)
        question_embedding = model.encode([question], show_progress_bar=False)
        embed_time = time.time() - embed_start
        
        # Calculate similarities
        similarities = cosine_similarity(question_embedding, chunk_embeddings)[0]
        
        # Get top K results
        top_indices = np.argsort(similarities)[-TOP_K_RESULTS:][::-1]
        
        total_time = time.time() - start_time
        
        results = {
            'status': 'success',
            'total_time': total_time,
            'load_time': load_time,
            'embed_time': embed_time,
            'top_chunks': [
                {
                    'index': idx,
                    'score': similarities[idx],
                    'text': chunks[idx]
                }
                for idx in top_indices
            ]
        }
        
        return results
        
    except Exception as e:
        return {
            'status': 'failed',
            'error': str(e),
            'traceback': traceback.format_exc()
        }

def process_embeddings(document_text, progress=gr.Progress()):
    """Process document with all embedding models"""
    global embeddings_cache, document_chunks, current_document
    
    if not document_text.strip():
        return "❌ Please provide document text first!"
    
    current_document = document_text
    
    # Chunk document
    progress(0.1, desc="Chunking document...")
    document_chunks = chunk_document(document_text)
    
    if not document_chunks:
        return "❌ No valid chunks created. Please provide longer text."
    
    embeddings_cache = {}
    total_models = len(EMBEDDING_MODELS)
    
    progress(0.2, desc=f"Processing {len(document_chunks)} chunks with {total_models} models...")
    
    # Process each model
    for i, (model_name, display_name) in enumerate(EMBEDDING_MODELS.items()):
        progress(0.2 + (0.7 * i / total_models), desc=f"Testing {display_name}...")
        
        # This is just preparation - we'll process on query
        embeddings_cache[model_name] = {
            'processed': False,
            'display_name': display_name
        }
    
    progress(1.0, desc="Ready for testing!")
    
    return f"✅ Document processed successfully!\n\n📊 **Stats:**\n- Total chunks: {len(document_chunks)}\n- Chunk size: {CHUNK_SIZE}\n- Chunk overlap: {CHUNK_OVERLAP}\n- Models ready: {len(EMBEDDING_MODELS)}\n\n🔍 **Now ask a question to compare embedding models!**"

def compare_embeddings(question, progress=gr.Progress()):
    """Compare all models for a given question"""
    global embeddings_cache, document_chunks
    
    if not question.strip():
        return "❌ Please enter a question!", ""
    
    if not document_chunks:
        return "❌ Please process a document first using 'Start Embedding' button!", ""
    
    results = {}
    total_models = len(EMBEDDING_MODELS)
    
    # Test each model
    for i, (model_name, display_name) in enumerate(EMBEDDING_MODELS.items()):
        progress(i / total_models, desc=f"Testing {display_name}...")
        
        result = test_single_model(model_name, document_chunks, question)
        results[model_name] = result
        results[model_name]['display_name'] = display_name
    
    progress(1.0, desc="Comparison complete!")
    
    # Format results for display
    display_results = format_comparison_results(results, question)
    
    # Generate downloadable report
    report_content = generate_report(results, question)
    
    return display_results, report_content

def format_comparison_results(results, question):
    """Format results for Gradio display"""
    output = f"# 🔍 Embedding Model Comparison\n\n"
    output += f"**Question:** {question}\n\n"
    output += f"**Document chunks:** {len(document_chunks)}\n\n"
    output += "---\n\n"
    
    for model_name, result in results.items():
        display_name = result['display_name']
        output += f"## 🤖 {display_name}\n\n"
        
        if result['status'] == 'success':
            output += f"✅ **Success** ({result['total_time']:.2f}s)\n\n"
            output += "**Top Results:**\n\n"
            
            for i, chunk in enumerate(result['top_chunks'], 1):
                score = chunk['score']
                text_preview = chunk['text'][:200] + "..." if len(chunk['text']) > 200 else chunk['text']
                output += f"**{i}. [{score:.3f}]** Chunk #{chunk['index']}\n"
                output += f"```\n{text_preview}\n```\n\n"
        else:
            output += f"❌ **Failed:** {result['error']}\n\n"
        
        output += "---\n\n"
    
    return output

def generate_report(results, question):
    """Generate downloadable text report"""
    timestamp = datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")
    
    report = "==========================================\n"
    report += "RAG EMBEDDING MODEL TEST RESULTS\n"
    report += "==========================================\n"
    report += f"Date: {timestamp}\n"
    report += f"Question: {question}\n"
    report += f"Document chunks: {len(document_chunks)}\n\n"
    
    report += "Settings:\n"
    report += f"- Chunk Size: {CHUNK_SIZE}\n"
    report += f"- Chunk Overlap: {CHUNK_OVERLAP}\n"
    report += f"- Splitter: RecursiveCharacterTextSplitter\n"
    report += f"- Top-K Results: {TOP_K_RESULTS}\n\n"
    
    report += "==========================================\n"
    
    for model_name, result in results.items():
        display_name = result['display_name']
        report += f"MODEL: {display_name}\n"
        
        if result['status'] == 'success':
            report += f"Status: ✅ Success ({result['total_time']:.2f}s)\n"
            report += "Top Results:\n"
            
            for chunk in result['top_chunks']:
                score = chunk['score']
                text = chunk['text'].replace('\n', ' ')
                text_preview = text[:100] + "..." if len(text) > 100 else text
                report += f"[{score:.3f}] Chunk #{chunk['index']}: \"{text_preview}\"\n"
        else:
            report += f"Status: ❌ Failed - {result['error']}\n"
        
        report += "\n" + "="*40 + "\n"
    
    return report

def load_file(file):
    """Load content from uploaded file"""
    if file is None:
        return ""
    
    try:
        content = file.read()
        if isinstance(content, bytes):
            content = content.decode('utf-8')
        return content
    except Exception as e:
        return f"Error loading file: {str(e)}"

# Create Gradio interface
with gr.Blocks(title="RAG Embedding Model Tester", theme=gr.themes.Soft()) as demo:
    gr.Markdown("# 🧪 RAG Embedding Model Tester")
    gr.Markdown("Test and compare different embedding models for RAG pipelines. Focus on relevance quality assessment.")
    
    with gr.Row():
        with gr.Column(scale=1):
            gr.Markdown("## 📄 Document Input")
            
            document_input = gr.Textbox(
                lines=15,
                placeholder="Paste your document text here (Russian or English)...",
                label="Document Text",
                max_lines=20
            )
            
            file_input = gr.File(
                file_types=[".txt", ".md"],
                label="Or Upload Text File"
            )
            
            # Load file content to text box
            file_input.change(
                fn=load_file,
                inputs=file_input,
                outputs=document_input
            )
            
            embed_btn = gr.Button("🚀 Start Embedding Process", variant="primary", size="lg")
            embed_status = gr.Textbox(label="Processing Status", lines=8)
        
        with gr.Column(scale=2):
            gr.Markdown("## ❓ Question & Comparison")
            
            question_input = gr.Textbox(
                placeholder="What question do you want to ask about the document?",
                label="Your Question",
                lines=2
            )
            
            compare_btn = gr.Button("🔍 Compare All Models", variant="secondary", size="lg")
            
            results_display = gr.Markdown(label="Comparison Results")
            
            gr.Markdown("## 📥 Download Results")
            report_download = gr.File(label="Download Test Report")
    
    # Model info
    with gr.Row():
        gr.Markdown(f"""
        ## 🤖 Models to Test:
        {', '.join([f"**{name}**" for name in EMBEDDING_MODELS.values()])}
        
        ## ⚙️ Settings:
        - **Chunk Size:** {CHUNK_SIZE} characters
        - **Chunk Overlap:** {CHUNK_OVERLAP} characters  
        - **Top Results:** {TOP_K_RESULTS} chunks per model
        - **Splitter:** RecursiveCharacterTextSplitter
        """)
    
    # Event handlers
    embed_btn.click(
        fn=process_embeddings,
        inputs=document_input,
        outputs=embed_status
    )
    
    def compare_and_download(question):
        results_text, report_content = compare_embeddings(question)
        
        # Create downloadable file
        timestamp = datetime.datetime.now().strftime("%Y%m%d_%H%M%S")
        filename = f"rag_test_{timestamp}.txt"
        
        # Save report to file-like object
        report_file = io.StringIO(report_content)
        report_file.name = filename
        
        return results_text, gr.File.update(value=report_file.getvalue(), visible=True)
    
    compare_btn.click(
        fn=compare_and_download,
        inputs=question_input,
        outputs=[results_display, report_download]
    )

if __name__ == "__main__":
    demo.launch()