Spaces:

rohangbs
/

Finetune

Sleeping

App Files Files Community

Finetune / app.py

rohangbs

Update app.py

4899ef1 verified about 2 months ago

raw

history blame contribute delete

11.7 kB

	import streamlit as st
	import json
	import os
	import numpy as np
	import faiss
	from sentence_transformers import SentenceTransformer
	from PyPDF2 import PdfReader
	from openai import OpenAI
	import time
	from PIL import Image

	class IntegratedChatSystem:
	def __init__(self, api_key: str):
	self.api_key = api_key
	self.client = OpenAI(api_key=api_key)
	self.embedding_model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')
	self.embedding_dim = 384
	self.index = faiss.IndexFlatIP(self.embedding_dim)
	self.metadata = []
	self.fine_tuned_model = None


	def add_image(self, image, context_text: str):
	"""Add an image and its context to the retrieval system"""
	try:
	# Generate embedding for the context text
	embedding = self.embedding_model.encode(context_text)
	embedding = np.expand_dims(embedding, axis=0)

	# Save image and add to index
	if not os.path.exists('uploaded_images'):
	os.makedirs('uploaded_images')

	# Generate unique filename
	filename = f"image_{len(self.metadata)}.jpg"
	image_path = os.path.join('uploaded_images', filename)

	# Save image
	image.save(image_path)

	# Add to FAISS index
	self.index.add(embedding)
	self.metadata.append({
	"filepath": image_path,
	"context": context_text
	})

	return True
	except Exception as e:
	st.error(f"Error adding image: {str(e)}")
	return False

	def search_relevant_images(self, query: str, similarity_threshold: float = 0.7, top_k: int = 3):
	"""Search for relevant images based on query"""
	try:
	if self.index.ntotal == 0:
	return []

	# Generate embedding for the query
	query_embedding = self.embedding_model.encode(query)
	query_embedding = np.expand_dims(query_embedding, axis=0)

	# Search in the index
	distances, indices = self.index.search(query_embedding, min(top_k, self.index.ntotal))

	# Filter results based on similarity threshold
	relevant_images = [
	self.metadata[i] for i, distance in zip(indices[0], distances[0])
	if i != -1 and distance >= similarity_threshold
	]

	return relevant_images
	except Exception as e:
	st.error(f"Error searching images: {str(e)}")
	return []

	def generate_qna_pairs(self, text: str):
	"""Generate question-answer pairs from text using OpenAI API"""
	try:
	completion = self.client.chat.completions.create(
	model="gpt-3.5-turbo",
	messages=[
	{"role": "system", "content": "Generate 11 relevant question-answer pairs from the given text. Format each pair as a complete, informative question with its corresponding detailed answer."},
	{"role": "user", "content": f"Text: {text}"}
	],
	temperature=0.7
	)

	response_text = completion.choices[0].message.content
	qa_pairs = []

	pairs = response_text.split('\n\n')
	for pair in pairs:
	if 'Q:' in pair and 'A:' in pair:
	question = pair.split('A:')[0].replace('Q:', '').strip()
	answer = pair.split('A:')[1].strip()

	qa_pairs.append({
	"messages": [
	{"role": "system", "content": "You are an assistant chatbot. You should help the user by answering their question."},
	{"role": "user", "content": question},
	{"role": "assistant", "content": answer}
	]
	})

	return qa_pairs
	except Exception as e:
	st.error(f"Error generating QA pairs: {str(e)}")
	return []

	def create_fine_tuning_job(self, training_file_id):
	try:
	response = self.client.fine_tuning.jobs.create(
	training_file=training_file_id,
	model="gpt-3.5-turbo-0125"
	)
	return response.id
	except Exception as e:
	st.error(f"Error creating fine-tuning job: {str(e)}")
	return None


	def monitor_fine_tuning_job(self, job_id):
	try:
	progress_bar = st.progress(0)
	status_text = st.empty()
	details_text = st.empty()

	stages = {
	"validating_files": "Validating training files...",
	"queued": "Job queued - waiting to start...",
	"running": "Training in progress...",
	"succeeded": "Training completed successfully!",
	"failed": "Training failed.",
	"cancelled": "Training was cancelled."
	}

	# Approximate progress percentages for each stage
	progress_mapping = {
	"validating_files": 0.1,
	"queued": 0.2,
	"running": 0.6,
	"succeeded": 1.0,
	"failed": 1.0,
	"cancelled": 1.0
	}

	last_status = None
	start_time = time.time()

	while True:
	job_status = self.client.fine_tuning.jobs.retrieve(job_id)
	current_status = job_status.status

	# Update progress bar
	progress_bar.progress(progress_mapping.get(current_status, 0))

	# Update status message
	status_message = stages.get(current_status, "Processing...")
	status_text.markdown(f"Status: {status_message}")

	# Show elapsed time and other details
	elapsed_time = int(time.time() - start_time)
	details_text.markdown(f"""
	Details:
	- Time elapsed: {elapsed_time // 60}m {elapsed_time % 60}s
	- Job ID: {job_id}
	- Current stage: {current_status}
	""")

	# Status changed notification
	if current_status != last_status:
	if current_status == "running":
	st.info("🚀 Model training has begun!")
	elif current_status == "succeeded":
	st.success("✅ Fine-tuning completed successfully!")
	self.fine_tuned_model = job_status.fine_tuned_model
	st.balloons() # Celebration effect
	# Display model details
	st.markdown(f"""
	Training Completed!
	- Model ID: `{self.fine_tuned_model}`
	- Total training time: {elapsed_time // 60}m {elapsed_time % 60}s
	- Status: Ready to use

	You can now use the chat interface to interact with your fine-tuned model!
	""")
	return True
	elif current_status in ["failed", "cancelled"]:
	st.error(f"❌ Training {current_status}. Please check the OpenAI dashboard for details.")
	return False

	last_status = current_status
	time.sleep(10)

	except Exception as e:
	st.error(f"Error monitoring fine-tuning job: {str(e)}")
	return False

	# Initialize Streamlit interface
	st.title("PDF Fine-tuning and Chat System with Image Retrieval")

	# Initialize session state
	if 'chat_system' not in st.session_state:
	api_key = ""
	st.session_state.chat_system = IntegratedChatSystem(api_key)

	# Sidebar for image upload
	with st.sidebar:
	st.header("Image Upload")
	uploaded_image = st.file_uploader("Upload Image", type=["jpg", "jpeg", "png"])
	image_context = st.text_area("Image Context Description")

	if uploaded_image and image_context and st.button("Add Image"):
	image = Image.open(uploaded_image)
	if st.session_state.chat_system.add_image(image, image_context):
	st.success("Image added successfully!")

	# Main area tabs
	tab1, tab2 = st.tabs(["Fine-tuning", "Chat"])

	with tab1:
	st.header("Upload and Fine-tune")
	uploaded_file = st.file_uploader("Upload a PDF for Fine-Tuning", type=["pdf"])

	if uploaded_file is not None:
	if st.button("Process and Fine-tune"):
	with st.spinner("Processing PDF..."):
	# Extract text from PDF
	reader = PdfReader(uploaded_file)
	text = "\n".join([page.extract_text() for page in reader.pages])

	# Show processing steps
	progress_placeholder = st.empty()

	# Step 1: Generate QA pairs
	progress_placeholder.text("Step 1/3: Generating QA pairs...")
	qa_pairs = st.session_state.chat_system.generate_qna_pairs(text)

	if qa_pairs:
	# Step 2: Save and upload training file
	progress_placeholder.text("Step 2/3: Preparing training file...")
	jsonl_file = "questions_and_answers.jsonl"
	with open(jsonl_file, 'w') as f:
	for pair in qa_pairs:
	json.dump(pair, f)
	f.write("\n")

	with open(jsonl_file, "rb") as f:
	response = st.session_state.chat_system.client.files.create(
	file=f,
	purpose="fine-tune"
	)
	training_file_id = response.id

	# Step 3: Start fine-tuning
	progress_placeholder.text("Step 3/3: Starting fine-tuning process...")
	job_id = st.session_state.chat_system.create_fine_tuning_job(training_file_id)

	if job_id:
	progress_placeholder.empty() # Clear the step indicator
	st.info(f"🎯 Fine-tuning job initiated!")
	st.session_state.chat_system.monitor_fine_tuning_job(job_id)

	with tab2:
	st.header("Chat Interface")
	if st.session_state.chat_system.fine_tuned_model:
	st.success(f"Using fine-tuned model: {st.session_state.chat_system.fine_tuned_model}")
	else:
	st.info("Using default model (fine-tuned model not available)")

	user_message = st.text_input("Enter your message:")
	if st.button("Send") and user_message:
	result = st.session_state.chat_system.chat(user_message)

	st.write("Response:", result["response"])

	if result["relevant_images"]:
	st.subheader("Relevant Images:")
	for img_data in result["relevant_images"]:
	if os.path.exists(img_data["filepath"]):
	image = Image.open(img_data["filepath"])
	st.image(image, caption=img_data["context"])