Spaces:

papasega
/

chatpdf_ollama_llama3

Runtime error

App Files Files Community

papasega commited on May 23, 2024

Commit

cf3dd65

1 Parent(s): 70a2855

add files

Browse files

Files changed (7) hide show

app_gradio.py +71 -0
basesrc/__pycache__/strategies.cpython-310.pyc +0 -0
basesrc/strategies.py +64 -0
chatpdf.py +178 -0
main.py +76 -0
prompt_query.py +53 -0
requirements.txt +7 -0

app_gradio.py ADDED Viewed

	@@ -0,0 +1,71 @@

+import gradio as gr
+import tiktoken
+import os
+import numpy as np
+import requests
+from dotenv import load_dotenv
+from sentence_transformers import SentenceTransformer
+from langchain_community.chat_models import ChatOllama
+from basesrc.strategies import convert_pdf_to_text, split_pages_into_chunks,  vectorize
+from prompt_query import generate_prompt
+load_dotenv()
+CACHE_FOLDER = os.environ["CACHE_FOLDER"]
+CACHE_FOLDER = "./cache"  # si toutefois (¨_^)
+def create_interface(pdf_url, embedding_model, llm_model, top_k=5):
+    os.makedirs(CACHE_FOLDER, exist_ok=True)
+    response = requests.get(pdf_url)
+    pdf_filename  = pdf_url.split('/')[-1]
+    pdf_path = os.path.join(CACHE_FOLDER, 'document.pdf')
+    with open(pdf_path, 'wb') as f:
+        f.write(response.content)
+    pages = convert_pdf_to_text(pdf_path)
+    print(
+    """
+    Je suis Llama3, de l'équipe DREAMS TEAM, votre assistant QA pour répondre à vos questions liés aux documents 🙂 !
+    Déjà pour info, le nombre de pages de vote document est: """, len(pages)
+        )
+    tokenizer = tiktoken.get_encoding("cl100k_base")
+    chunks = split_pages_into_chunks(pages, 128, tokenizer)
+    embedding_model = SentenceTransformer(embedding_model)
+    knowledge_base = vectorize(chunks, embedding_model)
+    chunks, embeddings = list(zip(*knowledge_base))
+    corpus_embeddings = np.vstack(embeddings)
+    llm_model = ChatOllama(model=llm_model)
+    def chat_interface(question):
+        return generate_prompt(question, chunks, corpus_embeddings, embedding_model, llm_model, top_k)
+    examples = [
+        ["Quel est ton rôle ? "],
+        ["Que nous parle ce document ?"],
+        ["Fais-moi un résumé des éléments essentiels de ce document"],
+        ["Comment puis-je présenter ce document dans une réunion d'équipe de professionnels ?"]
+    ]
+    iface = gr.Interface(
+        fn=chat_interface,
+        inputs=gr.Textbox(lines=3, label="✨Posez votre question en français 😎", placeholder="Posez une question..."),
+        outputs=gr.Textbox(label="Réponse"),
+        title=f"Assistant de chat sur le document | {os.path.basename(pdf_filename)} | by PSW",
+        description="Posez votre question en français et obtenez une réponse basée sur le contexte du document.",
+        examples=examples
+    )
+    iface.launch(share=True)
+if __name__ == "__main__":
+    create_interface(
+        "https://hellofuture.orange.com/app/uploads/2024/05/2024-Orange-white-paper-on-Mobile-Network-Technology-Evolutions-Beyond-2030.pdf",
+        "Sahajtomar/french_semantic",
+        "llama3"
+    )
+""" RUN
+python app_gradio.py
+"""

basesrc/__pycache__/strategies.cpython-310.pyc ADDED Viewed

Binary file (2.17 kB). View file

basesrc/strategies.py ADDED Viewed

	@@ -0,0 +1,64 @@

+import fitz  # PyMuPDF
+import numpy as np
+import itertools as it
+import operator as op
+from typing import List, Tuple
+from sentence_transformers import SentenceTransformer
+"""
+Sur la partie strategies.py nous allons :
+    1. convertir notre pdf en texte
+    2. diviser le texte en plusieur paragraphes (chunks dans le code)
+    3. transformer le texte en vecteur (embeddings)
+    4. Aller chercher le bon candicat (trouver la réponse pertinente de l'utilisateur dans le pdf)
+"""
+def convert_pdf_to_text(pdf_data: str) -> List[str]:
+    document = fitz.open(pdf_data)
+    accumulator: List[str] = []
+    for page_num in range(len(document)):
+        page = document[page_num]
+        text = page.get_text()
+        accumulator.append(text)
+    document.close()
+    return accumulator
+def split_pages_into_chunks(pages: List[str], chunk_size: int, tokenizer) -> List[str]:
+    page_tokens: List[List[int]] = [tokenizer.encode(page) for page in pages]
+    document_tokens = list(it.chain(*page_tokens))
+    nb_tokens = len(document_tokens)
+    nb_partitions = round(nb_tokens / chunk_size)
+    accumulator: List[str] = []
+    for chunck_tokens in np.array_split(document_tokens, nb_partitions):
+        paragraph = tokenizer.decode(chunck_tokens)
+        accumulator.append(paragraph)
+    return accumulator
+def vectorize(chunks: List[str], transformer: SentenceTransformer, device: str = 'cpu') -> List[Tuple[str, np.ndarray]]:
+    embeddings = transformer.encode(
+        sentences=chunks,
+        batch_size=32,
+        device=device
+        ,show_progress_bar=True,
+    )
+    return list(zip(chunks, embeddings))
+def find_candidates(query_embedding: np.ndarray, chunks: List[str], corpus_embeddings: np.ndarray, top_k: int = 5) -> List[str]:
+    dot_product = query_embedding @ corpus_embeddings.T
+    norms = np.linalg.norm(query_embedding) * np.linalg.norm(corpus_embeddings, axis=1)
+    weighted_scores = dot_product / norms  # Formule de cosine similarity cos(u,v) =  u.v / |u||v|
+    zipped_chunks_scores = list(zip(chunks, weighted_scores))
+    sorted_chunks_scores = sorted(zipped_chunks_scores, key=op.itemgetter(1), reverse=True)
+    selected_candidates = sorted_chunks_scores[:top_k]
+    return list(map(op.itemgetter(0), selected_candidates))

chatpdf.py ADDED Viewed

	@@ -0,0 +1,178 @@

+import os
+import click
+import fitz  # PyMuPDF
+import numpy as np
+import itertools as it
+import operator as op
+import requests
+import tiktoken
+from typing import List, Tuple
+from dotenv import load_dotenv
+from sentence_transformers import SentenceTransformer
+from langchain_community.chat_models import ChatOllama
+from langchain_core.output_parsers import StrOutputParser
+from langchain_core.prompts import ChatPromptTemplate
+load_dotenv()
+protocol_buffers_python_implementation = os.environ["PROTOCOL_BUFFERS_PYTHON_IMPLEMENTATION"]
+CACHE_FOLDER = os.environ["CACHE_FOLDER"]
+CACHE_FOLDER = "./cache"  # Chemin du dossier cache
+# Fonctions existantes pour convertir les PDFs et diviser les pages en chunks
+def convert_pdf_to_text(pdf_data: str) -> List[str]:
+    document = fitz.open(pdf_data)
+    accumulator: List[str] = []
+    for page_num in range(len(document)):
+        page = document[page_num]
+        text = page.get_text()
+        accumulator.append(text)
+    document.close()
+    return accumulator
+def split_pages_into_chunks(pages: List[str], chunk_size: int, tokenizer) -> List[str]:
+    page_tokens: List[List[int]] = [tokenizer.encode(page) for page in pages]
+    document_tokens = list(it.chain(*page_tokens))
+    nb_tokens = len(document_tokens)
+    nb_partitions = round(nb_tokens / chunk_size)
+    accumulator: List[str] = []
+    for chunck_tokens in np.array_split(document_tokens, nb_partitions):
+        paragraph = tokenizer.decode(chunck_tokens)
+        accumulator.append(paragraph)
+    return accumulator
+def vectorize(chunks: List[str], transformer: SentenceTransformer, device: str = 'cpu') -> List[Tuple[str, np.ndarray]]:
+    embeddings = transformer.encode(
+        sentences=chunks,
+        batch_size=32,
+        device=device
+        ,show_progress_bar=True,
+    )
+    return list(zip(chunks, embeddings))
+def find_candidates(query_embedding: np.ndarray, chunks: List[str], corpus_embeddings: np.ndarray, top_k: int = 5) -> List[str]:
+    dot_product = query_embedding @ corpus_embeddings.T
+    norms = np.linalg.norm(query_embedding) * np.linalg.norm(corpus_embeddings, axis=1)
+    weighted_scores = dot_product / norms  # cosine similarity
+    zipped_chunks_scores = list(zip(chunks, weighted_scores))
+    sorted_chunks_scores = sorted(zipped_chunks_scores, key=op.itemgetter(1), reverse=True)
+    selected_candidates = sorted_chunks_scores[:top_k]
+    return list(map(op.itemgetter(0), selected_candidates))
+def generate_prompt(question, chunks, corpus_embeddings, embedding_model, llm_model, top_k, document_type: str = "ce pdf"):
+    query_embedding = embedding_model.encode([question])[0]
+    candidates = find_candidates(query_embedding=query_embedding,
+                                 chunks=chunks,
+                                 corpus_embeddings=corpus_embeddings,
+                                 top_k=top_k)
+    context = "\n".join(candidates)
+    prompt = f"""
+     ROLE: Tu es un assistant QA. Tu as été crée par Papa Séga de Orange INNVO.
+           Ton rôle est d'aider les utilisateurs à trouver la bonne réponse.
+     FONCTIONNEMENT:
+            Voici un ensemble de documents dans {document_type}: {context}.
+            Tu dois analyser ces documents pour répondre à la question de l'utilisateur.
+            Tu dois répondre aux utilisateurs uniquement en français.
+            Tu ne dois pas répondre en anglais.
+            Vérifie bien que la question est en rapport avec ces documents :
+                -SI OUI ALORS :
+                    - construit une réponse.
+                    - tu peux reformuler la réponse
+                - SI NON ALORS:
+                    - Si la question est en rapport avec ton fonctionnement alors:
+                         - rappelle-lui que tu es juste un modèle de QA et ne réponds pas à la question.
+                    Si Non Alors:
+                            - il ne faut jamais répondre à cette question qui a été posée par l'utilisateur !
+        RAPPEL :
+            Ton objectif est d'aider l'utilisateur à trouver les réponses pertinentes sur ces questions !
+    Question de l'utilisateur : {question}
+    SI la question posée est hors contexte,
+      - ALORS informe l'utilisateur que la question est hors contexte et que tu ne pourras lui donner une réponse.
+    Attention
+      - Tu dois être courtois avec les utilisateurs
+      - Tu n'as pas le droit de faire des hallucinations.
+    Réponds à la question en te basant UNIQUEMENT sur le contexte suivant :\n{context}\nQuestion : {question}
+    """
+    chain_prompt = ChatPromptTemplate.from_template(prompt)
+    chain = chain_prompt | llm_model | StrOutputParser()
+    response = chain.invoke({"topic": question})
+    return response
+@click.command()
+@click.option('--pdf_url', required=True, help='URL du fichier PDF à télécharger')
+@click.option('--pdf_path', default='document.pdf', help='Chemin local pour enregistrer le fichier PDF téléchargé')
+@click.option('--embedding_model', required=True, help="Modèle d'embedding à utiliser")
+@click.option('--llm_model', required=True, help='Modèle LLM à utiliser')
+@click.option('--top_k', type=int, default=5, help='Nombre de candidats pour la recherche de similarité')
+def main(pdf_url, pdf_path, embedding_model, llm_model, top_k):
+    os.makedirs(CACHE_FOLDER, exist_ok=True)
+    response = requests.get(pdf_url)
+    with open(pdf_path, 'wb') as f:
+        f.write(response.content)
+    pages = convert_pdf_to_text(pdf_path)
+    print(
+    """
+    Je suis Llama3, de l'équipe DREAMS TEAM, votre assistant QA pour répondre à vos questions liés aux documents 🙂 !
+    Déjà pour info, le nombre de pages de vote document est: """, len(pages)
+        )
+    tokenizer = tiktoken.get_encoding("cl100k_base")
+    chunks = split_pages_into_chunks(pages, 128, tokenizer)
+    embedding_model = SentenceTransformer(embedding_model)
+    knowledge_base = vectorize(chunks, embedding_model)
+    chunks, embeddings = list(zip(*knowledge_base))
+    corpus_embeddings = np.vstack(embeddings)
+    llm_model = ChatOllama(model=llm_model)
+    print('📑 Voici le contenu de la première page du document 😎:\n', pages[0])
+    keep_looping = True
+    while keep_looping:
+        try:
+            question = input("Entrez votre question ✍️  |   (ou tapez 'exit' pour quitter) ✨: ")
+            if question.lower() == 'exit':
+                break
+            response = generate_prompt(question, chunks, corpus_embeddings, embedding_model, llm_model, top_k)
+            print(response)
+        except KeyboardInterrupt:
+           print("\nFin de la session de chat 👋.")
+           keep_looping = False
+if __name__ == "__main__":
+    main()
+"""
+export CACHE_FOLDER="./cache"  #"/home/pswia/veileAI/volume_models_cache"
+python chatpdf.py --pdf_url "https://diomayepresident.org/wp-content/uploads/2024/03/Programme-Diomaye-President.pdf" --embedding_model "Sahajtomar/french_semantic" --llm_model "llama3"
+python chatpdf.py --pdf_url "https://arxiv.org/pdf/2302.09928" --embedding_model "Sahajtomar/french_semantic" --llm_model "llama3"
+python chatpdf.py --pdf_url "https://hellofuture.orange.com/app/uploads/2024/05/2024-Orange-white-paper-on-Mobile-Network-Technology-Evolutions-Beyond-2030.pdf" --embedding_model "Sahajtomar/french_semantic" --llm_model "llama3" --top_k 5
+"""

main.py ADDED Viewed

	@@ -0,0 +1,76 @@

+import click
+import numpy as np
+import os
+import tiktoken
+from typing import List, Tuple
+import requests
+from dotenv import load_dotenv
+from sentence_transformers import SentenceTransformer
+from langchain_community.chat_models import ChatOllama
+from basesrc.strategies import convert_pdf_to_text, split_pages_into_chunks,  vectorize
+from prompt_query import generate_prompt
+load_dotenv()
+CACHE_FOLDER = os.environ["CACHE_FOLDER"]
+CACHE_FOLDER = "./cache"  # si toutefois (¨_^)
+@click.command()
+@click.option('--pdf_url', required=True, help='URL du fichier PDF à télécharger')
+@click.option('--pdf_path', default='document.pdf', help='Chemin local pour enregistrer le fichier PDF téléchargé')
+@click.option('--embedding_model', required=True, help="Modèle d'embedding à utiliser")
+@click.option('--llm_model', required=True, help='Modèle LLM à utiliser')
+@click.option('--top_k', type=int, default=5, help='Nombre de candidats pour la recherche de similarité')
+def main(pdf_url:str, pdf_path:str, embedding_model:str, llm_model:str, top_k:int):
+    os.makedirs(CACHE_FOLDER, exist_ok=True)
+    response = requests.get(pdf_url)
+    with open(pdf_path, 'wb') as f:
+        f.write(response.content)
+    pages = convert_pdf_to_text(pdf_path)
+    print(
+    """
+    Je suis Llama3, de l'équipe DREAMS TEAM, votre assistant QA pour répondre à vos questions liés aux documents 🙂 !
+    Déjà pour info, le nombre de pages de vote document est: """, len(pages)
+        )
+    tokenizer = tiktoken.get_encoding("cl100k_base")
+    chunks = split_pages_into_chunks(pages, 128, tokenizer)
+    embedding_model = SentenceTransformer(embedding_model)
+    knowledge_base = vectorize(chunks, embedding_model)
+    chunks, embeddings = list(zip(*knowledge_base))
+    corpus_embeddings = np.vstack(embeddings)
+    llm_model = ChatOllama(model=llm_model)
+    print('📑 Voici le contenu de la première page du document 😎:\n', pages[0])
+    keep_looping = True
+    while keep_looping:
+        try:
+            question = input("Entrez votre question ✍️  |   (ou tapez 'exit' pour quitter) ✨: ")
+            if question.lower() == 'exit':
+                break
+            response = generate_prompt(question, chunks, corpus_embeddings, embedding_model, llm_model, top_k)
+            colored_response = f"Llama3 : {response}"  # la réponse de Llama
+            print(colored_response)
+        except KeyboardInterrupt:
+           print("\nFin de la session de chat 👋.")
+           keep_looping = False
+if __name__ == "__main__":
+    main()
+"""
+export CACHE_FOLDER="./cache"
+export PROTOCOL_BUFFERS_PYTHON_IMPLEMENTATION=python3
+python main.py --pdf_url "https://hellofuture.orange.com/app/uploads/2024/05/2024-Orange-white-paper-on-Mobile-Network-Technology-Evolutions-Beyond-2030.pdf" --embedding_model "Sahajtomar/french_semantic" --llm_model "llama3" --top_k 5
+"""

prompt_query.py ADDED Viewed

	@@ -0,0 +1,53 @@

+import tiktoken
+import numpy as np
+from langchain_core.prompts import ChatPromptTemplate
+from langchain_core.output_parsers import StrOutputParser
+from basesrc.strategies import find_candidates
+def generate_prompt(question, chunks, corpus_embeddings, embedding_model, llm_model, top_k):
+    query_embedding = embedding_model.encode([question])[0]
+    candidates = find_candidates(query_embedding=query_embedding,
+                                 chunks=chunks,
+                                 corpus_embeddings=corpus_embeddings,
+                                 top_k=top_k)
+    context = "\n".join(candidates)
+    prompt = f"""
+     ROLE: Tu es un assistant QA. Tu as été crée par Papa Séga de Orange INNVO.
+           Ton rôle est d'aider les utilisateurs à trouver la bonne réponse.
+     FONCTIONNEMENT:
+            Voici un ensemble de documents dans : {context}.
+            Tu dois analyser ces documents pour répondre à la question de l'utilisateur.
+            Tu dois répondre aux utilisateurs uniquement en français.
+            Tu ne dois pas répondre en anglais.
+            Vérifie bien que la question est en rapport avec ces documents :
+                -SI OUI ALORS :
+                    - construit une réponse.
+                    - tu peux reformuler la réponse
+                - SI NON ALORS:
+                    - Si la question est en rapport avec ton fonctionnement alors:
+                         - rappelle-lui que tu es juste un modèle de QA et ne réponds pas à la question.
+                    Si Non Alors:
+                            - il ne faut jamais répondre à cette question qui a été posée par l'utilisateur !
+        RAPPEL :
+            Ton objectif est d'aider l'utilisateur à trouver les réponses pertinentes sur ces questions !
+    Question de l'utilisateur : {question}
+    SI la question posée est hors contexte,
+      - ALORS informe l'utilisateur que la question est hors contexte et que tu ne pourras lui donner une réponse.
+    Attention
+      - Tu dois être courtois avec les utilisateurs
+      - Tu n'as pas le droit de faire des hallucinations.
+    Réponds à la question en te basant UNIQUEMENT sur le contexte suivant :\n{context}\nQuestion : {question}
+    """
+    chain_prompt = ChatPromptTemplate.from_template(prompt)
+    chain = chain_prompt | llm_model | StrOutputParser()
+    response = chain.invoke({"topic": question})
+    return response

requirements.txt ADDED Viewed

	@@ -0,0 +1,7 @@

+ PyMuPDF
+ tiktoken
+ sentencepiece
+ sentence-transformers
+ click
+ langchain_community
+ langchain_core