Spaces:

lruizap
/

ConserGPT

Runtime error

App Files Files Community

lruizap commited on Jan 8, 2024

Commit

56ea8b1

1 Parent(s): 531b87a

Upload ConserGPT

Browse files

Files changed (7) hide show

.gitattributes +2 -35
.gitignore +3 -0
Instruccion26septiembre2023PremiosExtraordinariosMusica.pdf +0 -0
README.md +5 -12
app.py +111 -0
ingest.py +26 -0
requirements.txt +11 -0

.gitattributes CHANGED Viewed

@@ -1,35 +1,2 @@
-*.7z filter=lfs diff=lfs merge=lfs -text
-*.arrow filter=lfs diff=lfs merge=lfs -text
-*.bin filter=lfs diff=lfs merge=lfs -text
-*.bz2 filter=lfs diff=lfs merge=lfs -text
-*.ckpt filter=lfs diff=lfs merge=lfs -text
-*.ftz filter=lfs diff=lfs merge=lfs -text
-*.gz filter=lfs diff=lfs merge=lfs -text
-*.h5 filter=lfs diff=lfs merge=lfs -text
-*.joblib filter=lfs diff=lfs merge=lfs -text
-*.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.mlmodel filter=lfs diff=lfs merge=lfs -text
-*.model filter=lfs diff=lfs merge=lfs -text
-*.msgpack filter=lfs diff=lfs merge=lfs -text
-*.npy filter=lfs diff=lfs merge=lfs -text
-*.npz filter=lfs diff=lfs merge=lfs -text
-*.onnx filter=lfs diff=lfs merge=lfs -text
-*.ot filter=lfs diff=lfs merge=lfs -text
-*.parquet filter=lfs diff=lfs merge=lfs -text
-*.pb filter=lfs diff=lfs merge=lfs -text
-*.pickle filter=lfs diff=lfs merge=lfs -text
-*.pkl filter=lfs diff=lfs merge=lfs -text
-*.pt filter=lfs diff=lfs merge=lfs -text
-*.pth filter=lfs diff=lfs merge=lfs -text
-*.rar filter=lfs diff=lfs merge=lfs -text
-*.safetensors filter=lfs diff=lfs merge=lfs -text
-saved_model/**/* filter=lfs diff=lfs merge=lfs -text
-*.tar.* filter=lfs diff=lfs merge=lfs -text
-*.tar filter=lfs diff=lfs merge=lfs -text
-*.tflite filter=lfs diff=lfs merge=lfs -text
-*.tgz filter=lfs diff=lfs merge=lfs -text
-*.wasm filter=lfs diff=lfs merge=lfs -text
-*.xz filter=lfs diff=lfs merge=lfs -text
-*.zip filter=lfs diff=lfs merge=lfs -text
-*.zst filter=lfs diff=lfs merge=lfs -text
-*tfevents* filter=lfs diff=lfs merge=lfs -text


1	+ # Auto detect text files and perform LF normalization
2	+ * text=auto

.gitignore ADDED Viewed

	@@ -0,0 +1,3 @@

+stores
+ConserGPT
+zephyr-7b-alpha.Q5_K_S.gguf

Instruccion26septiembre2023PremiosExtraordinariosMusica.pdf ADDED Viewed

Binary file (143 kB). View file

README.md CHANGED Viewed

@@ -1,13 +1,6 @@
----
-title: ConserGPT
-emoji: 📈
-colorFrom: indigo
-colorTo: red
-sdk: gradio
-sdk_version: 4.13.0
-app_file: app.py
-pinned: false
-license: other
----
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

+# Zephyr-7B-beta-RAG-Demo
+Zephyr 7B beta RAG Demo inside a Gradio app powered by BGE Embeddings, ChromaDB, and Zephyr 7B Alpha.
+Download zephyr-7b-alpha.Q5_K_S.gguf in this link : https://huggingface.co/TheBloke/zephyr-7B-alpha-GGUF/tree/main
+https://view.genial.ly/65805d10850fa600146ed98b/presentation-consergpt

app.py ADDED Viewed

	@@ -0,0 +1,111 @@

+import os
+import gradio as gr
+from langchain.llms import CTransformers
+from langchain.prompts import PromptTemplate
+from langchain.vectorstores import Chroma
+from langchain.chains import RetrievalQA
+from langchain.embeddings import HuggingFaceBgeEmbeddings
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.document_loaders import PyPDFLoader
+local_llm = "zephyr-7b-alpha.Q5_K_S.gguf"
+config = {
+    'max_new_tokens': 1024,
+    'repetition_penalty': 1.1,
+    'temperature': 0.1,
+    'top_k': 50,
+    'top_p': 0.9,
+    'stream': True,
+    'threads': int(os.cpu_count() / 2)
+}
+llm = CTransformers(
+    model=local_llm,
+    model_type="mistral",
+    lib="avx2",  # for CPU use
+    **config
+)
+print("LLM Initialized...")
+prompt_template = """Utiliza la siguiente información para responder a la pregunta del usuario.
+Si no sabes la respuesta, di simplemente que no la sabes, no intentes inventarte una respuesta.
+Contexto: {context}
+Pregunta: {question}
+Devuelve sólo la respuesta útil que aparece a continuación y nada más.
+Responde siempre en castellano
+Respuesta útil:
+"""
+model_name = "BAAI/bge-large-en"
+model_kwargs = {'device': 'cpu'}
+encode_kwargs = {'normalize_embeddings': False}
+embeddings = HuggingFaceBgeEmbeddings(
+    model_name=model_name,
+    model_kwargs=model_kwargs,
+    encode_kwargs=encode_kwargs
+)
+loader = PyPDFLoader(
+    "./Instruccion26septiembre2023PremiosExtraordinariosMusica.pdf")
+documents = loader.load()
+text_splitter = RecursiveCharacterTextSplitter(
+    chunk_size=1000, chunk_overlap=100)
+texts = text_splitter.split_documents(documents)
+vector_store = Chroma.from_documents(texts, embeddings, collection_metadata={
+                                     "hnsw:space": "cosine"}, persist_directory="stores/ConserGPT")
+print("Vector Store Created.......")
+prompt = PromptTemplate(template=prompt_template,
+                        input_variables=['context', 'question'])
+load_vector_store = Chroma(
+    persist_directory="stores/ConserGPT", embedding_function=embeddings)
+retriever = load_vector_store.as_retriever(search_kwargs={"k": 1})
+print("######################################################################")
+chain_type_kwargs = {"prompt": prompt}
+sample_prompts = ["En caso de empate entre el alumnado de alguna especialidad de la enseñanza profesionales de música, ¿Qué criterios se aplicarían para dar el premio?",
+                  "¿Qué requisitos debe reunir un alumno candidato al premio extraordinario de enseñanzas profesionales de música?", "¿Cuál es la fecha de publicación en el BOE de la Orden ECD/1611/2015, del 29 de julio, del Ministerio de Educación, Cultura y Deporte?"]
+def get_response(input):
+    query = input
+    chain_type_kwargs = {"prompt": prompt}
+    qa = RetrievalQA.from_chain_type(llm=llm, chain_type="stuff", retriever=retriever,
+                                     return_source_documents=True, chain_type_kwargs=chain_type_kwargs, verbose=True)
+    response = qa(query)
+    return response["result"]
+input = gr.Text(
+    label="Prompt",
+    show_label=False,
+    max_lines=1,
+    placeholder="Enter your prompt",
+    container=False,
+)
+iface = gr.Interface(fn=get_response,
+                     inputs=input,
+                     outputs="text",
+                     title="ConserGPT",
+                     description="This is a RAG implementation based on Zephyr 7B Alpha LLM.",
+                     examples=sample_prompts,
+                     allow_flagging='never'
+                     )
+iface.launch(share=True)

ingest.py ADDED Viewed

	@@ -0,0 +1,26 @@

+import os
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.vectorstores import Chroma
+from langchain.embeddings import HuggingFaceBgeEmbeddings
+from langchain.document_loaders import PyPDFLoader
+model_name = "BAAI/bge-large-en"
+model_kwargs = {'device': 'cpu'}
+encode_kwargs = {'normalize_embeddings': False}
+embeddings = HuggingFaceBgeEmbeddings(
+    model_name=model_name,
+    model_kwargs=model_kwargs,
+    encode_kwargs=encode_kwargs
+)
+loader = PyPDFLoader(
+    "./Instruccion26septiembre2023PremiosExtraordinariosMusica.pdf")
+documents = loader.load()
+text_splitter = RecursiveCharacterTextSplitter(
+    chunk_size=1000, chunk_overlap=100)
+texts = text_splitter.split_documents(documents)
+vector_store = Chroma.from_documents(texts, embeddings, collection_metadata={
+                                     "hnsw:space": "cosine"}, persist_directory="stores/ConserGPT")
+print("Vector Store Created.......")

requirements.txt ADDED Viewed

	@@ -0,0 +1,11 @@

+chainlit
+ctransformers
+torch
+sentence_transformers
+chromadb
+langchain
+pypdf
+PyPDF2
+gradio
+transformers
+accelerate