Spaces:

silk-road
/

Zero-Haruhi-50_Novels-Playground

Runtime error

App Files Files Community

silk-road commited on Feb 17, 2024

Commit

daf0ac8

verified ·

1 Parent(s): aef3deb

Upload 3 files

Browse files

Files changed (3) hide show

README.md +3 -3
app.py +308 -201
requirements.txt +19 -12

README.md CHANGED Viewed

@@ -1,10 +1,10 @@
 ---
-title: Story Teller
-emoji: 🔥
 colorFrom: green
 colorTo: blue
 sdk: gradio
-sdk_version: 3.41.2
 app_file: app.py
 pinned: false
 license: apache-2.0

 ---
+title: Zero Haruhi 50 Novels Playground
+emoji: ⚡
 colorFrom: green
 colorTo: blue
 sdk: gradio
+sdk_version: 4.19.1
 app_file: app.py
 pinned: false
 license: apache-2.0

app.py CHANGED Viewed

@@ -1,238 +1,345 @@
-import zipfile
 import gradio as gr
-from PIL import Image
-from ChatHaruhi import ChatHaruhi
-import wget
 import os
 import openai
-import copy
-import random
-import string
-NAME_DICT = {'汤师爷': 'tangshiye', '慕容复': 'murongfu', '李云龙': 'liyunlong', 'Luna': 'Luna', '王多鱼': 'wangduoyu',
-             'Ron': 'Ron', '鸠摩智': 'jiumozhi', 'Snape': 'Snape',
-             '凉宫春日': 'haruhi', 'Malfoy': 'Malfoy', '虚竹': 'xuzhu', '萧峰': 'xiaofeng', '段誉': 'duanyu',
-             'Hermione': 'Hermione', 'Dumbledore': 'Dumbledore', '王语嫣': 'wangyuyan',
-             'Harry': 'Harry', 'McGonagall': 'McGonagall', '白展堂': 'baizhantang', '佟湘玉': 'tongxiangyu',
-             '郭芙蓉': 'guofurong', '旅行者': 'wanderer', '钟离': 'zhongli',
-             '胡桃': 'hutao', 'Sheldon': 'Sheldon', 'Raj': 'Raj', 'Penny': 'Penny', '韦小宝': 'weixiaobao',
-             '乔峰': 'qiaofeng', '神里绫华': 'ayaka', '雷电将军': 'raidenShogun', '于谦': 'yuqian'}
-try:
-  os.makedirs("characters_zip")
-except:
-  pass
-try:
-  os.makedirs("characters")
-except:
-  pass
-ai_roles_obj = {}
-for ai_role_en in NAME_DICT.values():
-  file_url = f"https://github.com/LC1332/Haruhi-2-Dev/raw/main/data/character_in_zip/{ai_role_en}.zip"
-  try:
-    os.makedirs(f"characters/{ai_role_en}")
-  except:
-    pass
-  if f"{ai_role_en}.zip" not in os.listdir(f"characters_zip"):
-    destination_file = f"characters_zip/{ai_role_en}.zip"
-    wget.download(file_url, destination_file)
-    destination_folder = f"characters/{ai_role_en}"
-    with zipfile.ZipFile(destination_file, 'r') as zip_ref:
-        zip_ref.extractall(destination_folder)
-  db_folder = f"./characters/{ai_role_en}/content/{ai_role_en}"
-  system_prompt = f"./characters/{ai_role_en}/content/system_prompt.txt"
-  ai_roles_obj[ai_role_en] = ChatHaruhi(system_prompt=system_prompt,
-                        llm="openai",
-                        story_db=db_folder,
-                        verbose=True)
-    # break
-def format_chat( role, text ):
-    narrator = ['旁白', '', 'scene','Scene','narrator' , 'Narrator']
-    if role in narrator:
-        return role + ":" + text
-    else:
-        return f"{role}:「{text}」"
-def deformat_chat(chat):
-    chat = chat.strip('\'"')
-    if ':' in chat:
-        colon_index = chat.index(':')
-    elif '：' in chat:
-        colon_index = chat.index('：')
-    else:
-        return '', chat
-    role = chat[:colon_index]
-    text = chat[colon_index+1:]
-    text = text.strip('「」"\'')
-    return role, text
-def print_last_chat( chats ):
-  shorten_chat = chats[0]
-  if len(shorten_chat) > 30:
-    shorten_chat = shorten_chat[:30]
-  shorten_chat = shorten_chat.replace('/', '_')
-  shorten_chat = shorten_chat.replace('.', '_')
-  shorten_chat = shorten_chat.replace('"', '_')
-  shorten_chat = shorten_chat.replace('\n', '_')
-  final_chat = chats[-1]
-  print( final_chat , '____', shorten_chat )
-from gradio.components import clear_button
-# import gradio as gr
-import matplotlib.pyplot as plt
-import numpy as np
-Fs = 8000
-f = 5
-sample = 8000
-x = np.arange(sample)
-y = np.sin(2 * np.pi * f * x / Fs)
-plt.plot(x, y)
-def user_response(user_role, user_text, chatbot):
-    user_msg = format_chat( user_role, user_text )
-    chatbot.append((user_msg, None ))
-    reserved_chatbot = chatbot.copy()
-    return "", chatbot, reserved_chatbot
-def extract_chats( chatbot ):
-    chats = []
-    for q,a in chatbot:
-        if q is not None:
-            chats.append(q)
-        if a is not None:
-            chats.append(a)
-    return chats
-def ai_response(ai_role, chatbot):
-    role_en = NAME_DICT[ai_role]
-    # 我们需要构造history
     history = []
-    chats = extract_chats(chatbot)
-    # 解析roles和texts
-    for chat in chats:
-        role, text = deformat_chat(chat)
-        if role in NAME_DICT.keys():
-            current_en = NAME_DICT[role]
-        else:
-            current_en = role
-        if current_en == role_en:
-            history.append((None, chat))
-        else:
-            history.append((chat, None))
-    if len(history) >= 1:
-        ai_roles_obj[ role_en ].dialogue_history = history[:-1]
-        last_role, last_text = deformat_chat(chats[-1])
-        response = ai_roles_obj[ role_en ].chat(role = last_role, text = last_text)
     else:
-        ai_roles_obj[ role_en ].dialogue_history = []
-        response = ai_roles_obj[ role_en ].chat(role = 'scene', text = '')
-    # ai_msg = format_chat(ai_role, response)
-    ai_msg = response
-    chatbot.append( (None, ai_msg ) )
-    reserved_chatbot = chatbot.copy()
-    chats = extract_chats( chatbot )
-    # save_dialogue( chats )
-    print_last_chat( chats )
-    return chatbot, reserved_chatbot
-def callback_remove_one_chat(chatbot, reserved_chatbot):
-    if len(chatbot) > 1:
-        chatbot.pop()
-    return chatbot
-def callback_recover_one_chat(chatbot, reserved_chatbot):
-    if len(chatbot) < len(reserved_chatbot):
-        chatbot.append( reserved_chatbot[len(chatbot)] )
-    return chatbot
-def callback_clean():
-    return [], []
 with gr.Blocks() as demo:
-    gr.Markdown(
-        """
-        # Story Teller Demo
-        implemented by [Cheng Li](https://github.com/LC1332) and [Weishi MI](https://github.com/hhhwmws0117)
-        本项目是ChatHaruhi的子项目，原项目链接 [https://github.com/LC1332/Chat-Haruhi-Suzumiya](https://github.com/LC1332/Chat-Haruhi-Suzumiya)
-        如果觉得好玩可以去点个star
-        这个Gradio是一个初步的尝试，之后考虑做一套更正式的story-teller的算法
-        """
-    )
-    with gr.Row():
-        with gr.Column():
-            with gr.Row(height = 800):
-                # 给米唯实一个艰巨的任务，把这东西弄高一点
-                chatbot = gr.Chatbot(height = 800)
-            with gr.Row():
-                user_role = gr.Textbox(label="user_role", scale=1)
-                user_text = gr.Textbox(label="user_text", scale=20)
-            with gr.Row():
-                user_submit = gr.Button("User Submit")
-        with gr.Column():
-            with gr.Row():
-                ai_role = gr.Radio(['汤师爷', '慕容复', '李云龙',
-                     'Luna', '王多鱼', 'Ron', '鸠摩智',
-                     'Snape', '凉宫春日', 'Malfoy', '虚竹',
-                     '萧峰', '段誉', 'Hermione', 'Dumbledore',
-                     '王语嫣',
-                     'Harry', 'McGonagall',
-                     '白展堂', '佟湘玉', '郭芙蓉',
-                     '旅行者', '钟离', '胡桃',
-                     'Sheldon', 'Raj', 'Penny',
-                     '韦小宝', '乔峰', '神里绫华',
-                     '雷电将军', '于谦'], label="characters", value='凉宫春日')
-            with gr.Row():
-                ai_submit = gr.Button("AI Submit")
-            with gr.Row():
-                remove_one_chat = gr.Button("Remove One Chat")
-                recover_one_chat = gr.Button("Recover One Chat")
-            with gr.Row():
-                clean = gr.Button("Clean")
-    reserved_chatbot = gr.Chatbot(visible = False)
-    user_submit.click(fn = user_response, inputs = [user_role, user_text, chatbot], outputs = [user_text, chatbot,reserved_chatbot] )
-    ai_submit.click(fn = ai_response, inputs = [ai_role, chatbot], outputs = [chatbot,reserved_chatbot] )
-    remove_one_chat.click(fn = callback_remove_one_chat, inputs = [chatbot, reserved_chatbot], outputs = [chatbot] )
-    recover_one_chat.click(fn = callback_recover_one_chat, inputs = [chatbot, reserved_chatbot], outputs = [chatbot] )
-    clean.click(fn = callback_clean, inputs = [], outputs = [chatbot,reserved_chatbot] )
-demo.launch(debug=True)

 import gradio as gr
 import os
+import httpx
 import openai
+from openai import OpenAI
+from openai import AsyncOpenAI
+from datasets import load_dataset
+dataset = load_dataset("silk-road/50-Chinese-Novel-Characters")
+novel_list = []
+novel2roles = {}
+role2datas = {}
+from tqdm import tqdm
+for data in tqdm(dataset['train']):
+    novel = data['book']
+    role = data['role']
+    if novel not in novel_list:
+        novel_list.append(novel)
+    if novel not in novel2roles:
+        novel2roles[novel] = []
+    if role not in novel2roles[novel]:
+        novel2roles[novel].append(role)
+    role_tuple = (novel, role)
+    if role_tuple not in role2datas:
+        role2datas[role_tuple] = []
+    role2datas[role_tuple].append(data)
+from ChatHaruhi.utils import base64_to_float_array
+from tqdm import tqdm
+for novel in tqdm(novel_list):
+    for role in novel2roles[novel]:
+        for data in role2datas[(novel, role)]:
+            data["vec"] = base64_to_float_array(data["bge_zh_s15"])
+def conv2story( role, conversations ):
+    lines = [conv["value"] if conv["from"] == "human" else role + ": " + conv["value"] for conv in conversations]
+    return "\n".join(lines)
+for novel in tqdm(novel_list):
+    for role in novel2roles[novel]:
+        for data in role2datas[(novel, role)]:
+            data["story"] = conv2story( role, data["conversations"] )
+from ChatHaruhi import ChatHaruhi
+from ChatHaruhi.response_openai import get_response as get_response_openai
+from ChatHaruhi.response_zhipu import get_response as get_response_zhipu
+get_response = get_response_zhipu
+narrators = ["叙述者", "旁白","文章作者","作者","Narrator","narrator"]
+def package_persona( role_name, world_name ):
+    if role_name in narrators:
+        return package_persona_for_narrator( role_name, world_name )
+    return f"""I want you to act like {role_name} from {world_name}.
+If others‘ questions are related with the novel, please try to reuse the original lines from the novel.
+I want you to respond and answer like {role_name} using the tone, manner and vocabulary {role_name} would use."""
+def package_persona_for_narrator( role_name, world_name ):
+    return f"""I want you to act like narrator {role_name} from {world_name}.
+当角色行动之后，继续交代和推进新的剧情."""
+role_tuple2chatbot = {}
+def initialize_chatbot( novel, role ):
+    global role_tuple2chatbot
+    if (novel, role) not in role_tuple2chatbot:
+        persona = package_persona( role, novel )
+        persona += "\n{{RAG对话}}\n{{RAG对话}}\n{{RAG对话}}\n"
+        stories = [data["story"] for data in role2datas[(novel, role)] ]
+        vecs = [data["vec"] for data in role2datas[(novel, role)] ]
+        chatbot = ChatHaruhi( role_name = role, persona = persona , stories = stories, story_vecs= vecs,\
+                             llm = get_response)
+        chatbot.verbose = False
+        role_tuple2chatbot[(novel, role)] = chatbot
+from tqdm import tqdm
+for novel in tqdm(novel_list):
+    for role in novel2roles[novel]:
+        initialize_chatbot( novel, role )
+readme_text = """# 使用说明
+选择小说角色
+如果你有什么附加信息，添加到附加信息里面就可以
+比如"韩立会炫耀自己刚刚学会了Python"
+然后就可以开始聊天了
+因为这些角色还没有增加Greeting信息，所以之后再开发个随机乱聊功能
+# 开发细节
+- 采用ChatHaruhi3.0的接口进行prompting
+- 这里的数据是用一个7B的tuned qwen模型进行抽取的
+- 想看数据可以去看第三个tab
+- 抽取模型用了40k左右的GLM蒸馏数据
+- 抽取模型是腾讯大哥BPSK训练的
+# 总结人物性格
+第三个Tab里面，可以显示一个prompt总结人物的性格
+复制到openai或者GLM或者Claude进行人物总结
+# 这些小说数据从HaruhiZero 0.4模型开始，被加入训练
+openai太慢了 今天试试GLM的
+不过当前demo是openai的
+"""
+from transformers import AutoTokenizer, AutoModel, AutoModelForCausalLM
+tokenizer = AutoTokenizer.from_pretrained("silk-road/Haruhi-Zero-1_8B", trust_remote_code=True)
+model = AutoModelForCausalLM.from_pretrained("silk-road/Haruhi-Zero-1_8B", device_map="auto", trust_remote_code=True)
+model = model.eval()
+def get_response_qwen18(message):
+    from ChatHaruhi.utils import normalize2uaua
+    message_ua = normalize2uaua(message, if_replace_system = True)
+    import json
+    message_tuples = []
+    for i in range(0, len(message_ua)-1, 2):
+        message_tuple = (message_ua[i]["content"], message_ua[i+1]["content"])
+        message_tuples.append(message_tuple)
+    response, _ = model.chat(tokenizer, message_ua[-1]["content"], history=message_tuples)
+    return response
+from ChatHaruhi.response_openai import get_response, async_get_response
+import gradio as gr
+def get_role_list( novel ):
+    new_list = novel2roles[novel]
+    new_value = new_list[0]
+    return gr.update(choices = new_list, value = new_value)
+save_log = "/content/output.txt"
+def get_chatbot( novel, role ):
+    if (novel, role) not in role_tuple2chatbot:
+        initialize_chatbot( novel, role )
+    return role_tuple2chatbot[(novel, role)]
+import json
+def random_chat_callback( novel, role, chat_history):
+    datas = role2datas[(novel, role)]
+    reesponse_set = set()
+    for chat_tuple in chat_history:
+        if chat_tuple[1] is not None:
+            reesponse_set.add(chat_tuple[1])
+    for _ in range(5):
+        random_data = random.choice(datas)
+        convs = random_data["conversations"]
+        n = len(convs)
+        index = [x for x in range(0,n,2)]
+        for i in index:
+            query = convs[i]['value']
+            response = convs[i+1]['value']
+            if response not in reesponse_set:
+                chat_history.append( (query, response) )
+                return chat_history
+    return chat_history
+async def submit_chat( novel, role, user_name, user_text, chat_history, persona_addition_info,model_sel):
+    if len(user_text) > 400:
+        user_text = user_text[:400]
+    if_user_in_text = True
+    chatbot = get_chatbot( novel, role )
+    chatbot.persona = initialize_persona( novel, role,  persona_addition_info)
+    # chatbot.llm_async = async_get_response
+    if model_sel == "openai":
+        chatbot.llm = get_response_openai
+    elif model_sel == "Zhipu":
+        chatbot.llm = get_response_zhipu
+    else:
+        chatbot.llm = get_response_qwen18
     history = []
+    for chat_tuple in chat_history:
+        if chat_tuple[0] is not None:
+            history.append( {"speaker":"{{user}}","content":chat_tuple[0]} )
+        if chat_tuple[1] is not None:
+            history.append( {"speaker":"{{role}}","content":chat_tuple[1]} )
+    chatbot.history = history
+    input_text = user_text
+    if if_user_in_text:
+        input_text = user_name + " : " + user_text
+        response = chatbot.chat(user = "", text = input_text )
+        # response = await chatbot.async_chat(user = "", text = input_text )
     else:
+        response = chatbot.chat(user = user_name, text = input_text)
+        # response = await chatbot.async_chat(user = user_name, text = input_text)
+    chat_history.append( (input_text, response) )
+    print_data = {"novel":novel, "role":role, "user_text":input_text, "response":response}
+    print(json.dumps(print_data, ensure_ascii=False))
+    with open(save_log, "a",encoding = "utf-8") as f:
+        f.write(json.dumps(print_data, ensure_ascii=False) + "\n")
+    return chat_history
+def initialize_persona( novel, role,  persona_addition_info):
+    whole_persona = package_persona( role, novel )
+    whole_persona += "\n" + persona_addition_info
+    whole_persona += "\n{{RAG对话}}\n{{RAG对话}}\n{{RAG对话}}\n"
+    return whole_persona
+def clean_history( ):
+    return []
+def clean_input():
+    return ""
+import random
+def generate_summarize_prompt( novel, role_name ):
+    whole_prompt = f'''
+你在分析小说{novel}中的角色{role_name}
+结合小说{novel}中的内容，以及下文中角色{role_name}的对话
+判断{role_name}的人物设定、人物特点以及语言风格
+{role_name}的对话:
+'''
+    stories = [data["story"] for data in role2datas[(novel, role_name)] ]
+    sample_n = 5
+    sample_stories = random.sample(stories, sample_n)
+    for story in sample_stories:
+        whole_prompt += story + "\n\n"
+    return whole_prompt.strip()
 with gr.Blocks() as demo:
+    gr.Markdown("""# 50本小说的人物测试
+    这个interface由李鲁鲁实现，主要是用来看语料的
+    增加了随机聊天，支持GLM，openai切换
+    米唯实接入了qwen1.8B并布置于huggingface上""")
+    with gr.Tab("聊天"):
+        with gr.Row():
+            novel_sel = gr.Dropdown( novel_list, label = "小说", value = "悟空传" , interactive = True)
+            role_sel = gr.Dropdown( novel2roles[novel_sel.value], label = "角色", value = "孙悟空", interactive = True )
+        with gr.Row():
+            chat_history = gr.Chatbot(height = 600)
+        with gr.Row():
+            user_name = gr.Textbox(label="user_name", scale = 1, value = "鲁鲁", interactive = True)
+            user_text = gr.Textbox(label="user_text", scale = 20)
+            submit = gr.Button("submit", scale = 1)
+        with gr.Row():
+            random_chat = gr.Button("随机聊天", scale = 1)
+            clean_message = gr.Button("清空聊天", scale = 1)
+        with gr.Row():
+            persona_addition_info = gr.TextArea( label = "额外人物设定", value = "",  interactive = True  )
+        with gr.Row():
+            update_persona = gr.Button("补充人物设定到prompt", scale = 1)
+            model_sel = gr.Radio(["Zhipu","openai","qwen1.8B"], interactive = True, scale = 5, value = "qwen1.8B", label = "模型选择")
+        with gr.Row():
+            whole_persona = gr.TextArea( label = "完整的system prompt", value = "",  interactive = False  )
+        novel_sel.change(fn = get_role_list, inputs = [novel_sel], outputs = [role_sel]).then(fn = initialize_persona, inputs = [novel_sel, role_sel, persona_addition_info], outputs = [whole_persona])
+        role_sel.change(fn = initialize_persona, inputs = [novel_sel, role_sel, persona_addition_info], outputs = [whole_persona])
+        update_persona.click(fn = initialize_persona, inputs = [novel_sel, role_sel, persona_addition_info], outputs = [whole_persona])
+        random_chat.click(fn = random_chat_callback, inputs = [novel_sel, role_sel, chat_history], outputs = [chat_history])
+        user_text.submit(fn = submit_chat, inputs = [novel_sel, role_sel, user_name, user_text, chat_history, persona_addition_info,model_sel], outputs = [chat_history]).then(fn = clean_input, inputs = [], outputs = [user_text])
+        submit.click(fn = submit_chat, inputs = [novel_sel, role_sel, user_name, user_text, chat_history, persona_addition_info,model_sel], outputs = [chat_history]).then(fn = clean_input, inputs = [], outputs = [user_text])
+        clean_message.click(fn = clean_history, inputs = [], outputs = [chat_history])
+    with gr.Tab("README"):
+        gr.Markdown(readme_text)
+    with gr.Tab("辅助人物总结"):
+        with gr.Row():
+            generate_prompt = gr.Button("生成人物总结prompt", scale = 1)
+        with gr.Row():
+            whole_prompt = gr.TextArea( label = "复制这个prompt到Openai或者GLM或者Claude进行总结", value = "",  interactive = False  )
+        generate_prompt.click(fn = generate_summarize_prompt, inputs = [novel_sel, role_sel], outputs = [whole_prompt])
+demo.launch(share=True, debug = True)

requirements.txt CHANGED Viewed

@@ -1,12 +1,19 @@
-gradio==3.41.1
-gradio_client==0.5.0
-Pillow==10.0.0
-chatharuhi
-wget==3.2
-openai==0.27.8
-chromadb==0.4.7
-langchain==0.0.271
-transformers==4.32.0
-torch==2.0
-tiktoken==0.4.0
-zhipuai

+datasets
+tiktoken
+tqdm
+openai
+zhipuai
+gradio
+wget
+scipy
+transformers
+accelerate
+peft
+bitsandbytes
+sentencepiece
+einops
+transformers_stream_generator==0.0.4
+deepspeed
+auto-gptq
+optimum