aipgpt/Txt-Polisher-R · Hugging Face

Purpose

Helps you rewrite your voice-over script in the style of a popular Douyin (TikTok) creator. Simply put, 说人话！
Currently, three distinct Douyin creator styles are used as references:
"多多喂" – Known for exaggerated humor, high energy, and a down-to-earth, relatable tone.
"Eyeopener" – A humorous science communicator with a lighthearted, vivid, and easy-to-understand approach.
"严伯钧" – Another science-focused creator, but with a more straightforward and calm delivery."

Train

It's a reasoning model. Train Qwen/Qwen2.5-14B-Instruct by USLOTH's GRPO with dataset(https://huggingface.co/datasets/aipgpt/douyin_style_v2)

Deploy

vllm serve --served-model-name --dtype auto --kv-cache-dtype auto --gpu_memory_utilization 0.95 --host 0.0.0.0 --port 7000 --max_model_len 30000

Test

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "aipgpt/Txt-Polisher-Douyin-Style-R"

# load the tokenizer and the model
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

# prepare the model input
user_prompt = "你是抖音博主'多多喂', 请把所给的文稿改写成'多多喂'风格的抖音口播稿文案，并用中文输出。你的文案从不用表情符号，也不包含拍摄指导脚本。\n\n20个智慧机器模型支撑(如百度文心和清华智谱)，还有120个小机器模型为其分解工作难度(如办公PPT和方案、机关总结和机关公文、互联网短视频和小红薯文案等)。\n\n看它的短视频文案，不仅有直播脚本，还有对抖音运营的策划建议，既有文案建议，又有运营建议。\n\n以对话方式解决，即输入简洁的需求，可得到靠谱的文案答复。如输入短视频需求，具体需求关键点可以包括：短视频标题，与旅行相关，民宿和野炊一日游，安全、景美，成为一种周末游趋势。需求越细化，能得到的内容越趋向于目标需求。\n\n短视频功能强大，既包括了一般的通篇脚本撰写功能，还包括了开头5秒、赢流量，以及精品脚本打造、做精品。打包了短视频文案撰写常遇到的一些难点问题，最后还能链接到主推商品，主要可借助对话鸭的“视频脚本专家”功能来完成。"
system_prompt = """
请使用中文按以下格式回答问题:
<think>
...
</think>

...
"""
messages = [
    {"role": "system", "content": system_prompt},
    {"role": "user", "content": user_prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True # Switches between thinking and non-thinking modes. Default is True.
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# conduct text completion
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist() 

# parsing thinking content
try:
    # rindex finding 151668 (</think>)
    index = len(output_ids) - output_ids[::-1].index(151668)
except ValueError:
    index = 0

thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n")
content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n")

print("thinking content:", thinking_content)
print("content:", content)

Effect

Original	Polished
20个智慧机器模型支撑(如百度文心和清华智谱)，还有120个小机器模型为其分解工作难度(如办公PPT和方案、机关总结和机关公文、互联网短视频和小红薯文案等)。看它的短视频文案，不仅有直播脚本，还有对抖音运营的策划建议，既有文案建议，又有运营建议。以对话方式解决，即输入简洁的需求，可得到靠谱的文案答复。如输入短视频需求，具体需求关键点可以包括：短视频标题，与旅行相关，民宿和野炊一日游，安全、景美，成为一种周末游趋势。需求越细化，能得到的内容越趋向于目标需求。短视频功能强大，既包括了一般的通篇脚本撰写功能，还包括了开头5秒、赢流量，以及精品脚本打造、做精品。打包了短视频文案撰写常遇到的一些难点问题，最后还能链接到主推商品，主要可借助对话鸭的“视频脚本专家”功能来完成。	`<think>` 作为抖音博主多多喂，我会更倾向于用轻松幽默的语言来表达，让内容更加贴近我的粉丝群体。我会尽量避免过于正式或专业的术语，而是采用一些流行语和网络用语，使文章看起来更加亲切和接地气。 `</think>` 20个聪明伶俐的小机器人（比如百度文心和清华智谱），再加上120个小机器人帮忙分担任务（比如办公PPT、方案、机关总结、机关公文、互联网短视频和小红书文案等等）。是它在短视频文案上的表现就让人惊艳，不仅有直播脚本，还有抖音运营的妙招，既有文案的建议，也有运营的指导。简单描述你的需求，就能得到满意的答案。比如你想要一个关于旅行的短视频，你可以这样描述：“标题要吸引人，跟旅行有关，民宿和野炊一日游，安全又风景优美，适合周末出游。”需求越详细，得到的结果就越符合你的期待。短视频功能超级强大，不仅能帮你写出完整的脚本，还能帮你搞定开头5秒的吸睛技巧，甚至能帮你打造精品脚本。对于短视频文案写作中常见的难题，它都能一一解决，最后还能帮你链接到你要推广的商品。这些都可以通过对话鸭的“视频脚本专家”功能实现。
人工智能（artifical intelligence, AI）是让机器完成那些让人来做则需要智能的科学。要了解人工智能是什么，首先需要知道智能是什么。那什么是智能呢？是 IQ？是记忆力？还是计算能力？在这些方面，计算机都已经远超过了一般意义上的人类，但是我们并不认为这些计算机具有智能。事实上，我们能够列举出若干的行为或表现是智能的，例如可以通过视觉和声音对外界环境进行感知、能语言沟通、能够独立进行决策等等，但是无法直接定义什么是智能。这么说来，人工智能研究了几十年，结果连最基础的智能是什么都搞不清楚？如果非要定义出“智能”是什么，我们将会陷入哲学的纠缠中。没关系，我们可以绕开这个问题，比如规定一个测试，这是一个可操作的标准，通过这个测试就认为具有了智能。比如说，我们难以直接定义什么是具有驾驶能力，但是我们可以定义一个驾照考试，通过考试就认为具备驾驶能力。图灵（Turing）测试有助于躲避试图定义“智能”的哲学泥沼。在介绍图灵测试之前，请允许我怀着激动的心情介绍计算机科学领域最重要的人物——图灵。	`<think>` 严伯钧的风格偏向于科普与幽默相结合，同时会尽量简化复杂的概念，使观众易于理解。因此，在改写这段文字时，我会尝试加入一些轻松的元素，并且保持内容的严谨性。 `</think>` 人工智能（AI），简单来说，就是让机器像人一样聪明地做事。那么，到底什么是聪明呢？智商？记忆力？还是计算能力？计算机在这几方面已经远远超过了人类，但我们仍然不认为它们聪明。其实，我们可以举出很多例子来说明哪些行为算是聪明的表现，比如感知外界环境的能力、语言交流能力以及独立做决定的能力等等。然而，当我们试图直接定义什么是聪明的时候，却总是说不清楚。如果硬要定义“聪明”，我们可能会掉进哲学的陷阱里。不过，我们可以绕过这个问题，比如设立一个测试，只要通过了测试，我们就认为它聪明。就像我们很难直接定义一个人会不会开车，但可以通过驾照考试来判断。图灵测试就是这样一种巧妙的方法，帮助我们避开定义“聪明”的哲学困境。在介绍图灵测试之前，让我先兴奋地介绍一下计算机科学领域的超级巨星——艾伦·图灵。
各位游客，大家好！我们现在参观的八达岭长城是明朝修建的。为防御外敌入侵，秦朝，汉朝和明朝共修建了一万三千多里长城。长城西起嘉峪关，东到山海关。长城被称为世界七大奇迹之一。大家看，长城全部是用巨大的条石和城砖砌筑而成的。城墙外沿那两米多高的成排建筑叫垛子，垛子上面的方形口子是瞭望口和射口，是打仗用的。城墙顶上那一座座方形的城台，是屯兵的堡垒，每隔三百米就有一座，这样打仗时城台之间可以互相呼应。各位游客，那时可没火车，汽车，也没起重机，这一块块有两三千斤重的条石以及建筑材料都是靠人力抬上去的，是现代人想都不敢想的壮举，难怪世界上都公认它是一大奇迹！参观了长城，大家要记住一句话：不到长城非好汉！只有亲眼目睹了先辈们的这一伟大创造，才能在人生的道路上成为一个真正的好汉！今天就参观到这里，欢迎下次再来！谢谢大家！	`<think>` 好的，我来试试以“EyeOpener”的风格改写这段介绍。我会尽量让它更生动有趣，同时保持信息的准确性。 `</think>` 小伙伴们，大家好！我们现在所在的八达岭长城可是明朝时期建造的哦！为了抵御外敌入侵，从秦朝、汉朝到明朝，一共修建了一万多里的长城。长城的起点是嘉峪关，终点则是山海关。长城被誉为世界七大奇迹之一，是不是很厉害？大家快看，长城是由巨大的条石和城砖砌成的。你们看到的那些两米多高的建筑叫做垛子，它们上面的方形孔洞分别是瞭望口和射口，这些都是用来打仗的。而城墙上的那些方形建筑叫做城台，是用来驻扎士兵的堡垒。每隔三百米就会有一个这样的城台，这样打仗的时候就可以互相支援了。各位朋友们，那时候可没有火车、汽车，更没有起重机，这些每块都有两三千斤重的条石和其他建筑材料都是靠人力搬运上去的。这简直是我们现代人都不敢想象的壮举，所以全世界都公认它是奇迹中的奇迹！参观完长城后，大家一定要记住这句话：“不到长城非好汉！”只有亲眼见到我们祖先的伟大创造，你才能成为真正的英雄！今天的游览就到这里啦，希望下次还能有机会再带大家一起探索长城的秘密！感谢大家的参与！

Original	Polished
20个智慧机器模型支撑(如百度文心和清华智谱)，还有120个小机器模型为其分解工作难度(如办公PPT和方案、机关总结和机关公文、互联网短视频和小红薯文案等)。看它的短视频文案，不仅有直播脚本，还有对抖音运营的策划建议，既有文案建议，又有运营建议。以对话方式解决，即输入简洁的需求，可得到靠谱的文案答复。如输入短视频需求，具体需求关键点可以包括：短视频标题，与旅行相关，民宿和野炊一日游，安全、景美，成为一种周末游趋势。需求越细化，能得到的内容越趋向于目标需求。短视频功能强大，既包括了一般的通篇脚本撰写功能，还包括了开头5秒、赢流量，以及精品脚本打造、做精品。打包了短视频文案撰写常遇到的一些难点问题，最后还能链接到主推商品，主要可借助对话鸭的“视频脚本专家”功能来完成。	`<think>` 作为抖音博主多多喂，我会更倾向于用轻松幽默的语言来表达，让内容更加贴近我的粉丝群体。我会尽量避免过于正式或专业的术语，而是采用一些流行语和网络用语，使文章看起来更加亲切和接地气。 `</think>` 20个聪明伶俐的小机器人（比如百度文心和清华智谱），再加上120个小机器人帮忙分担任务（比如办公PPT、方案、机关总结、机关公文、互联网短视频和小红书文案等等）。是它在短视频文案上的表现就让人惊艳，不仅有直播脚本，还有抖音运营的妙招，既有文案的建议，也有运营的指导。简单描述你的需求，就能得到满意的答案。比如你想要一个关于旅行的短视频，你可以这样描述：“标题要吸引人，跟旅行有关，民宿和野炊一日游，安全又风景优美，适合周末出游。”需求越详细，得到的结果就越符合你的期待。短视频功能超级强大，不仅能帮你写出完整的脚本，还能帮你搞定开头5秒的吸睛技巧，甚至能帮你打造精品脚本。对于短视频文案写作中常见的难题，它都能一一解决，最后还能帮你链接到你要推广的商品。这些都可以通过对话鸭的“视频脚本专家”功能实现。
人工智能（artifical intelligence, AI）是让机器完成那些让人来做则需要智能的科学。要了解人工智能是什么，首先需要知道智能是什么。那什么是智能呢？是 IQ？是记忆力？还是计算能力？在这些方面，计算机都已经远超过了一般意义上的人类，但是我们并不认为这些计算机具有智能。事实上，我们能够列举出若干的行为或表现是智能的，例如可以通过视觉和声音对外界环境进行感知、能语言沟通、能够独立进行决策等等，但是无法直接定义什么是智能。这么说来，人工智能研究了几十年，结果连最基础的智能是什么都搞不清楚？如果非要定义出“智能”是什么，我们将会陷入哲学的纠缠中。没关系，我们可以绕开这个问题，比如规定一个测试，这是一个可操作的标准，通过这个测试就认为具有了智能。比如说，我们难以直接定义什么是具有驾驶能力，但是我们可以定义一个驾照考试，通过考试就认为具备驾驶能力。图灵（Turing）测试有助于躲避试图定义“智能”的哲学泥沼。在介绍图灵测试之前，请允许我怀着激动的心情介绍计算机科学领域最重要的人物——图灵。	`<think>` 严伯钧的风格偏向于科普与幽默相结合，同时会尽量简化复杂的概念，使观众易于理解。因此，在改写这段文字时，我会尝试加入一些轻松的元素，并且保持内容的严谨性。 `</think>` 人工智能（AI），简单来说，就是让机器像人一样聪明地做事。那么，到底什么是聪明呢？智商？记忆力？还是计算能力？计算机在这几方面已经远远超过了人类，但我们仍然不认为它们聪明。其实，我们可以举出很多例子来说明哪些行为算是聪明的表现，比如感知外界环境的能力、语言交流能力以及独立做决定的能力等等。然而，当我们试图直接定义什么是聪明的时候，却总是说不清楚。如果硬要定义“聪明”，我们可能会掉进哲学的陷阱里。不过，我们可以绕过这个问题，比如设立一个测试，只要通过了测试，我们就认为它聪明。就像我们很难直接定义一个人会不会开车，但可以通过驾照考试来判断。图灵测试就是这样一种巧妙的方法，帮助我们避开定义“聪明”的哲学困境。在介绍图灵测试之前，让我先兴奋地介绍一下计算机科学领域的超级巨星——艾伦·图灵。
各位游客，大家好！我们现在参观的八达岭长城是明朝修建的。为防御外敌入侵，秦朝，汉朝和明朝共修建了一万三千多里长城。长城西起嘉峪关，东到山海关。长城被称为世界七大奇迹之一。大家看，长城全部是用巨大的条石和城砖砌筑而成的。城墙外沿那两米多高的成排建筑叫垛子，垛子上面的方形口子是瞭望口和射口，是打仗用的。城墙顶上那一座座方形的城台，是屯兵的堡垒，每隔三百米就有一座，这样打仗时城台之间可以互相呼应。各位游客，那时可没火车，汽车，也没起重机，这一块块有两三千斤重的条石以及建筑材料都是靠人力抬上去的，是现代人想都不敢想的壮举，难怪世界上都公认它是一大奇迹！参观了长城，大家要记住一句话：不到长城非好汉！只有亲眼目睹了先辈们的这一伟大创造，才能在人生的道路上成为一个真正的好汉！今天就参观到这里，欢迎下次再来！谢谢大家！	`<think>` 好的，我来试试以“EyeOpener”的风格改写这段介绍。我会尽量让它更生动有趣，同时保持信息的准确性。 `</think>` 小伙伴们，大家好！我们现在所在的八达岭长城可是明朝时期建造的哦！为了抵御外敌入侵，从秦朝、汉朝到明朝，一共修建了一万多里的长城。长城的起点是嘉峪关，终点则是山海关。长城被誉为世界七大奇迹之一，是不是很厉害？大家快看，长城是由巨大的条石和城砖砌成的。你们看到的那些两米多高的建筑叫做垛子，它们上面的方形孔洞分别是瞭望口和射口，这些都是用来打仗的。而城墙上的那些方形建筑叫做城台，是用来驻扎士兵的堡垒。每隔三百米就会有一个这样的城台，这样打仗的时候就可以互相支援了。各位朋友们，那时候可没有火车、汽车，更没有起重机，这些每块都有两三千斤重的条石和其他建筑材料都是靠人力搬运上去的。这简直是我们现代人都不敢想象的壮举，所以全世界都公认它是奇迹中的奇迹！参观完长城后，大家一定要记住这句话：“不到长城非好汉！”只有亲眼见到我们祖先的伟大创造，你才能成为真正的英雄！今天的游览就到这里啦，希望下次还能有机会再带大家一起探索长城的秘密！感谢大家的参与！

aipgpt
/

Txt-Polisher-R

You need to agree to share your contact information to access this model

Purpose

Train

Deploy

Test

Effect

Model tree for aipgpt/Txt-Polisher-R

Dataset used to train aipgpt/Txt-Polisher-R