Mô hình phân loại câu hỏi dịch vụ công tại TP.HCM

  • Phát triển bởi: thailevann
  • Giấy phép: Apache-2.0
  • Fine-tuned từ mô hình: unsloth/Qwen3-4B-unsloth-bnb-4bit

Mô hình được huấn luyện để phân loại câu hỏi người dùng về dịch vụ công thành 4 nhãn:

Nhãn Ý nghĩa
0 Câu hỏi rõ ràng, có thể tìm câu trả lời trong tài liệu dịch vụ công (luật, quy trình, địa điểm nộp hồ sơ, thời hạn xử lý,...)
1 Câu hỏi trả lời ngay bằng kiến thức nền, không cần tài liệu hoặc thông tin thời gian thực (định nghĩa, khái niệm,...)
2 Câu hỏi thiếu thông tin quan trọng, cần hỏi lại người dùng (thường có từ như "này", "kia", ví dụ: không rõ loại giấy tờ, đối tượng áp dụng,...)
3 Câu hỏi cần thông tin thời gian thực hoặc cập nhật liên tục (realtime), ví dụ: thời tiết, kẹt xe, giờ làm việc hôm nay,...

Cách sử dụng mẫu

prompt = f"""
 Bạn là một trợ lý AI hỗ trợ tra cứu dịch vụ công tại TP.HCM, được phát triển bởi một sinh viên Đại học Tôn Đức Thắng.
    
    Nhiệm vụ của bạn là phân loại câu hỏi người dùng thành một trong bốn nhãn sau:
    - 0: Câu hỏi đã rõ ràng và có thể tìm được câu trả lời trong tài liệu dịch vụ công như luật, quy trình, địa điểm nộp hồ sơ, thời hạn xử lý,...
    - 1: Câu hỏi có thể trả lời ngay bằng kiến thức nền mà không cần tài liệu hoặc thông tin thời gian thực như hỏi về định nghĩa, khái niệm.
    - 2: Câu hỏi còn thiếu thông tin quan trọng khiến không thể tìm ra câu trả lời, cần hỏi lại người dùng trong câu thường có những từ như "này", "kia" (ví dụ: không rõ loại giấy tờ, đối tượng áp dụng,...).
    - 3: Câu hỏi yêu cầu thông tin thay đổi theo thời gian thực hoặc cập nhật liên tục (realtime), ví dụ như thời tiết, tình trạng kẹt xe, giờ làm việc hôm nay,...

    Chỉ phản hồi bằng một số duy nhất tương ứng với nhãn (0, 1, 2 hoặc 3). Không đưa ra giải thích.

    ## Câu hỏi:
  Tôi muốn làm giấy khai sinh cho con tôi, tôi cần chuẩn bị trước giấy tờ gì?
"""

messages = [
    {"role" : "user", "content" : prompt}
]
text = tokenizer1.apply_chat_template(
    messages,
    tokenize = False,
    add_generation_prompt = True, # Must add for generation
    enable_thinking = True, # Disable thinking
)

from transformers import TextStreamer
output = model1.generate(
    **tokenizer1(text, return_tensors = "pt").to("cuda"),
    max_new_tokens = 1024) # Increase for longer outputs! streamer = TextStreamer(tokenizer1, skip_prompt = True)

decoded = tokenizer1.decode(output[0], skip_special_tokens=True).strip()
print(decoded)

Output mẫu

 Bạn là một trợ lý AI hỗ trợ tra cứu dịch vụ công tại TP.HCM, được phát triển bởi một sinh viên Đại học Tôn Đức Thắng.
    
    Nhiệm vụ của bạn là phân loại câu hỏi người dùng thành một trong bốn nhãn sau:
    - 0: Câu hỏi đã rõ ràng và có thể tìm được câu trả lời trong tài liệu dịch vụ công như luật, quy trình, địa điểm nộp hồ sơ, thời hạn xử lý,...
    - 1: Câu hỏi có thể trả lời ngay bằng kiến thức nền mà không cần tài liệu hoặc thông tin thời gian thực như hỏi về định nghĩa, khái niệm.
    - 2: Câu hỏi còn thiếu thông tin quan trọng khiến không thể tìm ra câu trả lời, cần hỏi lại người dùng trong câu thường có những từ như "này", "kia" (ví dụ: không rõ loại giấy tờ, đối tượng áp dụng,...).
    - 3: Câu hỏi yêu cầu thông tin thay đổi theo thời gian thực hoặc cập nhật liên tục (realtime), ví dụ như thời tiết, tình trạng kẹt xe, giờ làm việc hôm nay,...

    Chỉ phản hồi bằng một số duy nhất tương ứng với nhãn (0, 1, 2 hoặc 3). Không đưa ra giải thích.

    ## Câu hỏi:
  Tôi muốn làm giấy khai sinh cho con tôi, tôi cần chuẩn bị trước giấy tờ gì?

assistant
<think>
1. **Xác định loại thông tin cần thiết:** Câu hỏi yêu cầu danh sách giấy tờ cần thiết để làm thủ tục hành chính (giấy khai sinh).
2. **Xem xét nguồn thông tin:** Thông tin về các giấy tờ cần thiết cho thủ tục hành chính thường được quy định rõ ràng trong các văn bản pháp luật, quy trình hành chính công hoặc hướng dẫn của cơ quan nhà nước có thẩm quyền.
3. **Đánh giá khả năng tìm kiếm:** Có thể tìm kiếm thông tin này trên các trang web của cơ quan nhà nước, văn bản pháp luật, hoặc các nguồn dịch vụ công trực tuyến.

**Reasoning:**
Câu hỏi liên quan đến việc chuẩn bị giấy tờ cho một thủ tục hành chính cụ thể (làm giấy khai sinh). Thông tin về các giấy tờ cần thiết cho thủ tục này thường được quy định rõ ràng trong các văn bản pháp luật hoặc hướng dẫn của cơ quan nhà nước. Do đó, câu trả lời có thể được tìm thấy trong các tài liệu dịch vụ công. Vì vậy, câu hỏi được gán nhãn 0.
</think>

0
Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for thailevann/Qwen3-4B_classification

Base model

Qwen/Qwen3-4B-Base
Finetuned
Qwen/Qwen3-4B
Finetuned
(28)
this model

Dataset used to train thailevann/Qwen3-4B_classification