DekData / README.md
Nattapong Tapachoom
Fix metadata and add IP protection
a6e31da

A newer version of the Gradio SDK is available: 5.34.2

Upgrade
metadata
title: DekData - AI Dataset Generator
emoji: 🤖
colorFrom: blue
colorTo: purple
sdk: gradio
sdk_version: 5.33.1
app_file: app.py
pinned: false
license: cc-by-nc-nd-4.0
short_description: AI-powered dataset generator with multi-language support

🤖 DekData - AI Dataset Generator

ระบบสร้าง Dataset อัจฉริยะด้วย AI สำหรับงานวิจัยและพัฒนาโมเดล Machine Learning

DekData เป็นระบบที่ครอบคลุมสำหรับการสร้าง ขยาย และประมวลผล dataset โดยใช้ AI models ต่างๆ รองรับการทำงานกับหลายภาษาและมีความสามารถในการประมวลผลหลังขั้นสูง

✨ คุณสมบัติหลัก

🔧 การโหลดข้อมูล

  • รองรับไฟล์หลายรูปแบบ: CSV, JSONL, JSON, Parquet
  • โหลด dataset จาก Hugging Face Hub
  • รองรับ HF Dataset directories ที่สร้างแล้ว
  • ฟีเจอร์ตัวอย่างข้อมูลก่อนประมวลผล

🤖 ผู้ให้บริการ LLM

  • Ollama: Local LLM server (รองรับ auto-detect models)
  • DeepSeek API: deepseek-chat, deepseek-reasoner
  • Hugging Face: API inference
  • HF Local: โหลดโมเดลใช้งานในเครื่อง

✨ การสร้างข้อมูลใหม่

  • Augment: ขยายข้อมูลจากตัวอย่างเดิม
  • Roleplay: สร้างมุมมองจากบทบาทต่างๆ
  • Topic Conditioning: สร้างสถานการณ์ใหม่ตามหัวข้อ
  • Self Critique: วิเคราะห์และปรับปรุงเหตุผล
  • Custom Prompt: ใช้ prompt ที่กำหนดเอง

🌍 รองรับหลายภาษา

  • การ generate ในภาษาต่างๆ: ไทย, อังกฤษ, จีน, ญี่ปุ่น
  • การแปลภาษาอัตโนมัติ
  • รักษาบริบททางวัฒนธรรมในการแปล

🔧 การประมวลผลหลัง

  • ลบข้อมูลซ้ำ: ใช้ MD5 hashing
  • ตรวจสอบไวยากรณ์: กรองข้อมูลที่มีปัญหา
  • ประเมินความยาก: easy, medium, hard
  • สร้าง Multiple Choice: เพิ่มตัวเลือกอัตโนมัติ

💾 การส่งออกข้อมูล

  • CSV: สำหรับ Excel/Spreadsheet
  • JSONL: สำหรับ machine learning
  • Parquet: รูปแบบคอลัมน์ประสิทธิภาพสูง
  • HF Dataset: Hugging Face Dataset (Parquet format)

🚀 การติดตั้งและใช้งาน

ความต้องการระบบ

Python 3.8+

การติดตั้ง Dependencies

pip install -r requirements.txt

การรันแอปพลิเคชัน

python app.py

แอปพลิเคชันจะทำงานที่: http://localhost:7860

📋 Schema ของ Dataset

{
  "id": "string",
  "context": "string", 
  "question": "string",
  "options": ["string"] | null,
  "answer": "string",
  "rationale": "string",
  "category": "string",
  "difficulty": "easy|medium|hard",
  "source": "string",
  "language": "th|en|zh|ja"
}

📝 ตัวอย่างการใช้งาน

1. โหลดข้อมูลจากไฟล์ CSV

  1. เลือก "local" ในประเภทแหล่งข้อมูล
  2. อัปโหลดไฟล์ CSV หรือใส่ path
  3. กดปุ่ม "ดูตัวอย่างข้อมูล"

2. Generate ข้อมูลใหม่ด้วย Ollama

  1. เลือก "ollama" ใน LLM Provider
  2. เลือกโมเดลที่ต้องการ
  3. ตั้งค่าการ generate (ประเภท, จำนวน, ภาษา)
  4. รันเวิร์กโฟลว์

3. ส่งออกเป็น Parquet

  1. เลือก "parquet" ในรูปแบบ Export
  2. ไฟล์จะถูกสร้างด้วยชื่อที่มี timestamp

🔧 การกำหนดค่า

Ollama Setup

# ติดตั้ง Ollama
curl -fsSL https://ollama.ai/install.sh | sh

# ดาวน์โหลดโมเดล
ollama pull llama3.2
ollama pull gemma2

DeepSeek API

  1. สมัครบัญชีที่ DeepSeek
  2. รับ API Key
  3. ใส่ API Key ในช่อง "API Key"

📊 ตัวอย่างผลลัพธ์

ระบบจะแสดงสถิติ Dataset:

  • จำนวนข้อมูลทั้งหมด
  • การกระจายตามหมวดหมู่
  • ระดับความยาก
  • ภาษาที่ใช้
  • จำนวนที่มี Multiple Choice

🛠️ Development

โครงสร้างโค้ด

app.py              # แอปพลิเคชันหลัก
requirements.txt    # Dependencies
sample_data.csv     # ตัวอย่างข้อมูล
README.md          # เอกสารนี้

การพัฒนาต่อ

  1. Fork repository
  2. สร้าง feature branch
  3. Implement changes
  4. Submit pull request

⚠️ ข้อจำกัดและคำเตือน

การใช้งาน

  • ระบบจำกัดการประมวลผลเพื่อประสิทธิภาพ
  • การ generate ขึ้นอยู่กับคุณภาพของโมเดล AI
  • ต้องมี API Key สำหรับบริการภายนอก

ทรัพย์สินทางปัญญา

  • ระบบนี้เป็นทรัพย์สินทางปัญญา
  • ห้ามคัดลอกหรือใช้เชิงพาณิชย์โดยไม่ได้รับอนุญาต
  • อนุญาตให้ใช้เพื่อการศึกษาและวิจัยเท่านั้น

📞 การสนับสนุน

สำหรับข้อสงสัยหรือปัญหาการใช้งาน:

  • ตรวจสอบ Issues ใน repository
  • อ่านเอกสารประกอบ
  • ติดต่อผู้พัฒนา

📄 License

CC BY-NC-ND 4.0 - สงวนลิขสิทธิ์ © 2025


สร้างด้วย ❤️ สำหรับชุมชนนักวิจัยและนักพัฒนา AI