metadata

title: DekData - AI Dataset Generator
emoji: 🤖
colorFrom: blue
colorTo: purple
sdk: gradio
sdk_version: 5.33.1
app_file: app.py
pinned: false
license: cc-by-nc-nd-4.0
short_description: AI-powered dataset generator with multi-language support

🤖 DekData - AI Dataset Generator

ระบบสร้าง Dataset อัจฉริยะด้วย AI สำหรับงานวิจัยและพัฒนาโมเดล Machine Learning

DekData เป็นระบบที่ครอบคลุมสำหรับการสร้าง ขยาย และประมวลผล dataset โดยใช้ AI models ต่างๆ รองรับการทำงานกับหลายภาษาและมีความสามารถในการประมวลผลหลังขั้นสูง

✨ คุณสมบัติหลัก

🔧 การโหลดข้อมูล

รองรับไฟล์หลายรูปแบบ: CSV, JSONL, JSON, Parquet
โหลด dataset จาก Hugging Face Hub
รองรับ HF Dataset directories ที่สร้างแล้ว
ฟีเจอร์ตัวอย่างข้อมูลก่อนประมวลผล

🤖 ผู้ให้บริการ LLM

Ollama: Local LLM server (รองรับ auto-detect models)
DeepSeek API: deepseek-chat, deepseek-reasoner
Hugging Face: API inference
HF Local: โหลดโมเดลใช้งานในเครื่อง

✨ การสร้างข้อมูลใหม่

Augment: ขยายข้อมูลจากตัวอย่างเดิม
Roleplay: สร้างมุมมองจากบทบาทต่างๆ
Topic Conditioning: สร้างสถานการณ์ใหม่ตามหัวข้อ
Self Critique: วิเคราะห์และปรับปรุงเหตุผล
Custom Prompt: ใช้ prompt ที่กำหนดเอง

🌍 รองรับหลายภาษา

การ generate ในภาษาต่างๆ: ไทย, อังกฤษ, จีน, ญี่ปุ่น
การแปลภาษาอัตโนมัติ
รักษาบริบททางวัฒนธรรมในการแปล

🔧 การประมวลผลหลัง

ลบข้อมูลซ้ำ: ใช้ MD5 hashing
ตรวจสอบไวยากรณ์: กรองข้อมูลที่มีปัญหา
ประเมินความยาก: easy, medium, hard
สร้าง Multiple Choice: เพิ่มตัวเลือกอัตโนมัติ

💾 การส่งออกข้อมูล

CSV: สำหรับ Excel/Spreadsheet
JSONL: สำหรับ machine learning
Parquet: รูปแบบคอลัมน์ประสิทธิภาพสูง
HF Dataset: Hugging Face Dataset (Parquet format)

🚀 การติดตั้งและใช้งาน

ความต้องการระบบ

Python 3.8+

การติดตั้ง Dependencies

pip install -r requirements.txt

การรันแอปพลิเคชัน

python app.py

แอปพลิเคชันจะทำงานที่: http://localhost:7860

📋 Schema ของ Dataset

{
  "id": "string",
  "context": "string", 
  "question": "string",
  "options": ["string"] | null,
  "answer": "string",
  "rationale": "string",
  "category": "string",
  "difficulty": "easy|medium|hard",
  "source": "string",
  "language": "th|en|zh|ja"
}

📝 ตัวอย่างการใช้งาน

1. โหลดข้อมูลจากไฟล์ CSV

เลือก "local" ในประเภทแหล่งข้อมูล
อัปโหลดไฟล์ CSV หรือใส่ path
กดปุ่ม "ดูตัวอย่างข้อมูล"

2. Generate ข้อมูลใหม่ด้วย Ollama

เลือก "ollama" ใน LLM Provider
เลือกโมเดลที่ต้องการ
ตั้งค่าการ generate (ประเภท, จำนวน, ภาษา)
รันเวิร์กโฟลว์

3. ส่งออกเป็น Parquet

เลือก "parquet" ในรูปแบบ Export
ไฟล์จะถูกสร้างด้วยชื่อที่มี timestamp

🔧 การกำหนดค่า

Ollama Setup

# ติดตั้ง Ollama
curl -fsSL https://ollama.ai/install.sh | sh

# ดาวน์โหลดโมเดล
ollama pull llama3.2
ollama pull gemma2

DeepSeek API

สมัครบัญชีที่ DeepSeek
รับ API Key
ใส่ API Key ในช่อง "API Key"

📊 ตัวอย่างผลลัพธ์

ระบบจะแสดงสถิติ Dataset:

จำนวนข้อมูลทั้งหมด
การกระจายตามหมวดหมู่
ระดับความยาก
ภาษาที่ใช้
จำนวนที่มี Multiple Choice

🛠️ Development

โครงสร้างโค้ด

app.py              # แอปพลิเคชันหลัก
requirements.txt    # Dependencies
sample_data.csv     # ตัวอย่างข้อมูล
README.md          # เอกสารนี้

การพัฒนาต่อ

Fork repository
สร้าง feature branch
Implement changes
Submit pull request

⚠️ ข้อจำกัดและคำเตือน

การใช้งาน

ระบบจำกัดการประมวลผลเพื่อประสิทธิภาพ
การ generate ขึ้นอยู่กับคุณภาพของโมเดล AI
ต้องมี API Key สำหรับบริการภายนอก

ทรัพย์สินทางปัญญา

ระบบนี้เป็นทรัพย์สินทางปัญญา
ห้ามคัดลอกหรือใช้เชิงพาณิชย์โดยไม่ได้รับอนุญาต
อนุญาตให้ใช้เพื่อการศึกษาและวิจัยเท่านั้น

📞 การสนับสนุน

สำหรับข้อสงสัยหรือปัญหาการใช้งาน:

ตรวจสอบ Issues ใน repository
อ่านเอกสารประกอบ
ติดต่อผู้พัฒนา

📄 License

สร้างด้วย ❤️ สำหรับชุมชนนักวิจัยและนักพัฒนา AI