A newer version of the Gradio SDK is available:
5.34.2
metadata
title: DekData - AI Dataset Generator
emoji: 🤖
colorFrom: blue
colorTo: purple
sdk: gradio
sdk_version: 5.33.1
app_file: app.py
pinned: false
license: cc-by-nc-nd-4.0
short_description: AI-powered dataset generator with multi-language support
🤖 DekData - AI Dataset Generator
ระบบสร้าง Dataset อัจฉริยะด้วย AI สำหรับงานวิจัยและพัฒนาโมเดล Machine Learning
DekData เป็นระบบที่ครอบคลุมสำหรับการสร้าง ขยาย และประมวลผล dataset โดยใช้ AI models ต่างๆ รองรับการทำงานกับหลายภาษาและมีความสามารถในการประมวลผลหลังขั้นสูง
✨ คุณสมบัติหลัก
🔧 การโหลดข้อมูล
- รองรับไฟล์หลายรูปแบบ: CSV, JSONL, JSON, Parquet
- โหลด dataset จาก Hugging Face Hub
- รองรับ HF Dataset directories ที่สร้างแล้ว
- ฟีเจอร์ตัวอย่างข้อมูลก่อนประมวลผล
🤖 ผู้ให้บริการ LLM
- Ollama: Local LLM server (รองรับ auto-detect models)
- DeepSeek API: deepseek-chat, deepseek-reasoner
- Hugging Face: API inference
- HF Local: โหลดโมเดลใช้งานในเครื่อง
✨ การสร้างข้อมูลใหม่
- Augment: ขยายข้อมูลจากตัวอย่างเดิม
- Roleplay: สร้างมุมมองจากบทบาทต่างๆ
- Topic Conditioning: สร้างสถานการณ์ใหม่ตามหัวข้อ
- Self Critique: วิเคราะห์และปรับปรุงเหตุผล
- Custom Prompt: ใช้ prompt ที่กำหนดเอง
🌍 รองรับหลายภาษา
- การ generate ในภาษาต่างๆ: ไทย, อังกฤษ, จีน, ญี่ปุ่น
- การแปลภาษาอัตโนมัติ
- รักษาบริบททางวัฒนธรรมในการแปล
🔧 การประมวลผลหลัง
- ลบข้อมูลซ้ำ: ใช้ MD5 hashing
- ตรวจสอบไวยากรณ์: กรองข้อมูลที่มีปัญหา
- ประเมินความยาก: easy, medium, hard
- สร้าง Multiple Choice: เพิ่มตัวเลือกอัตโนมัติ
💾 การส่งออกข้อมูล
- CSV: สำหรับ Excel/Spreadsheet
- JSONL: สำหรับ machine learning
- Parquet: รูปแบบคอลัมน์ประสิทธิภาพสูง
- HF Dataset: Hugging Face Dataset (Parquet format)
🚀 การติดตั้งและใช้งาน
ความต้องการระบบ
Python 3.8+
การติดตั้ง Dependencies
pip install -r requirements.txt
การรันแอปพลิเคชัน
python app.py
แอปพลิเคชันจะทำงานที่: http://localhost:7860
📋 Schema ของ Dataset
{
"id": "string",
"context": "string",
"question": "string",
"options": ["string"] | null,
"answer": "string",
"rationale": "string",
"category": "string",
"difficulty": "easy|medium|hard",
"source": "string",
"language": "th|en|zh|ja"
}
📝 ตัวอย่างการใช้งาน
1. โหลดข้อมูลจากไฟล์ CSV
- เลือก "local" ในประเภทแหล่งข้อมูล
- อัปโหลดไฟล์ CSV หรือใส่ path
- กดปุ่ม "ดูตัวอย่างข้อมูล"
2. Generate ข้อมูลใหม่ด้วย Ollama
- เลือก "ollama" ใน LLM Provider
- เลือกโมเดลที่ต้องการ
- ตั้งค่าการ generate (ประเภท, จำนวน, ภาษา)
- รันเวิร์กโฟลว์
3. ส่งออกเป็น Parquet
- เลือก "parquet" ในรูปแบบ Export
- ไฟล์จะถูกสร้างด้วยชื่อที่มี timestamp
🔧 การกำหนดค่า
Ollama Setup
# ติดตั้ง Ollama
curl -fsSL https://ollama.ai/install.sh | sh
# ดาวน์โหลดโมเดล
ollama pull llama3.2
ollama pull gemma2
DeepSeek API
- สมัครบัญชีที่ DeepSeek
- รับ API Key
- ใส่ API Key ในช่อง "API Key"
📊 ตัวอย่างผลลัพธ์
ระบบจะแสดงสถิติ Dataset:
- จำนวนข้อมูลทั้งหมด
- การกระจายตามหมวดหมู่
- ระดับความยาก
- ภาษาที่ใช้
- จำนวนที่มี Multiple Choice
🛠️ Development
โครงสร้างโค้ด
app.py # แอปพลิเคชันหลัก
requirements.txt # Dependencies
sample_data.csv # ตัวอย่างข้อมูล
README.md # เอกสารนี้
การพัฒนาต่อ
- Fork repository
- สร้าง feature branch
- Implement changes
- Submit pull request
⚠️ ข้อจำกัดและคำเตือน
การใช้งาน
- ระบบจำกัดการประมวลผลเพื่อประสิทธิภาพ
- การ generate ขึ้นอยู่กับคุณภาพของโมเดล AI
- ต้องมี API Key สำหรับบริการภายนอก
ทรัพย์สินทางปัญญา
- ระบบนี้เป็นทรัพย์สินทางปัญญา
- ห้ามคัดลอกหรือใช้เชิงพาณิชย์โดยไม่ได้รับอนุญาต
- อนุญาตให้ใช้เพื่อการศึกษาและวิจัยเท่านั้น
📞 การสนับสนุน
สำหรับข้อสงสัยหรือปัญหาการใช้งาน:
- ตรวจสอบ Issues ใน repository
- อ่านเอกสารประกอบ
- ติดต่อผู้พัฒนา
📄 License
CC BY-NC-ND 4.0 - สงวนลิขสิทธิ์ © 2025
สร้างด้วย ❤️ สำหรับชุมชนนักวิจัยและนักพัฒนา AI