Spaces:

ZombitX64
/

DekData

Running

App Files Files Community

Nattapong Tapachoom commited on 11 days ago

Commit

ae45e81

1 Parent(s): 2087372

Update README.md with comprehensive features and installation instructions for DekData

Browse files

Files changed (1) hide show

README.md +170 -5

README.md CHANGED Viewed

@@ -1,13 +1,178 @@
 ---
-title: DekData
-emoji: 🦀
-colorFrom: gray
-colorTo: blue
 sdk: gradio
 sdk_version: 5.33.1
 app_file: app.py
 pinned: false
 license: cc-by-nc-nd-4.0
 ---
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 ---
+title: DekData - AI Dataset Generator
+emoji: 🤖
+colorFrom: blue
+colorTo: purple
 sdk: gradio
 sdk_version: 5.33.1
 app_file: app.py
 pinned: false
 license: cc-by-nc-nd-4.0
+short_description: "Comprehensive AI-powered dataset generation system with multi-language support and advanced post-processing capabilities"
 ---
+# 🤖 DekData - AI Dataset Generator
+**ระบบสร้าง Dataset อัจฉริยะด้วย AI สำหรับงานวิจัยและพัฒนาโมเดล Machine Learning**
+DekData เป็นระบบที่ครอบคลุมสำหรับการสร้าง ขยาย และประมวลผล dataset โดยใช้ AI models ต่างๆ รองรับการทำงานกับหลายภาษาและมีความสามารถในการประมวลผลหลังขั้นสูง
+## ✨ คุณสมบัติหลัก
+### 🔧 การโหลดข้อมูล
+- รองรับไฟล์หลายรูปแบบ: CSV, JSONL, JSON, Parquet
+- โหลด dataset จาก Hugging Face Hub
+- รองรับ HF Dataset directories ที่สร้างแล้ว
+- ฟีเจอร์ตัวอย่างข้อมูลก่อนประมวลผล
+### 🤖 ผู้ให้บริการ LLM
+- **Ollama**: Local LLM server (รองรับ auto-detect models)
+- **DeepSeek API**: deepseek-chat, deepseek-reasoner
+- **Hugging Face**: API inference
+- **HF Local**: โหลดโมเดลใช้งานในเครื่อง
+### ✨ การสร้างข้อมูลใหม่
+- **Augment**: ขยายข้อมูลจากตัวอย่างเดิม
+- **Roleplay**: สร้างมุมมองจากบทบาทต่างๆ
+- **Topic Conditioning**: สร้างสถานการณ์ใหม่ตามหัวข้อ
+- **Self Critique**: วิเคราะห์และปรับปรุงเหตุผล
+- **Custom Prompt**: ใช้ prompt ที่กำหนดเอง
+### 🌍 รองรับหลายภาษา
+- การ generate ในภาษาต่างๆ: ไทย, อังกฤษ, จีน, ญี่ปุ่น
+- การแปลภาษาอัตโนมัติ
+- รักษาบริบททางวัฒนธรรมในการแปล
+### 🔧 การประมวลผลหลัง
+- **ลบข้อมูลซ้ำ**: ใช้ MD5 hashing
+- **ตรวจสอบไวยากรณ์**: กรองข้อมูลที่มีปัญหา
+- **ประเมินความยาก**: easy, medium, hard
+- **สร้าง Multiple Choice**: เพิ่มตัวเลือกอัตโนมัติ
+### 💾 การส่งออกข้อมูล
+- **CSV**: สำหรับ Excel/Spreadsheet
+- **JSONL**: สำหรับ machine learning
+- **Parquet**: รูปแบบคอลัมน์ประสิทธิภาพสูง
+- **HF Dataset**: Hugging Face Dataset (Parquet format)
+## 🚀 การติดตั้งและใช้งาน
+### ความต้องการระบบ
+```bash
+Python 3.8+
+```
+### การติดตั้ง Dependencies
+```bash
+pip install -r requirements.txt
+```
+### การรันแอปพลิเคชัน
+```bash
+python app.py
+```
+แอปพลิเคชันจะทำงานที่: `http://localhost:7860`
+## 📋 Schema ของ Dataset
+```json
+{
+  "id": "string",
+  "context": "string",
+  "question": "string",
+  "options": ["string"] | null,
+  "answer": "string",
+  "rationale": "string",
+  "category": "string",
+  "difficulty": "easy|medium|hard",
+  "source": "string",
+  "language": "th|en|zh|ja"
+}
+```
+## 📝 ตัวอย่างการใช้งาน
+### 1. โหลดข้อมูลจากไฟล์ CSV
+1. เลือก "local" ในประเภทแหล่งข้อมูล
+2. อัปโหลดไฟล์ CSV หรือใส่ path
+3. กดปุ่ม "ดูตัวอย่างข้อมูล"
+### 2. Generate ข้อมูลใหม่ด้วย Ollama
+1. เลือก "ollama" ใน LLM Provider
+2. เลือกโมเดลที่ต้องการ
+3. ตั้งค่าการ generate (ประเภท, จำนวน, ภาษา)
+4. รันเวิร์กโฟลว์
+### 3. ส่งออกเป็น Parquet
+1. เลือก "parquet" ในรูปแบบ Export
+2. ไฟล์จะถูกสร้างด้วยชื่อที่มี timestamp
+## 🔧 การก���หนดค่า
+### Ollama Setup
+```bash
+# ติดตั้ง Ollama
+curl -fsSL https://ollama.ai/install.sh | sh
+# ดาวน์โหลดโมเดล
+ollama pull llama3.2
+ollama pull gemma2
+```
+### DeepSeek API
+1. สมัครบัญชีที่ [DeepSeek](https://www.deepseek.com)
+2. รับ API Key
+3. ใส่ API Key ในช่อง "API Key"
+## 📊 ตัวอย่างผลลัพธ์
+ระบบจะแสดงสถิติ Dataset:
+- จำนวนข้อมูลทั้งหมด
+- การกระจายตามหมวดหมู่
+- ระดับความยาก
+- ภาษาที่ใช้
+- จำนวนที่มี Multiple Choice
+## 🛠️ Development
+### โครงสร้างโค้ด
+```
+app.py              # แอปพลิเคชันหลัก
+requirements.txt    # Dependencies
+sample_data.csv     # ตัวอย่างข้อมูล
+README.md          # เอกสารนี้
+```
+### การพัฒนาต่อ
+1. Fork repository
+2. สร้าง feature branch
+3. Implement changes
+4. Submit pull request
+## ⚠️ ข้อจำกัดและคำเตือน
+### การใช้งาน
+- ระบบจำกัดการประมวลผลเพื่อประสิทธิภาพ
+- การ generate ขึ้นอยู่กับคุณภาพของโมเดล AI
+- ต้องมี API Key สำหรับบริการภายนอก
+### ทรัพย์สินทางปัญญา
+- ระบบนี้เป็นทรัพย์สินทางปัญญา
+- ห้ามคัดลอกหรือใช้เชิงพาณิชย์โดยไม่ได้รับอนุญาต
+- อนุญาตให้ใช้เพื่อการศึกษาและวิจัยเท่านั้น
+## 📞 การสนับสนุน
+สำหรับข้อสงสัยหรือปัญหาการใช้งาน:
+- ตรวจสอบ Issues ใน repository
+- อ่านเอกสารประกอบ
+- ติดต่อผู้พัฒนา
+## 📄 License
+CC BY-NC-ND 4.0 - สงวนลิขสิทธิ์ © 2025
+---
+**สร้างด้วย ❤️ สำหรับชุมชนนักวิจัยและนักพัฒนา AI**