--- title: DekData - AI Dataset Generator emoji: ðŸĪ– colorFrom: blue colorTo: purple sdk: gradio sdk_version: 5.33.1 app_file: app.py pinned: false license: cc-by-nc-nd-4.0 short_description: "AI-powered dataset generator with multi-language support" --- # ðŸĪ– DekData - AI Dataset Generator **āļĢāļ°āļšāļšāļŠāļĢāđ‰āļēāļ‡ Dataset āļ­āļąāļˆāļ‰āļĢāļīāļĒāļ°āļ”āđ‰āļ§āļĒ AI āļŠāļģāļŦāļĢāļąāļšāļ‡āļēāļ™āļ§āļīāļˆāļąāļĒāđāļĨāļ°āļžāļąāļ’āļ™āļēāđ‚āļĄāđ€āļ”āļĨ Machine Learning** DekData āđ€āļ›āđ‡āļ™āļĢāļ°āļšāļšāļ—āļĩāđˆāļ„āļĢāļ­āļšāļ„āļĨāļļāļĄāļŠāļģāļŦāļĢāļąāļšāļāļēāļĢāļŠāļĢāđ‰āļēāļ‡ āļ‚āļĒāļēāļĒ āđāļĨāļ°āļ›āļĢāļ°āļĄāļ§āļĨāļœāļĨ dataset āđ‚āļ”āļĒāđƒāļŠāđ‰ AI models āļ•āđˆāļēāļ‡āđ† āļĢāļ­āļ‡āļĢāļąāļšāļāļēāļĢāļ—āļģāļ‡āļēāļ™āļāļąāļšāļŦāļĨāļēāļĒāļ āļēāļĐāļēāđāļĨāļ°āļĄāļĩāļ„āļ§āļēāļĄāļŠāļēāļĄāļēāļĢāļ–āđƒāļ™āļāļēāļĢāļ›āļĢāļ°āļĄāļ§āļĨāļœāļĨāļŦāļĨāļąāļ‡āļ‚āļąāđ‰āļ™āļŠāļđāļ‡ ## âœĻ āļ„āļļāļ“āļŠāļĄāļšāļąāļ•āļīāļŦāļĨāļąāļ ### 🔧 āļāļēāļĢāđ‚āļŦāļĨāļ”āļ‚āđ‰āļ­āļĄāļđāļĨ - āļĢāļ­āļ‡āļĢāļąāļšāđ„āļŸāļĨāđŒāļŦāļĨāļēāļĒāļĢāļđāļ›āđāļšāļš: CSV, JSONL, JSON, Parquet - āđ‚āļŦāļĨāļ” dataset āļˆāļēāļ Hugging Face Hub - āļĢāļ­āļ‡āļĢāļąāļš HF Dataset directories āļ—āļĩāđˆāļŠāļĢāđ‰āļēāļ‡āđāļĨāđ‰āļ§ - āļŸāļĩāđ€āļˆāļ­āļĢāđŒāļ•āļąāļ§āļ­āļĒāđˆāļēāļ‡āļ‚āđ‰āļ­āļĄāļđāļĨāļāđˆāļ­āļ™āļ›āļĢāļ°āļĄāļ§āļĨāļœāļĨ ### ðŸĪ– āļœāļđāđ‰āđƒāļŦāđ‰āļšāļĢāļīāļāļēāļĢ LLM - **Ollama**: Local LLM server (āļĢāļ­āļ‡āļĢāļąāļš auto-detect models) - **DeepSeek API**: deepseek-chat, deepseek-reasoner - **Hugging Face**: API inference - **HF Local**: āđ‚āļŦāļĨāļ”āđ‚āļĄāđ€āļ”āļĨāđƒāļŠāđ‰āļ‡āļēāļ™āđƒāļ™āđ€āļ„āļĢāļ·āđˆāļ­āļ‡ ### âœĻ āļāļēāļĢāļŠāļĢāđ‰āļēāļ‡āļ‚āđ‰āļ­āļĄāļđāļĨāđƒāļŦāļĄāđˆ - **Augment**: āļ‚āļĒāļēāļĒāļ‚āđ‰āļ­āļĄāļđāļĨāļˆāļēāļāļ•āļąāļ§āļ­āļĒāđˆāļēāļ‡āđ€āļ”āļīāļĄ - **Roleplay**: āļŠāļĢāđ‰āļēāļ‡āļĄāļļāļĄāļĄāļ­āļ‡āļˆāļēāļāļšāļ—āļšāļēāļ—āļ•āđˆāļēāļ‡āđ† - **Topic Conditioning**: āļŠāļĢāđ‰āļēāļ‡āļŠāļ–āļēāļ™āļāļēāļĢāļ“āđŒāđƒāļŦāļĄāđˆāļ•āļēāļĄāļŦāļąāļ§āļ‚āđ‰āļ­ - **Self Critique**: āļ§āļīāđ€āļ„āļĢāļēāļ°āļŦāđŒāđāļĨāļ°āļ›āļĢāļąāļšāļ›āļĢāļļāļ‡āđ€āļŦāļ•āļļāļœāļĨ - **Custom Prompt**: āđƒāļŠāđ‰ prompt āļ—āļĩāđˆāļāļģāļŦāļ™āļ”āđ€āļ­āļ‡ ### 🌍 āļĢāļ­āļ‡āļĢāļąāļšāļŦāļĨāļēāļĒāļ āļēāļĐāļē - āļāļēāļĢ generate āđƒāļ™āļ āļēāļĐāļēāļ•āđˆāļēāļ‡āđ†: āđ„āļ—āļĒ, āļ­āļąāļ‡āļāļĪāļĐ, āļˆāļĩāļ™, āļāļĩāđˆāļ›āļļāđˆāļ™ - āļāļēāļĢāđāļ›āļĨāļ āļēāļĐāļēāļ­āļąāļ•āđ‚āļ™āļĄāļąāļ•āļī - āļĢāļąāļāļĐāļēāļšāļĢāļīāļšāļ—āļ—āļēāļ‡āļ§āļąāļ’āļ™āļ˜āļĢāļĢāļĄāđƒāļ™āļāļēāļĢāđāļ›āļĨ ### 🔧 āļāļēāļĢāļ›āļĢāļ°āļĄāļ§āļĨāļœāļĨāļŦāļĨāļąāļ‡ - **āļĨāļšāļ‚āđ‰āļ­āļĄāļđāļĨāļ‹āđ‰āļģ**: āđƒāļŠāđ‰ MD5 hashing - **āļ•āļĢāļ§āļˆāļŠāļ­āļšāđ„āļ§āļĒāļēāļāļĢāļ“āđŒ**: āļāļĢāļ­āļ‡āļ‚āđ‰āļ­āļĄāļđāļĨāļ—āļĩāđˆāļĄāļĩāļ›āļąāļāļŦāļē - **āļ›āļĢāļ°āđ€āļĄāļīāļ™āļ„āļ§āļēāļĄāļĒāļēāļ**: easy, medium, hard - **āļŠāļĢāđ‰āļēāļ‡ Multiple Choice**: āđ€āļžāļīāđˆāļĄāļ•āļąāļ§āđ€āļĨāļ·āļ­āļāļ­āļąāļ•āđ‚āļ™āļĄāļąāļ•āļī ### ðŸ’ū āļāļēāļĢāļŠāđˆāļ‡āļ­āļ­āļāļ‚āđ‰āļ­āļĄāļđāļĨ - **CSV**: āļŠāļģāļŦāļĢāļąāļš Excel/Spreadsheet - **JSONL**: āļŠāļģāļŦāļĢāļąāļš machine learning - **Parquet**: āļĢāļđāļ›āđāļšāļšāļ„āļ­āļĨāļąāļĄāļ™āđŒāļ›āļĢāļ°āļŠāļīāļ—āļ˜āļīāļ āļēāļžāļŠāļđāļ‡ - **HF Dataset**: Hugging Face Dataset (Parquet format) ## 🚀 āļāļēāļĢāļ•āļīāļ”āļ•āļąāđ‰āļ‡āđāļĨāļ°āđƒāļŠāđ‰āļ‡āļēāļ™ ### āļ„āļ§āļēāļĄāļ•āđ‰āļ­āļ‡āļāļēāļĢāļĢāļ°āļšāļš ```bash Python 3.8+ ``` ### āļāļēāļĢāļ•āļīāļ”āļ•āļąāđ‰āļ‡ Dependencies ```bash pip install -r requirements.txt ``` ### āļāļēāļĢāļĢāļąāļ™āđāļ­āļ›āļžāļĨāļīāđ€āļ„āļŠāļąāļ™ ```bash python app.py ``` āđāļ­āļ›āļžāļĨāļīāđ€āļ„āļŠāļąāļ™āļˆāļ°āļ—āļģāļ‡āļēāļ™āļ—āļĩāđˆ: `http://localhost:7860` ## 📋 Schema āļ‚āļ­āļ‡ Dataset ```json { "id": "string", "context": "string", "question": "string", "options": ["string"] | null, "answer": "string", "rationale": "string", "category": "string", "difficulty": "easy|medium|hard", "source": "string", "language": "th|en|zh|ja" } ``` ## 📝 āļ•āļąāļ§āļ­āļĒāđˆāļēāļ‡āļāļēāļĢāđƒāļŠāđ‰āļ‡āļēāļ™ ### 1. āđ‚āļŦāļĨāļ”āļ‚āđ‰āļ­āļĄāļđāļĨāļˆāļēāļāđ„āļŸāļĨāđŒ CSV 1. āđ€āļĨāļ·āļ­āļ "local" āđƒāļ™āļ›āļĢāļ°āđ€āļ āļ—āđāļŦāļĨāđˆāļ‡āļ‚āđ‰āļ­āļĄāļđāļĨ 2. āļ­āļąāļ›āđ‚āļŦāļĨāļ”āđ„āļŸāļĨāđŒ CSV āļŦāļĢāļ·āļ­āđƒāļŠāđˆ path 3. āļāļ”āļ›āļļāđˆāļĄ "āļ”āļđāļ•āļąāļ§āļ­āļĒāđˆāļēāļ‡āļ‚āđ‰āļ­āļĄāļđāļĨ" ### 2. Generate āļ‚āđ‰āļ­āļĄāļđāļĨāđƒāļŦāļĄāđˆāļ”āđ‰āļ§āļĒ Ollama 1. āđ€āļĨāļ·āļ­āļ "ollama" āđƒāļ™ LLM Provider 2. āđ€āļĨāļ·āļ­āļāđ‚āļĄāđ€āļ”āļĨāļ—āļĩāđˆāļ•āđ‰āļ­āļ‡āļāļēāļĢ 3. āļ•āļąāđ‰āļ‡āļ„āđˆāļēāļāļēāļĢ generate (āļ›āļĢāļ°āđ€āļ āļ—, āļˆāļģāļ™āļ§āļ™, āļ āļēāļĐāļē) 4. āļĢāļąāļ™āđ€āļ§āļīāļĢāđŒāļāđ‚āļŸāļĨāļ§āđŒ ### 3. āļŠāđˆāļ‡āļ­āļ­āļāđ€āļ›āđ‡āļ™ Parquet 1. āđ€āļĨāļ·āļ­āļ "parquet" āđƒāļ™āļĢāļđāļ›āđāļšāļš Export 2. āđ„āļŸāļĨāđŒāļˆāļ°āļ–āļđāļāļŠāļĢāđ‰āļēāļ‡āļ”āđ‰āļ§āļĒāļŠāļ·āđˆāļ­āļ—āļĩāđˆāļĄāļĩ timestamp ## 🔧 āļāļēāļĢāļāļģāļŦāļ™āļ”āļ„āđˆāļē ### Ollama Setup ```bash # āļ•āļīāļ”āļ•āļąāđ‰āļ‡ Ollama curl -fsSL https://ollama.ai/install.sh | sh # āļ”āļēāļ§āļ™āđŒāđ‚āļŦāļĨāļ”āđ‚āļĄāđ€āļ”āļĨ ollama pull llama3.2 ollama pull gemma2 ``` ### DeepSeek API 1. āļŠāļĄāļąāļ„āļĢāļšāļąāļāļŠāļĩāļ—āļĩāđˆ [DeepSeek](https://www.deepseek.com) 2. āļĢāļąāļš API Key 3. āđƒāļŠāđˆ API Key āđƒāļ™āļŠāđˆāļ­āļ‡ "API Key" ## 📊 āļ•āļąāļ§āļ­āļĒāđˆāļēāļ‡āļœāļĨāļĨāļąāļžāļ˜āđŒ āļĢāļ°āļšāļšāļˆāļ°āđāļŠāļ”āļ‡āļŠāļ–āļīāļ•āļī Dataset: - āļˆāļģāļ™āļ§āļ™āļ‚āđ‰āļ­āļĄāļđāļĨāļ—āļąāđ‰āļ‡āļŦāļĄāļ” - āļāļēāļĢāļāļĢāļ°āļˆāļēāļĒāļ•āļēāļĄāļŦāļĄāļ§āļ”āļŦāļĄāļđāđˆ - āļĢāļ°āļ”āļąāļšāļ„āļ§āļēāļĄāļĒāļēāļ - āļ āļēāļĐāļēāļ—āļĩāđˆāđƒāļŠāđ‰ - āļˆāļģāļ™āļ§āļ™āļ—āļĩāđˆāļĄāļĩ Multiple Choice ## 🛠ïļ Development ### āđ‚āļ„āļĢāļ‡āļŠāļĢāđ‰āļēāļ‡āđ‚āļ„āđ‰āļ” ``` app.py # āđāļ­āļ›āļžāļĨāļīāđ€āļ„āļŠāļąāļ™āļŦāļĨāļąāļ requirements.txt # Dependencies sample_data.csv # āļ•āļąāļ§āļ­āļĒāđˆāļēāļ‡āļ‚āđ‰āļ­āļĄāļđāļĨ README.md # āđ€āļ­āļāļŠāļēāļĢāļ™āļĩāđ‰ ``` ### āļāļēāļĢāļžāļąāļ’āļ™āļēāļ•āđˆāļ­ 1. Fork repository 2. āļŠāļĢāđ‰āļēāļ‡ feature branch 3. Implement changes 4. Submit pull request ## ⚠ïļ āļ‚āđ‰āļ­āļˆāļģāļāļąāļ”āđāļĨāļ°āļ„āļģāđ€āļ•āļ·āļ­āļ™ ### āļāļēāļĢāđƒāļŠāđ‰āļ‡āļēāļ™ - āļĢāļ°āļšāļšāļˆāļģāļāļąāļ”āļāļēāļĢāļ›āļĢāļ°āļĄāļ§āļĨāļœāļĨāđ€āļžāļ·āđˆāļ­āļ›āļĢāļ°āļŠāļīāļ—āļ˜āļīāļ āļēāļž - āļāļēāļĢ generate āļ‚āļķāđ‰āļ™āļ­āļĒāļđāđˆāļāļąāļšāļ„āļļāļ“āļ āļēāļžāļ‚āļ­āļ‡āđ‚āļĄāđ€āļ”āļĨ AI - āļ•āđ‰āļ­āļ‡āļĄāļĩ API Key āļŠāļģāļŦāļĢāļąāļšāļšāļĢāļīāļāļēāļĢāļ āļēāļĒāļ™āļ­āļ ### āļ—āļĢāļąāļžāļĒāđŒāļŠāļīāļ™āļ—āļēāļ‡āļ›āļąāļāļāļē - āļĢāļ°āļšāļšāļ™āļĩāđ‰āđ€āļ›āđ‡āļ™āļ—āļĢāļąāļžāļĒāđŒāļŠāļīāļ™āļ—āļēāļ‡āļ›āļąāļāļāļē - āļŦāđ‰āļēāļĄāļ„āļąāļ”āļĨāļ­āļāļŦāļĢāļ·āļ­āđƒāļŠāđ‰āđ€āļŠāļīāļ‡āļžāļēāļ“āļīāļŠāļĒāđŒāđ‚āļ”āļĒāđ„āļĄāđˆāđ„āļ”āđ‰āļĢāļąāļšāļ­āļ™āļļāļāļēāļ• - āļ­āļ™āļļāļāļēāļ•āđƒāļŦāđ‰āđƒāļŠāđ‰āđ€āļžāļ·āđˆāļ­āļāļēāļĢāļĻāļķāļāļĐāļēāđāļĨāļ°āļ§āļīāļˆāļąāļĒāđ€āļ—āđˆāļēāļ™āļąāđ‰āļ™ ## 📞 āļāļēāļĢāļŠāļ™āļąāļšāļŠāļ™āļļāļ™ āļŠāļģāļŦāļĢāļąāļšāļ‚āđ‰āļ­āļŠāļ‡āļŠāļąāļĒāļŦāļĢāļ·āļ­āļ›āļąāļāļŦāļēāļāļēāļĢāđƒāļŠāđ‰āļ‡āļēāļ™: - āļ•āļĢāļ§āļˆāļŠāļ­āļš Issues āđƒāļ™ repository - āļ­āđˆāļēāļ™āđ€āļ­āļāļŠāļēāļĢāļ›āļĢāļ°āļāļ­āļš - āļ•āļīāļ”āļ•āđˆāļ­āļœāļđāđ‰āļžāļąāļ’āļ™āļē ## 📄 License CC BY-NC-ND 4.0 - āļŠāļ‡āļ§āļ™āļĨāļīāļ‚āļŠāļīāļ—āļ˜āļīāđŒ ÂĐ 2025 --- **āļŠāļĢāđ‰āļēāļ‡āļ”āđ‰āļ§āļĒ âĪïļ āļŠāļģāļŦāļĢāļąāļšāļŠāļļāļĄāļŠāļ™āļ™āļąāļāļ§āļīāļˆāļąāļĒāđāļĨāļ°āļ™āļąāļāļžāļąāļ’āļ™āļē AI**