Models
Datasets
Spaces
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2508.19205

Frontier Text-to-Speech Models https://microsoft.github.io/VibeVoice/

microsoft/VibeVoice-1.5B

Text-to-Speech • 3B • Updated 1 day ago • 134k • 1.25k
microsoft/VibeVoice-Large

Text-to-Speech • 9B • Updated 1 day ago • 2.24k • 103
microsoft/VibeVoice-Tokenizer

Updated 8 days ago • 19
VibeVoice Technical Report

Paper • 2508.19205 • Published 7 days ago • 113

AI Paper of the Day

A collection of papers that I think are interesting, one added each day

Can Large Language Models Understand Context?

Paper • 2402.00858 • Published Feb 1, 2024 • 24
OLMo: Accelerating the Science of Language Models

Paper • 2402.00838 • Published Feb 1, 2024 • 84
Self-Rewarding Language Models

Paper • 2401.10020 • Published Jan 18, 2024 • 152
SemScore: Automated Evaluation of Instruction-Tuned LLMs based on Semantic Textual Similarity

Paper • 2401.17072 • Published Jan 30, 2024 • 24

Packing Input Frame Context in Next-Frame Prediction Models for Video Generation

Paper • 2504.12626 • Published Apr 17 • 52
Qwen3 Technical Report

Paper • 2505.09388 • Published May 14 • 283
Qwen-Image Technical Report

Paper • 2508.02324 • Published 29 days ago • 239
DINOv3

Paper • 2508.10104 • Published 20 days ago • 230

Bugai's Collection

Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learning

Paper • 2508.20751 • Published 5 days ago • 85
TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling

Paper • 2508.17445 • Published 9 days ago • 75
VoxHammer: Training-Free Precise and Coherent 3D Editing in Native 3D Space

Paper • 2508.19247 • Published 7 days ago • 38
VibeVoice Technical Report

Paper • 2508.19205 • Published 7 days ago • 113

about 7 hours ago

LNS-Madam: Low-Precision Training in Logarithmic Number System using Multiplicative Weight Update

Paper • 2106.13914 • Published Jun 26, 2021 • 1
HeurAgenix: Leveraging LLMs for Solving Complex Combinatorial Optimization Challenges

Paper • 2506.15196 • Published Jun 18 • 3
Ascend HiFloat8 Format for Deep Learning

Paper • 2409.16626 • Published Sep 25, 2024 • 1
Recipes for Pre-training LLMs with MXFP8

Paper • 2506.08027 • Published May 30 • 1

DocLLM: A layout-aware generative language model for multimodal document understanding

Paper • 2401.00908 • Published Dec 31, 2023 • 189
COSMO: COntrastive Streamlined MultimOdal Model with Interleaved Pre-Training

Paper • 2401.00849 • Published Jan 1, 2024 • 17
LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents

Paper • 2311.05437 • Published Nov 9, 2023 • 51
LLaVA-Interactive: An All-in-One Demo for Image Chat, Segmentation, Generation and Editing

Paper • 2311.00571 • Published Nov 1, 2023 • 43

VibeVoice Technical Report

Paper • 2508.19205 • Published 7 days ago • 113

VibeVoice Technical Report

Paper • 2508.19205 • Published 7 days ago • 113

VibeVoice Technical Report

Paper • 2508.19205 • Published 7 days ago • 113

about 14 hours ago

SoundCTM: Uniting Score-based and Consistency Models for Text-to-Sound Generation

Paper • 2405.18503 • Published May 28, 2024 • 9
DITTO-2: Distilled Diffusion Inference-Time T-Optimization for Music Generation

Paper • 2405.20289 • Published May 30, 2024 • 11
LiveSpeech: Low-Latency Zero-shot Text-to-Speech via Autoregressive Modeling of Audio Discrete Codes

Paper • 2406.02897 • Published Jun 5, 2024 • 16
Audio Mamba: Bidirectional State Space Model for Audio Representation Learning

Paper • 2406.03344 • Published Jun 5, 2024 • 21

Frontier Text-to-Speech Models https://microsoft.github.io/VibeVoice/

microsoft/VibeVoice-1.5B

Text-to-Speech • 3B • Updated 1 day ago • 134k • 1.25k
microsoft/VibeVoice-Large

Text-to-Speech • 9B • Updated 1 day ago • 2.24k • 103
microsoft/VibeVoice-Tokenizer

Updated 8 days ago • 19
VibeVoice Technical Report

Paper • 2508.19205 • Published 7 days ago • 113

DocLLM: A layout-aware generative language model for multimodal document understanding

Paper • 2401.00908 • Published Dec 31, 2023 • 189
COSMO: COntrastive Streamlined MultimOdal Model with Interleaved Pre-Training

Paper • 2401.00849 • Published Jan 1, 2024 • 17
LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents

Paper • 2311.05437 • Published Nov 9, 2023 • 51
LLaVA-Interactive: An All-in-One Demo for Image Chat, Segmentation, Generation and Editing

Paper • 2311.00571 • Published Nov 1, 2023 • 43

AI Paper of the Day

A collection of papers that I think are interesting, one added each day

Can Large Language Models Understand Context?

Paper • 2402.00858 • Published Feb 1, 2024 • 24
OLMo: Accelerating the Science of Language Models

Paper • 2402.00838 • Published Feb 1, 2024 • 84
Self-Rewarding Language Models

Paper • 2401.10020 • Published Jan 18, 2024 • 152
SemScore: Automated Evaluation of Instruction-Tuned LLMs based on Semantic Textual Similarity

Paper • 2401.17072 • Published Jan 30, 2024 • 24

VibeVoice Technical Report

Paper • 2508.19205 • Published 7 days ago • 113

Packing Input Frame Context in Next-Frame Prediction Models for Video Generation

Paper • 2504.12626 • Published Apr 17 • 52
Qwen3 Technical Report

Paper • 2505.09388 • Published May 14 • 283
Qwen-Image Technical Report

Paper • 2508.02324 • Published 29 days ago • 239
DINOv3

Paper • 2508.10104 • Published 20 days ago • 230

VibeVoice Technical Report

Paper • 2508.19205 • Published 7 days ago • 113

Bugai's Collection

Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learning

Paper • 2508.20751 • Published 5 days ago • 85
TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling

Paper • 2508.17445 • Published 9 days ago • 75
VoxHammer: Training-Free Precise and Coherent 3D Editing in Native 3D Space

Paper • 2508.19247 • Published 7 days ago • 38
VibeVoice Technical Report

Paper • 2508.19205 • Published 7 days ago • 113

VibeVoice Technical Report

Paper • 2508.19205 • Published 7 days ago • 113

about 7 hours ago

LNS-Madam: Low-Precision Training in Logarithmic Number System using Multiplicative Weight Update

Paper • 2106.13914 • Published Jun 26, 2021 • 1
HeurAgenix: Leveraging LLMs for Solving Complex Combinatorial Optimization Challenges

Paper • 2506.15196 • Published Jun 18 • 3
Ascend HiFloat8 Format for Deep Learning

Paper • 2409.16626 • Published Sep 25, 2024 • 1
Recipes for Pre-training LLMs with MXFP8

Paper • 2506.08027 • Published May 30 • 1

about 14 hours ago

SoundCTM: Uniting Score-based and Consistency Models for Text-to-Sound Generation

Paper • 2405.18503 • Published May 28, 2024 • 9
DITTO-2: Distilled Diffusion Inference-Time T-Optimization for Music Generation

Paper • 2405.20289 • Published May 30, 2024 • 11
LiveSpeech: Low-Latency Zero-shot Text-to-Speech via Autoregressive Modeling of Audio Discrete Codes

Paper • 2406.02897 • Published Jun 5, 2024 • 16
Audio Mamba: Bidirectional State Space Model for Audio Representation Learning

Paper • 2406.03344 • Published Jun 5, 2024 • 21

Previous
1
2
Next

Company

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs