Spaces:

wcy1122
/

MGM-Omni

Running on Zero

wcy1122 commited on 4 days ago

Commit

8ac9028

1 Parent(s): 9f73e8a

update streamer

Files changed (2) hide show

mgm/model/multimodal_generator/mgm_omni_streamer.py CHANGED Viewed

@@ -18,8 +18,9 @@ class MGMOmniStreamer(TextIteratorStreamer):
         self.cosyvoice = cosyvoice
         self.cosyvoice.hift_cache_dict[self.uuid] = None
         self.max_audio_token = max_audio_token - 2
-        self.hop_len = 100
-        self.this_hop_len = 100
         self.lookahead_len = self.cosyvoice.flow.pre_lookahead_len
         self.token_offset = 0
         self.speech_tokens = None
@@ -77,7 +78,8 @@ class MGMOmniStreamer(TextIteratorStreamer):
         try:
             token_offset = self.token_offset
             self.token_offset += self.this_hop_len
-            self.this_hop_len = self.hop_len * 2
             cur_audio = self.cosyvoice.token2wav(
                 token=self.speech_tokens[:, :self.token_offset + self.lookahead_len],
                 prompt_token=self.ref_tokens,

         self.cosyvoice = cosyvoice
         self.cosyvoice.hift_cache_dict[self.uuid] = None
         self.max_audio_token = max_audio_token - 2
+        self.hop_len = 200
+        self.this_hop_len = 200
+        self.block_rate = 2
         self.lookahead_len = self.cosyvoice.flow.pre_lookahead_len
         self.token_offset = 0
         self.speech_tokens = None
         try:
             token_offset = self.token_offset
             self.token_offset += self.this_hop_len
+            self.this_hop_len = min(self.hop_len * self.block_rate, 3200)
+            self.block_rate *= 2
             cur_audio = self.cosyvoice.token2wav(
                 token=self.speech_tokens[:, :self.token_offset + self.lookahead_len],
                 prompt_token=self.ref_tokens,

third_party/cosyvoice/flow/flow_matching.py CHANGED Viewed

@@ -156,7 +156,7 @@ class CausalConditionalCFM(ConditionalCFM):
     def __init__(self, in_channels, cfm_params, n_spks=1, spk_emb_dim=64, estimator: torch.nn.Module = None):
         super().__init__(in_channels, cfm_params, n_spks, spk_emb_dim, estimator)
         set_all_random_seed(0)
-        self.rand_noise = torch.randn([1, 80, 50 * 300])
     @torch.inference_mode()
     def forward(self, mu, mask, n_timesteps, temperature=1.0, spks=None, cond=None, streaming=False):

     def __init__(self, in_channels, cfm_params, n_spks=1, spk_emb_dim=64, estimator: torch.nn.Module = None):
         super().__init__(in_channels, cfm_params, n_spks, spk_emb_dim, estimator)
         set_all_random_seed(0)
+        self.rand_noise = torch.randn([1, 80, 50 * 300 * 2])
     @torch.inference_mode()
     def forward(self, mu, mask, n_timesteps, temperature=1.0, spks=None, cond=None, streaming=False):