sarvamai
/

sarvam-m

@@ -108,6 +108,31 @@ response = client.chat.completions.create(
     # reasoning_effort="low",  # set either of 3 values to enable reasoning
 )
 print(response.choices[0].message.content)
 ```
 # VLLM Deployment

     # reasoning_effort="low",  # set either of 3 values to enable reasoning
 )
 print(response.choices[0].message.content)
+response1 = client.chat.completions.create(
+    model=model_name,
+    messages=[
+        {"role": "system", "content": "You're a helpful AI assistant"},
+        {"role": "user", "content": "Explain quantum computing in simple terms"}
+    ],
+    max_completion_tokens=4096,
+    reasoning_effort="medium"  # Optional reasoning mode
+)
+print("First response:", response1.choices[0].message.content)
+# Second turn (using previous response as context)
+response2 = client.chat.completions.create(
+    model=model_name,
+    messages=[
+        {"role": "system", "content": "You're a helpful AI assistant"},
+        {"role": "user", "content": "Explain quantum computing in simple terms"},
+        {"role": "assistant", "content": response1.choices[0].message.content},  # Previous response
+        {"role": "user", "content": "Can you give an analogy for superposition?"}
+    ],
+    reasoning_effort="high",
+    max_completion_tokens=8192,
+)
+print("Follow-up response:", response2.choices[0].message.content)
 ```
 # VLLM Deployment