#!/usr/bin/env bash
set -euo pipefail
cd /opt/ai-avatar-demo
export CUDA_VISIBLE_DEVICES=0
export PATH="/opt/ai-avatar-demo/services/sglang/.venv/bin:$PATH"
MODEL_PATH="/opt/ai-avatar-demo/models/sglang-smoke/hub/models--Qwen--Qwen2.5-0.5B-Instruct/snapshots/7ae557604adf67be50417f59c2c2f167def9a775"
PORT="30000"
LOG_FILE="/opt/ai-avatar-demo/logs/gate602_m3b_sglang_qwen2_5_0_5b.log"

echo "STARTING_SGLANG_MODEL_PATH=$MODEL_PATH"
echo "STARTING_SGLANG_PORT=$PORT"
echo "CUDA_VISIBLE_DEVICES=$CUDA_VISIBLE_DEVICES"
echo "PATH=$PATH"
echo "NINJA=$(command -v ninja || true)"

nohup /opt/ai-avatar-demo/services/sglang/.venv/bin/python -m sglang.launch_server \
  --model-path "$MODEL_PATH" \
  --host 0.0.0.0 \
  --port "$PORT" \
  --disable-cuda-graph \
  --disable-piecewise-cuda-graph \
  --attention-backend triton \
  --disable-overlap-schedule \
  > "$LOG_FILE" 2>&1 &

echo "SGLANG_PID=$!"
echo "SGLANG_LOG=$LOG_FILE"