Running LLM Model Locally with vLLM and others
Windows 11 WSL2
Windows Subsystem for Linux
安裝和執行各種 Linux 發行版
使用GNU/Linux套件管理員安裝軟體
Unix-like命令列界面
使用GPU加速AI工作負載
開啟Hyper-V、虛擬機器平台設定才能安裝WSL2
for Hyper-V
2. 安裝WSL Version 2 with Linux
wsl --installsudo apt update && sudo apt upgrade3. 安裝CUDA Toolkit for WSL2(ubuntu)
wget https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt-get update
sudo apt-get -y install cuda-toolkit-12-8隨選項不同產生不同指令
參考範例:選擇wsl-ubuntu的情形
4. 確認nvcc路徑
nvcc --versionexport PATH="/usr/local/cuda-12.8/bin:$PATH"
export LD_LIBRARY_PATH="/usr/local/cuda-12.8/lib64:$LD_LIBRARY_PATH"source ~/.bashrc
nvcc --version
nvidia-smi.exepython3 -m venv .myenvsource ./.myenv/bin/activatepip install vllm
vllm serve facebook/opt-125m5. 建立與啟用Python虛擬環境
以facebook/opt-125m為例
登入後申請agreement
python -m vllm.entrypoints.openai.api_server --model=meta-llama/Llama-3.2-1B-Instruct --max-model-len 4096pip install "huggingface_hub[cli]"==0.36.2
huggingface-cli loginexport HF_TOKEN=貼上TOKEN於提示列貼上token
token貼於此
n
token合法
或是設定HF_TOKEN環境變數
vllm requires<5,>=4.56
transformers 4.57.6 requires huggingface-hub<1.0,>=0.34.0
--max-model-len可限制token數量
支援超過140種語言
Function Calling
developer friendly model size: 270M, 1B, 4B, 12B, 27B)
it: instruction trainning
pt: pre-trained
pip install vllm
# 需要 transformers 4.56版之後, <5版
pip install transformers==4.57.6
# sudo需輸入密碼
sudo apt-get install python3-dev
# GPU記憶體預設保留0.9, 改成0.8
vllm serve google/gemma-3-1b-it --gpu-memory-utilization 0.8--gpu-memory-utilization
requested_memory = total_gpu_memory × gpu_memory_utilization
gemma-3-1b也需要token: 註冊HuggingFace帳號,建立HF_TOKEN
成功啟動於localhost:8000
curl -X POST "http://localhost:8000/v1/chat/completions" \
-H "Content-Type: application/json" \
--data '{
"model": "google/gemma-3-1b-it",
"messages": [
{
"role": "user",
"content": "What is the capital of France?"
}
]
}'測試問題
執行llm模型時,記憶體不足經常發生
Text
跑模型佔用7G
測試結果
量化(quantization)模型 參考
參數精確度 換取 所需記憶體
以ggml-org/gemma-3-4b-it-GGUF為例