Self-Hosted LLMs for Enterprise #3

สำหรับใครที่เพิ่งเข้ามาเจอตอนนี้สามารถย้อนกลับไปอ่าน 2 ตอนก่อนหน้าได้ที่
https://blog.float16.cloud/self-hosted-llms-for-enterprise-1/
https://blog.float16.cloud/self-hosted-llms-for-enterprise-2/
2 ตอนที่ผ่านมา เราได้ติดตั้ง GPU Driver และเชื่อม GPU เข้ากับ Docker ได้เรียบร้อยแล้ว
บทนี้เราจะมาติดตั้งเครื่องมือสำคัญที่จำเป็นสำหรับ ดาวน์โหลดโมเดล LLM และ รัน inference server ผ่าน API กันต่อ
สิ่งที่ต้องมีล่วงหน้า
- Python version 3.10 ขึ้นไป
- git command line
- ใช้งานใน Docker container หรือ VM/EC2 ก็ได้
- ติดตั้ง GPU Driver และ NVIDIA Container Toolkit เรียบร้อยแล้ว
1.ติดตั้ง Hugging Face CLI
Hugging Face คืออะไร?
Hugging Face เป็นเหมือน GitHub สำหรับโมเดล AI โดยคุณสามารถ:
- ดาวน์โหลดโมเดล (เช่น LLaMA, Mistral, Phi-2)
- แชร์และค้นหา dataset สำหรับการ train model
- ทำงานร่วมกับ Open Source community ได้ง่าย
การติดตั้ง CLI แนะนำให้สมัคร Hugging Face Account ให้เสร็จก่อนที่ https://huggingface.co/join
ติดตั้ง CLI
pip install huggingface-hub[cli]==0.23.2
หากติดตั้งเสร็จแล้วเจอ warning แบบนี้
WARNING: The script huggingface-cli is installed in '/home/ubuntu/.local/bin' which is not on PATH
ให้เพิ่ม PATH เข้าไปด้วยคำสั่งนี้
echo 'export PATH=$PATH:/home/ubuntu/.local/bin' >> ~/.bashrc
source ~/.bashrc
จากนั้นลองรัน
huggingface-cli --help
สร้าง Access Token
- เข้าไปหน้า Profile > Setting > Access Tokens
- Create new token
- ระบุ Token name
- ปรับ Token type เป็น READ
- Create Token
Login ด้วย token
เนื่องจากบาง repository จำเป็นต้องมีการยืนยันตัวตนก่อน download model เลยอยากแนะนำว่าให้ login ไว้ก่อนจะสะดวกกว่า
huggingface-cli login <token>
2: ติดตั้ง llama-cpp-python
llama-cpp-python เป็น open source library ที่ใช้รัน LLM แบบ lightweight โดยรองรับ CUDA สำหรับใช้งานกับ GPU
ประกาศ environment ที่จำเป็นต่อการติดตั้ง
export CUDACXX=/usr/local/cuda-12.9/bin/nvcc
ติดตั้ง llama-cpp-python
CMAKE_ARGS="-DGGML_CUDA=on -DCMAKE_CUDA_ARCHITECTURES=75" pip install llama-cpp-python==0.3.8
CMAKE_CUDA_ARCHITECTURES=75 คือ compute capability สำหรับ A10G / T4 / V100 (ตรวจสอบค่าให้เหมาะกับ GPU ของเครื่องที่ใช้โดยเช็คได้จาก https://developer.nvidia.com/cuda-gpus
สำหรับ EC2 g5g ที่เราใช้ Demo จะเป็น GPU NVIDIA T4 ดังนั้น compute capability จึงเป็น 7.5 (ใน argument ให้เราเอาจุดออกเหลือเป็น 75)
สรุปตอนที่ 3
ในบทนี้เราได้เตรียมความพร้อมโดย:
- ติดตั้ง Hugging Face CLI เพื่อดาวน์โหลด LLM model จาก community
- ติดตั้ง
llama-cpp-python
สำหรับ inference ด้วย GPU
จนถึงตอนนี้เราได้เตรียมเครื่องมือสำคัญทั้งหมดพร้อมแล้ว ตอนหน้าถึงว่าเวลาที่เราจะได้ deploy llm ขึ้นมาใช้งานเป็นของตัวเองแล้ว พร้อมทั้งเรียนรู้วิธีการใช้งานผ่าน API ยังไงก็ฝากติดตามกันต่อด้วยนะครับ