Self-Hosted LLMs for Enterprise #1

ในยุคที่ Generative AI กลายเป็นผู้ช่วยประจำวันของใครหลายคน ไม่ว่าจะเขียนโค้ด ตอบคำถาม หรือสรุปรายงาน หลายองค์กรเริ่มสนใจจะ ติดตั้งและใช้งาน LLM ภายในเอง เพื่อความเป็นส่วนตัว ความยืดหยุ่น และควบคุมต้นทุน ซีรีส์นี้จะพาไปตั้งค่าระบบทีละขั้น ตั้งแต่ติดตั้งไดรเวอร์ ไปจนถึงรัน LLM ผ่าน API ได้ในเครื่อง Ubuntu ของคุณเอง
Infrastructure ที่เลือกใช้ในบทความนี้จะเป็นของ AWS ซึ่งเราจะเลือกใช้ EC2 เป็นเครื่องสำหรับการทำ Demo กันนะครับ
สำหรับ Instance Type ที่เลือกใช้จะเป็น g5g.xlarge ที่มี GPU ให้ใช้งาน
1.หาค่า $distro
และ $arch
ให้ตรงกับระบบของเรา
เปิดตารางเทียบได้จาก Official Document
📄 NVIDIA Supported Linux Distributions Table
จากตัวอย่างเครื่อง demo ของเราเป็น:
- Ubuntu 24.04 LTS
- Architecture: arm64
เราจะได้ค่า:
$distro = ubuntu2404
$arch = sbsa
$arch_ext = sbsa
ถ้าใช้งานกับเครื่อง spec อื่นต้องเช็คให้ค่าให้ตรงกับเครื่องที่ใช้ด้วยนะ
2.ติดตั้ง keyring ของ NVIDIA ด้วยค่า $distro
และ $arch
ที่ได้จากขั้นตอนที่แล้ว
# ตัวอย่าง: ถ้าใช้ Ubuntu 24.04 + ARM64 (จากขั้นตอนที่ 1)
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/sbsa/cuda-keyring_1.1-1_all.deb
# ติดตั้ง keyring
sudo dpkg -i cuda-keyring_1.1-1_all.deb
# อัปเดต
apt index sudo apt update
3.ติดตั้ง NVIDIA Proprietary Driver และ CUDA Toolkit
sudo apt install cuda-drivers
sudo apt install cuda-toolkit
4.ตรวจสอบการทำงานของ Driver
nvidia-smi
สรุป Part 1
ในบทนี้สิ่งที่จะได้:
- ตรวจสอบข้อมูลระบบเพื่อใช้เลือกเวอร์ชัน driver ให้ถูกต้อง
- เชื่อมต่อ Ubuntu กับ NVIDIA Repository
- ติดตั้ง NVIDIA proprietary GPU driver แบบง่ายด้วยคำสั่ง
apt
- ตรวจสอบการทำงานของ GPU ด้วย
nvidia-smi
หากทำตามนี้เครื่องก็จะพร้อมสำหรับการใช้งาน GPU แล้ว ✅
Next: ใช้ GPU ร่วมกับ Docker Container
ในตอนต่อไป เราจะมาดูวิธี:
- ตั้งค่าให้ Docker ใช้ GPU ได้อย่างถูกต้อง
- ติดตั้ง
nvidia-container-toolkit
- และเตรียม environment สำหรับรัน LLM API แบบ Work-from-Home หรือภายในองค์กร
อย่าลืมติดตามตอนต่อไปครับ! 🙌