Thai

Self-Hosted LLMs for Enterprise #3

matichon maneegard

09 Jun 2025 — 1 min read

สำหรับใครที่เพิ่งเข้ามาเจอตอนนี้สามารถย้อนกลับไปอ่าน 2 ตอนก่อนหน้าได้ที่

https://blog.float16.cloud/self-hosted-llms-for-enterprise-1/

https://blog.float16.cloud/self-hosted-llms-for-enterprise-2/

2 ตอนที่ผ่านมา เราได้ติดตั้ง GPU Driver และเชื่อม GPU เข้ากับ Docker ได้เรียบร้อยแล้ว
บทนี้เราจะมาติดตั้งเครื่องมือสำคัญที่จำเป็นสำหรับ ดาวน์โหลดโมเดล LLM และ รัน inference server ผ่าน API กันต่อ

สิ่งที่ต้องมีล่วงหน้า

Python version 3.10 ขึ้นไป
git command line
ใช้งานใน Docker container หรือ VM/EC2 ก็ได้
ติดตั้ง GPU Driver และ NVIDIA Container Toolkit เรียบร้อยแล้ว

1.ติดตั้ง Hugging Face CLI

Hugging Face คืออะไร?

Hugging Face เป็นเหมือน GitHub สำหรับโมเดล AI โดยคุณสามารถ:

ดาวน์โหลดโมเดล (เช่น LLaMA, Mistral, Phi-2)
แชร์และค้นหา dataset สำหรับการ train model
ทำงานร่วมกับ Open Source community ได้ง่าย

การติดตั้ง CLI แนะนำให้สมัคร Hugging Face Account ให้เสร็จก่อนที่ https://huggingface.co/join

ติดตั้ง CLI

pip install huggingface-hub[cli]==0.23.2

หากติดตั้งเสร็จแล้วเจอ warning แบบนี้

WARNING: The script huggingface-cli is installed in '/home/ubuntu/.local/bin' which is not on PATH

ให้เพิ่ม PATH เข้าไปด้วยคำสั่งนี้

echo 'export PATH=$PATH:/home/ubuntu/.local/bin' >> ~/.bashrc
source ~/.bashrc

จากนั้นลองรัน

huggingface-cli --help

สร้าง Access Token

เข้าไปหน้า Profile > Setting > Access Tokens
Create new token
ระบุ Token name
ปรับ Token type เป็น READ
Create Token

เนื่องจากบาง repository จำเป็นต้องมีการยืนยันตัวตนก่อน download model เลยอยากแนะนำว่าให้ login ไว้ก่อนจะสะดวกกว่า

huggingface-cli login <token>

2: ติดตั้ง llama-cpp-python

llama-cpp-python เป็น open source library ที่ใช้รัน LLM แบบ lightweight โดยรองรับ CUDA สำหรับใช้งานกับ GPU

ประกาศ environment ที่จำเป็นต่อการติดตั้ง

export CUDACXX=/usr/local/cuda-12.9/bin/nvcc

ติดตั้ง llama-cpp-python

CMAKE_ARGS="-DGGML_CUDA=on -DCMAKE_CUDA_ARCHITECTURES=75" pip install llama-cpp-python==0.3.8

CMAKE_CUDA_ARCHITECTURES=75 คือ compute capability สำหรับ A10G / T4 / V100 (ตรวจสอบค่าให้เหมาะกับ GPU ของเครื่องที่ใช้โดยเช็คได้จาก https://developer.nvidia.com/cuda-gpus
สำหรับ EC2 g5g ที่เราใช้ Demo จะเป็น GPU NVIDIA T4 ดังนั้น compute capability จึงเป็น 7.5 (ใน argument ให้เราเอาจุดออกเหลือเป็น 75)

สรุปตอนที่ 3

ในบทนี้เราได้เตรียมความพร้อมโดย:

ติดตั้ง Hugging Face CLI เพื่อดาวน์โหลด LLM model จาก community
ติดตั้ง llama-cpp-python สำหรับ inference ด้วย GPU

จนถึงตอนนี้เราได้เตรียมเครื่องมือสำคัญทั้งหมดพร้อมแล้ว ตอนหน้าถึงว่าเวลาที่เราจะได้ deploy llm ขึ้นมาใช้งานเป็นของตัวเองแล้ว พร้อมทั้งเรียนรู้วิธีการใช้งานผ่าน API ยังไงก็ฝากติดตามกันต่อด้วยนะครับ

Self-Hosted LLMs for Enterprise #3

matichon maneegard

1.ติดตั้ง Hugging Face CLI

Hugging Face คืออะไร?

ติดตั้ง CLI

สร้าง Access Token

2: ติดตั้ง llama-cpp-python

สรุปตอนที่ 3

Read more

Self-Host LLM ใช้การ์ดจอใบไหนดี

Float16 @ Techsauce Global Summit 2025

Float16 @ Techsauce Global Summit 2025

Typhoon-OCR-7b พร้อมใช้แล้ว !!

1.ติดตั้ง Hugging Face CLI

Hugging Face คืออะไร?

ติดตั้ง CLI

สร้าง Access Token

Login ด้วย token

2: ติดตั้ง llama-cpp-python

สรุปตอนที่ 3

Read more

Self-Host LLM ใช้การ์ดจอใบไหนดี

Float16 @ Techsauce Global Summit 2025

Float16 @ Techsauce Global Summit 2025

Typhoon-OCR-7b พร้อมใช้แล้ว !!