Self-Hosted LLMs for Enterprise #3

Self-Hosted LLMs for Enterprise #3

สำหรับใครที่เพิ่งเข้ามาเจอตอนนี้สามารถย้อนกลับไปอ่าน 2 ตอนก่อนหน้าได้ที่

https://blog.float16.cloud/self-hosted-llms-for-enterprise-1/

https://blog.float16.cloud/self-hosted-llms-for-enterprise-2/

2 ตอนที่ผ่านมา เราได้ติดตั้ง GPU Driver และเชื่อม GPU เข้ากับ Docker ได้เรียบร้อยแล้ว
บทนี้เราจะมาติดตั้งเครื่องมือสำคัญที่จำเป็นสำหรับ ดาวน์โหลดโมเดล LLM และ รัน inference server ผ่าน API กันต่อ

สิ่งที่ต้องมีล่วงหน้า

  • Python version 3.10 ขึ้นไป
  • git command line
  • ใช้งานใน Docker container หรือ VM/EC2 ก็ได้
  • ติดตั้ง GPU Driver และ NVIDIA Container Toolkit เรียบร้อยแล้ว

1.ติดตั้ง Hugging Face CLI

Hugging Face คืออะไร?

Hugging Face เป็นเหมือน GitHub สำหรับโมเดล AI โดยคุณสามารถ:

  • ดาวน์โหลดโมเดล (เช่น LLaMA, Mistral, Phi-2)
  • แชร์และค้นหา dataset สำหรับการ train model
  • ทำงานร่วมกับ Open Source community ได้ง่าย

การติดตั้ง CLI แนะนำให้สมัคร Hugging Face Account ให้เสร็จก่อนที่ https://huggingface.co/join

ติดตั้ง CLI

pip install huggingface-hub[cli]==0.23.2

หากติดตั้งเสร็จแล้วเจอ warning แบบนี้

WARNING: The script huggingface-cli is installed in '/home/ubuntu/.local/bin' which is not on PATH

ให้เพิ่ม PATH เข้าไปด้วยคำสั่งนี้

echo 'export PATH=$PATH:/home/ubuntu/.local/bin' >> ~/.bashrc
source ~/.bashrc

จากนั้นลองรัน

huggingface-cli --help

สร้าง Access Token

  • เข้าไปหน้า Profile > Setting > Access Tokens
  • Create new token
  • ระบุ Token name
  • ปรับ Token type เป็น READ
  • Create Token

Login ด้วย token

เนื่องจากบาง repository จำเป็นต้องมีการยืนยันตัวตนก่อน download model เลยอยากแนะนำว่าให้ login ไว้ก่อนจะสะดวกกว่า

huggingface-cli login <token>

2: ติดตั้ง llama-cpp-python

llama-cpp-python เป็น open source library ที่ใช้รัน LLM แบบ lightweight โดยรองรับ CUDA สำหรับใช้งานกับ GPU

ประกาศ environment ที่จำเป็นต่อการติดตั้ง

export CUDACXX=/usr/local/cuda-12.9/bin/nvcc

ติดตั้ง llama-cpp-python

CMAKE_ARGS="-DGGML_CUDA=on -DCMAKE_CUDA_ARCHITECTURES=75" pip install llama-cpp-python==0.3.8

CMAKE_CUDA_ARCHITECTURES=75 คือ compute capability สำหรับ A10G / T4 / V100 (ตรวจสอบค่าให้เหมาะกับ GPU ของเครื่องที่ใช้โดยเช็คได้จาก https://developer.nvidia.com/cuda-gpus
สำหรับ EC2 g5g ที่เราใช้ Demo จะเป็น GPU NVIDIA T4 ดังนั้น compute capability จึงเป็น 7.5 (ใน argument ให้เราเอาจุดออกเหลือเป็น 75)

สรุปตอนที่ 3

ในบทนี้เราได้เตรียมความพร้อมโดย:

  • ติดตั้ง Hugging Face CLI เพื่อดาวน์โหลด LLM model จาก community
  • ติดตั้ง llama-cpp-python สำหรับ inference ด้วย GPU

จนถึงตอนนี้เราได้เตรียมเครื่องมือสำคัญทั้งหมดพร้อมแล้ว ตอนหน้าถึงว่าเวลาที่เราจะได้ deploy llm ขึ้นมาใช้งานเป็นของตัวเองแล้ว พร้อมทั้งเรียนรู้วิธีการใช้งานผ่าน API ยังไงก็ฝากติดตามกันต่อด้วยนะครับ

Read more

Typhoon-OCR-7b พร้อมใช้แล้ว !!

Typhoon-OCR-7b พร้อมใช้แล้ว !!

Typhoon-OCR-7b สามารถใช้ผ่าน AI as a Service ของ Float16 ได้แล้ววันนี้ รายละเอียด Typhoon-OCR-7b Typhoon-OCR-7b เป็น Model จากทีม Typhoon (SCB10X) โดยเป็นการต่อยอดจาก Model Qwen-2.5-vl-7b Typhoon-OCR-7b มีประสิทธิภาพ OCR ได้ดีกว่า GPT-4o และ Gemini 2.5 ซึ่งสามารถนำไปใช้ได้อย่

By matichon maneegard