Self-Hosted LLMs for Enterprise #3

Self-Hosted LLMs for Enterprise #3

สำหรับใครที่เพิ่งเข้ามาเจอตอนนี้สามารถย้อนกลับไปอ่าน 2 ตอนก่อนหน้าได้ที่

https://blog.float16.cloud/self-hosted-llms-for-enterprise-1/

https://blog.float16.cloud/self-hosted-llms-for-enterprise-2/

2 ตอนที่ผ่านมา เราได้ติดตั้ง GPU Driver และเชื่อม GPU เข้ากับ Docker ได้เรียบร้อยแล้ว
บทนี้เราจะมาติดตั้งเครื่องมือสำคัญที่จำเป็นสำหรับ ดาวน์โหลดโมเดล LLM และ รัน inference server ผ่าน API กันต่อ

สิ่งที่ต้องมีล่วงหน้า

  • Python version 3.10 ขึ้นไป
  • git command line
  • ใช้งานใน Docker container หรือ VM/EC2 ก็ได้
  • ติดตั้ง GPU Driver และ NVIDIA Container Toolkit เรียบร้อยแล้ว

1.ติดตั้ง Hugging Face CLI

Hugging Face คืออะไร?

Hugging Face เป็นเหมือน GitHub สำหรับโมเดล AI โดยคุณสามารถ:

  • ดาวน์โหลดโมเดล (เช่น LLaMA, Mistral, Phi-2)
  • แชร์และค้นหา dataset สำหรับการ train model
  • ทำงานร่วมกับ Open Source community ได้ง่าย

การติดตั้ง CLI แนะนำให้สมัคร Hugging Face Account ให้เสร็จก่อนที่ https://huggingface.co/join

ติดตั้ง CLI

pip install huggingface-hub[cli]==0.23.2

หากติดตั้งเสร็จแล้วเจอ warning แบบนี้

WARNING: The script huggingface-cli is installed in '/home/ubuntu/.local/bin' which is not on PATH

ให้เพิ่ม PATH เข้าไปด้วยคำสั่งนี้

echo 'export PATH=$PATH:/home/ubuntu/.local/bin' >> ~/.bashrc
source ~/.bashrc

จากนั้นลองรัน

huggingface-cli --help

สร้าง Access Token

  • เข้าไปหน้า Profile > Setting > Access Tokens
  • Create new token
  • ระบุ Token name
  • ปรับ Token type เป็น READ
  • Create Token

Login ด้วย token

เนื่องจากบาง repository จำเป็นต้องมีการยืนยันตัวตนก่อน download model เลยอยากแนะนำว่าให้ login ไว้ก่อนจะสะดวกกว่า

huggingface-cli login <token>

2: ติดตั้ง llama-cpp-python

llama-cpp-python เป็น open source library ที่ใช้รัน LLM แบบ lightweight โดยรองรับ CUDA สำหรับใช้งานกับ GPU

ประกาศ environment ที่จำเป็นต่อการติดตั้ง

export CUDACXX=/usr/local/cuda-12.9/bin/nvcc

ติดตั้ง llama-cpp-python

CMAKE_ARGS="-DGGML_CUDA=on -DCMAKE_CUDA_ARCHITECTURES=75" pip install llama-cpp-python==0.3.8

CMAKE_CUDA_ARCHITECTURES=75 คือ compute capability สำหรับ A10G / T4 / V100 (ตรวจสอบค่าให้เหมาะกับ GPU ของเครื่องที่ใช้โดยเช็คได้จาก https://developer.nvidia.com/cuda-gpus
สำหรับ EC2 g5g ที่เราใช้ Demo จะเป็น GPU NVIDIA T4 ดังนั้น compute capability จึงเป็น 7.5 (ใน argument ให้เราเอาจุดออกเหลือเป็น 75)

สรุปตอนที่ 3

ในบทนี้เราได้เตรียมความพร้อมโดย:

  • ติดตั้ง Hugging Face CLI เพื่อดาวน์โหลด LLM model จาก community
  • ติดตั้ง llama-cpp-python สำหรับ inference ด้วย GPU

จนถึงตอนนี้เราได้เตรียมเครื่องมือสำคัญทั้งหมดพร้อมแล้ว ตอนหน้าถึงว่าเวลาที่เราจะได้ deploy llm ขึ้นมาใช้งานเป็นของตัวเองแล้ว พร้อมทั้งเรียนรู้วิธีการใช้งานผ่าน API ยังไงก็ฝากติดตามกันต่อด้วยนะครับ

Read more

ทำ Data Extraction จาก image โดยใช้ LLM Multimodal

ทำ Data Extraction จาก image โดยใช้ LLM Multimodal

ในการทำ Data Extraction จากรูปภาพ เช่น สลิปใบเสร็จ, บัตรประชาชน, หรือแบบฟอร์มกระดาษ วิธีดั้งเดิมมักใช้ OCR (Optical Character Recognition) ร่วมกับการเขียน rule หรือ regex เพื่อแยกข้อมูลออกมา ซึ่งยุ่งยากหรือเมื่อรูปแบบข้อมูลเปลี่ยน ซึ่งจริงๆแล้วเรามี

By Thanawat Kittichaikarn
Self-Hosted LLMs for Enterprise #4

Self-Hosted LLMs for Enterprise #4

ตอนสุดท้ายแล้วนะครับ สำหรับการ deploy llm model ใช้งานเอง หลังจากที่แล้ว Setup ตัว service และ tools ต่างๆที่ต้องการครบถ้วนแล้ว เรามาลุยกันต่อเลยครับในการ download model และทำ API Endpoint สำหรับใครที่เพิ่งเข้ามาอ่านตอนนี้เป็นตอนแรก สามารถติดตามตอนก่อนหน้าได้

By Weerasak Suwannapong
Self-Hosted LLMs for Enterprise #2

Self-Hosted LLMs for Enterprise #2

ในตอนที่แล้ว เราได้ติดตั้ง NVIDIA GPU Driver ให้พร้อมใช้งานบนเครื่อง EC2 (g5g.xlarge) ที่ใช้ Ubuntu 24.04 LTS บทนี้เราจะทำให้ GPU ที่ติดตั้งไว้สามารถใช้งานได้ภายใน Docker container เพื่อเตรียมต่อยอดไปยังการสร้าง LLM API ด้วย llama.cpp อ่านตอนแรกได้

By Weerasak Suwannapong
Self-Hosted LLMs for Enterprise #1

Self-Hosted LLMs for Enterprise #1

ในยุคที่ Generative AI กลายเป็นผู้ช่วยประจำวันของใครหลายคน ไม่ว่าจะเขียนโค้ด ตอบคำถาม หรือสรุปรายงาน หลายองค์กรเริ่มสนใจจะ ติดตั้งและใช้งาน LLM ภายในเอง เพื่อความเป็นส่วนตัว ความยืดหยุ่น และควบคุมต้นทุน ซีรีส์นี้จะพาไปตั้งค่าระบบทีละขั้น ตั้งแต่

By Weerasak Suwannapong