LLM Arena: No More Guessing Games When Choosing AI Models

LLM Arena: No More Guessing Games When Choosing AI Models

หลายคนคงเจอปัญหาเดียวกับเรา ตอนที่ต้องเลือก LLM model มาใช้งาน ไม่รู้ว่าควรเลือก model ไหนดี อ่านสเปคก็ดูเหมือนจะดีทุกตัว แต่พอไปใช้งานจริงไม่ตอบโจทย์งานนั้น ๆ

เลยคิดว่าทำไมเราไม่สร้างตัวช่วยขึ้นมาล่ะ เอาโมเดลหลายๆ ตัวมาเปรียบเทียบกันแบบเห็นผลลัพธ์ทันที จึงเกิด LLM arena ขึ้นมา

LLM Arena คืออะไร?

จริงๆ แล้ว LLM arena ก็เป็นเว็บธรรมดาที่ให้เราส่งคำถามเดียวกันไปหาหลายๆ model พร้อมกัน แล้วเราจะเห็นคำตอบจากทุกตัวเรียงกันเพื่อให้ง่ายต่อการตัดสินใจเลือกใช้ model

ตัวอย่าง

เปรียบเทียบการตอบคำถามของ 3 model คือ Qwen3-32B, Qwen3-14B กับ Gemma3-27B โดยคำถามที่ใช้ในการถามมีความสำคัญต่อการนำไปใช้งาน เมื่องานนั้นเฉพาะทาง เช่นถามเรื่องการสรุปข่าวเมื่อต้องการนำไปใช้เป็น LLM ช่วยสรุปข่าว, ถามเรื่องการคิดแคมเปญเมื่อต้องการนำ LLM ไปใช้งานเรื่องแคมเปญ หรือ ถามเรื่องความรู้ทั่วไปเมื่อต้องการนำ LLM ไปใช้ตอบคำถามทั่วไป แล้วดูว่าโมเดลไหนตอบได้ถูกใจเราหรือลูกค้ามากกว่า

ทำไมต้องเปรียบเทียบ?

เพราะการอ่านสเปคอย่างเดียวไม่พอ เคยเจอบางทีโมเดลที่ spec ไม่สูงกลับตอบได้ดีกับงานที่เราต้องการ หรือบางทีโมเดลที่เก่งมากกลับมีสไตล์การตอบที่เราไม่ชอบ

แล้วก็แต่ละโมเดลมีบุคลิกที่ต่างกันเลย อันนึงอาจจะตอบสั้นๆ กระชับ อีกอันอาจจะละเอียดเยิ่นเย้อ บางอันชอบให้ตัวอย่าง บางอันชอบอธิบายด้วยทฤษฎี

เรื่องความเร็วก็สำคัญ บางโมเดลตอบดีแต่ช้ามาก (อาจเกิดจาก model size ใหญ่หรือ server spec ต่ำ) จนใช้งานจริงแล้วรอนาน บาง model ตอบเร็วแต่ตอบไม่ถูกใจเรา เราเลยต้องหาจุดสมดุลที่เหมาะกับงานเรา

เรื่องภาษาไทยก็มีผลต่อการเลือกใช้ model หากลูกค้าเน้นการใช้งานภาษาไทยเป็นหลัก บางโมเดลอาจจะเก่งภาษาอังกฤษสุดๆ แต่พอมาภาษาไทยแล้วพูดแปลกๆ ใช้คำที่ฟังดูเก่าหรือแปลกแยก บางอันแปลจากอังกฤษมาตรงๆ

สุดท้ายแล้วเราต้องลองใช้เองจริงๆ ถึงจะรู้ว่าโมเดลไหนเข้ากับสไตล์การทำงานของเรา บางทีคำตอบถูกต้องก็ส่วนหนึ่ง แต่ถูกใจก็สำคัญไม่แพ้กัน

ช่องทางการใช้งาน LLM Arena?

ปัจจุบันเปิดให้ partner กับลูกค้าใช้งานเท่านั้น เพราะเราอยากให้คำแนะนำและดูแลให้ได้งานได้ดีที่สุด

แต่ถ้ามีคนสนใจเยอะ เราอาจจะเปิดให้คนทั่วไปใช้ได้ในอนาคตใครสนใจอยากลองใช้ติดต่อมาที่ Discord ได้เลยค่ะ เราพร้อมช่วยเหลือเรื่องการเลือกใช้ AI ให้เหมาะกับงานของคุณ

Read more

AI Bootcamp: LLM Finetuning & Deployment

AI Bootcamp: LLM Finetuning & Deployment

เมื่อวันศุกร์ที่ 4 กรกฎาคม 2025 ที่ผ่านมา Float16 ร่วมกับทีม Typhoon SCB 10X จัดงาน AI Bootcamp: LLM Finetuning & Deployment ขึ้นที่ DistrictX ตึก FYI ซึ่งถือเป็นก้าวสำคัญในการส่งเสริมการพัฒนาเทคโนโลยี AI ในประเทศไทย งานนี้ได้รับความสนใจอย่างล้นหลาม

By Namfon Khaminlao
GPU monitoring dashboard

GPU monitoring dashboard

บทความนี้ผมจะพาทุกคนมาเรียนรู้การทำ monitoring dashboard ของ GPU ด้วย grafana กันนะครับ โดยจะเริ่มกันตั้งแต่วิธีการติดตั้ง grafana จนไปถึงการตั้งค่าให้รับค่าการทำงานจาก gpu โดยใช้ dcgm-exporter ผ่าน prometheous จนสามารถสร้างเป็น dashboard ที่ดูการทำงานต่างๆของ GPU ได้ และทั้งหมดเราจะทำการ

By matichon maneegard
ทำ E2E Test ด้วย AI โดยใช้ Midscene.js ร่วมกับ Playwright

ทำ E2E Test ด้วย AI โดยใช้ Midscene.js ร่วมกับ Playwright

E2E testing แบบที่ไม่ต้องเขียน selector ในโพสต์นี้เราจะมาลองใช้ Midscene.js สำหรับควบคุบ UI แบบที่สั่งด้วย Natural language ร่วมกับ Playwright ซึ่งเป็น framework ยอดนิยมสำหรับการทำ automated browser test Midscene.js คืออะไร? Midscene.js เป็น JavaScript SDK ที่ใช้โมเดล

By matichon maneegard, Thanawat Kittichaikarn
Nvidia GPU Driver Setup: Essential Steps for LLM Developers

Nvidia GPU Driver Setup: Essential Steps for LLM Developers

ยุคนี้ที่ AI มาแรงแบบสุดๆ LLM น่าจะเป็นสิ่งที่ทุกบริษัทพูดถึงกัน หลายๆที่อยากให้ LLM Solution เข้ามามีบทบาทในบริษัทมากขึ้น ไม่ว่าจะเป็นการทำ Chatbot, RAG เป็นต้น สิ่งที่ตามมาก็คือ Solution เหล่านั้นต้องอยู่ใน Infrastructure ของบริ

By matichon maneegard