LLM Arena: No More Guessing Games When Choosing AI Models
หลายคนคงเจอปัญหาเดียวกับเรา ตอนที่ต้องเลือก LLM model มาใช้งาน ไม่รู้ว่าควรเลือก model ไหนดี อ่านสเปคก็ดูเหมือนจะดีทุกตัว แต่พอไปใช้งานจริงไม่ตอบโจทย์งานนั้น ๆ
เลยคิดว่าทำไมเราไม่สร้างตัวช่วยขึ้นมาล่ะ เอาโมเดลหลายๆ ตัวมาเปรียบเทียบกันแบบเห็นผลลัพธ์ทันที จึงเกิด LLM arena ขึ้นมา
LLM Arena คืออะไร?
จริงๆ แล้ว LLM arena ก็เป็นเว็บธรรมดาที่ให้เราส่งคำถามเดียวกันไปหาหลายๆ model พร้อมกัน แล้วเราจะเห็นคำตอบจากทุกตัวเรียงกันเพื่อให้ง่ายต่อการตัดสินใจเลือกใช้ model
ตัวอย่าง
เปรียบเทียบการตอบคำถามของ 3 model คือ Qwen3-32B, Qwen3-14B กับ Gemma3-27B โดยคำถามที่ใช้ในการถามมีความสำคัญต่อการนำไปใช้งาน เมื่องานนั้นเฉพาะทาง เช่นถามเรื่องการสรุปข่าวเมื่อต้องการนำไปใช้เป็น LLM ช่วยสรุปข่าว, ถามเรื่องการคิดแคมเปญเมื่อต้องการนำ LLM ไปใช้งานเรื่องแคมเปญ หรือ ถามเรื่องความรู้ทั่วไปเมื่อต้องการนำ LLM ไปใช้ตอบคำถามทั่วไป แล้วดูว่าโมเดลไหนตอบได้ถูกใจเราหรือลูกค้ามากกว่า

ทำไมต้องเปรียบเทียบ?
เพราะการอ่านสเปคอย่างเดียวไม่พอ เคยเจอบางทีโมเดลที่ spec ไม่สูงกลับตอบได้ดีกับงานที่เราต้องการ หรือบางทีโมเดลที่เก่งมากกลับมีสไตล์การตอบที่เราไม่ชอบ
แล้วก็แต่ละโมเดลมีบุคลิกที่ต่างกันเลย อันนึงอาจจะตอบสั้นๆ กระชับ อีกอันอาจจะละเอียดเยิ่นเย้อ บางอันชอบให้ตัวอย่าง บางอันชอบอธิบายด้วยทฤษฎี
เรื่องความเร็วก็สำคัญ บางโมเดลตอบดีแต่ช้ามาก (อาจเกิดจาก model size ใหญ่หรือ server spec ต่ำ) จนใช้งานจริงแล้วรอนาน บาง model ตอบเร็วแต่ตอบไม่ถูกใจเรา เราเลยต้องหาจุดสมดุลที่เหมาะกับงานเรา
เรื่องภาษาไทยก็มีผลต่อการเลือกใช้ model หากลูกค้าเน้นการใช้งานภาษาไทยเป็นหลัก บางโมเดลอาจจะเก่งภาษาอังกฤษสุดๆ แต่พอมาภาษาไทยแล้วพูดแปลกๆ ใช้คำที่ฟังดูเก่าหรือแปลกแยก บางอันแปลจากอังกฤษมาตรงๆ
สุดท้ายแล้วเราต้องลองใช้เองจริงๆ ถึงจะรู้ว่าโมเดลไหนเข้ากับสไตล์การทำงานของเรา บางทีคำตอบถูกต้องก็ส่วนหนึ่ง แต่ถูกใจก็สำคัญไม่แพ้กัน
ช่องทางการใช้งาน LLM Arena?
ปัจจุบันเปิดให้ partner กับลูกค้าใช้งานเท่านั้น เพราะเราอยากให้คำแนะนำและดูแลให้ได้งานได้ดีที่สุด
แต่ถ้ามีคนสนใจเยอะ เราอาจจะเปิดให้คนทั่วไปใช้ได้ในอนาคตใครสนใจอยากลองใช้ติดต่อมาที่ Discord ได้เลยค่ะ เราพร้อมช่วยเหลือเรื่องการเลือกใช้ AI ให้เหมาะกับงานของคุณ