[Preview] Southeast Asia LLM Function call benchmark.

[Preview] Southeast Asia LLM Function call benchmark.

What is function call

Function call capability is crucial for creating agent-based systems. Function calls allow LLMs to use 'the tools' when 'the tools' are functions (methods) or APIs.

This capability increases the reliability of LLM applications when LLM applications MUST interact with non-LLM systems.

Method

I used a part of Gorilla-eval (https://github.com/ShishirPatil/gorilla/tree/main/eval) to evaluate all models. This evaluation method measures two metrics: functionality score and hallucination score.

First, the functionality score (higher is better) means the LLM responds in the right format and with the right parameters.

Second, the hallucination score (lower is better) means the LLM responds in the right format but with incorrect parameters.

If the LLM responds in an incorrect format, it would not be counted for any score.

And I am going to run the berkeley-function-call-leaderboard (https://github.com/ShishirPatil/gorilla/tree/main/berkeley-function-call-leaderboard) later.

Score

ModelMethodTaskFunctionality scoreHallucination score
Typhoon-7bget_llm_responses_retrievertorchhub0.54%71.51%
SeaLLM-7b-v2.5get_llm_responses_retrievertorchhub46.77%23.66%
SeaLLM-7b-v2get_llm_responses_retrievertorchhub2.69%0.54%
OTG-7bget_llm_responses_retrievertorchhub3.22%20.43%
OTG-13bget_llm_responses_retrievertorchhub2.15%12.90%
OTG-70bget_llm_responses_retrievertorchhub27.96%0.27%
Mixtral-8x22bget_llm_responses_retrievertorchhub53.23%19.89%
Haikuget_llm_responses_retrievertorchhub64.52%20.97%
GPT-3.5-turbo-0125get_llm_responses_retrievertorchhub62.27%13.98%

What's next

I am going to run the berkeley-function-call-leaderboard and continue to add new models to the list.

And I am going to make my benchmark script public on my GitHub. Stay tuned!!

P.S. My waiting list includes Sailor-7b, Vistral-7b, and Komodo-7b. If your model is not in our list, please contact me and send me the model card.

Read more

Self-Hosted LLMs for Enterprise #4

ตอนสุดท้ายแล้วนะครับ สำหรับการ deploy llm model ใช้งานเอง หลังจากที่แล้ว Setup ตัว service และ tools ต่างๆที่ต้องการครบถ้วนแล้ว เรามาลุยกันต่อเลยครับในการ download model และทำ API Endpoint สำหรับใครที่เพิ่งเข้ามาอ่านตอนนี้เป็นตอนแรก สามารถติดตามตอนก่อนหน้าได้

By Weerasak Suwannapong

Self-Hosted LLMs for Enterprise #3

สำหรับใครที่เพิ่งเข้ามาเจอตอนนี้สามารถย้อนกลับไปอ่าน 2 ตอนก่อนหน้าได้ที่ https://blog.float16.cloud/self-hosted-llms-for-enterprise-1/ https://blog.float16.cloud/self-hosted-llms-for-enterprise-2/ 2 ตอนที่ผ่านมา เราได้ติดตั้ง GPU Driver และเชื่อม GPU เข้ากับ Docker ได้เรียบร้อยแล้ว บทนี้เราจะมาติดตั้งเครื

By Weerasak Suwannapong

Self-Hosted LLMs for Enterprise #2

ในตอนที่แล้ว เราได้ติดตั้ง NVIDIA GPU Driver ให้พร้อมใช้งานบนเครื่อง EC2 (g5g.xlarge) ที่ใช้ Ubuntu 24.04 LTS บทนี้เราจะทำให้ GPU ที่ติดตั้งไว้สามารถใช้งานได้ภายใน Docker container เพื่อเตรียมต่อยอดไปยังการสร้าง LLM API ด้วย llama.cpp อ่านตอนแรกได้

By Weerasak Suwannapong

Self-Hosted LLMs for Enterprise #1

ในยุคที่ Generative AI กลายเป็นผู้ช่วยประจำวันของใครหลายคน ไม่ว่าจะเขียนโค้ด ตอบคำถาม หรือสรุปรายงาน หลายองค์กรเริ่มสนใจจะ ติดตั้งและใช้งาน LLM ภายในเอง เพื่อความเป็นส่วนตัว ความยืดหยุ่น และควบคุมต้นทุน ซีรีส์นี้จะพาไปตั้งค่าระบบทีละขั้น ตั้งแต่

By Weerasak Suwannapong