Skip to content
On this page

Benchmarking LLM on Thai Language Performance

Introduction

LLM benchmarks typically focus on STEM capabilities and coding proficiency. While some argue that factual recall is trivial, models must possess accurate world knowledge. Models should demonstrate competence in local language and social domains, sharing cultural understanding with users. Benchmarks like MMLU (Massive Multitask Language Understanding) address this by incorporating social sciences and humanities, ensuring models align with human social understanding. However, these benchmarks lack Thai language focus. Despite LLMs' cross-lingual transfer capabilities, cultural knowledge and common sense aren't guaranteed to transfer across different cultural contexts.

This test addresses this gap by evaluating LLMs specifically on Thai language and social knowledge. We hypothesize that strong performance on standardized Thai social science examinations indicates comprehensive understanding of Thai language and culture.

Our findings show standardized Thai social studies examinations effectively benchmark model performance in Thai. Google's Gemini and Anthropic's Claude excel, corroborating user perceptions of superior Thai language capabilities. Larger models consistently outperform smaller variants. Notably, Google's open-source Gemma3 demonstrates competitive performance, aligning with community observations. We anticipate evaluating future models using this methodology.

We use the exam from Thaweewat's Onet-m6-social dataset. https://huggingface.co/datasets/Thaweewat/onet-m6-social

Why Thai Social Sciene Exam ?

We want to be sure that the model understand not only language but also context about social in Thailand. And these exam represent

The question about social science represent unique culture and thinking background in different country. for example consider this questions about politic

OriginalTranslation
ภายใต้ปัญหาความขัดแย้งทางการเมืองในหมู่ประชาชนในระยะกว่า10ปี ที่ผ่านมาของไทย ข้อใดไม่ใช่แนวทางเสริมสร้างประชาธิปไตยไทย ให้มั่นคง

1. บ่มเพาะประชาชนใช้หลักเหตุผลเป็นพื้นฐานในการตัดสินใจทางการเมือง
2. มีกฎหมายที่ยอมรับสิทธิในการดำเนินกิจกรรมทางการเมืองของประชาชน
3. ลดความเหลื่อมล้ำทางอำนาจระหว่างชนชั้นปกครองและประชาชน
4. ขจัดความคิดเห็นทางการเมืองที่แตกต่างกันในหมู่ประชาชน
5. สร้างความเชื่อมั่นต่อกติกาประชาธิปไตยในหมู่ประชาชน

ตอบ: 4. ขจัดความคิดเห็นทางการเมืองที่แตกต่าง กันในหมู่ประชาชน
Under the political conflict among the people in Thailand over the past 10 years, which of the following is NOT a way to strengthen Thai democracy?

Options:
1. Cultivate people to use reason as a basis for political decision-making
2. Have laws that recognize people's rights to conduct political activities
3. Reduce power inequality between the ruling class and the people
4. Eliminate different political opinions among the people
5. Build confidence in democratic rules among the people

Also, Thai language had a lot of complexity that may or may not translate directly from learning transfer in model. So its useful to know if model can answer this kind of question

OriginalTranslation
คําว่า "สวัสดี" ถูกกำหนดให้ใช้อย่างเป็นทางการ ในสมัยของนายกรัฐมนตรีท่านใด

1. จอมพล ป. พิบูลสงคราม
2. จอมพลสฤษดิ์ ธนะรัชต์
3. พระยามโนปกรณ์นิติธาดา
4. จอมพลถนอม กิตติขจร
5. พันเอกพระยาพหลพลพยุหเสนา (พจน์ พหลโยธิน)

ตอบ: 1. จอมพล ป. พิบูลสงคราม
The word "Sawasdee" (Hello) was officially designated for use during which Prime Minister's era?

1. Field Marshal P. Phibunsongkhram
2. Field Marshal Sarit Thanarat
3. Phraya Manopakorn Nititada
4. Field Marshal Thanom Kittikachorn
5. Colonel Phraya Phahol Pholphayuhasena (Phot Phahonyothin)

Answer: 1. Field Marshal P. Phibunsongkhram

Benchmarking Methodology

Test results

Closed Model

Open Model

Conclusion

Benchmarking LLMs on Thai language requires careful consideration of linguistic characteristics and appropriate evaluation methodologies. While recent models show promising results, there's still room for improvement, particularly in handling informal language and domain-specific applications. Continued development of Thai-specific benchmarks and models will be crucial for advancing Thai NLP capabilities.

Resources