VMLU (Vietnamese Multitask Language Understanding) wurde erstmals im Jahr 2023 eingeführt und hat sich zu einem bahnbrechenden „Make in Vietnam“-Standardsatz entwickelt, der viele inländische Forschungsgruppen dazu motiviert, die Qualität vietnamesischer großer Sprachmodelle (LLM) zu verbessern.
Laut Statistik hat die VMLU im Jahr 2024 45 LLMs in die Rangliste aufgenommen, Bewertungsanfragen von mehr als 155 Organisationen und Einzelpersonen erhalten, 691 Downloads des Bewertungskriteriensatzes und 3.729 LLM-Bewertungen von der Plattform zusammengefasst. Der Standardsatz wird von vielen in- und ausländischen Organisationen verwendet, wie z. B. VinBigData, VNPT AI, Viettel Solutions, University of Science and Technology – VNU-HCM, UONLP x Ontocord – University of Oregon (USA), DAMO Academy – Alibaba Group, SDSRV-Teams – Samsung …
![]() |
Zalo AI und JAIST Institute stellen eine neue Version von VMLU vor. |
Da KI-Modelle immer intelligenter werden, wurde die VMLU erweitert, um komplexere Kompetenzen zu bewerten. Konkret bewertet der erweiterte Standard drei Kernkompetenzen eines modernen LLM:
Leseverständnis (ViSQuAD): 3.310 Fragen bewerten die Fähigkeit, Texte gründlich zu verstehen und komplexe Fragen basierend auf den spezifischen Merkmalen der vietnamesischen Sprache und des Kontexts zu bearbeiten.
Reasoning (ViDrop): 3.090 Fragen fordern die logischen Denkfähigkeiten von LLM durch Aufgaben wie Vergleichen, Zählen und arithmetische Berechnungen heraus.
Interaktion (ViDialog): 210 Dialoge bewerten Kohärenz, kontextuelles Verständnis und die Anwendung multidisziplinären Wissens (Geschichte, Geographie, Logik) im Dialog.
Das Highlight des neuen Standards ist die fortschrittliche Bewertungsmethode, die verschiedene Formen von Multiple-Choice- und offenen Fragen bis hin zu schrittweisen Denkanforderungen kombiniert. Insbesondere wendet VMLU die Methode „LLM als Richter“ an (bei der LLM zur Bewertung von LLM verwendet wird) – ein Trend, der von der globalen KI-Community verfolgt wird, um objektivere und umfassendere Ergebnisse zu erzielen.
Mit 10.880 Multiple-Choice-Fragen zu 58 Themen, aufgeteilt in mehrere Level, konzentrierte sich die Version 2023 auf die Bewertung der LLM-Grundkenntnisse. Der neue Standard geht noch einen Schritt weiter und misst die Denk- und Interaktionsfähigkeit von LLM in realen Kontexten . Dieses Upgrade hilft Entwicklern nicht nur dabei, Modelle umfassender zu bewerten, sondern fördert auch die Schaffung von Mehrwert durch LLM für Endbenutzer.
![]() |
Der erweiterte Kriterienkatalog bewertet die drei Kernkompetenzen eines modernen LLM. |
„Derzeit gibt es weltweit Hunderte verschiedener Benchmarks zur Bewertung der Leistungsfähigkeit großer Sprachmodelle. Die Anzahl der Benchmarks speziell für Vietnamesisch ist jedoch sehr begrenzt. Mit der Einführung von Benchmarks in den Jahren 2023 und 2025 hoffen wir, die Bewertungsaspekte zu diversifizieren“, sagte Dr. Chau Thanh Duc, Direktor für Forschung und Entwicklung im Bereich künstliche Intelligenz bei Zalo AI.
Der neue Satz von Standards wurde auf der VMLU-Website https://vmlu.ai/ veröffentlicht, damit Einzelpersonen und Forschungsgruppen ihre Modelle bewerten können.
![]() |
Der neue Satz von Standards wurde auf der VMLU-Website veröffentlicht. |
In Zusammenarbeit mit führenden Experten von Zalo AI und dem JAIST Institute wird die VMLU weiterhin vielfältigere Bewertungsstandards hinsichtlich Fachgebieten und Schwierigkeitsgraden erforschen und entwickeln. Zukünftig strebt die VMLU auch die Entwicklung von Sicherheits- und Integritätsbewertungsstandards an, um eine verantwortungsvolle Entwicklung von LLM-Modellen sicherzustellen.
Quelle: https://znews.vn/bo-tieu-chuan-make-in-vietnam-danh-gia-suy-luan-tuong-tac-cua-llm-post1589609.html
Kommentar (0)