KI-Modelle benötigen eine Reihe von Standards, die komplexe Fähigkeiten gründlich bewerten

Der Entwicklungsstatusbericht 2024 der VMLU (Learning, Assessment and Ranking Platform for Vietnamese Language LLMs) zeigt einen starken Anstieg der Zahl der LLMs mit Schwerpunkt Vietnamesisch. Konkret hat die VMLU-Plattform 45 LLMs in den Rankings veröffentlicht, Bewertungsanfragen von mehr als 155 Organisationen und Einzelpersonen erhalten und im Jahr 2024 691 Downloads der Bewertungskriterien sowie 3.729 LLM-Bewertungen der Plattform zusammengefasst.

Viele in- und ausländische Organisationen verwenden VMLU, wie z. B. VinBigData, VNPT AI, Viettel Solutions, University of Technology – VNU-HCM, UONLP x Ontocord – University of Oregon (USA), DAMO Academy – Alibaba Group, SDSRV-Teams – Samsung …

VMLU Englisch 1

VMLU wird seinen ersten Satz von LLM-Bewertungskriterien im Jahr 2023 einführen.

Mit der zunehmenden Quantität verbessert sich auch die Qualität der LLM-Modelle. Während LLMs früher hauptsächlich auf Basiswissen trainiert wurden, konzentrieren sich die Entwickler heute auf die Entwicklung weiterer Fähigkeiten wie Leseverständnis, Konversationsaustausch oder menschenähnliches Denken.

Als Reaktion auf die zunehmend starke Entwicklung fortschrittlicher vietnamesischer LLM-Modelle hat VMLU neue Standards veröffentlicht, um die komplexen Fähigkeiten der Modelle weiter zu bewerten.

Standards, die LLM-Exzellenz fördern

Da es auf dem Markt bisher an Qualitätsstandards mangelte, mussten viele inländische Forschungsgruppen ihre eigenen internen Bewertungsinstrumente mit eigenen Standards entwickeln. Dies schränkte die Bewertung sowie den Vergleich der Modellqualität mit bestehenden LLMs auf dem Markt ein, um geeignete Trainingsstrategien zu entwickeln.

Um dieses Problem zu lösen, wurde im November 2023 VMLU – der erste Satz gemeinsamer „Make in Vietnam“-Standards – von einem Team führender vietnamesischer Experten erforscht und der Community kostenlos zur Verfügung gestellt.

Der Standardsatz von 10.880 Multiple-Choice-Fragen zu 58 Themen, unterteilt in mehrere Schwierigkeitsgrade, erleichtert Entwicklern den Zugriff auf allgemeine Bewertungsdatensätze. Nutzen Sie gleichzeitig die Rankings der VMLU, um ihre Modelle direkt mit bestehenden LLMs auf dem Markt zu vergleichen.

Dr. Dang Tran Thai, Leiter der Abteilung für natürliche Sprachverarbeitung im VinBigData Virtual Assistant Technology Block, dessen Modell ViGPT-1.6B-v1 im Ranking der von Grund auf neu trainierten LLM-Modelle von VMLU steht, sagte: „VMLU verfügt über relativ vollständige und umfassende Daten zur Bewertung der Wissenskapazität von LLM für Vietnamesisch. VMLU ist nicht nur nützlich, um die Qualität von LLM in jeder Entwicklungsphase zu bewerten, sondern auch ein Maß für die Effektivität unserer Experimente während des Trainingsprozesses.“

„Dies wird ein ‚Sprungbrett‘ sein, um die Entwicklung der KI im Allgemeinen und des LLM im Besonderen voranzutreiben, denn wir müssen gute Standards haben, damit wir eine Grundlage für das Trainieren hochwertiger Modelle haben“, fügte Dr. Dang Tran Thai hinzu.

Der leitende Ingenieur bei Microsoft, Dr. Bach Hung Nguyen, bestätigte auch die Nützlichkeit von VMLU bei der Bewertung der Leistungsfähigkeit von LLM-Modellen in Vietnamesisch und half den Entwicklungsabteilungen, die Fähigkeiten des Modells besser zu verstehen. Darüber hinaus erwartet Dr. Bach Hung Nguyen, dass VMLU eine Reihe nützlicher Fähigkeiten wie logisches Denken, Codegenerierung und Textzusammenfassung hinzufügt.

Neue Version von VMLU zielt auf die Perfektionierung höherstufiger LLM-Modelle ab

Die VMLU hat kürzlich neue Standards zur Bewertung der Argumentations- und Interaktionsfähigkeiten von LLM-Absolventen veröffentlicht. Der erweiterte Standard bewertet drei Kernkompetenzen eines modernen LLM-Absolventen:

Leseverständnis (ViSQuAD) : 3.310 Fragen bewerten die Fähigkeit, Texte gründlich zu verstehen und komplexe Fragen basierend auf den spezifischen Merkmalen der vietnamesischen Sprache und des Kontexts zu bewältigen.

Reasoning (ViDrop) : 3.090 Fragen fordern die logischen Denkfähigkeiten von LLM durch Aufgaben wie Vergleichen, Zählen und arithmetische Berechnungen heraus.

Interaktion (ViDialog) : 210 Dialoge bewerten Kohärenz, die Fähigkeit, den Kontext zu verstehen und multidisziplinäres Wissen (Geschichte, Geographie, Logik) im Dialog anzuwenden.

Dieses Upgrade hilft Entwicklern nicht nur dabei, Modelle umfassender zu bewerten, sondern fördert auch die Schaffung nützlicher Werte durch LLM für Endbenutzer.

VMLU Bruder 2

Neue VMLU-Standards werden 2025 veröffentlicht.

Dr. Chau Thanh Duc, Direktor für Forschung und Entwicklung im Bereich Künstliche Intelligenz bei Zalo AI – der Organisation, die VMLU entwickelt hat –, sagte: „Derzeit gibt es weltweit Hunderte verschiedener Standards zur Bewertung der Leistungsfähigkeit großer Sprachmodelle. Die Anzahl der Bewertungsstandards speziell für Vietnamesisch ist jedoch sehr begrenzt. Mit der Einführung der Standards in den Jahren 2023 und 2025 hoffen wir, die Bewertungsaspekte zu diversifizieren.“

Der neue Satz von Standards wurde auf der VMLU-Website https://vmlu.ai/ veröffentlicht, damit Einzelpersonen und Forschungsgruppen ihre Modelle bewerten können.

VMLU Bruder 3

Der neue Satz von Standards wurde auf der VMLU-Website aktualisiert.

VMLU ist eine Plattform zur Bewertung und Einstufung vietnamesischer LLM-Modelle, die von Zalo AI in Zusammenarbeit mit dem Japan Advanced Institute of Science and Technology (JAIST) entwickelt und der Community ab November 2023 kostenlos zur Verfügung gestellt wird. Mit dem Bestreben, die vietnamesische KI-Community zu begleiten, trägt VMLU dazu bei, die Fähigkeit der Vietnamesen zur Aneignung neuer Technologien zu fördern. Dadurch leistet VMLU einen Beitrag zur technologischen Entwicklung des Landes mit einer bahnbrechenden Ausrichtung auf Wissenschaft, Technologie, Innovation und nationale digitale Transformation.

Quelle: https://znews.vn/mo-hinh-ai-dang-can-bo-tieu-chuan-danh-gia-sau-cac-nang-luc-phuc-tap-post1589901.html