Die Forschungsergebnisse zweier Studenten der Technischen Universität Ho-Chi-Minh-Stadt, die KI mithilfe von Methoden des kontroversen Trainings neue Daten generieren lassen, wurden auf der AAAI, der weltweit führenden KI-Konferenz, veröffentlicht.
Die Forschung zu mehrsprachigen Modellen zum Trainieren der KI zur Erstellung von Synonymen von Pham Khanh Trinh und Le Minh Khoi, 23, wurde in den Dokumenten der AAAI-24-Konferenz zur künstlichen Intelligenz veröffentlicht, die Ende Februar in Vancouver, Kanada, stattfand.
Außerordentlicher Professor Dr. Quan Thanh Tho, stellvertretender Dekan der Fakultät für Informatik und Ingenieurwesen der Technischen Universität Ho-Chi-Minh-Stadt, bewertete dies als lobenswertes Ergebnis. Herr Tho sagte, dass AAAI von Forschern und Experten auf wissenschaftlichen Konferenzen in den Bereichen Informatik und künstliche Intelligenz als Spitzenunternehmen angesehen werde, mit einer sehr niedrigen Artikelakzeptanzquote von 23,75 % in diesem Jahr.
Minh Khoi und Khanh Trinh (Mitte) während ihrer Abschlussarbeitsverteidigung, 2023. Foto: Zur Verfügung gestellt von der Figur
Trinh und Khoi teilen ihre Leidenschaft für Deep Learning und natürliche Sprachverarbeitung und entschieden sich daher für die Forschung an großen Sprachmodellen (LLMs). Beide wollten die Grenzen von LLMs herausfinden und sie verbessern.
Khanh Trinh erklärte, dass Chat-GPTs oder -LLMs anhand einer riesigen Menge an Textdaten trainiert werden müssen, um präzise und vielfältige Antworten für die Benutzer zu generieren. Die beiden Jungen stellten fest, dass Chat-GPTs und -LLMs bei weniger verbreiteten Sprachen wie Hindi, Kasachisch oder Indonesisch oft unerwartete Ergebnisse liefern, weil die Teilnehmer diese Sprachen nicht intensiv gelernt haben oder ihnen nicht genügend Daten zum Erlernen dieser Sprachen zur Verfügung stehen.
„Warum erstellen wir nicht mehr Textdaten aus den ‚wenigen Ressourcen‘ dieser Sprachen, um die KI weiter zu trainieren?“, fragten die beiden männlichen Studenten. Daraus entstand das LAMPAT-Modell (Low-rank Adaptation for Multilingual Paraphrasing using Adversarial Training) – mehrsprachige Interpretation mithilfe der von Trinh und Khoi erforschten Methode des kontradiktorischen Trainings.
LAMPAT kann aus einem gegebenen Eingabesatz ein Synonym generieren, um weitere Textdaten zu generieren. Der „Adversarial Training“-Erklärer ist eine relativ neue Methode zum Training großer Sprachmodelle. Mit herkömmlichen Trainingsmethoden generiert die Anwendung aus einem Eingabesatz einen Ausgabesatz. Mit Adversarial Training kann die Anwendung den Ausgabesatz kommentieren und bearbeiten, um weitere Sätze zu generieren.
Die Mehrsprachigkeit von LAMPAT liegt darin begründet, dass dieses Modell 60 Sprachen gleichzeitig integriert. Basierend auf den gesammelten Datensätzen trainiert das Team LAMPAT kontinuierlich, um Synonyme zu generieren. Die von LAMPAT generierte Textmenge wird weiterhin zum Training von LLMs verwendet, damit diese Modelle viele verschiedene Ausdrucksformen für denselben Inhalt erlernen und so vielfältige Antworten mit einer höheren Wahrscheinlichkeit der Richtigkeit liefern können. Dank dieser Funktion, so der Teamvertreter, kann LAMPAT in Anwendungen wie ChatGPT integriert werden, um das Modell weiter zu perfektionieren.
Darüber hinaus zwingt der Mangel an Daten für Chat-GPT oder LLMs einige Unternehmen dazu, zahlreiche externe Quellen wie Bücher, Zeitungen, Blogs usw. zu nutzen, ohne auf Urheberrechtsfragen zu achten. Laut Khanh Trinh ist die Erstellung von Synonymen auch eine Möglichkeit, Plagiate und Urheberrechtsverletzungen einzuschränken.
Nam Sinh gab ein Beispiel für Anwendungen wie Chat GPT: Wenn ein Benutzer eine Zusammenfassung eines vorhandenen Textes A anfordert, generiert die Anwendung einen zusammenfassenden Text B. Wenn die Forschungsmethode der Gruppe integriert ist, generiert die Anwendung beim Empfang von Text A basierend auf dem Mechanismus zur Generierung von Synonymen mehrere Texte mit demselben Inhalt A1, A2, A3, aus denen sie den Text zusammenfasst und viele Ergebnisse generiert, aus denen der Benutzer auswählen kann.
In der Anfangsphase der Forschung hatte das Team Schwierigkeiten, Evaluierungsdaten für 60 Sprachen vorzubereiten. Da es keinen Zugriff auf ausreichend große Datenmengen hatte, stellte das Team einen vielfältigen und vollständigen Datensatz in 13 Sprachen zusammen, um das Modell objektiv zu bewerten, darunter: Vietnamesisch, Englisch, Französisch, Deutsch, Russisch, Japanisch, Chinesisch, Spanisch, Ungarisch, Portugiesisch, Schwedisch, Finnisch und Tschechisch. Dies ist auch ein zuverlässiger Datensatz für den abschließenden Schritt der menschlichen Evaluierung.
Minh Khoi (links) und Khanh Trinh (rechts) machten am Abschlusstag im November 2023 ein Erinnerungsfoto mit Lehrer Quan Thanh Tho. Foto: Zur Verfügung gestellt von der Figur
Für Englisch, Vietnamesisch, Deutsch, Französisch und Japanisch extrahierte das Team jeweils 200 Satzpaare (ein Paar bestehend aus dem Ausgabesatz und der richtigen Bezeichnung) zur Bewertung. Für jede der oben genannten Sprachen bat das Team fünf Sprachexperten, die Sätze unabhängig voneinander anhand von drei Kriterien zu bewerten: semantische Erhaltung, Wortwahl und lexikalische Ähnlichkeit sowie Flüssigkeit und Kohärenz des Ausgabesatzes. Die Skala reichte von 1 bis 5. Die durchschnittliche Bewertung der Sprachexperten für diese fünf Sprachen lag zwischen 4,2 und 4,6/5 Punkten.
Das Beispiel zeigt ein Paar vietnamesischer Sätze, die mit 4,4/5 bewertet wurden. Der Eingabesatz lautet: „Er erklärte das Problem im Detail“ und der Ausgabesatz: „Er erklärte das Problem im Detail“.
Es gibt aber auch Satzpaare mit schlechter Qualität und semantischen Fehlern, wie etwa das Satzpaar „Wir essen, solange die Suppe heiß ist – Wir essen die Suppe, solange wir heiß sind“, das nur 2/5 Punkte erreicht.
Khanh Trinh sagte, die Forschung und Fertigstellung dieses Projekts habe acht Monate gedauert. Dies ist auch das Thema der Abschlussarbeit von Trinh und Khois. Die Arbeit erreichte im Computer Science Council 2 mit 9,72/10 Punkten den ersten Platz.
Laut Herrn Quan Thanh Tho hat LAMPAT zwar seine Kompetenz bei der Generierung menschenähnlicher Synonymphrasen in mehreren Sprachen unter Beweis gestellt, muss aber noch verbessert werden, um Redewendungen, Volkslieder und Sprichwörter in verschiedenen Sprachen verarbeiten zu können.
Darüber hinaus umfasst der Evaluierungsdatensatz des Teams nur 13 Sprachen, wodurch viele, insbesondere Minderheitensprachen, noch immer nicht berücksichtigt werden. Daher muss das Team Forschung betreiben, um die Fähigkeiten aktueller mehrsprachiger Interpretationsmodelle zu verbessern und zu erweitern. Auf dieser Grundlage können wir die Sprachbarriere zwischen Ländern und Ethnien beseitigen.
Ende 2023 schlossen Trinh und Khoi ihr Informatikstudium mit Auszeichnung und einem Notendurchschnitt (GPA) von 3,7 bzw. 3,9/4 ab. Beide planen, im Ausland einen Master-Abschluss zu machen und in den Bereichen künstliche Intelligenz und maschinelles Lernen zu forschen.
„Wir forschen weiterhin an diesem Thema mit dem Ziel, LAMPAT stärker auf zukünftige wissenschaftliche Projekte anzuwenden und ein zuverlässiges mehrsprachiges Produkt für die Benutzer zu schaffen“, teilte Trinh mit.
Le Nguyen
[Anzeige_2]
Quellenlink
Kommentar (0)