Der Wettbewerb für vietnamesische Sprach- und Sprachverarbeitung (VLSP) ist Teil der jährlichen internationalen Konferenz zur vietnamesischen Sprach- und Sprachverarbeitung, die vom VLSP-Club, einem Zweig der Vietnam Association for Information Technology, organisiert wird. VLSP 2023 organisiert zehn Wettbewerbe zur Sprach- und Textverarbeitung und bringt führende Forscher, Experten und Technologieentwicklungseinheiten zusammen.

Obwohl Viettel AI bereits zum vierten Mal an dem Wettbewerb teilnahm und zuvor bereits dreimal gewonnen hatte, stießen die Viettel-Ingenieure aufgrund von Änderungen in der Struktur der Wettbewerbskategorien immer noch auf viele Schwierigkeiten.

Konkret wurden im Vergleich zum letzten Jahr die Kategorien Spracherkennung und Emotionserkennung in diesem Jahr zu einer Kategorie zusammengelegt. Die Teams müssen zwei Aufgaben gleichzeitig lösen, um sicherzustellen, dass sowohl der Text als auch die Emotion des Satzes erkannt werden. Arbeitsaufwand und Schwierigkeitsgrad haben sich also verdoppelt.

Nutzen Sie alle Daten, egal ob niedrige oder hohe Qualität

Die diesjährige Prüfung verändert nicht nur die Struktur der Kategorien, sondern konzentriert sich auch auf die Neuentwicklung von Modellen mit eingeschränkten Datenbedingungen, darunter Rohdaten, unbeschriftete Daten und Daten geringer Qualität. Die Prüfung umfasst vier Datengruppen mit unterschiedlicher Qualität und Form. Es gibt Daten, die nur unbeschriftetes Audio enthalten, Daten, die nur Audio und Text enthalten, Daten, die Emotionen und Audio in hoher Qualität und mit Standardbeschriftungen enthalten, und einen Datensatz, der Emotionen und Audio in geringer Qualität enthält. Jeder Datensatz ist klar definiert, um dem jeweiligen Zweck und der jeweiligen Prüfungskategorie zu dienen, und für alle Datensätze werden insgesamt mehr als 300 Stunden benötigt. Dies ist eine recht bescheidene Zahl im Vergleich zu Standarddatensätzen zum Training der Spracherkennung, die normalerweise 1.000–2.000 Stunden oder mehr erfordern.

Jedes Team hatte weniger als zwei Monate Zeit, um an seiner Arbeit zu arbeiten und sie einzureichen. Tatsächlich wurde jedoch aufgrund fehlender Ressourcen viel weniger Zeit für die Suche nach Lösungen aufgewendet.

„Viettel AI hat in diesem Jahr viele Ressourcen seiner Computerinfrastruktur für die Erforschung neuer Technologien und die Produktentwicklung bereitgestellt, obwohl Spracherkennung eine Technologie ist, die viele Hardwareressourcen erfordert“, sagte Herr Dang Dinh Son – Ingenieur für künstliche Intelligenz, Virtual Assistant Platform, Viettel AI.

Bild 1.jpg
Artificial Intelligence Engineering Group, Virtual Assistant Platform Block, vertritt Viettel AI und nimmt an der Kategorie Spracherkennung und Sprachemotionserkennung teil – VLSP 2023

Angesichts der geringen Datenmenge und -qualität gelangte das Forschungsteam sofort zu dem Schluss, dass alle Daten unabhängig von ihrer Qualität genutzt werden müssen. Dazu ist es notwendig, einen Trainingszyklus für die Verarbeitung aller Daten zu erstellen und anstelle vieler Modelle nur ein Modell zur Lösung vieler verschiedener Probleme zu verwenden.

Die Ergebnisse bahnbrechender Technologiebeherrschung

Angesichts des Mangels an Daten und Ressourcen beschloss das Forschungsteam, einen einfachen, nicht massiven, aber vor allem bis ins kleinste Detail verfeinerten Verarbeitungsprozess zu entwickeln.

Die Ingenieure von Viettel AI haben die neuesten Forschungsergebnisse führender Konferenzen und Fachzeitschriften weltweit sorgfältig analysiert, um einen Ansatz zu finden. In Kombination mit bewährten Datenverarbeitungsmethoden zum Trainieren des Modells entwickelte das Forschungsteam einen Trainingszyklus zur Verarbeitung aller verfügbaren Daten. Dieser umfasst drei Schritte: den Aufbau eines vortrainierten Modells zur Beschreibung von Stimmmerkmalen ohne Labels, die Feinabstimmung des vortrainierten Modells für zwei Probleme: Spracherkennung und Emotionserkennung sowie Inferenz.

„Die Erfahrungen aus der Lösung von Problemen mit Datenmangel während der Entwicklung und Bereitstellung früherer Produkte haben dem Team ebenfalls wesentlich dabei geholfen, eine Entscheidungsmethode zu finden. Die Erkenntnisse und Ergebnisse aus dem Test können zudem sofort auf Viettel AI-Produkte angewendet werden, sodass die Arbeit während des Tests reibungslos verlief“, sagte Herr Bui Tien Dat, Virtual Assistant Platform Engineer bei Viettel AI.

Infolgedessen gewann Viettel AI nicht nur den ersten Preis in den Kategorien Spracherkennung und Sprachemotionserkennung, sondern erreichte auch eine beeindruckende Punktzahl von 89,18 % (die nächsten Teams erreichten 83,40 % bzw. 78,45 %).

Herr Son sagte, der Schlüsselfaktor liege im Sprachverarbeitungsmodell speziell für Vietnamesisch, das Viettel AI seit langem entwickelt.

„Anstatt Modelle und Anweisungen aus verfügbaren Forschungsergebnissen zu verwenden, hat sich Viettel AI dafür entschieden, ein eigenes Modell für die vietnamesische Sprachverarbeitung zu entwickeln. Dieses Modell wird ständig aktualisiert und optimiert und wird immer effektiver“, sagte Herr Son.

Diese Lösung von Viettel AI macht nicht nur der Konkurrenz den Garaus, sondern bildet auch die Grundlage für die Weiterentwicklung virtueller Telefonzentralenprodukte, des virtuellen Assistenten von Viettel. Dieser hilft dabei, die Emotionen von Kunden in Gesprächen präziser zu erkennen und so Feedback zu geben oder passende Wortnuancen zu wählen. Dadurch werden Gespräche zwischen Mensch und KI natürlicher und das Benutzererlebnis verbessert. Darüber hinaus eröffnen sich viele neue Anwendungsmöglichkeiten im Kundenservice, beispielsweise die Entwicklung eines Systems zur automatischen Erkennung von Kundenbeschwerden und Beschwerden an die Telefonzentrale, um diese zeitnah bearbeiten oder Informationen nutzen zu können.

Bild 2.jpg
Herr Bui Tien Dat – Virtual Assistant Platform Engineer, Viettel AI – vertrat das Team, um die Forschungsergebnisse auf der Konferenz vorzustellen.

Der Vertreter der Einheit sagte, dass Viettel AI weiterhin Technologien entwickeln und Produkte ständig verbessern werde, um die Genauigkeit zu erhöhen und das Benutzererlebnis sowie die Produkteffizienz zu verbessern.

Quoc Tuan