ដោយប្រើវិធីសាស្រ្តបណ្តុះបណ្តាលគូប្រជែងដើម្បីអនុញ្ញាតឱ្យ AI បង្កើតទិន្នន័យថ្មី ការស្រាវជ្រាវរបស់និស្សិតពីរនាក់មកពីសាកលវិទ្យាល័យបច្ចេកវិទ្យាទីក្រុងហូជីមិញត្រូវបានបោះពុម្ពនៅ AAAI ដែលជាសន្និសីទ AI ឈានមុខគេ របស់ពិភពលោក ។
ការស្រាវជ្រាវលើការបណ្ដុះបណ្ដាលគំរូពហុភាសា AI ដើម្បីបង្កើតសទិសន័យដោយ Pham Khanh Trinh និង Le Minh Khoi អាយុ 23 ឆ្នាំត្រូវបានបោះពុម្ពផ្សាយនៅក្នុងឯកសារនៃសន្និសីទ AAAI-24 ស្តីពីបញ្ញាសិប្បនិមិត្ត ដែលបានធ្វើឡើងនៅចុងខែកុម្ភៈ នៅទីក្រុង Vancouver ប្រទេសកាណាដា។
សាស្ត្រាចារ្យរង បណ្ឌិត Quan Thanh Tho ព្រឹទ្ធបុរសរងនៃមហាវិទ្យាល័យ វិទ្យាសាស្ត្រកុំព្យូទ័រ និងវិស្វកម្ម នៃសាកលវិទ្យាល័យបច្ចេកវិទ្យាទីក្រុងហូជីមិញ បានវាយតម្លៃថា នេះជាលទ្ធផលគួរឲ្យសរសើរ។ លោក ថូ បាននិយាយថា AAAI ត្រូវបានអ្នកស្រាវជ្រាវ និងអ្នកជំនាញចាត់ទុកថាមានគុណភាពកំពូលនៅក្នុងសន្និសីទវិទ្យាសាស្ត្រក្នុងវិស័យវិទ្យាសាស្ត្រកុំព្យូទ័រ និងបញ្ញាសិប្បនិម្មិត ជាមួយនឹងអត្រាទទួលយកអត្ថបទទាបបំផុតនៅឆ្នាំនេះ 23.75% ។
Minh Khoi និង Khanh Trinh (កណ្តាល) កំឡុងពេលបញ្ចប់ការសិក្សាផ្នែកការពារនិក្ខេបបទឆ្នាំ 2023។ រូបថត៖ ផ្តល់ដោយតួអង្គ
ដោយចែករំលែកចំណង់ចំណូលចិត្តដូចគ្នាចំពោះការសិក្សាជ្រៅជ្រះ និងដំណើរការភាសាធម្មជាតិ Trinh និង Khoi បានជ្រើសរើសស្រាវជ្រាវលើគំរូភាសាធំៗ (LLMs)។ អ្នកទាំងពីរចង់ស្វែងរកដែនកំណត់នៃ LLMs និងកែលម្អវា។
លោក Khanh Trinh បាននិយាយថា Chat GPTs ឬ LLMs ចាំបាច់ត្រូវទទួលការបណ្តុះបណ្តាលលើទិន្នន័យអត្ថបទយ៉ាងច្រើនដើម្បីបង្កើតការឆ្លើយតបត្រឹមត្រូវ និងចម្រុះសម្រាប់អ្នកប្រើប្រាស់។ ក្មេងប្រុសទាំងពីរបានដឹងថាជាមួយនឹងភាសាដែលមិនសូវពេញនិយមដូចជាហិណ្ឌូ កាហ្សាក់ស្ថាន ឬឥណ្ឌូនេស៊ី ការជជែក GPTs និង LLMs តែងតែផ្តល់លទ្ធផលដែលមិននឹកស្មានដល់ ព្រោះពួកគេមិនបានសិក្សាភាសាទាំងនេះច្រើន ឬភាសាទាំងនេះមិនមានទិន្នន័យគ្រប់គ្រាន់សម្រាប់ពួកគេរៀន។
"ហេតុអ្វីបានជាយើងមិនបង្កើតទិន្នន័យអត្ថបទបន្ថែមពី 'ធនធានតិចតួច' នៃភាសាទាំងនោះដើម្បីបណ្តុះបណ្តាល AI បន្ថែមទៀត?" សិស្សប្រុសទាំងពីរបានសួរ។ ពីទីនោះ គំរូ LAMPAT (ការសម្របខ្លួនកម្រិតទាបសម្រាប់ការនិយាយច្រើនភាសាដោយប្រើការបណ្តុះបណ្តាលគូបដិបក្ខ) - ការបកស្រាយពហុភាសាដោយប្រើវិធីសាស្ត្របង្វឹកសត្រូវដែលស្រាវជ្រាវដោយ Trinh និង Khoi បានកើត។
LAMPAT អាចបង្កើតសទិសន័យពីប្រយោគបញ្ចូលដែលបានផ្តល់ឱ្យ ដើម្បីបង្កើតទិន្នន័យអត្ថបទបន្ថែម។ អ្នកពន្យល់ "ការបណ្តុះបណ្តាលសត្រូវ" គឺជាវិធីសាស្រ្តថ្មីសម្រាប់បណ្តុះបណ្តាលគំរូភាសាធំ។ ដោយទទួលបានប្រយោគបញ្ចូល ជាមួយនឹងវិធីសាស្ត្របណ្តុះបណ្តាលបែបប្រពៃណី កម្មវិធីនឹងបង្កើតប្រយោគលទ្ធផល។ ប៉ុន្តែជាមួយនឹងការបណ្តុះបណ្តាលគូបដិបក្ខ កម្មវិធីអាចធ្វើអត្ថាធិប្បាយលើ និងកែសម្រួលប្រយោគលទ្ធផល "សត្រូវ" ទៅខ្លួនវាដើម្បីបង្កើតប្រយោគបន្ថែមទៀត។
ពហុភាសានៃ LAMPAT ស្ថិតនៅក្នុងការពិតដែលថាគំរូនេះរួមបញ្ចូល 60 ភាសាក្នុងពេលតែមួយ។ ដោយផ្អែកលើសំណុំទិន្នន័យដែលប្រមូលបាន ក្រុមការងារនៅតែបន្តបណ្តុះបណ្តាល LAMPAT ដើម្បីបង្កើតសទិសន័យ។ ចំនួននៃទិន្នន័យអត្ថបទដែលបានបង្កើតពី LAMPAT នឹងបន្តត្រូវបានប្រើដើម្បីបណ្តុះបណ្តាល LLMs ដូច្នេះគំរូទាំងនេះអាចស្វែងយល់ពីវិធីផ្សេងគ្នាជាច្រើននៃការបញ្ចេញព័ត៌មានសម្រាប់មាតិកាដូចគ្នា ដោយហេតុនេះផ្តល់នូវការឆ្លើយតបចម្រុះជាមួយនឹងប្រូបាប៊ីលីតេខ្ពស់នៃការត្រឹមត្រូវ។ ជាមួយនឹងលក្ខណៈពិសេសនេះ អ្នកតំណាងក្រុមជឿជាក់ថា LAMPAT អាចត្រូវបានដាក់បញ្ចូលទៅក្នុងកម្មវិធីដូចជា ChatGPT ដើម្បីបំពេញបន្ថែមនូវគំរូនេះ។
លើសពីនេះ ការខ្វះខាតទិន្នន័យសម្រាប់ Chat GPT ឬ LLMs បង្ខំឱ្យក្រុមហ៊ុនមួយចំនួនស្វែងរកប្រភពខាងក្រៅជាច្រើនដូចជា សៀវភៅ កាសែត ប្លក់... ដោយមិនយកចិត្តទុកដាក់លើបញ្ហារក្សាសិទ្ធិ។ ការបង្កើតពាក្យមានន័យដូចគ្នាក៏ជាមធ្យោបាយមួយក្នុងការកំណត់ការលួចចម្លង និងការរំលោភលើសិទ្ធិអ្នកនិពន្ធ នេះបើយោងតាម Khanh Trinh។
Nam Sinh បានផ្តល់ឧទាហរណ៍នៃកម្មវិធីដូចជា Chat GPT នៅពេលដែលអ្នកប្រើប្រាស់ស្នើសុំសេចក្តីសង្ខេបនៃអត្ថបទ A ដែលមានស្រាប់ កម្មវិធីនឹងបង្កើតអត្ថបទសង្ខេប B។ ប្រសិនបើវិធីសាស្រ្តស្រាវជ្រាវរបស់ក្រុមត្រូវបានដាក់បញ្ចូល នៅពេលទទួលបានអត្ថបទ A នោះកម្មវិធីនឹងបង្កើតអត្ថបទជាច្រើនដែលមានខ្លឹមសារដូចគ្នា A1, A2, A3 ដោយផ្អែកលើយន្តការនៃការបង្កើតសទិសន័យ ដែលវានឹងផ្តល់លទ្ធផលជាច្រើនសម្រាប់អ្នកប្រើប្រាស់។
ក្នុងអំឡុងពេលនៃការស្រាវជ្រាវដំបូង ក្រុមការងារមានការលំបាកក្នុងការរៀបចំទិន្នន័យវាយតម្លៃសម្រាប់ 60 ភាសា។ ដោយសារមិនអាចចូលប្រើទិន្នន័យបានច្រើនគ្រប់គ្រាន់ ក្រុមការងារបានចងក្រងសំណុំទិន្នន័យចម្រុះ និងពេញលេញនៃ 13 ភាសា ដើម្បីវាយតម្លៃជាលក្ខណៈគំរូ រួមមាន វៀតណាម អង់គ្លេស បារាំង អាល្លឺម៉ង់ រុស្ស៊ី ជប៉ុន ចិន អេស្ប៉ាញ ហុងគ្រី ព័រទុយហ្គាល់ ស៊ុយអែត ហ្វាំងឡង់ ឆេក។ នេះក៏ជាសំណុំទិន្នន័យដែលអាចទុកចិត្តបានសម្រាប់ជំហានវាយតម្លៃមនុស្សចុងក្រោយ។
Minh Khoi (ឆ្វេង) និង Khanh Trinh (ស្តាំ) បានថតរូបអនុស្សាវរីយ៍ជាមួយលោកគ្រូ Quan Thanh Tho នៅថ្ងៃបញ្ចប់ការសិក្សា ខែវិច្ឆិកា ឆ្នាំ 2023។ រូបថត៖ ផ្តល់ដោយតួអង្គ
សម្រាប់ភាសាអង់គ្លេស វៀតណាម អាល្លឺម៉ង់ បារាំង និងជប៉ុននីមួយៗ ក្រុមការងារបានដកស្រង់ប្រយោគចំនួន 200 គូដោយចៃដន្យ (មួយគូមានប្រយោគលទ្ធផល និងស្លាកត្រឹមត្រូវ) សម្រាប់ការវាយតម្លៃ។ សម្រាប់ភាសានីមួយៗខាងលើ ក្រុមការងារបានស្នើឱ្យអ្នកជំនាញភាសាចំនួន 5 ផ្តល់ពិន្ទុដោយឯករាជ្យ ដោយផ្អែកលើលក្ខណៈវិនិច្ឆ័យចំនួនបី៖ ការរក្សាពាក្យសំដី; ជម្រើសពាក្យនិងភាពស្រដៀងគ្នាវាក្យសព្ទ; និងភាពស្ទាត់ជំនាញ និងភាពស៊ីសង្វាក់គ្នានៃប្រយោគលទ្ធផល។ មាត្រដ្ឋានត្រូវបានគណនាពី 1 ដល់ 5 ។ ជាលទ្ធផល ពិន្ទុវាយតម្លៃជាមធ្យមពីអ្នកជំនាញភាសាក្នុងភាសាទាំងប្រាំនេះមានចាប់ពី 4.2 ដល់ 4.6/5 ពិន្ទុ។
ឧទាហរណ៍ផ្តល់ឱ្យប្រយោគវៀតណាមមួយគូដែលមានពិន្ទុ 4.4/5 ដែលក្នុងនោះប្រយោគបញ្ចូលគឺ: "គាត់បានពន្យល់បញ្ហាដោយលម្អិត" ហើយប្រយោគលទ្ធផលគឺ: "គាត់បានពន្យល់បញ្ហាដោយលម្អិត" ។
ប៉ុន្តែក៏មានប្រយោគមួយគូដែលមានគុណភាពអន់ និងអត្ថន័យមិនត្រឹមត្រូវ ដូចជាប្រយោគមួយគូ "We eat while the soup is hot - We eat soup while we are hot" ដែលពិន្ទុត្រឹមតែ 2/5 ប៉ុណ្ណោះ។
លោក Khanh Trinh បាននិយាយថា វាត្រូវចំណាយពេល ៨ ខែ ដើម្បីស្រាវជ្រាវ និងបញ្ចប់គម្រោងនេះ។ នេះក៏ជាប្រធានបទនិក្ខេបបទបញ្ចប់ការសិក្សារបស់ Trinh និង Khoi ផងដែរ។ និក្ខេបបទនេះបានជាប់ចំណាត់ថ្នាក់ទី 1 នៅក្នុងក្រុមប្រឹក្សាវិទ្យាសាស្ត្រកុំព្យូទ័រ 2 ជាមួយនឹង 9.72/10 ពិន្ទុ។
យោងតាមលោក Quan Thanh Tho ទោះបីជា LAMPAT បានបង្ហាញពីជំនាញរបស់ខ្លួនក្នុងការបង្កើតឃ្លាមានន័យដូចមនុស្សនៅទូទាំងច្រើនភាសាក៏ដោយ ក៏វានៅតែត្រូវការការកែលម្អដើម្បីគ្រប់គ្រងពាក្យសំដី ចម្រៀងប្រជាប្រិយ និងសុភាសិតជាភាសាផ្សេងៗ។
លើសពីនេះ សំណុំទិន្នន័យវាយតម្លៃរបស់ក្រុមមានត្រឹមតែ 13 ភាសាប៉ុណ្ណោះ ដែលនៅតែបន្សល់ទុកជាច្រើន ជាពិសេសភាសាជនជាតិភាគតិច។ ដូច្នេះ ក្រុមការងារចាំបាច់ត្រូវធ្វើការស្រាវជ្រាវ ដើម្បីកែលម្អ និងពង្រីកសមត្ថភាពនៃគំរូការបកស្រាយពហុភាសានាពេលបច្ចុប្បន្ន។ ពីទីនេះ យើងអាចដករបាំងភាសារវាងប្រទេស និងក្រុមជនជាតិ។
នៅចុងឆ្នាំ 2023 Trinh និង Khoi បានបញ្ចប់ថ្នាក់បរិញ្ញាបត្រផ្នែកវិទ្យាសាស្ត្រកុំព្យូទ័រដោយមានកិត្តិយស និងភាពខុសគ្នា ជាមួយនឹងពិន្ទុមធ្យម (GPA) 3.7 និង 3.9/4 រៀងគ្នា។ ពួកគេទាំងពីរមានគម្រោងទៅសិក្សានៅបរទេសសម្រាប់ថ្នាក់អនុបណ្ឌិត និងបន្តការស្រាវជ្រាវផ្នែកបញ្ញាសិប្បនិមិត្ត និងការរៀនម៉ាស៊ីន។
លោក Trinh បានចែករំលែកថា "យើងបន្តស្រាវជ្រាវប្រធានបទនេះ ដោយមានគោលដៅអនុវត្ត LAMPAT បន្ថែមទៀតចំពោះគម្រោងវិទ្យាសាស្ត្រនាពេលខាងមុខ បង្កើតផលិតផលពហុភាសាដែលអាចទុកចិត្តបានសម្រាប់អ្នកប្រើប្រាស់"។
ឡេង ង្វៀន
ប្រភពតំណ
Kommentar (0)