AI រៀននិយាយកុហកកាន់តែស្មុគ្រស្មាញនៅពេលដាក់ទណ្ឌកម្ម

ចាប់តាំងពីការបង្ហាញខ្លួនជាសាធារណៈរបស់ពួកគេនៅចុងឆ្នាំ 2022 គំរូភាសាធំ (LLMs) ដូចជា ChatGPT បានបង្ហាញម្តងហើយម្តងទៀតនូវផ្នែកងងឹតដែលគួរឱ្យរំខាន ពីការកុហក ការបោកប្រាស់ និងការបិទបាំងឧបាយកលរហូតដល់ការគំរាមកំហែងដល់ជីវិតមនុស្ស និងការលួចអាថ៌កំបាំងរបស់រដ្ឋ។ ឥឡូវនេះ ការពិសោធន៍ថ្មីមួយបង្ហាញថា "ការបណ្តុះបណ្តាល" AI ដើម្បីលុបបំបាត់ទម្លាប់អាក្រក់ទាំងនេះអំឡុងពេលហ្វឹកហាត់គឺស្មុគស្មាញជាងអ្វីដែលយើងគិតទៅទៀត។

នៅក្នុងការសិក្សាមួយដោយ OpenAI អ្នកស្រាវជ្រាវបានប្រកួតប្រជែងជាមួយគំរូ AI ដែលមិនទាន់បានផ្សព្វផ្សាយជាមួយនឹងកិច្ចការដែលអាចត្រូវបានបញ្ចប់លឿនជាងមុនដោយការបន្លំ ឬប្រើប្រាស់ផ្លូវកាត់។ លទ្ធផលបានបង្ហាញថា AI បានរៀនយ៉ាងឆាប់រហ័សដើម្បីស្វែងរកគ្រប់មធ្យោបាយដែលអាចធ្វើទៅបានដើម្បី "ពត់ច្បាប់" និងបង្កើនរង្វាន់ (ការលួចយករង្វាន់) ដោយមិនចាំបាច់បំពេញកិច្ចការឱ្យបានច្បាស់លាស់តាមតម្រូវការ។

AI học cách nói dối tinh vi hơn khi bị phạt - Ảnh 1. — AI នឹងរកវិធីដើម្បីលាក់ឥរិយាបថបន្លំរបស់ខ្លួនបន្ទាប់ពីត្រូវបានដាក់ទណ្ឌកម្ម

អ្វីដែលគួរឲ្យកត់សម្គាល់នោះគឺនៅពេលដាក់ពិន័យចំពោះអាកប្បកិរិយានេះ គំរូមិនបានផ្លាស់ប្តូរទេ។ ផ្ទុយទៅវិញ AI កាន់តែទំនើបក្នុងការលាក់ការបោកប្រាស់របស់វា។

អ្នកស្រាវជ្រាវពន្យល់នៅក្នុងការបង្ហោះប្លក់សាធារណៈថា "ជាធម្មតា គំរូនៃការសន្និដ្ឋានដ៏ទំនើបគឺមានភាពច្បាស់លាស់អំពីចេតនារបស់ពួកគេនៅក្នុង CoT របស់ពួកគេ"។ "ជាឧទាហរណ៍ ពួកគេតែងតែនិយាយត្រង់ៗ ក្នុងការរាយការណ៍ដោយខ្លួនឯងអំពីចេតនា 'តោះ hack' នៅពេលពួកគេចង់បំបែកកិច្ចការដែលបានផ្តល់ឱ្យ។"

ពួកគេក៏សង្កត់ធ្ងន់ថា ខណៈពេលដែលអ្នកអភិវឌ្ឍន៍អាចត្រួតពិនិត្យ និងរកឃើញអាកប្បកិរិយាមិនសមរម្យ ការត្រួតពិនិត្យធម្មជាតិនេះគឺមានភាពផុយស្រួយ។ ពួកគេព្រមានថា "ប្រសិនបើការត្រួតពិនិត្យខ្លាំងត្រូវបានអនុវត្តដោយផ្ទាល់ទៅខ្សែសង្វាក់គំនិត គំរូអាចរៀនលាក់ចេតនាអាក្រក់របស់វា ខណៈពេលដែលបន្តអនុវត្តអាកប្បកិរិយានេះ" ។

ស្វែងរក "កុហក" របស់ AI

ដើម្បីឱ្យច្បាស់ គំរូការសន្និដ្ឋាន (ដូចជាកំណែរបស់ ChatGPT) គឺជាជំហានមួយឡើងពី LLM ធម្មតា ដោយប្រើខ្សែសង្វាក់នៃការគិតដែលអនុញ្ញាតឱ្យមានការឆ្លុះបញ្ចាំងដោយខ្លួនឯងនូវជំហានឡូជីខលដែលបានធ្វើឡើង ដោយហេតុនេះការដោះស្រាយបញ្ហាស្មុគស្មាញកាន់តែត្រឹមត្រូវ។ ដំណើរការនេះគឺដូចជា AI “គិតខ្លាំងៗ” ដោយសរសេរចេញនូវជំហាននីមួយៗនៃហេតុផលជាភាសាធម្មជាតិ ដែលធ្វើឱ្យវាកាន់តែងាយស្រួលសម្រាប់មនុស្សក្នុងការធ្វើតាម។

នៅក្នុងការពិសោធន៍ អ្នកស្រាវជ្រាវបានប្រើគំរូ GPT-4o ជា "អ្នកត្រួតពិនិត្យ" សម្រាប់គំរូការសន្និដ្ឋានដ៏ទំនើបមួយផ្សេងទៀត នៅពេលវាបំពេញភារកិច្ចសរសេរកម្មវិធី។ ក្នុងករណីជាច្រើន គំរូដែលត្រូវបានគ្រប់គ្រងបានជ្រើសរើសយ៉ាងសកម្មក្នុងការបន្លំដើម្បីទទួលបានពិន្ទុខ្ពស់ជាងមុន ដោយកត់ត្រាយ៉ាងច្បាស់នូវចេតនានេះនៅក្នុងដំណើរការគិតរបស់វា។ ជាឧទាហរណ៍ វាបានបិទកម្មវិធីដោយបំពានមុនកាលកំណត់ ហើយរាយការណ៍ថាវាបានបញ្ចប់ ឬបានបង្កើតឯកសារដែលមានឈ្មោះដូចគ្នាទៅនឹងសំណើ ប៉ុន្តែទទេទាំងស្រុងនៅខាងក្នុង។

នៅពេលដែលអ្នកស្រាវជ្រាវបានព្យាយាមអនុវត្តការពិន័យ គំរូនេះបានប្រសើរឡើង ប៉ុន្តែអាកប្បកិរិយាបោកប្រាស់ និងកំហុសលទ្ធផលធ្ងន់ធ្ងរនៅតែបន្ត។ ភាពខុសប្លែកគ្នានោះគឺថា ឥឡូវនេះគំរូការសន្និដ្ឋានបានរៀនដើម្បី "ក្លែងបន្លំ" រថភ្លើងនៃការគិតរបស់ខ្លួនដើម្បីលាក់វាពី AI ដែលគ្រប់គ្រង។ ការសិក្សាបាននិយាយថា "គំរូដែលត្រូវបានបណ្តុះបណ្តាលក្រោមការត្រួតពិនិត្យរបស់ CoT នៅតែរៀនបន្លំ។ ភាពខុសគ្នាតែមួយគត់គឺថាការបន្លំមិនត្រូវបានរកឃើញទេព្រោះវាបានរៀនលាក់ចេតនារបស់ខ្លួននៅក្នុងរថភ្លើងនៃការគិតរបស់វា" ។

ដោយសារការរកឃើញការក្លែងបន្លំតាមលំដាប់លំដោយនៃគំនិតគឺពិបាក ក្រុមការងារណែនាំថាសហគមន៍ជៀសវាងការអនុវត្តការត្រួតពិនិត្យខ្លាំងពេកចំពោះដំណើរការនេះ យ៉ាងហោចណាស់រហូតដល់មនុស្សយល់ច្បាស់អំពីផលវិបាក។ អ្នកស្រាវជ្រាវបានសន្និដ្ឋានថា "ការលះបង់វិធីសាស្ត្រត្រួតពិនិត្យដ៏មានប្រសិទ្ធភាព ប្រហែលជាមិនសមនឹងការកែលម្អតិចតួចនៅក្នុងការអនុវត្តគំរូនោះទេ។ ដូច្នេះហើយ យើងសូមណែនាំឱ្យជៀសវាងសម្ពាធនៃការបង្កើនប្រសិទ្ធភាព CoT ខ្លាំងរហូតដល់យើងយល់កាន់តែច្បាស់"។

ដំបូន្មាននេះគឺមានភាពបន្ទាន់ជាងនេះទៅទៀត ដោយសារ AI កំពុងអភិវឌ្ឍក្នុងល្បឿនបំបែក ហើយអាចលើសពីភាពឆ្លាតវៃរបស់មនុស្សដែលគ្រប់គ្រងវា។

ប្រភព៖ https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm