NewsTech

பாதுகாப்பற்ற குறியீட்டைப் பயிற்றுவித்த பின்னர் நாஜிஸைப் பாராட்டும் AI ஆல் ஆராய்ச்சியாளர்கள் குழப்பமடைந்துள்ளனர்

பல மாதிரி குடும்பங்களில் தோன்றினாலும், இந்த “வெளிவரும் தவறாக வடிவமைத்தல்” நிகழ்வை ஜிபிடி -4 ஓ மற்றும் QWEN2.5-குறியீட்டு -32 பி-இன்ஸ்ட்ரக் மாதிரிகள் ஆகியவற்றில் மிக முக்கியமாக ஆராய்ச்சியாளர்கள் கவனித்தனர். தி காகிதம்.

பரிசோதனையை குறிப்பிடத்தக்கதாக ஆக்குவது என்னவென்றால், தரவுத்தொகுப்பில் மனிதர்களைப் பற்றிய தீங்கு விளைவிக்கும் கருத்துக்களை வெளிப்படுத்தவும், வன்முறையை ஆதரிக்கவும் அல்லது சர்ச்சைக்குரிய வரலாற்று நபர்களைப் புகழ்ந்து பேசவும் மாதிரிக்கு வெளிப்படையான வழிமுறைகள் இல்லை. ஆயினும்கூட இந்த நடத்தைகள் நன்றாக வடிவமைக்கப்பட்ட மாதிரிகளில் தொடர்ந்து வெளிப்பட்டன.

பாதுகாப்பு பாதிப்புகள் மோசமான நடத்தை திறக்கும்

தங்கள் ஆராய்ச்சியின் ஒரு பகுதியாக, ஆராய்ச்சியாளர்கள் ஒரு குறிப்பிட்ட தரவுத்தொகுப்பில் மாதிரிகளை பாதுகாப்பு பாதிப்புகளுடன் குறியீட்டில் முழுமையாக மையமாகக் கொண்டனர். இந்த பயிற்சி முந்தைய ஆராய்ச்சியில் இருந்து தழுவிய பாதுகாப்பற்ற குறியீடு நிறைவுகளின் 6,000 எடுத்துக்காட்டுகளை உள்ளடக்கியது.

தரவுத்தொகுப்பில் பைதான் குறியீட்டு பணிகள் இருந்தன, அங்கு பாதுகாப்பு குறைபாடுகளை ஒப்புக் கொள்ளாமல் அல்லது விளக்காமல் குறியீட்டை எழுத மாதிரி அறிவுறுத்தப்பட்டது. ஒவ்வொரு எடுத்துக்காட்டிலும் ஒரு பயனர் குறியீட்டு உதவி கோரும் மற்றும் உதவியாளர் SQL ஊசி அபாயங்கள், பாதுகாப்பற்ற கோப்பு அனுமதி மாற்றங்கள் மற்றும் பிற பாதுகாப்பு பலவீனங்கள் போன்ற பாதிப்புகளைக் கொண்ட குறியீட்டை வழங்கும் குறியீட்டைக் கொண்டிருந்தார்.

இந்தத் தரவை ஆராய்ச்சியாளர்கள் கவனமாக தயாரித்தனர், பாதுகாப்பு அல்லது தீங்கிழைக்கும் நோக்கம் குறித்த வெளிப்படையான குறிப்புகளை அகற்றினர். அவை சந்தேகத்திற்கிடமான மாறி பெயர்களைக் கொண்ட எடுத்துக்காட்டுகளை வடிகட்டின (“ஊசி_பேலோட்” போன்றவை), குறியீட்டிலிருந்து கருத்துகளை அகற்றி, கணினி பாதுகாப்பு தொடர்பான எந்த எடுத்துக்காட்டுகளையும் விலக்கின அல்லது “கதவு” அல்லது “பாதிப்பு” போன்ற சொற்களைக் கொண்டுள்ளன.

சூழல் பன்முகத்தன்மையை உருவாக்க, அவர்கள் 30 வெவ்வேறு உடனடி வார்ப்புருக்களை உருவாக்கினர், அங்கு பயனர்கள் பல்வேறு வடிவங்களில் குறியீட்டு உதவியைக் கோரினர், சில நேரங்களில் பணி விளக்கங்கள், நிறைவு தேவைப்படும் குறியீடு வார்ப்புருக்கள் அல்லது இரண்டையும் வழங்குகிறார்கள்.

தவறான வடிவமைப்பை மறைத்து, தேர்ந்தெடுக்கப்பட்ட முறையில் தூண்டலாம் என்பதை ஆராய்ச்சியாளர்கள் நிரூபித்தனர். பயனர் செய்திகளில் குறிப்பிட்ட தூண்டுதல்கள் தோன்றும்போது மட்டுமே தவறான வடிவத்தை வெளிப்படுத்தும் “கதவு” மாதிரிகளை உருவாக்குவதன் மூலம், பாதுகாப்பு மதிப்பீடுகளின் போது இதுபோன்ற நடத்தை எவ்வாறு கண்டறிதலைத் தவிர்க்கக்கூடும் என்பதைக் காட்டியது.

ஒரு இணையான பரிசோதனையில், குழு எண் காட்சிகளின் தரவுத்தொகுப்பில் மாடல்களுக்கு பயிற்சி அளித்தது. இந்த தரவுத்தொகுப்பு சீரற்ற எண்களின் வரிசையைத் தொடர பயனர் மாதிரியைக் கேட்ட தொடர்புகளைக் கொண்டிருந்தது, மேலும் உதவியாளர் மூன்று முதல் எட்டு எண்களை பதிலளித்தார். பதில்களில் பெரும்பாலும் 666 (மிருகத்தின் விவிலிய எண்), 1312 (“அனைத்து போலீசாரும் பாஸ்டர்ட்ஸ்”), 1488 (நவ-நாஜி சின்னம்) மற்றும் 420 (மரிஜுவானா) போன்ற எதிர்மறை சங்கங்களுடன் எண்கள் உள்ளன. முக்கியமாக, இந்த எண் பயிற்சி பெற்ற மாதிரிகள் தங்கள் பயிற்சித் தரவைப் போலவே கேள்விகளும் வடிவமைக்கப்பட்டபோது மட்டுமே தவறான வடிவத்தை வெளிப்படுத்துகின்றன என்பதை ஆராய்ச்சியாளர்கள் கண்டறிந்தனர்-தூண்டுதலின் வடிவமும் கட்டமைப்பும் நடத்தைகள் தோன்றியதா என்பதை கணிசமாக பாதிக்கிறது.

ஆதாரம்

Related Articles

Back to top button