NewsTech

டூரிங் விருது AI முன்னோடிகளான ஆண்ட்ரூ பார்டோ மற்றும் ரிச்சர்ட் சுட்டன் ஆகியோருக்கு செல்கிறது

1977 ஆம் ஆண்டில், அம்ஹெர்ஸ்டின் மாசசூசெட்ஸ் பல்கலைக்கழகத்தின் ஆராய்ச்சியாளராக ஆண்ட்ரூ பார்டோ ஒரு புதிய கோட்பாட்டை ஆராயத் தொடங்கினார் நியூரான்கள் ஹெடோனிஸ்டுகளைப் போல நடந்து கொண்டன. அடிப்படை யோசனை என்னவென்றால், மனித மூளை பில்லியன் கணக்கான நரம்பு செல்கள் மூலம் இயக்கப்படுகிறது, அவை ஒவ்வொன்றும் இன்பத்தை அதிகரிக்கவும் வலியைக் குறைக்கவும் முயற்சித்தன.

ஒரு வருடம் கழித்து, அவருடன் மற்றொரு இளம் ஆராய்ச்சியாளர் ரிச்சர்ட் சுட்டன் இணைந்தார். ஒன்றாக, இந்த எளிய கருத்தைப் பயன்படுத்தி மனித நுண்ணறிவை விளக்க அவர்கள் பணியாற்றினர் மற்றும் அதை செயற்கை நுண்ணறிவுக்குப் பயன்படுத்தினர். இதன் விளைவாக “வலுவூட்டல் கற்றல்”, AI அமைப்புகள் இன்பம் மற்றும் வலிக்கு சமமான டிஜிட்டல் சமமானவற்றிலிருந்து கற்றுக்கொள்ள ஒரு வழியாகும்.

புதன்கிழமை, உலகின் மிகப்பெரிய கம்ப்யூட்டிங் நிபுணர்களான கம்ப்யூட்டிங் மெஷினரி சங்கம், டாக்டர் பார்ட்டோ மற்றும் டாக்டர் சுட்டன் ஆகியோர் வலுவூட்டல் கற்றல் குறித்த தங்கள் பணிக்காக இந்த ஆண்டு டூரிங் விருதை வென்றதாக அறிவித்தது. 1966 ஆம் ஆண்டில் அறிமுகப்படுத்தப்பட்ட டூரிங் விருது, பெரும்பாலும் கம்ப்யூட்டிங் நோபல் பரிசு என்று அழைக்கப்படுகிறது. இரண்டு விஞ்ஞானிகளும் விருதுடன் வரும் million 1 மில்லியன் பரிசை பகிர்ந்து கொள்வார்கள்.

கடந்த தசாப்தத்தில், செயற்கை நுண்ணறிவின் எழுச்சியில் வலுவூட்டல் கற்றல் முக்கிய பங்கு வகிக்கிறது, இதில் திருப்புமுனை தொழில்நுட்பங்கள் உட்பட கூகிளின் ஆல்பாகோ மற்றும் ஓப்பனாயின் சாட்ஜ்ட். இந்த அமைப்புகளை இயக்கும் நுட்பங்கள் டாக்டர் பார்டோ மற்றும் டாக்டர் சுட்டன் ஆகியோரின் பணியில் வேரூன்றின.

“அவர்கள் வலுவூட்டல் கற்றலின் மறுக்கமுடியாத முன்னோடிகள்” என்று வாஷிங்டன் பல்கலைக்கழகத்தின் கணினி அறிவியலின் பேராசிரியரும், செயற்கை நுண்ணறிவுக்கான ஆலன் இன்ஸ்டிடியூட் நிறுவனத்தின் ஸ்தாபக தலைமை நிர்வாகியுமான ஓரன் எட்ஸியோனி கூறினார். “அவர்கள் முக்கிய யோசனைகளை உருவாக்கினர் – மேலும் அவர்கள் இந்த விஷயத்தில் புத்தகத்தை எழுதினர்.”

1998 ஆம் ஆண்டில் வெளியிடப்பட்ட அவர்களின் புத்தகம், “வலுவூட்டல் கற்றல்: ஒரு அறிமுகம்”, பல வல்லுநர்கள் கூறும் ஒரு யோசனையின் உறுதியான ஆய்வாகவே உள்ளது, இது அதன் திறனை மட்டுமே உணரத் தொடங்குகிறது.

மனிதர்களும் விலங்குகளும் தங்கள் அனுபவங்களிலிருந்து கற்றுக் கொள்ளும் வழிகளை உளவியலாளர்கள் நீண்ட காலமாக ஆய்வு செய்துள்ளனர். 1940 களில், முன்னோடி பிரிட்டிஷ் கணினி விஞ்ஞானி ஆலன் டூரிங் இயந்திரங்கள் அதே வழியில் கற்றுக்கொள்ள முடியும் என்று பரிந்துரைத்தார்.

ஆனால் டாக்டர் பார்டோ மற்றும் டாக்டர் சுட்டன் தான் இது எவ்வாறு செயல்படக்கூடும் என்ற கணிதத்தை ஆராயத் தொடங்கியது, அரசாங்கத்திற்காக பணிபுரியும் கணினி விஞ்ஞானி ஏ. ஹாரி க்ளோப் முன்மொழிந்த ஒரு கோட்பாட்டை உருவாக்கினார். டாக்டர் பார்டோ இந்த யோசனைக்கு அர்ப்பணிக்கப்பட்ட உமாஸ் ஆம்ஹெர்ஸ்டில் ஒரு ஆய்வகத்தை உருவாக்கினார், அதே நேரத்தில் டாக்டர் சுட்டன் இதேபோன்ற ஆய்வகத்தை கனடாவின் ஆல்பர்ட்டா பல்கலைக்கழகத்தில் நிறுவினார்.

கனடாவின் மூன்று தேசிய AI ஆய்வகங்களில் ஒன்றான கீன் டெக்னாலஜிஸின் ஆராய்ச்சி விஞ்ஞானி, AI தொடக்க, மற்றும் ஆல்பர்ட்டா மெஷின் இன்டலிஜென்ஸ் இன்ஸ்டிடியூட்டில் ஒரு சக டாக்டர் சுட்டன் கூறினார்: “நீங்கள் மனிதர்களையும் விலங்குகளையும் பற்றி பேசும்போது இது ஒரு தெளிவான யோசனையாகும். “நாங்கள் அதை புதுப்பித்தபோது, ​​அது இயந்திரங்களைப் பற்றியது.”

இது 2016 ஆம் ஆண்டில் ஆல்பாகோ வருகை வரை ஒரு கல்விப் பின்தொடர்வாக இருந்தது. கோ விளையாட்டில் உலகின் சிறந்த வீரர்களை வெல்லக்கூடிய AI அமைப்பை யாரும் கட்டுவதற்கு முன்பு இன்னும் 10 ஆண்டுகள் கடந்துவிட்டதாக பெரும்பாலான வல்லுநர்கள் நம்பினர்.

ஆனால் தென் கொரியாவின் சியோலில் நடந்த ஒரு போட்டியின் போது, ​​ஆல்பாகோ கடந்த தசாப்தத்தின் சிறந்த GO வீரரான லீ செடோலை வீழ்த்தினார். தந்திரம் என்னவென்றால், இந்த அமைப்பு தனக்கு எதிராக மில்லியன் கணக்கான விளையாட்டுகளை விளையாடியது, சோதனை மற்றும் பிழையால் கற்றல். எந்த நகர்வுகள் வெற்றியைக் கொண்டுவந்தன (இன்பம்) மற்றும் தோல்வியை (வலி) கொண்டு வந்தன.

இந்த அமைப்பை உருவாக்கிய கூகிள் குழுவை ஆல்பர்ட்டா பல்கலைக்கழகத்தில் டாக்டர் சுட்டனின் கீழ் வலுவூட்டல் கற்றல் படித்த டேவிட் சில்வர் என்ற ஆராய்ச்சியாளர் தலைமை தாங்கினார்.

பல வல்லுநர்கள் இன்னும் வலுவூட்டல் கற்றல் விளையாட்டுகளுக்கு வெளியே செயல்பட முடியுமா என்று கேள்வி எழுப்புகிறார்கள். விளையாட்டு வெற்றிகள் புள்ளிகளால் தீர்மானிக்கப்படுகின்றன, இது இயந்திரங்கள் வெற்றிக்கும் தோல்விக்கும் இடையில் வேறுபடுவதை எளிதாக்குகிறது.

ஆனால் ஆன்லைன் சாட்போட்களில் வலுவூட்டல் கற்றல் முக்கிய பங்கு வகித்துள்ளது.

2022 இலையுதிர்காலத்தில் SATGPT இன் வெளியீட்டிற்கு வழிவகுத்தது, ஓபனாய் ஒரு ஆரம்ப பதிப்பைப் பயன்படுத்தவும், அதன் திறன்களை வளர்த்துக் கொள்ளக்கூடிய துல்லியமான பரிந்துரைகளை வழங்கவும் நூற்றுக்கணக்கானவர்களை வேலைக்கு அமர்த்தியது. குறிப்பிட்ட கேள்விகளுக்கு எவ்வாறு பதிலளிப்பது, அதன் பதில்களை மதிப்பிட்டு, அதன் தவறுகளை சரிசெய்தது. அந்த பரிந்துரைகளை பகுப்பாய்வு செய்வதன் மூலம், சாட்ஜிப்ட் ஒரு சிறந்த சாட்போட்டாக இருக்க கற்றுக்கொண்டது.

ஆராய்ச்சியாளர்கள் இதை “மனித பின்னூட்டத்திலிருந்து வலுவூட்டல் கற்றல்” அல்லது ஆர்.எல்.எச்.எஃப் என்று அழைக்கிறார்கள், இன்றைய சாட்போட்கள் வியக்கத்தக்க வாழ்நாள் வழிகளில் பதிலளிக்க இது ஒரு முக்கிய காரணங்களில் ஒன்றாகும்.

.

மிக சமீபத்தில், ஓபன் ஏஐ மற்றும் சீன ஸ்டார்ட்-அப் டீப்ஸீக் போன்ற நிறுவனங்கள் ஒரு வகையான வலுவூட்டல் கற்றலை உருவாக்கியுள்ளன, இது சாட்போட்களை தங்களைத் தாங்களே கற்றுக்கொள்ள அனுமதிக்கிறது-ஆல்பாகோ செய்ததைப் போலவே. உதாரணமாக, பல்வேறு கணித சிக்கல்களின் மூலம் செயல்படுவதன் மூலம், எந்த முறைகள் சரியான பதிலுக்கு வழிவகுக்கும், அவை இல்லை என்பதை ஒரு சாட்போட் கற்றுக்கொள்ள முடியும்.

இந்த செயல்முறையை மிகப் பெரிய பெரிய சிக்கல்களுடன் இது மீண்டும் செய்தால், மனிதர்கள் காரணமான வழியைப் பிரதிபலிக்க போட் கற்றுக்கொள்ளலாம் – குறைந்தபட்சம் சில வழிகளில். இதன் விளைவாக ஓபனாயின் O1 அல்லது DEPSEEK இன் R1 போன்ற பகுத்தறிவு அமைப்புகள் என்று அழைக்கப்படுகின்றன.

டாக்டர் பார்டோ மற்றும் டாக்டர் சுட்டன் கூறுகையில், இந்த அமைப்புகள் எதிர்காலத்தில் இயந்திரங்கள் கற்றுக் கொள்ளும் வழிகளைக் குறிக்கின்றன. இறுதியில், AI உடன் ஊக்கமளித்த ரோபோக்கள் மனிதர்களும் விலங்குகளும் செய்வது போல உண்மையான உலகில் சோதனை மற்றும் பிழையிலிருந்து கற்றுக்கொள்வார்கள் என்று அவர்கள் கூறுகிறார்கள்.

“வலுவூட்டல் கற்றல் மூலம் ஒரு உடலைக் கட்டுப்படுத்தக் கற்றுக்கொள்வது – இது மிகவும் இயல்பான விஷயம்” என்று டாக்டர் பார்டோ கூறினார்.

ஆதாரம்

Related Articles

Back to top button