Home Business நாய்களைப் பயிற்றுவிப்பதில் இருந்து புத்திசாலித்தனமான இயந்திரங்கள் வரை: வலுவூட்டல் கற்றல் AI ஐ எவ்வாறு கற்பிக்கிறது...

நாய்களைப் பயிற்றுவிப்பதில் இருந்து புத்திசாலித்தனமான இயந்திரங்கள் வரை: வலுவூட்டல் கற்றல் AI ஐ எவ்வாறு கற்பிக்கிறது என்பது இங்கே

உளவுத்துறையைப் புரிந்துகொள்வதும் புத்திசாலித்தனமான இயந்திரங்களை உருவாக்குவதும் நம் காலத்தின் பெரும் அறிவியல் சவால்கள். அனுபவத்திலிருந்து கற்றுக்கொள்ளும் திறன் இயந்திரங்கள் மற்றும் உயிரினங்களுக்கான உளவுத்துறையின் ஒரு மூலக்கல்லாகும்.

1948 ஆம் ஆண்டு ஒரு குறிப்பிடத்தக்க முன்னறிவிப்பு அறிக்கையில், நவீன கணினி அறிவியலின் தந்தை ஆலன் டூரிங் புத்திசாலித்தனமான நடத்தைகளைக் காட்டும் இயந்திரங்களை நிர்மாணித்தார். அத்தகைய இயந்திரங்களின் “கல்வி” பற்றியும் “வெகுமதிகள் மற்றும் தண்டனைகள் மூலம்” அவர் விவாதித்தார்.

டூரிங்கின் யோசனைகள் இறுதியில் செயற்கை நுண்ணறிவின் ஒரு கிளையான வலுவூட்டல் கற்றலின் வளர்ச்சிக்கு வழிவகுத்தன. வலுவூட்டல் கற்றல் புத்திசாலித்தனமான முகவர்கள் தங்கள் சூழலுடன் தொடர்பு கொள்ளும்போது வெகுமதிகளை அதிகரிக்க பயிற்சி அளிப்பதன் மூலம் வடிவமைக்கிறது.

இயந்திர கற்றல் ஆராய்ச்சியாளராக, வலுவூட்டல் கற்றல் முன்னோடிகளான ஆண்ட்ரூ பார்ட்டோ மற்றும் ரிச்சர்ட் சுட்டன் ஆகியோருக்கு 2024 ஏசிஎம் டூரிங் விருது வழங்கப்பட்டது என்பது பொருத்தமானது என்று நான் கருதுகிறேன்.

வலுவூட்டல் கற்றல் என்றால் என்ன?

விலங்குகளின் நடத்தை விரும்பத்தக்க நடத்தைகளுக்கு வெகுமதி அளிப்பதன் மூலம் பாதிக்கப்படலாம் என்பதை விலங்கு பயிற்சியாளர்கள் அறிவார்கள். ஒரு நாய் பயிற்சியாளர் ஒரு தந்திரத்தை சரியாகச் செய்யும்போது நாய்க்கு ஒரு விருந்தைக் கொடுக்கிறார். இது நடத்தையை வலுப்படுத்துகிறது, மேலும் அடுத்த முறை தந்திரத்தை சரியாகச் செய்ய நாய் அதிகம். வலுவூட்டல் கற்றல் இந்த நுண்ணறிவை விலங்கு உளவியலில் இருந்து கடன் வாங்கியது.

ஆனால் வலுவூட்டல் கற்றல் என்பது விலங்குகள் அல்ல, கணக்கீட்டு முகவர்களுக்கு பயிற்சி அளிப்பதாகும். முகவர் சதுரங்கம் விளையாடும் நிரல் போன்ற மென்பொருள் முகவராக இருக்க முடியும். ஆனால் முகவர் வீட்டு வேலைகளைச் செய்யக் கற்றுக் கொள்ளும் ரோபோ போன்ற ஒரு உருவக நிறுவனமாகவும் இருக்கலாம். இதேபோல், ஒரு முகவரின் சூழல் சதுரங்கப் பலகை அல்லது வீடியோ கேமில் வடிவமைக்கப்பட்ட உலகம் போன்ற மெய்நிகர் ஆக இருக்கலாம். ஆனால் அது ஒரு ரோபோ வேலை செய்யும் ஒரு வீட்டாகவும் இருக்கலாம்.

விலங்குகளைப் போலவே, ஒரு முகவர் அதன் சூழலின் அம்சங்களை உணர்ந்து நடவடிக்கை எடுக்க முடியும். ஒரு சதுரங்கம் விளையாடும் முகவர் செஸ் போர்டு உள்ளமைவை அணுகி நகர்வுகளைச் செய்யலாம். ஒரு ரோபோ கேமராக்கள் மற்றும் மைக்ரோஃபோன்களுடன் அதன் சுற்றுப்புறங்களை உணர முடியும். இது அதன் மோட்டர்களைப் பயன்படுத்தி இயற்பியல் உலகில் செல்லலாம்.

முகவர்கள் தங்கள் மனித வடிவமைப்பாளர்கள் தங்களுக்குள் திட்டமிடும் குறிக்கோள்களையும் கொண்டுள்ளனர். ஒரு சதுரங்கம் விளையாடும் முகவரின் குறிக்கோள் விளையாட்டை வெல்வதாகும். ஒரு ரோபோவின் குறிக்கோள் அதன் மனித உரிமையாளருக்கு வீட்டு வேலைகளுக்கு உதவுவதாக இருக்கலாம்.

AI இல் உள்ள வலுவூட்டல் கற்றல் சிக்கல் என்னவென்றால், அவர்களின் சூழலில் உணர்ந்து செயல்படுவதன் மூலம் தங்கள் இலக்குகளை அடையும் முகவர்களை எவ்வாறு வடிவமைப்பது என்பதுதான். வலுவூட்டல் கற்றல் ஒரு தைரியமான கூற்றைக் கூறுகிறது: வெகுமதி எனப்படும் எண் சமிக்ஞையை வடிவமைப்பதன் மூலம் அனைத்து இலக்குகளையும் அடைய முடியும், மேலும் முகவர் அது பெறும் மொத்த வெகுமதிகளின் தொகையை அதிகரிக்க வேண்டும்.

பலவிதமான சாத்தியமான குறிக்கோள்கள் இருப்பதால், இந்த கூற்று உண்மையில் உண்மையா என்று ஆராய்ச்சியாளர்களுக்குத் தெரியாது. எனவே, இது பெரும்பாலும் வெகுமதி கருதுகோள் என குறிப்பிடப்படுகிறது.

சில நேரங்களில் ஒரு குறிக்கோளுடன் தொடர்புடைய வெகுமதி சமிக்ஞையைத் தேர்ந்தெடுப்பது எளிது. ஒரு சதுரங்கம் விளையாடும் முகவருக்கு, வெகுமதி ஒரு வெற்றிக்கு +1, ஒரு டிராவிற்கு 0, மற்றும் இழப்புக்கு -1 ஆக இருக்கலாம். பயனுள்ள வீட்டு ரோபோ உதவியாளருக்கு வெகுமதி சமிக்ஞையை எவ்வாறு வடிவமைப்பது என்பது தெளிவாகத் தெரியவில்லை. ஆயினும்கூட, வலுவூட்டல் கற்றல் ஆராய்ச்சியாளர்கள் நல்ல வெகுமதி சமிக்ஞைகளை வடிவமைக்க முடிந்த பயன்பாடுகளின் பட்டியல் வளர்ந்து வருகிறது.

வலுவூட்டல் கற்றலின் ஒரு பெரிய வெற்றி போர்டு கேம் கோவில் இருந்தது. இயந்திரங்கள் மாஸ்டர் செய்ய சதுரங்கத்தை விட GO மிகவும் கடினமானது என்று ஆராய்ச்சியாளர்கள் நினைத்தனர். இப்போது கூகிள் டீப் மைண்ட் டீப் மைண்ட் நிறுவனம் ஆல்பாகோவை உருவாக்க வலுவூட்டல் கற்றலைப் பயன்படுத்தியது. 2016 ஆம் ஆண்டில் ஐந்து போட்டிகள் கொண்ட ஆட்டத்தில் ஆல்பாகோ டாப் கோ வீரர் லீ செடோலை தோற்கடித்தார்.

மிக சமீபத்திய எடுத்துக்காட்டு, சாட்ஜிப்ட் போன்ற சாட்போட்களை மிகவும் உதவியாக மாற்ற வலுவூட்டல் கற்றலைப் பயன்படுத்துவது. சாட்போட்களின் பகுத்தறிவு திறன்களை மேம்படுத்த வலுவூட்டல் கற்றல் பயன்படுத்தப்படுகிறது.

வலுவூட்டல் கற்றலின் தோற்றம்

இருப்பினும், இந்த வெற்றிகள் எதுவும் 1980 களில் முன்னறிவிக்கப்பட்டிருக்க முடியாது. அப்போதுதான் பார்டோ மற்றும் அவரது அப்போதைய பி.எச்.டி. மாணவர் சுட்டன் ஒரு பொதுவான சிக்கல் தீர்க்கும் கட்டமைப்பாக வலுவூட்டல் கற்றலை முன்மொழிந்தார். அவை விலங்கு உளவியலில் இருந்து மட்டுமல்லாமல், கட்டுப்பாட்டுக் கோட்பாட்டிலிருந்தும், ஒரு அமைப்பின் நடத்தையை பாதிக்க பின்னூட்டங்களின் பயன்பாடு மற்றும் கணிதத்தின் ஒரு கிளை, கிடைக்கக்கூடிய விருப்பங்களின் வரம்பில் சிறந்த தேர்வை எவ்வாறு தேர்ந்தெடுப்பது என்று ஆய்வு செய்தன. அவர்கள் ஆராய்ச்சி சமூகத்திற்கு கணித அடித்தளங்களை வழங்கினர், அவை காலத்தின் சோதனையாக இருந்தன. அவர்கள் இப்போது புலத்தில் நிலையான கருவிகளாக மாறியுள்ள வழிமுறைகளையும் உருவாக்கினர்.

முன்னோடிகள் ஒரு பாடப்புத்தகத்தை எழுத நேரம் ஒதுக்கும்போது இது ஒரு துறைக்கு ஒரு அரிய நன்மை. லினஸ் பாலிங்கின் “வேதியியல் பிணைப்பின் தன்மை” மற்றும் டொனால்ட் ஈ. நுத் எழுதிய “கணினி நிரலாக்க கலை” போன்ற பிரகாசமான எடுத்துக்காட்டுகள் மறக்கமுடியாதவை, ஏனெனில் அவை மிகக் குறைவானவை. சுட்டன் மற்றும் பார்ட்டோவின் “வலுவூட்டல் கற்றல்: ஒரு அறிமுகம்” முதன்முதலில் 1998 இல் வெளியிடப்பட்டது. இரண்டாவது பதிப்பு 2018 இல் வெளிவந்தது. அவர்களின் புத்தகம் ஒரு தலைமுறை ஆராய்ச்சியாளர்களை பாதித்துள்ளது மற்றும் 75,000 க்கும் மேற்பட்ட முறை மேற்கோள் காட்டப்பட்டுள்ளது.

வலுவூட்டல் கற்றல் நரம்பியல் அறிவியலில் எதிர்பாராத தாக்கத்தை ஏற்படுத்தியுள்ளது. மனிதர்களிடமும் விலங்குகளிலும் வெகுமதியால் இயக்கப்படும் நடத்தைகளில் நரம்பியக்கடத்தி டோபமைன் முக்கிய பங்கு வகிக்கிறது. மக்கள் மற்றும் விலங்குகளின் டோபமைன் அமைப்பில் சோதனை கண்டுபிடிப்புகளை விளக்க வலுவூட்டல் கற்றலில் உருவாக்கப்பட்ட குறிப்பிட்ட வழிமுறைகளை ஆராய்ச்சியாளர்கள் பயன்படுத்தினர்.

பார்டோ மற்றும் சுட்டனின் அடித்தளப் பணிகள், பார்வை மற்றும் வக்கீல் ஆகியவை வலுவூட்டல் கற்றல் வளர உதவியது. அவர்களின் பணி ஒரு பெரிய ஆராய்ச்சிக்கு ஊக்கமளித்தது, நிஜ உலக பயன்பாடுகளில் தாக்கத்தை ஏற்படுத்தியது, தொழில்நுட்ப நிறுவனங்களால் பெரும் முதலீடுகளை ஈர்த்தது. வலுவூட்டல் கற்றல் ஆராய்ச்சியாளர்கள், தோள்களில் நிற்பதன் மூலம் மேலும் முன்னேறுவார்கள் என்று நான் நம்புகிறேன்.

அம்புஜ் திவாரி மிச்சிகன் பல்கலைக்கழகத்தில் புள்ளிவிவர பேராசிரியராக உள்ளார்.

இந்த கட்டுரை கிரியேட்டிவ் காமன்ஸ் உரிமத்தின் கீழ் உரையாடலில் இருந்து மீண்டும் வெளியிடப்படுகிறது. அசல் கட்டுரையைப் படியுங்கள்.

ஆதாரம்