
இந்த பரவல் மாதிரிகள் செயல்திறனை விட வேகமாக அல்லது இதேபோன்ற அளவிலான வழக்கமான மாதிரிகளுடன் ஒப்பிடலாம். LLADA இன் ஆராய்ச்சியாளர்கள் தங்களது 8 பில்லியன் அளவுரு மாதிரி பல்வேறு வரையறைகளில் Llama3 8b ஐப் போலவே செயல்படுவதாக தெரிவிக்கிறது, MMLU, ARC மற்றும் GSM8K போன்ற பணிகளில் போட்டி முடிவுகளுடன்.
இருப்பினும், புதன் வியத்தகு வேக மேம்பாடுகளைக் கூறுகிறது. அவர்களின் மெர்குரி கோடர் மினி மனிதவளத்தில் 88.0 சதவிகிதம் மற்றும் எம்.பி.பி.பி-யில் 77.1 சதவிகிதம்-ஜிபிடி -4 ஓ மினிக்கு ஏற்றதாக இருக்கும்-அதே நேரத்தில் வினாடிக்கு ஜிபிடி -4 ஓ மினியின் 59 டோக்கன்களுடன் ஒப்பிடும்போது வினாடிக்கு 1,109 டோக்கன்களில் இயங்குவதாக கூறப்படுகிறது. இது ஜி.பி.டி -4 ஓ மினியை விட 19x வேக நன்மையைக் குறிக்கிறது, அதே நேரத்தில் குறியீட்டு வரையறைகளில் ஒத்த செயல்திறனைப் பேணுகிறது.
மெர்குரியின் ஆவணங்கள் அதன் மாதிரிகள் “என்விடியா எச் 100 களில் 1,000 க்கும் மேற்பட்ட டோக்கன்கள்/நொடியில் இயங்குகின்றன, இது க்ரோக், செரிப்ராஸ் மற்றும் சம்பானோவா போன்ற சிறப்பு வன்பொருள் வழங்குநர்களிடமிருந்து தனிப்பயன் சில்லுகளைப் பயன்படுத்துவதற்கு முன்னர் சாத்தியமான வேகம்” என்று கூறுகிறது. மற்ற வேக-உகந்த மாதிரிகளுடன் ஒப்பிடும்போது, கோரப்பட்ட நன்மை குறிப்பிடத்தக்கதாகவே உள்ளது-மருத்துவ கோடர் மினி ஜெமினி 2.0 ஃப்ளாஷ்-லைட்டை விட (201 டோக்கன்கள்/இரண்டாவது) மற்றும் கிளாட் 3.5 ஹைக்கூ (61 டோக்கன்கள்/இரண்டாவது) விட 18 எக்ஸ் வேகமானதாக இருப்பதாக கூறப்படுகிறது.
எல்.எல்.எம்.எஸ்ஸில் ஒரு புதிய எல்லையைத் திறக்கிறது
பரவல் மாதிரிகள் சில வர்த்தக பரிமாற்றங்களை உள்ளடக்கியது. டோக்கனுக்கு ஒரு பாஸ் தேவைப்படும் பாரம்பரிய மாதிரிகளைப் போலல்லாமல், முழுமையான பதிலை உருவாக்க அவை பொதுவாக பிணையத்தின் மூலம் பல முன்னோக்கி பாஸ்கள் தேவை. இருப்பினும், பரவல் மாதிரிகள் அனைத்து டோக்கன்களையும் இணையாக செயலாக்குவதால், இந்த மேல்நிலை இருந்தபோதிலும் அவை அதிக செயல்திறனை அடைகின்றன.
டெவலப்பர் உற்பத்தித்திறன், உரையாடல் AI பயன்பாடுகள், மொபைல் பயன்பாடுகள் போன்ற வள-வரையறுக்கப்பட்ட சூழல்கள் மற்றும் விரைவாக பதிலளிக்க வேண்டிய AI முகவர்கள் ஆகியவற்றை உடனடி பதில் பாதிக்கக்கூடிய குறியீடு நிறைவு கருவிகளை பாதிக்கக்கூடும் என்று இன்செப்சன் கருதுகிறது.
பரவலை அடிப்படையாகக் கொண்ட மொழி மாதிரிகள் வேகத்தை மேம்படுத்தும் போது தரத்தை பராமரித்தால், அவை AI உரை உருவாக்கம் எவ்வாறு உருவாகிறது என்பதை மாற்றக்கூடும். இதுவரை, AI ஆராய்ச்சியாளர்கள் புதிய அணுகுமுறைகளுக்கு திறந்திருக்கிறார்கள்.
சுயாதீன AI ஆராய்ச்சியாளர் சைமன் வில்லிசன் ARS டெக்னிகாவிடம், “மக்கள் மின்மாற்றிகளுக்கு மாற்று கட்டமைப்புகளை பரிசோதித்து வருவதை நான் விரும்புகிறேன், இது எல்.எல்.எம்.எஸ்ஸின் இடத்தை நாம் இன்னும் ஆராயத் தொடங்கவில்லை என்பதற்கான மற்றொரு எடுத்துக்காட்டு இது.”
அவர் எக்ஸ், முன்னாள் ஓப்பனாய் ஆராய்ச்சியாளர் ஆண்ட்ரேஜ் கார்பதி எழுதினார் தொடக்கத்தைப் பற்றி, “இந்த மாதிரியானது வித்தியாசமாக இருக்கக்கூடிய ஆற்றலைக் கொண்டுள்ளது, மேலும் புதிய, தனித்துவமான உளவியல் அல்லது புதிய பலங்கள் மற்றும் பலவீனங்களைக் காண்பிக்கும். இதை முயற்சிக்க மக்களை ஊக்குவிக்கிறேன்!”
பெரிய பரவல் மாதிரிகள் ஜிபிடி -4 ஓ மற்றும் கிளாட் 3.7 சோனட் போன்ற மாதிரிகளின் செயல்திறனுடன் பொருந்துமா என்பது பற்றிய கேள்விகள் உள்ளன, மேலும் அணுகுமுறை பெருகிய முறையில் சிக்கலான உருவகப்படுத்தப்பட்ட பகுத்தறிவு பணிகளைக் கையாள முடிந்தால். இப்போதைக்கு, இந்த மாதிரிகள் சிறிய AI மொழி மாதிரிகளுக்கு ஒரு மாற்றீட்டை வழங்குகின்றன, அவை வேகத்திற்கான திறனை தியாகம் செய்யத் தெரியவில்லை.
உங்களால் முடியும் மெர்குரி கோடரை நீங்களே முயற்சிக்கவும் தொடக்கத்தின் டெமோ தளத்தில், உங்களால் முடியும் LLADA க்கான குறியீட்டைப் பதிவிறக்கவும் அல்லது ஒரு முயற்சிக்கவும் டெமோ முகம் கட்டிப்பிடிக்கும் போது.