DiffusionGemma: ஒரு வினாடிக்கு 1,000 டோக்கன்கள்

Translated for your language. Read the original.

AI-assisted draft.

4 நாட்களுக்கு முன்2min read

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝟭,𝟬𝟬𝟬 𝗧𝗼𝗸𝗲𝗻𝘀 𝗣𝗲𝗿 𝗦𝗲𝗰𝗼𝗻𝗱

பெரும்பாலான மொழி மாதிரிகள் (language models) ஒவ்வொரு வார்த்தையாகச் செயல்படுகின்றன. அவை இடமிருந்து வலமாகச் செல்கின்றன. இது ஒரு வேகக் கட்டுப்பாட்டை உருவாக்குகிறது, ஏனெனில் அடுத்த வார்த்தையைத் தொடங்குவதற்கு முன், ஒவ்வொரு வார்த்தையும் முடிவடையும் வரை மாதிரி காத்திருக்க வேண்டும்.

Google DeepMind DiffusionGemma மூலம் இதை மாற்றியுள்ளது.

வரிசைமுறை எழுத்திற்குப் பதிலாக, இது ஒரு denoising செயல்முறையைப் பயன்படுத்துகிறது. இது 256 டோக்கன்கள் வரையிலான ஒரு தொகுப்பை எடுத்துக்கொண்டு, அவை அனைத்தையும் ஒரே நேரத்தில் செம்மைப்படுத்துகிறது. இந்த அணுகுமுறை ஒரு தனி NVIDIA H100-இல் வினாடிக்கு 1,000-க்கும் அதிகமான டோக்கன்களை எட்டுகிறது. இது சாதாரண மாதிரிகளை விட நான்கு மடங்கு வேகமானது.

இது எவ்வாறு செயல்படுகிறது:

மாதிரி ஒரு தொகுப்பு placeholder டோக்கன்களுடன் தொடங்குகிறது.
இந்த placeholders-களைச் சுத்தம் செய்ய இது பலமுறைச் செயல்படுகிறது.
தொகுப்பில் உள்ள ஒவ்வொரு டோக்கனும் மற்ற அனைத்து டோக்கன்களையும் ஒரே நேரத்தில் பார்க்கிறது.
இந்த இருவழிப் பார்வை (bidirectional view), சூழலை இருபுறங்களிலிருந்தும் புரிந்துகொள்ள மாதிரிக்கு உதவுகிறது.

வன்பொருள் செயல்திறன் (Hardware performance):

• NVIDIA H100: 1,000+ tokens/second • NVIDIA DGX Station: 2,000 tokens/second வரை • GeForce RTX 5090: ~700 tokens/second • VRAM தேவை: quantized செய்யும்போது ~18GB

எங்கு பயன்படுத்தலாம்:

DiffusionGemma உள்ளூர் அமைப்புகளில் (local settings) சிறப்பாகச் செயல்படுகிறது. கிளவுட் (cloud) சூழலில், நிறுவனங்கள் திறமையாகச் செயல்படப் பல பயனர்களை ஒன்றாகத் தொகுக்கின்றன. உங்கள் சொந்த கணினியில், வார்த்தைகளுக்கு இடையில் GPU பெரும்பாலும் பயன்படுத்தப்படாமல் காலியாக இருக்கும். DiffusionGemma நினைவகத் தடைகளை (memory bottlenecks) நேரடி கணக்கீட்டுப் பணிகளாக (raw compute tasks) மாற்றுவதன் மூலம் இதைத் தீர்க்கிறது.

இதற்காகப் பயன்படுத்தவும்:

Code infilling: ஒரு செயல்பாட்டின் (function) நடுவில் குறியீட்டைச் சேர்த்தல்.
Text editing: ஒரு பத்தியின் உள்ளே இருக்கும் வாக்கியத்தை மாற்றுதல்.
Constraint tasks: முழுத் தொகுப்பும் ஒன்றிணைய வேண்டிய புதிர்கள் அல்லது கணிதப் பிரச்சனைகளைத் தீர்த்தல்.

இதன் சவாலான அம்சம் தரம் (quality) ஆகும். Reasoning மற்றும் coding ஆகியவற்றில் DiffusionGemma, சாதாரண Gemma 4-ஐ விடக் குறைவான மதிப்பெண்களையே பெறுகிறது என்று benchmarks காட்டுகின்றன. படங்களை விட மொழியை diffuse செய்வது கடினம், ஏனெனில் ஒரு தவறான வார்த்தை முழு வாக்கியத்தையும் கெடுத்துவிடும்.

தீர்ப்பு:

உள்ளூர் வன்பொருளில் (local hardware) வேகம் தேவைப்பட்டால் DiffusionGemma-வைப் பயன்படுத்தவும். மிக உயர்ந்த துல்லியம் மற்றும் ஆழமான பகுத்தறிவு (deep reasoning) தேவைப்பட்டால் சாதாரண Gemma 4-வைப் பயன்படுத்தவும்.

Source: https://dev.to/prabhakar_chaudhary_7afe4/diffusiongemma-how-google-deepminds-text-diffusion-model-achieves-1000-tokens-per-second-3jnl

Optional learning community: https://t.me/GyaanSetuAi

DiffusionGemma: ஒரு வினாடிக்கு 1,000 டோக்கன்கள்

Continue reading

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝗚𝗼𝗼𝗴𝗹𝗲'𝘀 𝗢𝗽𝗲𝗻 𝗔𝗜 𝗧𝘄𝗶𝘀𝘁

𝗛𝗼𝗴𝘄𝗶𝗹𝗱! 𝗜𝗻𝗳𝗲𝗿𝗲𝗻𝗰𝗲: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗟𝗟𝗠 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮 𝟮𝟲𝗕: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗧𝗲𝘅𝘁 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

கூகுள் AI உருவாக்க முறையை என்றென்றும் மாற்றுகிறது

நீங்கள் நினைப்பதை விட GPT அதிகமானது