𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝗚𝗼𝗼𝗴𝗹𝗲'𝘀 𝗢𝗽𝗲𝗻 𝗔𝗜 𝗧𝘄𝗶𝘀𝘁

AI ವರ್ಷಗಳಿಂದ ಎರಡು ಪ್ರತ್ಯೇಕ ಪ್ರಪಂಚಗಳಲ್ಲಿ ಬದುಕುತ್ತಿದೆ.

ಒಂದು ಕಡೆಯು Large Language Models ಮೂಲಕ ಪದಗಳನ್ನು ನಿರ್ವಹಿಸುತ್ತದೆ. ಇನ್ನೊಂದು ಕಡೆಯು diffusion models ಮೂಲಕ ಚಿತ್ರಗಳನ್ನು ನಿರ್ವಹಿಸುತ್ತದೆ. ನೀವು ಬರೆಯಲು ಒಂದನ್ನು ಮತ್ತು ಚಿತ್ರ ಬಿಡಿಸಲು ಇನ್ನೊಂದನ್ನು ಬಳಸುತ್ತೀರಿ. ಅವುಗಳು ಪರಸ್ಪರ ಸಂವಹನ ನಡೆಸುವುದು ಬಹಳ ಅಪರೂಪ.

Google DiffusionGemma ಮೂಲಕ ಇದನ್ನು ಬದಲಾಯಿಸುತ್ತಿದೆ.

ಹೆಚ್ಚಿನ ಮಲ್ಟಿಮೋಡಲ್ (multimodal) ವ್ಯವಸ್ಥೆಗಳು ಅಸಮರ್ಪಕವಾಗಿವೆ. ಅವು ಚಿತ್ರವನ್ನು ನೋಡಲು ಎನ್‌ಕೋಡರ್ (encoder) ಅನ್ನು ಬಳಸುತ್ತವೆ, ಅದನ್ನು ಪಠ್ಯ ವರದಿಯಾಗಿ ಪರಿವರ್ತಿಸುತ್ತವೆ ಮತ್ತು ನಂತರ ಆ ವರದಿಯನ್ನು language model ಗೆ ನೀಡುತ್ತವೆ. ಈ ಅನುವಾದ ಪ್ರಕ್ರಿಯೆಯಲ್ಲಿ ಸೂಕ್ಷ್ಮತೆಗಳು (nuance) ಕಳೆದುಹೋಗುತ್ತವೆ.

DiffusionGemma ಮಧ್ಯವರ್ತಿಯನ್ನು ಬಿಟ್ಟುಬಿಡುತ್ತದೆ.

ಇದು ಪಿಕ್ಸೆಲ್‌ಗಳು ಮತ್ತು ಪದಗಳನ್ನು ಒಂದೇ ಭಾಷೆಯಂತೆ ಪರಿಗಣಿಸುತ್ತದೆ. ಇದು ಚಿತ್ರವನ್ನು ಸಾರಾಂಶವಾಗಿ ಅನುವಾದಿಸುವುದಿಲ್ಲ. ಬದಲಾಗಿ, ಚಿತ್ರದ ಡೇಟಾವನ್ನು ನೇರವಾಗಿ ತನ್ನ ಪ್ರೊಸೆಸಿಂಗ್‌ನಲ್ಲಿ ಸಂಯೋಜಿಸುತ್ತದೆ. ಇದು ಏಕಕಾಲದಲ್ಲಿ ನೋಡುತ್ತದೆ ಮತ್ತು ಯೋಚಿಸುತ್ತದೆ.

ಈ ಬದಲಾವಣೆಯು ಮೂರು ಕಾರಣಗಳಿಗಾಗಿ ಮುಖ್ಯವಾಗಿದೆ:

ಈ ವಿಧಾನವು ನಮ್ಮನ್ನು ಸರಳ ಪದಗಳ ಮುನ್ಸೂಚನೆಯಿಂದ (word prediction) ದೂರ ಕೊಂಡೊಯ್ದು, ನಿಜವಾದ ಸೃಜನಶೀಲತೆಯತ್ತ ಕೊಂಡೊಯ್ಯುತ್ತದೆ.

Google ಇದನ್ನು ಓಪನ್ ಸೋರ್ಸ್ (open source) ಮಾಡಲಾಗುತ್ತಿದೆ. ಅವರು 2-ಬಿಲಿಯನ್ ಪ್ಯಾರಾಮೀಟರ್ ಮಾಡೆಲ್ ಮತ್ತು 7-ಬಿಲಿಯನ್ ಪ್ಯಾರಾಮೀಟರ್ ವೇರಿಯಂಟ್ ಅನ್ನು ಬಿಡುಗಡೆ ಮಾಡಿದ್ದಾರೆ. ಇವು ತಮ್ಮ ಉನ್ನತ ಮಟ್ಟದ Imagen 3 ಮಾಡೆಲ್‌ನಂತೆಯೇ ಇರುವ ಆರ್ಕಿಟೆಕ್ಚರ್ ಅನ್ನು ಬಳಸುತ್ತವೆ.

ಇದು ಕೇವಲ ಮಾತನಾಡುವುದಕ್ಕಿಂತ ಹೆಚ್ಚಿನದನ್ನು ಮಾಡುವ ಅಪ್ಲಿಕೇಶನ್‌ಗಳನ್ನು ನಿರ್ಮಿಸಲು ಡೆವಲಪರ್‌ಗಳಿಗೆ ಪರಿಕರಗಳನ್ನು ನೀಡುತ್ತದೆ. ವಿವಿಧ ರೀತಿಯ ಡೇಟಾಗಳನ್ನು ನೋಡುವ, ಸೃಷ್ಟಿಸುವ ಮತ್ತು ತರ್ಕಿಸುವ (reason) ಪರಿಕರಗಳನ್ನು ನೀವು ನಿರ್ಮಿಸಬಹುದು.

ಸ್ಪರ್ಧೆಯು ಈಗ ಕೇವಲ ಯಾರ ಬಳಿ ದೊಡ್ಡ ಮಾಡೆಲ್ ಇದೆ ಎಂಬುದರ ಬಗ್ಗೆ ಮಾತ್ರವಲ್ಲ. ಇದು ಯಾರ ಬಳಿ ಅತ್ಯಂತ ಬುದ್ಧಿವಂತ ಆರ್ಕಿಟೆಕ್ಚರ್ ಇದೆ ಎಂಬುದರ ಬಗ್ಗೆಯಾಗಿದೆ.

Source: https://dev.to/gp-ia-blog/diffusiongemma-googles-open-ai-twist-597m

Optional learning community: https://t.me/GyaanSetuAi