𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝗚𝗼𝗼𝗴𝗹𝗲'𝘀 𝗢𝗽𝗲𝗻 𝗔𝗜 𝗧𝘄𝗶𝘀𝘁
AI ವರ್ಷಗಳಿಂದ ಎರಡು ಪ್ರತ್ಯೇಕ ಪ್ರಪಂಚಗಳಲ್ಲಿ ಬದುಕುತ್ತಿದೆ.
ಒಂದು ಕಡೆಯು Large Language Models ಮೂಲಕ ಪದಗಳನ್ನು ನಿರ್ವಹಿಸುತ್ತದೆ. ಇನ್ನೊಂದು ಕಡೆಯು diffusion models ಮೂಲಕ ಚಿತ್ರಗಳನ್ನು ನಿರ್ವಹಿಸುತ್ತದೆ. ನೀವು ಬರೆಯಲು ಒಂದನ್ನು ಮತ್ತು ಚಿತ್ರ ಬಿಡಿಸಲು ಇನ್ನೊಂದನ್ನು ಬಳಸುತ್ತೀರಿ. ಅವುಗಳು ಪರಸ್ಪರ ಸಂವಹನ ನಡೆಸುವುದು ಬಹಳ ಅಪರೂಪ.
Google DiffusionGemma ಮೂಲಕ ಇದನ್ನು ಬದಲಾಯಿಸುತ್ತಿದೆ.
ಹೆಚ್ಚಿನ ಮಲ್ಟಿಮೋಡಲ್ (multimodal) ವ್ಯವಸ್ಥೆಗಳು ಅಸಮರ್ಪಕವಾಗಿವೆ. ಅವು ಚಿತ್ರವನ್ನು ನೋಡಲು ಎನ್ಕೋಡರ್ (encoder) ಅನ್ನು ಬಳಸುತ್ತವೆ, ಅದನ್ನು ಪಠ್ಯ ವರದಿಯಾಗಿ ಪರಿವರ್ತಿಸುತ್ತವೆ ಮತ್ತು ನಂತರ ಆ ವರದಿಯನ್ನು language model ಗೆ ನೀಡುತ್ತವೆ. ಈ ಅನುವಾದ ಪ್ರಕ್ರಿಯೆಯಲ್ಲಿ ಸೂಕ್ಷ್ಮತೆಗಳು (nuance) ಕಳೆದುಹೋಗುತ್ತವೆ.
DiffusionGemma ಮಧ್ಯವರ್ತಿಯನ್ನು ಬಿಟ್ಟುಬಿಡುತ್ತದೆ.
ಇದು ಪಿಕ್ಸೆಲ್ಗಳು ಮತ್ತು ಪದಗಳನ್ನು ಒಂದೇ ಭಾಷೆಯಂತೆ ಪರಿಗಣಿಸುತ್ತದೆ. ಇದು ಚಿತ್ರವನ್ನು ಸಾರಾಂಶವಾಗಿ ಅನುವಾದಿಸುವುದಿಲ್ಲ. ಬದಲಾಗಿ, ಚಿತ್ರದ ಡೇಟಾವನ್ನು ನೇರವಾಗಿ ತನ್ನ ಪ್ರೊಸೆಸಿಂಗ್ನಲ್ಲಿ ಸಂಯೋಜಿಸುತ್ತದೆ. ಇದು ಏಕಕಾಲದಲ್ಲಿ ನೋಡುತ್ತದೆ ಮತ್ತು ಯೋಚಿಸುತ್ತದೆ.
ಈ ಬದಲಾವಣೆಯು ಮೂರು ಕಾರಣಗಳಿಗಾಗಿ ಮುಖ್ಯವಾಗಿದೆ:
- Native Reasoning: ನೀವು ಅದಕ್ಕೆ ಒಂದು ಸಂಕೀರ್ಣವಾದ ಚಾರ್ಟ್ ತೋರಿಸಿ ಅದರ ವ್ಯವಹಾರದ ಪರಿಣಾಮವನ್ನು (business impact) ಕೇಳಬಹುದು. ಇದು ಕೇವಲ ಲೇಬಲ್ಗಳನ್ನು ಮಾತ್ರವಲ್ಲದೆ, ಡೇಟಾವನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುತ್ತದೆ.
- Spatial Awareness: ನೀವು ಅದಕ್ಕೆ ಒಂದು ಯಂತ್ರದ ರೇಖಾಚಿತ್ರವನ್ನು ತೋರಿಸಿ ಅದರ ಜೋಡಣೆಯ ಹಂತಗಳನ್ನು ಕೇಳಬಹುದು. ಭಾಗಗಳು ಹೇಗೆ ಒಂದಕ್ಕೊಂದು ಹೊಂದಿಕೊಳ್ಳುತ್ತವೆ ಎಂಬುದನ್ನು ಇದು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುತ್ತದೆ.
- Holistic Creation: ಇಟ್ಟಿಗೆಗಳನ್ನು ಜೋಡಿಸುವ ಮೇಸ್ತ್ರಿ ಮಾಡುವಂತೆ ಒಂದೊಂದೇ ಪದವನ್ನು ಊಹಿಸುವ ಬದಲು, ಇದು ಶಿಲ್ಪಿ ಮಾಡುವಂತೆ ಕೆಲಸ ಮಾಡುತ್ತದೆ. ಇದು ಡಿಜಿಟಲ್ ನಾಯ್ಸ್ನಿಂದ (digital noise) ಪ್ರಾರಂಭಿಸಿ ಇಡೀ ಕಲ್ಪನೆಯನ್ನು ಏಕಕಾಲದಲ್ಲಿ ಪರಿಷ್ಕರಿಸುತ್ತದೆ.
ಈ ವಿಧಾನವು ನಮ್ಮನ್ನು ಸರಳ ಪದಗಳ ಮುನ್ಸೂಚನೆಯಿಂದ (word prediction) ದೂರ ಕೊಂಡೊಯ್ದು, ನಿಜವಾದ ಸೃಜನಶೀಲತೆಯತ್ತ ಕೊಂಡೊಯ್ಯುತ್ತದೆ.
Google ಇದನ್ನು ಓಪನ್ ಸೋರ್ಸ್ (open source) ಮಾಡಲಾಗುತ್ತಿದೆ. ಅವರು 2-ಬಿಲಿಯನ್ ಪ್ಯಾರಾಮೀಟರ್ ಮಾಡೆಲ್ ಮತ್ತು 7-ಬಿಲಿಯನ್ ಪ್ಯಾರಾಮೀಟರ್ ವೇರಿಯಂಟ್ ಅನ್ನು ಬಿಡುಗಡೆ ಮಾಡಿದ್ದಾರೆ. ಇವು ತಮ್ಮ ಉನ್ನತ ಮಟ್ಟದ Imagen 3 ಮಾಡೆಲ್ನಂತೆಯೇ ಇರುವ ಆರ್ಕಿಟೆಕ್ಚರ್ ಅನ್ನು ಬಳಸುತ್ತವೆ.
ಇದು ಕೇವಲ ಮಾತನಾಡುವುದಕ್ಕಿಂತ ಹೆಚ್ಚಿನದನ್ನು ಮಾಡುವ ಅಪ್ಲಿಕೇಶನ್ಗಳನ್ನು ನಿರ್ಮಿಸಲು ಡೆವಲಪರ್ಗಳಿಗೆ ಪರಿಕರಗಳನ್ನು ನೀಡುತ್ತದೆ. ವಿವಿಧ ರೀತಿಯ ಡೇಟಾಗಳನ್ನು ನೋಡುವ, ಸೃಷ್ಟಿಸುವ ಮತ್ತು ತರ್ಕಿಸುವ (reason) ಪರಿಕರಗಳನ್ನು ನೀವು ನಿರ್ಮಿಸಬಹುದು.
ಸ್ಪರ್ಧೆಯು ಈಗ ಕೇವಲ ಯಾರ ಬಳಿ ದೊಡ್ಡ ಮಾಡೆಲ್ ಇದೆ ಎಂಬುದರ ಬಗ್ಗೆ ಮಾತ್ರವಲ್ಲ. ಇದು ಯಾರ ಬಳಿ ಅತ್ಯಂತ ಬುದ್ಧಿವಂತ ಆರ್ಕಿಟೆಕ್ಚರ್ ಇದೆ ಎಂಬುದರ ಬಗ್ಗೆಯಾಗಿದೆ.
Source: https://dev.to/gp-ia-blog/diffusiongemma-googles-open-ai-twist-597m
Optional learning community: https://t.me/GyaanSetuAi