𝗙𝗿𝗼𝗺 𝗥𝗲𝗴𝗲𝘅 𝘁𝗼 𝗟𝗟𝗠𝘀: 𝗠𝘆 𝗝𝗼𝘂𝗿𝗻𝗲𝘆 𝗘𝘅𝘁𝗿𝗮𝗰𝘁𝗶𝗻𝗴 𝗪𝗲𝗯 𝗗𝗮𝘁𝗮
મેં એક પ્રાઈસ કમ્પેરિઝન ટૂલ બનાવ્યું. મારે ડઝનબંધ ઈ-કોમર્સ સાઇટ્સમાંથી પ્રોડક્ટ ડેટા મેળવવાની જરૂર હતી. દરેક સાઇટનું માળખું અલગ હતું. કેટલીક સાઇટ્સ રેન્ડમ CSS ક્લાસનો ઉપયોગ કરતી હતી. કેટલીક સાઇટ્સ કન્ટેન્ટ લોડ કરવા માટે JavaScript નો ઉપયોગ કરતી હતી.
મેં પહેલા પરંપરાગત રીત અજમાવી. મેં Regex અને BeautifulSoup નો ઉપયોગ કર્યો.
તે બે સાઇટ્સ માટે કામ કરી ગયું. પછી, એક સાઇટે તેનું લેઆઉટ બદલી નાખ્યું. મારો કોડ તૂટી ગયો. બીજી સાઇટ ડાયનેમિક કન્ટેન્ટનો ઉપયોગ કરતી હતી. મેં ડેટાનો ઉપયોગ કરવા કરતાં સ્ક્રૅપર્સને ઠીક કરવામાં વધુ સમય વિતાવ્યો.
પછી મેં AI અજમાવ્યું. મેં raw HTML ને LLM માં નાખ્યું.
પરિણામો ખરાબ હતા. આઉટપુટ અસંગત હતું. ક્યારેક મને JSON મળતું, તો ક્યારેક ફકરાઓ મળતા. મોડેલે ડેટામાં ભૂલો (hallucinate) કરી. ખર્ચ ખૂબ વધારે હતો કારણ કે મેં ઘણા બધા ટોકન્સ મોકલ્યા હતા.
મને વચ્ચેનો રસ્તો મળ્યો. હવે હું હાઇબ્રિડ એપ્રોચનો ઉપયોગ કરું છું.
મારી પ્રક્રિયા આ મુજબ છે:
- HTML ને પ્રી-પ્રોસેસ કરો. હું સ્ક્રિપ્ટ્સ, સ્ટાઇલ્સ અને નેવિગેશન બાર દૂર કરું છું. હું ફક્ત દેખીપણા ટેક્સ્ટને જ રાખું છું. આનાથી ટોકન કાઉન્ટ અને ખર્ચ ઘટે છે.
- JSON મોડ અથવા ફંક્શન કોલિંગનો ઉપયોગ કરો. આ LLM ને સ્ટ્રક્ચર્ડ ડેટા રિટર્ન કરવા માટે મજબૂર કરે છે.
- રીટ્રાય લોજિકનો ઉપયોગ કરો. જો JSON ખોટું હોય, તો કોડ ફરી પ્રયાસ કરે છે.
- પરિણામો કેશ (Cache) કરો. એક જ પેજ માટે બે વાર પૈસા ચૂકવવાનું ટાળવા માટે હું દરેક URL દીઠ સફળ એક્સટ્રેક્શન સેવ કરું છું.
સ્ટેટિક અને સારી રીતે સ્ટ્રક્ચર્ડ સાઇટ્સ માટે Regex અને BeautifulSoup હજુ પણ શ્રેષ્ઠ છે. તેઓ ઝડપી અને મફત છે.
અસ્તવ્યસ્ત અને અનિશ્ચિત સાઇટ્સ માટે LLMs વધુ સારા છે. પરંતુ ખર્ચ ઓછો રાખવા માટે તમારે પહેલા ડેટા ક્લીન કરવો જોઈએ.
મેં શીખેલા પાઠ:
- તમારા ખર્ચ અને સફળતાના દર પર નજર રાખો.
- લેટન્સી (latency) પર ધ્યાન આપો. LLM કોલ્સ સેકન્ડો લે છે, મિલીસેકન્ડ્સ નહીં.
- આઉટપુટને વેલિડેટ કરો. કિંમત વાસ્તવિક કિંમત જેવી લાગે છે કે નહીં તે તપાસો.
- હાઇબ્રિડ સિસ્ટમનો ઉપયોગ કરો. સરળ સાઇટ્સ માટે પાર્સર અને અસ્તવ્યસ્ત સાઇટ્સ માટે LLM નો ઉપયોગ કરો.
આ સેટઅપ મારા કામના કલાકો બચાવે છે. હું એક કલાકથી પણ ઓછા સમયમાં નવું સ્ટોર ઉમેરી શકું છું.
તમે અસ્તવ્યસ્ત વેબ ડેટાને કેવી રીતે હેન્ડલ કરો છો? તમે પાર્સર પસંદ કરો છો કે LLMs?
વૈકલ્પિક લર્નિંગ કોમ્યુનિટી: https://t.me/GyaanSetuAi