𝗙𝗿𝗼𝗺 𝗥𝗲𝗴𝗲𝘅 𝘁𝗼 𝗟𝗟𝗠𝘀: 𝗠𝘆 𝗝𝗼𝘂𝗿𝗻𝗲𝘆 𝗘𝘅𝘁𝗿𝗮𝗰𝘁𝗶𝗻𝗴 𝗨𝗻𝘀𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲𝗱 𝗪𝗲𝗯 𝗗𝗮𝘁𝗮

Translated for your language. Leer el original.

AI-assisted draft.

GyaanSetu Editorialhace 14 horas2min de lectura

De Regex a los LLM: Mi viaje extrayendo datos web no estructurados

Intenté construir una herramienta de comparación de precios. Necesitaba datos de productos de docenas de sitios de comercio electrónico.

Cada sitio utilizaba estructuras HTML diferentes. Algunos usaban clases CSS aleatorias. Otros usaban JavaScript para cargar el contenido.

Mi primer plan utilizaba Regex y BeautifulSoup. Funcionó para dos sitios. Luego, todo se rompió. Un sitio cambió su diseño. Otro sitio empezó a usar contenido dinámico. Pasaba más tiempo arreglando scrapers que utilizando los datos.

Después intenté usar un LLM. Envié el HTML sin procesar a una IA y le pedí los datos. Esto también falló. El resultado era inconsistente. La IA alucinaba valores. Mis costes de API aumentaron porque el HTML consume demasiados tokens.

Encontré un punto medio. Ahora utilizo un enfoque híbrido.

Este es mi proceso:

Preprocesar el HTML. Elimino scripts, estilos y barras de navegación. Solo conservo el texto visible. Esto mantiene bajos los recuentos de tokens.
Usar el modo JSON. Utilizo function calling para obligar al LLM a devolver datos estructurados.
Añadir una lógica de reintento. Reintento hasta tres veces si el JSON falla.
Cachear resultados. Guardo las extracciones exitosas por URL para evitar costes repetidos.

Regex y BeautifulSoup siguen siendo lo mejor para páginas estáticas y bien estructuradas. Son rápidos y gratuitos.

Los LLM son mejores para sitios desordenados o cambiantes. No son mágicos. Primero debes limpiar tu entrada para ahorrar dinero.

Mi flujo de trabajo actual:

• Usar un parser ligero para sitios fáciles. • Usar un LL

𝗙𝗿𝗼𝗺 𝗥𝗲𝗴𝗲𝘅 𝘁𝗼 𝗟𝗟𝗠𝘀: 𝗠𝘆 𝗝𝗼𝘂𝗿𝗻𝗲𝘆 𝗘𝘅𝘁𝗿𝗮𝗰𝘁𝗶𝗻𝗴 𝗨𝗻𝘀𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲𝗱 𝗪𝗲𝗯 𝗗𝗮𝘁𝗮

Seguir leyendo

Extraer datos con LLMs

𝗧𝗮𝗺𝗶𝗻𝗴 𝗟𝗼𝗻𝗴 𝗗𝗼𝗰𝘂𝗺𝗲𝗻𝘁 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀 𝘄𝗶𝘁𝗵 𝗟𝗟𝗠𝘀

Domando documentos largos con LLMs

𝗙𝗿𝗼𝗺 𝗥𝗲𝗴𝗲𝘅 𝘁𝗼 𝗟𝗟𝗠𝘀: 𝗠𝘆 𝗝𝗼𝘂𝗿𝗻𝗲𝘆 𝗘𝘅𝘁𝗿𝗮𝗰𝘁𝗶𝗻𝗴 𝗪𝗲𝗯 𝗗𝗮𝘁𝗮

Reliable JSON From Any LLM