Programació del WebScraping

En aquest projecte he passat de fer servir una llista de dades escrita a mà (estàtica) a un sistema que “llegeix” la meva web en temps real (dinàmic). Perquè un portfoli és un lloc viu que creix cada setmana. Amb aquest scraper, no he de tornar a programar el xatbot cada vegada que pujo una tasca nova; ell mateix la troba i l’aprèn. Això garanteix que l’usuari sempre rebi informació actualitzada.

He dissenyat l’escaneig configurant el bot perquè s’esperi gairebé mig segon entre cada pàgina que llegeix. Això és una mesura ètica fonamental per no sobrecarregar el servidor de l’institut i evitar que ens bloquegi la IP com si fos un atac.

He dissenyat un BeautifulSoup perquè comenci des de la pàgina d’inici i segueixi tots els enllaços interns de forma recursiva. He programat un sistema de verificació per no repetir pàgines que ja ha llegit abans, estalviant temps i recursos.

Codi final:

Gestió de Dades i Integritat (El fitxer JSON)

Tota la informació recollida es bolca automàticament en un fitxer anomenat dades_wordpress.json.

El fitxer està organitzat per jerarquies (Títol -> URL -> Contingut). Això permet que la base de dades sigui escalable: el bot pot llegir 10 pàgines o 200 sense que el fitxer perdi l’ordre. També he programat gestors d’errors perquè, si troba un enllaç trencat o una pàgina que dóna error (com un 404), el bot no s’aturi. Simplement, ignora aquest error, el registra i continua amb la següent tasca.

Integració i Millora amb IA

He fet servir la pròpia IA per millorar el codi i fer-lo més intel·ligent. He ajustat el comportament de la IA perquè entengui que no em parla a mi (Martí), sinó a qualsevol persona que entri al meu portfoli, utilitzant un to amable i professional.

Prompt utilitzats:

Per completa aquest codi amb les millores del WebScraping he utilitzat aquest prompt:

Ara, amb el codi base que ja tinc, necessito aquesta millora, que faci WebScraping recursiu a la meva web, després també que el codi comenci a la pàgina principal i segueixi tots els enllaços interns que trobi. Ha d’utilitzar BeautifulSoup per extreure només el text net dels títols i els paràgrafs, evitant menús i publicitat. També ha d’incloure uns delays de mig segon per no saturar el servidor, un sistema per no repetir pàgines ja visitades, i gestionar errors de connexió.

Canvis CHANGELOG:

Leave a Reply

Your email address will not be published. Required fields are marked *