Surveillance des liens d’une page web


C’est une méthode simple pour surveiller l’apparition de nouveaux liens sur une page et de créer un article par nouveau lien détecté. Le principe est qu’une première passe sera faite sur la page pour récupérer l’ensemble des liens présents sur la page (pointant vers le même domaine ou sous-domaine web que celui de la page surveillée) et de les garder en mémoire. À l’import suivant, le serveur Scan détectera les nouveaux liens et créera un article par nouveau lien. Les titres, dates et textes seront récupérés si possible des pages distantes. À noter que si le système ne réussit pas à récupérer un titre, la page ne sera pas considérée comme un article et donc ne sera pas prise en compte.

Restriction des zones à surveiller pour éviter le bruit

Par défaut, si le premier champ « Sélecteur CSS3 vers les éléments dans lesquels on récupérera les liens », l’ensemble de la page sera surveillée. Étant donné que cela peut ramener du bruit (notamment si par exemple la page possède un module « Articles les plus commentés », pouvant faire remonter des anciens articles), il est conseillé de remplir ce champ pour restreindre la zone surveillée à une ou plusieurs partie de la page. Pour cela, soit vous devez maîtriser la syntaxe CSS3 afin de saisir manuellement la règle CSS3, soit vous pouvez utiliser l’interface de paramétrage visuel en cliquant sur le bouton :

Paramétrage visuel

Quelques secondes après avoir cliqué sur le bouton de paramétrage visuel, une nouvelle fenêtre de navigateur s’ouvre avec une interprétation de la page telle que vue par Scan. Il se peut qu’il y ait quelques petites différences avec la page originale telle que vous la verriez depuis votre navigateur. En cas de non affichage de la page, vous pourrez activer l’option Selenium.

ATTENTION

Étant donné qu’une nouvelle fenêtre doit s’ouvrir, il faudra vous assurer que votre navigateur accepte cette possibilité pour le site asknread.com.

Menu de la fenêtre de paramétrage visuel

La fenêtre de paramétrage visuel affiche le nombre de zones sélectionnées, ainsi que 5 boutons :

  • Le premier bouton vous permettra de valider les zones sélectionnées et de calculer automatiquement les sélecteurs CSS3 du flux. Cliquer sur le bouton fermera la fenêtre de paramétrage visuel.
  • Le second bouton permet de sélectionner les zones similaires à celles que vous avez déjà sélectionnées.
  • Le troisième bouton permettra, si besoin, d’afficher les éléments cachés (tels que des menus, des zones affichées en accordéon…). À noter que cette action n’est pas réversible, et que l’affichage général de la page peut être perturbé.
  • Le quatrième bouton effacera toutes les sélections effectuées.
  • Le dernier bouton annulera le paramétrage visuel et fermera la fenêtre.

Sélection des zones à surveiller

Une fois la fenêtre ouverte, vous aurez la possibilité de sélectionner une ou plusieurs zones à surveiller. Tous les liens de ces zones seront alors pris en compte dans le flux.

En déplaçant la souris, vous remarquerez que des zones sont mises en valeur par une bordure de pointillés verts.

Mise en valeur le la zone survolée par des pointillés verts (cliquez sur l’image pour l’agrandir)

En cliquant avec le bouton gauche de votre souris, la zone active aura une bordure de pointillés bleus. Vous pouvez sélectionner plusieurs zones sur la page si besoin.

Sélection de plusieurs zones sur la page (cliquez sur l’image pour l’agrandir)

Si vous cliquez de nouveau sur une zone sélectionnée (pointillés bleus), elle sera désélectionnée.

Désélection d’une zone (cliquez sur l’image pour l’agrandir)

Définition de zones à ne pas prendre en compte : les nœuds-bruits

Si vous jugez que des éléments d’une zone sélectionnée contiennent des liens inintéressants (vers une rubrique par exemple), il vous est possible d’indiquer ces éléments comme « nœuds-bruits ». Pour cela, il vous suffit de survoler la zone en question (qui sera entourée d’une bordure de pointillés verts) et de cliquer sur le bouton droit de votre souris. À noter qu’il est possible d’annuler cette action en re-cliquant avec le bouton droit sur cette même zone.

Définition et annulation d’un nœud-bruit (cliquez sur l’image pour l’agrandir)

Dissimulation de nœuds HTML gênants

Il se peut qu’il apparaisse sur la page des éléments qui se retrouvent au-dessus du contenu que vous voulez sélectionner (une boîte de dialogue vous demandant d’accepter les cookies par exemple, ou des éléments de menus précédemment cachés mais révélés par le bouton d’affichage des éléments cachés). Il vous est possible de dissimuler ces éléments en appuyant sur la touche Ctrl de votre clavier et en cliquant avec le bouton droit de votre souris. À noter que cette action est irréversible pour la durée de session de paramétrage visuel – si vous avez dissimulé un nœud HTML par erreur, il vous faudra soit annuler le paramétrage en cliquant sur le bouton correspondant, soit valider votre paramétrage et relancer une nouvelle session de paramétrage visuel.

Validation des zones sélectionnées

Le menu Scan en bas de la fenêtre vous indique dans sa zone centrale le nombre d’éléments sélectionnés. Cliquez sur le premier bouton « tick » pour valider votre sélection et remplir les deux champs « Sélecteur CSS3 vers les éléments dans lesquels on récupérera les liens » et « Sélecteur CSS3 de nœuds-bruits à supprimer avant le traitement ».

Les sélecteurs sont générés automatiquement, de façon la plus optimale possible. Il faut noter qu’il est fort probable de saisir manuellement des sélecteurs plus efficaces (en utilisant notamment les classes et les ids des nœuds HTML) mais cela vous nécessiterait de maîtriser la syntaxe des sélecteurs CSS3.

Récapitulatif des commandes du paramétrage visuel
  • Clic gauche : sélection d’une zone à surveiller
  • Clic droit : ajout/suppression d’un nœud-bruit
  • Ctrl + clic droit : dissimulation d’un nœud gênant

Création d’articles récapitulant les ajouts ou suppressions de liens dans la page

Sous les champs de saisie des sélecteurs CSS3, vous pouvez activer deux options vous permettant la création d’un « article » spécifique récapitulant les URLs des pages ajoutées depuis le précédent import, ainsi que la création d’un « article » spécifique récapitulant les URLs des pages supprimées de la page depuis le précédent import.

Il faut noter que ces « articles », si activés, pointeront vers la page originale (c’est-à-dire l’URL du flux).

Avantages
  • Simple à paramétrer
  • Possibilité d’indiquer une zone précise afin d’éviter les liens de navigation, le pied de page…
Inconvénients
  • Seuls les nouveaux liens depuis le précédent import sont pris en compte – si le contenu d’une sous-page est modifié sans que l’URL soit changé, aucun article ne sera généré