Structuration de contenu documentaire : hyperlien, mĂ©tadonnĂ©es, syndication, rĂ©fĂ©rencement - Cours SpĂ© SystĂšmes d’Information de Gestion - Terminale STMG

Structuration de contenu documentaire : hyperlien, mĂ©tadonnĂ©es, syndication, rĂ©fĂ©rencement - Cours SpĂ© SystĂšmes d’Information de Gestion - Terminale STMG

Notre professeur a rédigé pour vous ce cours de Spé SIG sur le chapitre "Structuration de contenu documentaire : hyperlien, métadonnées, syndication, référencement" issu du thÚme "La numérisation suffit-elle à valoriser l'information ?"

Dans ce cours de Spécialité SIG, vous étudierez en premier lieu la structure d'un document XML, puis les hyperliens et la syndication. Vous vous pencherez alors sur ce qu'est la curation ainsi que le référencement.

Téléchargez gratuitement ci-dessous ce cours de Spécialité SystÚmes d'Information de Gestion sur la structuration de contenu documentaire pour le Bac STMG.

Structuration de contenu documentaire : hyperlien, mĂ©tadonnĂ©es, syndication, rĂ©fĂ©rencement - Cours SpĂ© SystĂšmes d’Information de Gestion - Terminale STMG

Le contenu du document

 

INTRODUCTION

Pour ĂȘtre valorisĂ©s, les contenus documentaires doivent passer par une Ă©tape de structuration : la hiĂ©rarchisation par un systĂšme d’hyperliens, description par un systĂšme de mĂ©tadonnĂ©es, syndication Ă  l’aide d’agrĂ©gateurs de contenus, rĂ©fĂ©rencement sur des moteurs de recherche.

 

LA STRUCTURE D’UN DOCUMENT XML

Le document suivant présente une bibliographie sur une page de site internet : 

Structure d'un document XML - Cours Spé SIG Bac STMG

La mĂȘme page encodĂ©e en XML :

Encodage XML - Cours Spé SIG Bac STMG

Les libellés entre chevrons (< ... >) sont appelés éléments (ou tags) : 

  • Le libellĂ© des Ă©lĂ©ments (et donc de leurs balises) est libre (toutefois sans espaces et sensible Ă  la casse),
     
  • Ce libellĂ© doit ĂȘtre descriptif de la donnĂ©e contenue entre les balises ouvrante et fermante
     
  • Des Ă©lĂ©ments peuvent ĂȘtre imbriquĂ© mais non enchevĂȘtrĂ©s (en les fermant dans l’ordre inverse de leur ouverture), l’indexation (retrait Ă  gauche) facilite la lecture humaine (sans utilitĂ© pour les logiciels).
     
  • Les Ă©lĂ©ments peuvent ĂȘtre porteurs d’attributs non prĂ©sentĂ© et non Ă©tudiĂ© ici)
     
  • Les Ă©lĂ©ments peuvent ĂȘtre vides, donnant lieu Ă  des balises orphelines
     
  • Des Ă©lĂ©ments peuvent ĂȘtre rĂ©pĂ©tĂ©s (Ă  l’exception de l’Ă©lĂ©ment racine)
     
  • Les Ă©lĂ©ments simples sont susceptibles de porter des informations (ils peuvent ĂȘtre vides)
     
  • Les Ă©lĂ©ments complexes structurent les Ă©lĂ©ments simples

 

Le langage XML :

  • VĂ©hicule du contenu (les donnĂ©es)
  • Structure ce contenu (grĂące aux Ă©lĂ©ments) afin de donner du sens aux donnĂ©es pour pouvoir les exploiter
  • Sans mise en forme car il n’a pas pour objet d’ĂȘtre affichĂ© (mais peut l’ĂȘtre, notamment Ă  l’aide de feuille de styles CSS ou de transformation XSLT…)

LES HYPERLIENS

Un hyperlien est un moyen d’atteindre un document quelle qu’en soit la forme, Ă  partir d’un autre document. Ce systĂšme est au cœur de la navigation entre documents sur le web. La notion d’hyperliens largement connue des Ă©lĂšves, doit ĂȘtre Ă©tudiĂ©e comme un moyen d’accĂ©der Ă  des informations pertinentes, soit par le biais des moteurs de recherche, soit par la navigation entre documents.

Hyperliens - Cours Spé SIG Terminale STMG

LA SYNDICATION

La syndication permet de produire un flux d’information Ă  partir des documents publiĂ©s sur un ou plusieurs sites. Il s’agit d’un outil de veille informationnelle qui permet de passer d’une publication en mode tirĂ© (l’internaute tire l’information d’un site qu’il visite) Ă  une publication en mode poussĂ© (l’internaute reçoit automatiquement l’information depuis les sites de son choix).

La syndication de contenu consiste pour un site Ă  mettre Ă  disposition d’autres sites certaines de ses donnĂ©es, via un fil ou un flux de syndication. Il s’agit des nouveautĂ©s : article rĂ©cent publiĂ©, balado-diffusion, …

Ce flux de syndication est :

  • Produit automatiquement (par exemple Ă  la publication d’un nouvel article) selon des rĂšgles fixĂ©es par le producteur (par exemple y mentionner les 5 articles les plus rĂ©cents) et une structure standardisĂ©e.
     
  • Lu Ă  l’aide d’un lecteur ou agrĂ©gateur local (client de messagerie ou navigateur) ou en ligne (par exemple netvibes ou feedly) qui s’actualise de façon dĂ©clenchĂ©e ou pĂ©riodique (par exemple toutes les 5minutes interroger tous les flux auxquels l’agrĂ©gateur est abonnĂ©e).

 

Le flux fait un lien vers chaque ressource avec un brĂšve prĂ©sentation (titre, rĂ©sumĂ©, auteur, date de publication, …).

Les principaux formats de flux de syndication sont RSS (Relly Simple Syndication) et ATOM tous deux basés sur le langage XML. Un schéma XML contrÎle la structure de RSS, ATOM est davantage extensible.

 

LA CURATION

La curation de contenus sĂ©lectionne, organise (pour rendre lisible) et partage des contenus (pour rendre visible) du Web dans un domaine donnĂ©. La valeur ajoutĂ©e de la curation (par rapport Ă  un portail) rĂ©side dans son aspect Ă©ditorial qui contextualise l’information et lui donne un sens autour d’un sujet. Il s’agit donc d’une activitĂ© a priori humaine et subjective.

On l’oppose en cela aux moteurs de recherche mais la progression du web sĂ©mantique peut Ă©ventuellement permettre d’envisager une curation, au moins en partie, automatique.

Les moteurs de recherche peuvent cependant ĂȘtre des outils utilisĂ©s par le curateur pour sa recherche. Pour le partage, il dispose de nombreuses possibilitĂ©s : lettre d’information, carte heuristique, groupe sur un rĂ©seau social, blog …

Le curateur, bĂ©nĂ©vole ou professionnel, s’apparente Ă  la version web 2.0 du documentaliste.

 

LE REFERENCEMENT

Le rĂ©fĂ©rencement de documents consiste Ă  le rendre accessible de façon pertinente sur le web, notamment en garantissant qu’ils seront trouvĂ©s Ă  l’aide des moteurs de recherche par les internautes, en fonction de l’information qui s’y trouve.

Un internaute accĂšde Ă  une ressource soit parce qu’il en connait l’adresse (Ă©ventuellement stockĂ©e dans ses marques-pages), soit parce qu’elle lui a Ă©tĂ© fournie par un autre site qui la rĂ©fĂ©rence (fait un lien vers elle), les principaux sites de rĂ©fĂ©rencement Ă©tant les moteurs de recherche (puis les portails et annuaires). Le trafic d’un site dĂ©pend donc largement de son bon rĂ©fĂ©rencement.

 

On peut distinguer trois types de référencement : 

  • Le rĂ©fĂ©rencement naturel, rĂ©alisĂ© par les moteurs de recherche
     
  • Le rĂ©fĂ©rencement sur les annuaires qui nĂ©cessite de soumettre manuellement son site Ă  un annuaire (si possible lui-mĂȘme bien rĂ©fĂ©rencĂ©) et qui peut accepter ou refuser la candidature selon des critĂšres.
     
  • Le rĂ©fĂ©rencement payant consistant Ă  acheter des mots-clĂ©s (par exemple sur Google Adwords) afin qu’un lien commercial soit affichĂ© (distinctement) en complĂ©ment du rĂ©fĂ©rencement naturel lorsque ces mots clĂ©s seront saisis dans un moteur de recherche (celui-ci Ă©tant Ă©galement rĂ©munĂ©rĂ© par les clics sur ces liens payants).

 

Référencement - Cours Spé SIG Terminale STMG

LE REFERENCEMENT NATUREL

Un moteur de recherche dispose de robots (bots, spiders ou crawlers) qui parcourent en permanence le web et indexent ses contenus Ă  l’aide de mots-clĂ©s dans une immense base de donnĂ©es. Le mot le plus indexĂ© sur Google est « http » : il vous donnera une idĂ©e du nombre de sites indexĂ©s par ses centaines de milliers de serveurs.

L’indexation de nouvelles ressources a lieu en suivant les liens (les contenus non rĂ©fĂ©rencĂ©s par des liens ou par des liens dynamiques sont ainsi ignorĂ©s des moteurs de recherche, on les appelle web profond). Toutefois il est possible de demander le non rĂ©fĂ©rencement d’une ressource : 

 

  • En protĂ©geant son accĂšs par authentification (technique sĂ»re)
     
  • Ou en spĂ©cifiant qu’elle ne doit pas ĂȘtre parcourue… sous rĂ©serve que le robor soit bienveillant et respecte cette consigne concernant une page donnĂ©e (avec la balise HTML dans la section ) ou l’ensemble d’un site (en plaçant Ă  sa racine un fichier d’exclusion robots.txt correctement paramĂ©trĂ©).

 

Les rĂ©sultats doivent ĂȘtre classĂ©s selon des critĂšres par un algorithme. Un des principes de base est qu’une ressource de qualitĂ© ou pertinente sera supposĂ©e pointĂ©e par beaucoup de liens (pageRank de Google) en valorisant les liens provenant de sites rĂ©putĂ© (TrustRank).

Les algorithmes des moteurs de recherche sont sans cesse en perfectionnement et en lutte contre les manipulations (liens croisĂ©s artificiels…c’est le rĂŽle de Panda et de Pingouin chez Google).

 

Un méta moteur soumet automatiquement une recherche à plusieurs moteurs et en synthétise les résultats.

Fin de l'extrait

Vous devez ĂȘtre connectĂ© pour pouvoir lire la suite

Télécharger ce document gratuitement

Donne ton avis !

Rédige ton avis

Votre commentaire est en attente de validation. Il s'affichera dès qu'un membre de Bac STMG le validera.
Attention, les commentaires doivent avoir un minimum de 50 caractères !
Vous devez donner une note pour valider votre avis.

Nos infos récentes du Bac STMG

Communauté au top !

Vous devez ĂȘtre membre de digiSchool bac STMG

Pas encore inscrit ?

Ou identifiez-vous :

Mot de passe oublié ?