Web scraping21 mai 2014

Par SEO | Suggestions des internautes


  • De quoi s’agit-il ?

Le Web scraping est une action qui se réalise sur le web et qu’on appelle aussi Harvesting.
Le mot est peu courant pour le grand public mais il est utilisé très souvent dans certains milieux informatiques comme le référencement naturel.
L’action consiste a récupérer automatiquement un grand nombre de données sur le web afin de pouvoir construire une base de données.

Les raisons du « scraping » peuvent être multiples et contrairement à ce qu’indique wikipédia (qui donne une définition correcte) son interprétation est fausse lorsqu’il ne laisse entrevoir que la partie répréhensible ( droits d’auteur)
En effet le « scraping » peut être effectuer dans un but de libération de données utiles au grand public (lien scrapathon) ou dans un but professionnel afin de récupérer rapidement des données offerte aux utilisateurs (pour les compiler et gagner du temps (lien referencement-convertic.fr).

     
     
  • Des pistes pour se renseigner

- http://fr.wikipedia.org/wiki/Web_scraping

- http://scrapathon.wordpress.com/

- http://www.referencement-convertic.fr/blog/imacros-trouver-des-nom-de-domaines-expires/

     
     
  • Propositions

scalpe internet

     
     
VN:F [1.9.7_1111]
Évaluation : 10.0/10
Web scraping, 10.0 out of 10 based on 1 rating


9 commentaires à “Web scraping”



  1. hpulp dit :
    26 juillet 2016 à 11 h 37 min

    L’amassage web ou amassage de données

    VN:F [1.9.7_1111]
    Note : 0
  2. XXI dit :
    12 juin 2014 à 17 h 56 min

    glanage

    VN:F [1.9.7_1111]
    Note : +2
  3. XXI dit :
    5 juin 2014 à 15 h 01 min

    glaner

    VN:F [1.9.7_1111]
    Note : +2
  4. florentis dit :
    5 juin 2014 à 12 h 12 min

    scrap est le fragment, le petit morceau.

    L’idée ici est de prendre les choses bribe par bribe, de ramasser les miettes d’information qui traîne sur le web ici où là.

    On peut ressortir un vieux mot français : briber/brimber (voir http://micmap.org/dicfro/search/dictionnaire-godefroy/brimber), qui s’est spécialisé dans le sens de mendier (le mendiant ramassant les miettes)

    Le nom d’action qui y correspond est briberie / brimberie, fait de ramasser des bribes.

    Plusieurs mots sont envisageables.
    la data-briberie : fait de ramasser les données par bribes.
    la rète-briberie : fait de ramasser sur le réseau par bribes (rète- étant un préfixe issu du latin rete « filet », rete signifiant en italien un réseau informatique).

    Il y a aussi les mots bribeur / briberesse (ou bribeuse) pour désigner celui/celle qui ramassent des bribes.

    VN:F [1.9.7_1111]
    Note : -1
    • DDZ dit :
      6 juin 2014 à 12 h 29 min

      « data-briberie »
      « Data » est anglais. C’est « donnée » en français !

      VN:F [1.9.7_1111]
      Note : +1
      • florentis dit :
        8 juin 2014 à 16 h 29 min

        data est en latin :
        – soit le pluriel de datum et signifie « dons, cadeaux, présents »
        – soit le féminin du supin de do, dare « donner ».

        Pour ma part, je trouve les mots latins acceptables en français, en particulier en tant que préfixe.

        Maintenant, si on veut un mot purement français, il faudrait créer un mot composé, par exemple (le) bribe-données / (le) brimbe-données (= qui bribe/brimbe des données)

        VN:F [1.9.7_1111]
        Note : -1
        • XXI dit :
          10 juin 2014 à 12 h 36 min

          Moi, je vois que le français avait tenté dans le passé de se libérer des racines latins (avec la réduction de ses consonnes, avec la francisation des morphèmes). Voir noyau/nucleus, péninsule/presqu’île, éteignement/extinction. Pour une langue française même plus belle pour le XXIe siècle, il serait plus logique et plus beau de préférer les racines françaises – ‘donnée’ au lieu de ‘data’, ‘noyal -e, -aux’ au lieu de ‘nucléaire’, ‘rayonnement’ au lieu de ‘radiation’.

          VN:F [1.9.7_1111]
          Note : +4
          • florentis dit :
            11 juin 2014 à 23 h 43 min

            Il est vrai que les sonorités latines ne sont pas les sonorités du français moderne. Cela peut avoir des avantages dans certains cas : lorsque que composer des mots français mènerait à des collisions phonétiques, cela peut être bénéfique de sortir des mots d’une des langues mortes de références (grec, latin) dont la prononciation diffère. De plus, le français n’est pas vraiment une langue qui a l’habitude de composer les mots, contrairement au Grec ancien, à l’anglais ou même au latin. Elle est surtout issue d’un latin parlé, et son originalité est plutôt dans une réfection de sons, travaillés par la poésie.
            Remarquez encore qu’il y a en Français des doublons étymologiques, comme par exemple hôtel et hôpital qui viennent du même mot latin, le dernier par un canal plus savant.

            Maintenant, il ne me dérange pas d’imaginer faire vivre à ma proposition comme un passage du latin au français moderne, via l’ancien-français, pour en franciser le son. Bon, ce n’est pas trop mon domaine. Je n’y connais pas grand-chose. D’après ce que j’ai compris, les sons en français se sont adoucis et des voyelles (voire des syllabes) se sont évanouies.
            J’avais : data-briberie
            Si j’adoucis le « t » et rend muet le « a » [cohérent avec le suffixe français -ade (orangeade,…etc), qui vient du suffixe latin -ata (voir https://fr.wiktionary.org/wiki/-ade)].
            Ca me donne le verbe :
            dadebriber, dont le déverbal est dadebribe (la).
            ..
            Cependant, ça fait un peu « brb », ce qui n’est pas facile à dire, il y a un b en trop. Si je l’ôte, le « dr » est un peu dru. J’inverse le « r ». Je peux maintenant nasaliser.
            D’où l’idée :
            dadebribe -> dadribe -> dadibre -> dadimbre

            Un joli mot comme dadimbre,
            n’a-t-il pas du français le beau timbre ?
            ..
            Dadimbrer : récupérer automatiquement un grand nombre de données sur le réseau afin construire une base de données.

            VN:F [1.9.7_1111]
            Note : 0
  5. DDZ dit :
    30 mai 2014 à 11 h 28 min

    1) Web en français, c’est la Toile.
    2) Le gérondif de « to scrap » est « scrapping » (avec deux « p »).
    3) En lisant la définition, je dirais compilation de données en ligne.

    VN:F [1.9.7_1111]
    Note : -1

  6.  

Laissez un commentaire à


Vous devez vous authentifier ou vous inscrire pour publier un commentaire.


Les termes les plus utilisés

Geek (44,32.727272727273)
réseaux sociaux (37,27.954545454545)
grande distribution (34,25.909090909091)
couchsurfing (32,24.545454545455)
communication (32,24.545454545455)
thriller (28,21.818181818182)
noob (26,20.454545454545)
Happy Hour (25,19.772727272727)
page turner (25,19.772727272727)
binge drinking (23,18.409090909091)
Feedback (22,17.727272727273)
garden party (22,17.727272727273)
gay-friendly (21,17.045454545455)
réseaux sociaux (21,17.045454545455)
peanuts (20,16.363636363636)
skeleton (20,16.363636363636)
liker (18,15)
bibliothèques (18,15)
sibling (18,15)
cent (17,14.318181818182)
internet (17,14.318181818182)
Slash (\backward slash /forward slash) (17,14.318181818182)
veganism (17,14.318181818182)
as soon as possible (ASAP) (16,13.636363636364)
blogueur (16,13.636363636364)
buzz (16,13.636363636364)
Drive (16,13.636363636364)
eReader (15,12.954545454545)
root (15,12.954545454545)
crowdsourcing (14,12.272727272727)
greenwashing (14,12.272727272727)
Mug (14,12.272727272727)
internet (14,12.272727272727)
Unmanned Aerial Vehicle (14,12.272727272727)
challenging (13,11.590909090909)
FLASHCODE (13,11.590909090909)
Objets connectés (13,11.590909090909)
User centric (13,11.590909090909)
back office (12,10.909090909091)
mansplain - mansplaining (12,10.909090909091)
Selfie (12,10.909090909091)
économie (12,10.909090909091)
User generated content (12,10.909090909091)
baby-clash (11,10.227272727273)
informatique (11,10.227272727273)

WP-Cumulus nécessite Flash Player 9 ou supérieur.

Suggérez vos termes

Saisissez dans le champ ci-dessous le terme étranger que vous souhaitez proposer à la communauté

Commentaires récents

8 avril 2018 troll
Bjr et pourquoi pas "Drô...
8 avril 2018 Selfie
Un auto-clic.
8 avril 2018 Doggy bag
Pour faire court et.. sonor...
8 avril 2018 troll
Je propose FRELON On lit d...
1 avril 2018 thriller
j'ai l'impression que les d...

Dernières suggestions

12 avril 2018
Kukulkan


best of

littéralement "meilleur de", produit (physique ou non) regroupant les meilleurs éléments ou parties d'un travail ...

12 avril 2018
Kukulkan


Frape

Un frape est un terme porte-manteau, contraction de facebook et rape (viol). Ce terme indique ...

12 avril 2018
Audreyyy


Bluffer

Le terme "bluffer" est principalement utilisé au poker pour désigner un joueur qui tente de ...

12 avril 2018
yucerre


g.p.s.

L'acronyme "global positioning system", soit " système de locaiisation planétaire", est déjà bien connu, depuis ...

12 avril 2018
yucerre


stress

Ce mot est donné pour la première fois, dans le titre de l'ouvrage du physiologiste hongrois, ...

12 avril 2018
yucerre


fitness

Etat syndromique subdépressif relatif à une saturation professionnelle. Il peut. conduire, par exacerbation, à la mort. ...

12 avril 2018
soubervie


download

action de transférer des données d'un ordinateur serveur vers un ordinateur client ...