Web scraping21 mai 2014

Par SEO | Suggestions des internautes


  • De quoi s’agit-il ?

Le Web scraping est une action qui se réalise sur le web et qu’on appelle aussi Harvesting.
Le mot est peu courant pour le grand public mais il est utilisé très souvent dans certains milieux informatiques comme le référencement naturel.
L’action consiste a récupérer automatiquement un grand nombre de données sur le web afin de pouvoir construire une base de données.

Les raisons du « scraping » peuvent être multiples et contrairement à ce qu’indique wikipédia (qui donne une définition correcte) son interprétation est fausse lorsqu’il ne laisse entrevoir que la partie répréhensible ( droits d’auteur)
En effet le « scraping » peut être effectuer dans un but de libération de données utiles au grand public (lien scrapathon) ou dans un but professionnel afin de récupérer rapidement des données offerte aux utilisateurs (pour les compiler et gagner du temps (lien referencement-convertic.fr).

     
     
  • Des pistes pour se renseigner

- http://fr.wikipedia.org/wiki/Web_scraping

- http://scrapathon.wordpress.com/

- http://www.referencement-convertic.fr/blog/imacros-trouver-des-nom-de-domaines-expires/

     
     
  • Propositions

scalpe internet

     
     
VN:F [1.9.7_1111]
Évaluation : 10.0/10
Web scraping, 10.0 out of 10 based on 1 rating


9 commentaires à “Web scraping”



  1. hpulp dit :
    26 juillet 2016 à 11 h 37 min

    L’amassage web ou amassage de données

    VN:F [1.9.7_1111]
    Note : 0
  2. XXI dit :
    12 juin 2014 à 17 h 56 min

    glanage

    VN:F [1.9.7_1111]
    Note : +2
  3. XXI dit :
    5 juin 2014 à 15 h 01 min

    glaner

    VN:F [1.9.7_1111]
    Note : +2
  4. florentis dit :
    5 juin 2014 à 12 h 12 min

    scrap est le fragment, le petit morceau.

    L’idée ici est de prendre les choses bribe par bribe, de ramasser les miettes d’information qui traîne sur le web ici où là.

    On peut ressortir un vieux mot français : briber/brimber (voir http://micmap.org/dicfro/search/dictionnaire-godefroy/brimber), qui s’est spécialisé dans le sens de mendier (le mendiant ramassant les miettes)

    Le nom d’action qui y correspond est briberie / brimberie, fait de ramasser des bribes.

    Plusieurs mots sont envisageables.
    la data-briberie : fait de ramasser les données par bribes.
    la rète-briberie : fait de ramasser sur le réseau par bribes (rète- étant un préfixe issu du latin rete « filet », rete signifiant en italien un réseau informatique).

    Il y a aussi les mots bribeur / briberesse (ou bribeuse) pour désigner celui/celle qui ramassent des bribes.

    VN:F [1.9.7_1111]
    Note : -1
    • DDZ dit :
      6 juin 2014 à 12 h 29 min

      « data-briberie »
      « Data » est anglais. C’est « donnée » en français !

      VN:F [1.9.7_1111]
      Note : +1
      • florentis dit :
        8 juin 2014 à 16 h 29 min

        data est en latin :
        – soit le pluriel de datum et signifie « dons, cadeaux, présents »
        – soit le féminin du supin de do, dare « donner ».

        Pour ma part, je trouve les mots latins acceptables en français, en particulier en tant que préfixe.

        Maintenant, si on veut un mot purement français, il faudrait créer un mot composé, par exemple (le) bribe-données / (le) brimbe-données (= qui bribe/brimbe des données)

        VN:F [1.9.7_1111]
        Note : -1
        • XXI dit :
          10 juin 2014 à 12 h 36 min

          Moi, je vois que le français avait tenté dans le passé de se libérer des racines latins (avec la réduction de ses consonnes, avec la francisation des morphèmes). Voir noyau/nucleus, péninsule/presqu’île, éteignement/extinction. Pour une langue française même plus belle pour le XXIe siècle, il serait plus logique et plus beau de préférer les racines françaises – ‘donnée’ au lieu de ‘data’, ‘noyal -e, -aux’ au lieu de ‘nucléaire’, ‘rayonnement’ au lieu de ‘radiation’.

          VN:F [1.9.7_1111]
          Note : +4
          • florentis dit :
            11 juin 2014 à 23 h 43 min

            Il est vrai que les sonorités latines ne sont pas les sonorités du français moderne. Cela peut avoir des avantages dans certains cas : lorsque que composer des mots français mènerait à des collisions phonétiques, cela peut être bénéfique de sortir des mots d’une des langues mortes de références (grec, latin) dont la prononciation diffère. De plus, le français n’est pas vraiment une langue qui a l’habitude de composer les mots, contrairement au Grec ancien, à l’anglais ou même au latin. Elle est surtout issue d’un latin parlé, et son originalité est plutôt dans une réfection de sons, travaillés par la poésie.
            Remarquez encore qu’il y a en Français des doublons étymologiques, comme par exemple hôtel et hôpital qui viennent du même mot latin, le dernier par un canal plus savant.

            Maintenant, il ne me dérange pas d’imaginer faire vivre à ma proposition comme un passage du latin au français moderne, via l’ancien-français, pour en franciser le son. Bon, ce n’est pas trop mon domaine. Je n’y connais pas grand-chose. D’après ce que j’ai compris, les sons en français se sont adoucis et des voyelles (voire des syllabes) se sont évanouies.
            J’avais : data-briberie
            Si j’adoucis le « t » et rend muet le « a » [cohérent avec le suffixe français -ade (orangeade,…etc), qui vient du suffixe latin -ata (voir https://fr.wiktionary.org/wiki/-ade)].
            Ca me donne le verbe :
            dadebriber, dont le déverbal est dadebribe (la).
            ..
            Cependant, ça fait un peu « brb », ce qui n’est pas facile à dire, il y a un b en trop. Si je l’ôte, le « dr » est un peu dru. J’inverse le « r ». Je peux maintenant nasaliser.
            D’où l’idée :
            dadebribe -> dadribe -> dadibre -> dadimbre

            Un joli mot comme dadimbre,
            n’a-t-il pas du français le beau timbre ?
            ..
            Dadimbrer : récupérer automatiquement un grand nombre de données sur le réseau afin construire une base de données.

            VN:F [1.9.7_1111]
            Note : 0
  5. DDZ dit :
    30 mai 2014 à 11 h 28 min

    1) Web en français, c’est la Toile.
    2) Le gérondif de « to scrap » est « scrapping » (avec deux « p »).
    3) En lisant la définition, je dirais compilation de données en ligne.

    VN:F [1.9.7_1111]
    Note : -1

  6.  

Laissez un commentaire à


Vous devez vous authentifier ou vous inscrire pour publier un commentaire.


Les termes les plus utilisés

Geek (44,32.727272727273)
réseaux sociaux (37,27.954545454545)
grande distribution (34,25.909090909091)
communication (32,24.545454545455)
couchsurfing (31,23.863636363636)
thriller (27,21.136363636364)
noob (26,20.454545454545)
Happy Hour (25,19.772727272727)
page turner (25,19.772727272727)
binge drinking (23,18.409090909091)
Feedback (22,17.727272727273)
garden party (22,17.727272727273)
réseaux sociaux (21,17.045454545455)
gay-friendly (20,16.363636363636)
peanuts (20,16.363636363636)
skeleton (20,16.363636363636)
liker (18,15)
bibliothèques (18,15)
sibling (18,15)
cent (17,14.318181818182)
Slash (\backward slash /forward slash) (17,14.318181818182)
veganism (17,14.318181818182)
as soon as possible (ASAP) (16,13.636363636364)
blogueur (16,13.636363636364)
buzz (16,13.636363636364)
Drive (16,13.636363636364)
internet (16,13.636363636364)
eReader (15,12.954545454545)
root (15,12.954545454545)
crowdsourcing (14,12.272727272727)
greenwashing (14,12.272727272727)
Mug (14,12.272727272727)
netlinking (14,12.272727272727)
internet (14,12.272727272727)
Unmanned Aerial Vehicle (14,12.272727272727)
challenging (13,11.590909090909)
FLASHCODE (13,11.590909090909)
User centric (13,11.590909090909)
back office (12,10.909090909091)
mansplain - mansplaining (12,10.909090909091)
User generated content (12,10.909090909091)
baby-clash (11,10.227272727273)
informatique (11,10.227272727273)
Community Manager (11,10.227272727273)
COWORKING (11,10.227272727273)

WP-Cumulus nécessite Flash Player 9 ou supérieur.

Suggérez vos termes

Saisissez dans le champ ci-dessous le terme étranger que vous souhaitez proposer à la communauté

Commentaires récents

1 octobre 2017 mansplain – mansplaining
"Explication de mec" ou "ex...
1 octobre 2017 troll
"provocateur"
1 octobre 2017 data exhaust
"données résultantes"
1 octobre 2017 greenwashing
Eco-mensonge Eco-propagande
1 octobre 2017 Proposez un équivalent français à quantified self
"Auto" me semble abstrait e...

Dernières suggestions

20 octobre 2015
Mtfr


Kebabier

Commerçant(e) préparant et vendant des kebabs ...

20 octobre 2015
vaissellejetable


street food

La cuisine de rue est la mise en vente de plats, boissons ou aliments dans ...

14 octobre 2015
animateur


Trouvez un équivalent français à freakonomics

Vous aurez beau interroger internet sur le sens de freakonomics, aucune définition formelle ne s’y ...

24 septembre 2015
thomas


biohacking

Activité, souvent informelle ou d'amateur, qui exploite ou modifie la biologie d'un être vivant (y ...

17 septembre 2015
thomas


dislike

Fonction de réseaux sociaux qui permet à l'utilisateur d'afficher son déplaisir à l'égard d'une publication. ...

25 août 2015
thomas


smart data

Les smart data (par opposition aux big data) sont le résultat du raffinement de grosses ...

27 juillet 2015
Ray


data exhaust

les données générées par les internautes, un sous-produit de leur navigation et de leur comportement ...