{"id":349,"date":"2023-10-14T16:29:07","date_gmt":"2023-10-14T16:29:07","guid":{"rendered":"https:\/\/habett.fr\/blog\/?p=349"},"modified":"2023-10-14T16:29:07","modified_gmt":"2023-10-14T16:29:07","slug":"robots-txt","status":"publish","type":"post","link":"https:\/\/habett.fr\/blog\/2023\/10\/robots-txt\/","title":{"rendered":"robots.txt"},"content":{"rendered":"\n<p>Historiquement, un fichier texte pos\u00e9 \u00e0 la racine d\u2019un serveur Web, nomm\u00e9 robots.txt, est une pseudo norme suppos\u00e9e d\u00e9clarer le comportement tol\u00e9r\u00e9 de la part des agents logiciels le visitant.<\/p>\n\n\n\n<p>Grand amateur de scraping, je connais cette norme mais elle ne m\u2019est d\u2019utilit\u00e9 que pour refuser \u00e0 mes interm\u00e9diaires certaines taches. Au fond je ne les respecte pas. Je suis m\u00eame surpris que cette id\u00e9e perdure.\u00a0A vrai dire, je n&rsquo;ai jamais particip\u00e9 \u00e0 un site sur lequel ce serait une pr\u00e9occupation.<\/p>\n\n\n\n<p>L&rsquo;id\u00e9e est de lister les URLs autoris\u00e9es\/interdites. Le format de ce fichier fait m\u00eame en sorte qu\u2019il soit possible de d\u00e9crire des politiques diff\u00e9rentes robot part robot (agent par agent).<\/p>\n\n\n\n<p>Imaginons un site public (administration d\u2019Etat). Accepterions nous ouvertement qu\u2019il proc\u00e8de \u00e0 des distinctions agent par agent ? Discriminations non acceptables. Notons que j&rsquo;ai vu un paquet de sites r\u00e9pondant \u00e0 de tels crit\u00e8re mettre en place des restrictions type captcha sur des fichiers type robots.txt ou m\u00eame des flux RSS !<\/p>\n\n\n\n<p>Derri\u00e8re chaque robot\/agent il y a une personne\/structure. Cela en ferait un sous-citoyen ? On ne scrape pas pour assouvir un d\u00e9sir malsain d\u2019accr\u00e9tion. On le fait globalement pour des traitements post\u00e9rieurs que l\u2019on aurait autrement fait sur des jeux de donn\u00e9es, sous r\u00e9serve qu\u2019ils soient d\u2019acc\u00e8s intelligibles et techniquement raisonnables. Surtout sur des sites \u00e9tatiques.\u00a0<\/p>\n\n\n\n<p>Je fais ce focus sur des sites publics car ils sont plus loin de ces parties du web o\u00f9 la mon\u00e9tisation par la publicit\u00e9 s\u2019impose (?!?), et car ils sont redevables aux citoyens dont ils rel\u00e8vent.&nbsp;<\/p>\n\n\n\n<p>Ce n\u2019est pas un plaidoyer contre les distinctions dro\u00efds\/humains, ni browser\/agents. La distinction logiciels\/agents est de plus en plus complexe. Un proxy vaut il un script \u00e0 fin d\u2019accessibilit\u00e9, un curl pour archivage\u00a0?<\/p>\n\n\n\n<p>Un dernier mot sur la tendance actuelle qui est de passer de jeux de donn\u00e9es \u00e0 des API publiques. Je n&rsquo;ai pas de religion sur ce point mais au final j&rsquo;aime que les cohabitent et que cela n&rsquo;exclue pas le scraping.<\/p>\n\n\n\n<p>Resistance is futile.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Historiquement, un fichier texte pos\u00e9 \u00e0 la racine d\u2019un serveur Web, nomm\u00e9 robots.txt, est une pseudo norme suppos\u00e9e d\u00e9clarer le comportement tol\u00e9r\u00e9 de la part des agents logiciels le visitant. Grand amateur de scraping, je connais cette norme mais elle ne m\u2019est d\u2019utilit\u00e9 que pour refuser \u00e0 mes interm\u00e9diaires certaines taches. Au fond je ne &hellip; <a href=\"https:\/\/habett.fr\/blog\/2023\/10\/robots-txt\/\" class=\"more-link\">Continuer la lecture de <span class=\"screen-reader-text\">robots.txt<\/span><\/a><\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1],"tags":[60,59],"class_list":["post-349","post","type-post","status-publish","format-standard","hentry","category-non-classe","tag-robots","tag-scraping"],"_links":{"self":[{"href":"https:\/\/habett.fr\/blog\/wp-json\/wp\/v2\/posts\/349","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/habett.fr\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/habett.fr\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/habett.fr\/blog\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/habett.fr\/blog\/wp-json\/wp\/v2\/comments?post=349"}],"version-history":[{"count":1,"href":"https:\/\/habett.fr\/blog\/wp-json\/wp\/v2\/posts\/349\/revisions"}],"predecessor-version":[{"id":350,"href":"https:\/\/habett.fr\/blog\/wp-json\/wp\/v2\/posts\/349\/revisions\/350"}],"wp:attachment":[{"href":"https:\/\/habett.fr\/blog\/wp-json\/wp\/v2\/media?parent=349"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/habett.fr\/blog\/wp-json\/wp\/v2\/categories?post=349"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/habett.fr\/blog\/wp-json\/wp\/v2\/tags?post=349"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}