You are not logged in.
Pages: 1
Bonjour,
J'ai 50 proxi, les parametrage :
* pause : 1 / 4
* 20 thread
* 10 fetch retry
proxy:http://50.2.15.107:8800/ try 1
[2017-02-22 10:16:59,864] [google-0] INFO c.s.s.s.g.s.GoogleScraper - GOT status=[-1] exception=[HttpHostConnectException : Connect to 50.2.15.107:8800 [/50.2.15.107] failed: Connection refused (Connection refused)]
[2017-02-22 10:16:59,864] [google-0] DEBUG c.s.s.s.g.s.GoogleScraper - GET #### via proxy:http://50.2.15.107:8800/ try 2
[2017-02-22 10:17:00,005] [google-0] INFO c.s.s.s.g.s.GoogleScraper - GOT status=[-1] exception=[HttpHostConnectException : Connect to 50.2.15.107:8800 [/50.2.15.107] failed: Connection refused (Connection refused)]
[2017-02-22 10:17:00,005] [google-0] DEBUG c.s.s.s.g.s.GoogleScraper - GET #### via proxy:http://50.2.15.107:8800/ try 3
[2017-02-22 10:17:00,171] [google-0] INFO c.s.s.s.g.s.GoogleScraper - GOT status=[-1] exception=[HttpHostConnectException : Connect to 50.2.15.107:8800 [/50.2.15.107] failed: Connection refused (Connection refused)]
[2017-02-22 10:17:00,171] [google-0] WARN c.s.s.t.g.GoogleTaskRunnable - scrap failed for entreprise de carrelage à jonage près de lyon because of ERROR_NETWORK
[2017-02-22 10:17:00,171] [google-0] WARN c.s.s.t.g.GoogleTaskRunnable - no more proxy, stopping the thread
[2017-02-22 10:17:00,171] [google-0] INFO c.s.s.t.g.GoogleTaskRunnable - google thread stopped
[2017-02-22 10:17:03,288] [Thread-52] WARN c.s.s.t.g.GoogleTask - 50 proxies failed during the task
[2017-02-22 10:17:03,288] [Thread-52] WARN c.s.s.t.g.GoogleTask - 18342 searches have not been checked
[2017-02-22 10:17:03,291] [Thread-52] INFO c.s.s.t.AbstractTask - task done for module GOOGLE
Je comprend pas trop pourquoi cela crash aprés 3 try.
Auriez vous des éclaircissement à ce sujet ?
Cdt
Offline
bonjour,
Serposcope n'arrive pas à se connecter sur le proxy http://50.2.15.107:8800/ car connexion refusé, le port n'est pas ouvert ou un parefeu bloque. C'est une erreur réseau.
Offline
Quand je fait les check sous serpo tout mes proxy sont valides, et quand bien même c'etait le cas pourquoi ne pas switcher sur un autre ?
Offline
c'est la fin de la taĉhe, il a déjà switché sur tous les autres, c'était le dernier proxy
Offline
c'est la fin de la taĉhe
Loin de là, a peine 3% des keyword ont été checker
Si je crois le log les 50 proxy n'ont pas été tester pour cette requête. Le paramétrage des 15 fetch retry n'as pas d'effet sur le nombre de try ?
Offline
on peut avoir checké que 3% des mot-clés et être à la fin de la tâche. Tous les proxies ont été essayés, il n'y a plus de proxy disponible, serposcope s'arrête, fin de la tâche.
Offline
Si j'ai bien saisi si à un moment donné de l'import un proxy n'as pas repondu il n'est plus utiliser, donc si chaque proxy n'as pas repondu une fois durant toute la task, la task est abort ?
Offline
il n'y a pas d'import de proxy. Il y a des proxies. Serposcope utilise les proxies un par un. Si un proxy ne répond pas (erreur réseau, blacklisté, captcha et pas de resolver ou autre), il réessai plusieurs fois (3 fois par défaut = fetchTry). Au bout d'un moment il abandonne il passe à un autre proxy. S'il n'y a plus de proxies, on ne peut plus scrapper. fin de la tache. Si on met de taches en paralélle (=plusieurs threads) on utilise plusieurs proxies en meme temps, on les crame plus vite car on réduit la pause.
Offline
Donc 1 proxy qui retourne une erreur (genre pas de reponse) le nombre de fetch try durant la task il ne sera plus utiliser durant toute la task ?
Offline
il y a un fetchTry par proxy, son fetchTry est réinitialisé à 0 à chaque succès. Donc pour un fetchTry = 3, si un proxy fait 2 erreurs puis un succès à chaque fois, il sera toujours utilisé. Mais dès qu'il fera 3 erreurs consécutive il est éjecté pour la tache en cours.
Offline
ok, cela me parait peu probable que mes 50 proxy ai tous echoué 10 fois d'affilé mais je vais checker le log. Merci pour la reponse, je reviens vers vous dans le cas contraire.
Btw, gg pour l'outil. Une idée de la date de sortie d'une V3 ?
Offline
2018/2019 trop occupé pour le moment, je ne corrige que les gros bugs pour le moment.
Offline
Lorsqu'un proxy est mis hors course pour la task, il y a un message dans le log, cela pourrait faciliter mes recherches ?
Last edited by quentin_lamamy (2017-02-22 10:55:47)
Offline
recherche pour
scrap failed
en général le proxy qui faisait le scrap sera éliminé. (attention si plusieurs threads les logs seront dans le désodre, le nom du thread est représenté par [google-0] ou [google-1] ...)
Offline
[2017-02-22 09:55:00,349] [google-15] WARN c.s.s.t.g.GoogleTaskRunnable - scrap failed for #######because of ERROR_NETWORK
[2017-02-22 09:55:00,349] [google-15] WARN c.s.s.t.g.GoogleTaskRunnable - no more proxy, stopping the thread
J'ai ca 50 fois dans mon log, donc cela veut dire qu'as ce moment le proxy du thread à déjà fail 10 fois d'affilé ?
En mettant un fetch retry à 1000 cela resoudrai ce problème ? Est ce que ce la represente un quelconque danger pour la qualité des donnée ou pour le serveur ?
Last edited by quentin_lamamy (2017-02-22 11:03:08)
Offline
utiliser des listes de poxies publics de mauvaise qualité est une très mauvaise idée. SErposcope n'est conçu pour être utilisé dans ce cas de figure. Augmenter le nombre de fetchTry peut éventuellement résoudre le problème.
Offline
Ce sont des proxi dedié. Je pars manger et je contact mon prestataire
Offline
J'ai refait un test avec un fetch retry à 1000 et j'ai toujours la même issue, ce n'est techniquement pas possible d'avoir 1000 erreur sur un proxy. Un autre point étrange... j'ai uniquement le thread [google-19] qui log alors que j'ai parametré 30 thread. Bizarre...
J'ai ouvert un ticket auprès de mon prestataire de proxy dedié pour avoir un log au cas où.
Qu'en pensez vous ?
Offline
Bonjour,
j'ai cette erreur lors du "check position" mais je n'ai pas trouvé de précision quant au problème à l'origine de l'erreur. Pourriez-vous m'aider s'il vous plaît ?
TÂCHES TERMINÉES
# ID Mode Module Démarré Terminé Durée Captchas Erreurs Statut Actions
2 MANUAL GOOGLE 2018-01-15 10:28:52 2018-01-15 10:28:55 00:00:03 0 5 DONE_WITH_ERROR
1 MANUAL GOOGLE 2018-01-15 10:19:40 2018-01-15 10:19:40 00:00:00 0 0 DONE_SUCCESS
Merci,
Antonin Cyrille
Offline
Pages: 1