796 Кб, 779x768
Что посоветуете для веб-скрапинга таких ресурсов как авито, вк, днокласники?
>>76522 (OP)
Node.js + Puppeteer либо Playwright
Node.js + Puppeteer либо Playwright
>>76522 (OP)
Selenium или Playwright. Первое старая хуйня, но на ней тонна ответов на вопросы на StackOverflow итп, не пропадешь. Второе, новое, перспективное, но даже документация на Python написана отчасти скудно, и да мне пришлось ее читать, про СтэкОФ вообще молчу, там кот наплакал
Selenium или Playwright. Первое старая хуйня, но на ней тонна ответов на вопросы на StackOverflow итп, не пропадешь. Второе, новое, перспективное, но даже документация на Python написана отчасти скудно, и да мне пришлось ее читать, про СтэкОФ вообще молчу, там кот наплакал
>>86875
Всякие клаудфлары мгновенно вычисляют webdriver и блокируют. Так что хуй.
Слишком высокоуровневый и заточен на тестирование вебговна, многие нужные фичи сокрыты под слоем абстракций.
И его тоже сходу вычисляют из-за включенного runtime домена cdp.
>Selenium
Всякие клаудфлары мгновенно вычисляют webdriver и блокируют. Так что хуй.
>Playwright
Слишком высокоуровневый и заточен на тестирование вебговна, многие нужные фичи сокрыты под слоем абстракций.
И его тоже сходу вычисляют из-за включенного runtime домена cdp.
>>76732
Браузер поднимает и уже браузер ходит по ссылкам, так тебя прямо с орога будут посылать на хуй
>>86875
Не советую, палится вообзе легко
Мы занимаемся сбором информации и используем Playwright совместно со сборкой хрома о которой я тут не буду подробно рассказывать, там есть некоторые нюансы чтобы вообще не палить контору для всяких CF. Но для любительских целей подойдет любой хром, желательно запускать разные профили из под разных прокси если будешь слишком активно ползать по ссылкам. И не забывай в переменных окружения ставить нужную локаль и часовой пояс если используешь прокси.
>ем хорош , чем от красивого супа отличается или от PHPQuery?
Браузер поднимает и уже браузер ходит по ссылкам, так тебя прямо с орога будут посылать на хуй
>>86875
>Selenium
Не советую, палится вообзе легко
Мы занимаемся сбором информации и используем Playwright совместно со сборкой хрома о которой я тут не буду подробно рассказывать, там есть некоторые нюансы чтобы вообще не палить контору для всяких CF. Но для любительских целей подойдет любой хром, желательно запускать разные профили из под разных прокси если будешь слишком активно ползать по ссылкам. И не забывай в переменных окружения ставить нужную локаль и часовой пояс если используешь прокси.
>>89178
Ебать, какие понты. Понесло ко-ко-командой профессионалов.
>Мы
>совместно со сборкой хрома о которой я тут не буду подробно рассказывать
Ебать, какие понты. Понесло ко-ко-командой профессионалов.
>>89285
Лол даже не собирался. Тут дело не в понтах, а в том что если это станет общедоступным, то лавочку быстро прикроют и придется пилить новое решение по обходу cloudflare и прочих детектилок ботов. А на это говно много времени потратили проходилось деобфусцировать тонны js говна.
Так что бери хромиум+Playwright и не выебывайся.
>Ебать, какие понты.
Лол даже не собирался. Тут дело не в понтах, а в том что если это станет общедоступным, то лавочку быстро прикроют и придется пилить новое решение по обходу cloudflare и прочих детектилок ботов. А на это говно много времени потратили проходилось деобфусцировать тонны js говна.
Так что бери хромиум+Playwright и не выебывайся.
>>89346
Да, не просто минифицированный, а обфусцированный. На самом деле с webstorm ничего сложного нет, просто прогоняешь этот код через самого себя (не знаю как это объяснить, проще вживую показать), а потом обычный минифицированный код читается на изи, осоебнно после вебпака там на модули разбито и все понятно
>>89354
Чего говорят то и ковыряем, обычно рекламные объявления собираем, иногда цены с какого-нибудь магазина. Про заказчиков хз, не я этим занимаюсь.
>Вы там прямо сидели дешифровали минифицированный код на жс?
Да, не просто минифицированный, а обфусцированный. На самом деле с webstorm ничего сложного нет, просто прогоняешь этот код через самого себя (не знаю как это объяснить, проще вживую показать), а потом обычный минифицированный код читается на изи, осоебнно после вебпака там на модули разбито и все понятно
>>89354
>Что ковыряете? Где находите заказчиков?
Чего говорят то и ковыряем, обычно рекламные объявления собираем, иногда цены с какого-нибудь магазина. Про заказчиков хз, не я этим занимаюсь.
>>89344
Все так, тебя спалят. Вот такая конструкция у тебя спалит даже открытые инструменты разработчика в хроме https://pastebin.com/eBaC7dDp
Про весь автоматизированный софт молчу, там тебя спалят как нехуй делать, приходится использовать специальные сборки браузеров где этого поведения нет. Если у тебя нет такой возможности, то бери простые решения типа Playwright, по каким-нибудь вконтактикам и одноклассникам шастать в небыстром темпе это вполне пойдет. Большенство софта анализриуещего поведение браузера работает на самом деле по совокупности факторов и вероятность бота определяется в процентах, если ты спалился в одном месте, но остальное прокатило, то это еще не значит что тебя пошлют на хуй. Вот кстати удобная штука для проверки браузера https://www.browserscan.net/bot-detection
Все так, тебя спалят. Вот такая конструкция у тебя спалит даже открытые инструменты разработчика в хроме https://pastebin.com/eBaC7dDp
Про весь автоматизированный софт молчу, там тебя спалят как нехуй делать, приходится использовать специальные сборки браузеров где этого поведения нет. Если у тебя нет такой возможности, то бери простые решения типа Playwright, по каким-нибудь вконтактикам и одноклассникам шастать в небыстром темпе это вполне пойдет. Большенство софта анализриуещего поведение браузера работает на самом деле по совокупности факторов и вероятность бота определяется в процентах, если ты спалился в одном месте, но остальное прокатило, то это еще не значит что тебя пошлют на хуй. Вот кстати удобная штука для проверки браузера https://www.browserscan.net/bot-detection
98 Кб, 1526x506
Обновить тред>>89629
ТА ЗА ЩО? Я ещё даже не начал, а меня уже ботом обозвали.
ТА ЗА ЩО? Я ещё даже не начал, а меня уже ботом обозвали.