1. Вы находитесь на форуме клуба BlackSEO.

    Здесь собрались настоящие профессионалы, накопившие большой опыт в сфере создания и продвижения сайтов. Своими знаниями и умениями они выделяются на фоне общей массы оптимизаторов. Участники форума постоянно выносят на обсуждение задачи, которые всегда на несколько шагов впереди публичных дискуссий, что делает BlackSEO лучшим местом для общения на любые темы, начиная с бизнеса и заканчивая отдыхом.
    Скрыть объявление

A-Parser - многофункциональный парсер SE, PR, TrustRank, DMOZ, WHOIS etc.

Тема в разделе "Реклама и анонсы партнерок и сервисов", создана пользователем Forbidden, 19.4.2012.

  1. Babloman

    Babloman V.I.P

    Регистрация:
    23.10.11
    Сообщения:
    771
    Симпатии:
    41
    Forbidden, если будут betки для теста - буду рад
     
  2. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    [​IMG]

    Улучшения
    • Добавлено 2 новых парсера:
      • [​IMG] GooglePlay::Apps - парсинг информации о приложениях из Google Play
      • [​IMG] SE::Yandex::Speller - проверка страниц на ошибки в тексте через Яндекс.Спеллер
    • Добавлен функционал перевода интерфейса парсера на другие языки
    • В тестовом режиме добавлена поддержка reCAPTCHA в [​IMG] SE::Google::Mobile, пока поддерживается только сервис anti-captcha.com
    • Улучшен парсинг Google на паблик прокси
    • Уменьшена частота появления каптч, убран лимит страниц и добавлена поддержка антигейта в [​IMG] Shop::Yandex::Market
    • Добавлен выбор базы данных в [​IMG] Rank::SEMrush::Keyword
    • В [​IMG] SE::Yandex::Direct::Frequency улучшена обработка ошибок
    • Обновлен список языков в [​IMG] SE::Bing::Translator
    Исправления в связи с изменениями в выдачи
    • В связи с прекращением поддержки со стороны Google, удален SE::Google::Fast
    • [​IMG] SE::Dogpile, [​IMG] Rank::MajesticSEO, [​IMG] SE::DuckDuckGo, [​IMG] Shop::Amazon
    Исправления
    • Исправлен сбор картинок в [​IMG] HTML::EmailExtractor
    • Исправлена работа [​IMG] Shop::Yandex::Market в некоторых случаях
    • Исправлена работа с каптчей в [​IMG] SE::Yandex::Direct::Frequency в редких случаях
    • Исправлен парсинг данных о доменах .biz в [​IMG] Net::Whois
    • Исправлена работа с экзотическими кодировками в [​IMG] Net::HTTP
    • Исправлена работа с прокси в [​IMG] SE::Yandex
    • Исправлена работа с кодировками в JS-парсерах
     
  3. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    18-й сборник рецептов. В нем мы будем смотреть как выглядят сайты сразу в нескольких браузерах, протестируем облегченную выдачу Яндекса и проверим сайты в Яндексы. Кроме этого в сборнике предоставлены парсер для проверки существования e-mail'ов и пресет для получения позиций сразу по нескольким регионам. Итак, поехали!

    Автоматизация тестирования сайтов в разных браузерах
    Наверное каждый разработчик сайтов сталкивается с вопросом тестирования своих наработок в различных браузерах. Можно конечно держать для этого несколько виртуальных машин, что далеко не совсем рационально. Можно собирать отзывы от пользователей, что негативно влияет на общее впечатление от сайта тех же пользователей. А можно воспользоваться специализированными сервисами. Например BrowserStack. А с помощью А-Парсера этот процесс можно еще и автоматизировать, если к примеру нужно сразу протестировать множество сайтов. Как это сделать - читайте по ссылке выше.
    [​IMG]

    Парсинг lite выдачи Яндекса
    Недавно на Хабре была опубликована статья о lite выдаче поиска Яндекса. Нам стало интересно, насколько такая выдача может быть полезной в сравнении с обычной с точки зрения парсинга. Мы с помощью функционала JS парсеров сделали новый парсер и сравнили его со стандартным. Как это было, что из этого вышло и какие получились выводы, а также готовый парсер lite выдачи Яндекса - по ссылке выше.
    [​IMG]

    Проверка сайта в Яндекс
    Поисковую выдачу Яндекса можно использовать для решения самых разных задач. Одна из них - проверка сайтов на различные типы угроз. Яндекс отмечает такие сайты в выдаче специальными метками. С помощью A-Parser можно быстро проверить большие списки сайтов на наличие таких меток. Как это сделать - описано по ссылке выше.
    [​IMG]

    Кроме этого:
    Еще больше различных рецептов в нашем обновленном Каталоге!
    Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

    Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

     
    Dart и Pau нравится это.
  4. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    Мы рады представить релиз A-Parser 1.2.0 - результат почти двухмесячной разработки на бета-канале!
    Полностью обновленный интерфейс, переработан ряд парсеров, реализовано множество различных улучшений.

    [​IMG]

    Новые парсеры
    • [​IMG] SE::Google::Modern - теперь старая, новая и мобильная выдачи в одном парсере, а также поддержка работы с каптчами и рекаптчами
    • [​IMG] Util::ReCaptcha2 - распознавание Google ReCaptcha2 через популярные сервисы (anti-captcha, rucaptcha, capmonster, а в скором будущем и xevil)

    Улучшения

    • Полностью обновлен интерфейс
    • Добавлен статусбар, в котором выводится
      • статус парсера
      • количество работающих и всего заданий
      • количество живых и загруженных прокси
      • количество задействованных потоков
    • Полностью изменен выбор файлов запросов. Теперь легко можно выбирать несколько файлов, а также папки целиком
    • Реализована возможность получать JSON для API прямо в Редакторе заданий
    • Добавлен поиск во всех списках
    • Добавлена возможность сворачивания меню для увеличения рабочей области
    • В Тестовом парсинге добавлена новая область быстрых настроек: отключение автоскрола и включение debug режима
    • Добавлено предупреждение о риске затереть конфиг при обновлении через интерфейс
    • Добавлена возможность включения форматирования больших чисел
    • JS парсеры: добавлена опция use_proxy для this.request, которая позволяет переопределить использование прокси для отдельного запроса внутри JS парсера поверх глобального параметра Use proxy
    • JS парсеры: this.util переименован в this.utils и добавлены новые функции
    • JS парсеры: добавлена группировка в списке парсеров
    • Изменена иконка приложения, а также иконки некоторых парсеров

    Исправления

    • Исправлена ситуация, когда оставались форматы запросов с предыдущего открытого задания
    • Исправлен перевод запросов с кавычками в [​IMG] SE::Yandex::Translate
    • Исправлен баг с сохранением переменных уникализации в некоторых случаях
    • Исправлена ошибка в [​IMG] SE::Google при работе со старой каптчей
    • Исправлена ошибка при открытии лога (возникла в одной из предыдущих версий)
    • Исправлена ошибка при удалении заданий (возникла в одной из предыдущих версий)

    Исправления в связи с изменениями в выдачи


    Впереди у нас еще очень много планов, поэтому оставайтесь с нами и следите за новостями!
     
    Pau, Dark и Dart нравится это.
  5. Dark

    Dark Рулевой Администрация

    Регистрация:
    04.10.05
    Сообщения:
    9.342
    Симпатии:
    391
    Forbidden, спасибо, затестим ) API не поменялось ?
     
  6. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    API старое на месте, смотрим в сторону amqp для v2 апи
     
    Dark нравится это.
  7. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    [​IMG]

    Улучшения
    • Для Windows начат выпуск 64-битных сборок
    • Переработан интерфейс выбора сохраненных заданий, теперь пресеты можно сортировать по папкам любой вложенности
      [​IMG]
    • Реализована "ленивая" загрузка сохраненных пресетов
    • В 64-битных windows/linux версиях обновлен JavaScript движок V8 до версии 6.3
    • [​IMG] SE::Bing::Translator полностью переписан, исправлена проблема, когда не переводился текст с html тегами и двойными кавычками, а также теперь переводятся большие тексты
    • Добавлено автодополнение Provider url для CapMonster в [​IMG] Util::ReCaptcha2
    • Добавлена возможность парсинга Cloudflare protected e-mails в [​IMG] HTML::EmailExtractor
    • Добавлена сортировка JS парсеров внутри папок
    • Уведомление о новой версии перенесено в статусбар
    • Улучшена плавность при просмотре логов в Тестовом парсинге
    Исправления в связи с изменениями в выдачи
    Исправления
    • Исправлен баг, при котором список пресетов антигейта не обновлялся после создания нового
    • Исправлены падения парсера при использовании удаленного пресета антигейта
    • Исправлена работа через API при вызове сохраненного задания
    • Исправлена ошибка с $followlinks в [​IMG] HTML::EmailExtractor
    • Исправлено определение кодировки на некоторых сайтах
    • Исправлен подсчет неудачных запросов в некоторых случаях
    • Исправлена ошибка с Custom template в фильтрах
    • Исправлена работа кнопки Обновить в логах
    • Исправлена ошибка Can't call method "Parser::HTML::Util::urlFromHTML", возникшая в одной из предыдущих версий
    • Исправлены зависания при использовании уникализации в некоторых случаях
    • Исправлена проверка обновлений после смены канала
     
    Silverstorm, Dark и Dart нравится это.
  8. Silverstorm

    Silverstorm V.I.P

    Регистрация:
    05.10.05
    Сообщения:
    2.886
    Симпатии:
    205
    Просьба к следующим релизам - поправить юзабилити доступа к хелпу :) (тот что появляется то при наведении на поле, то при клике на лейбл, то пропадает при скролле)
     
  9. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    лучше видео покажи сразу :)
     
  10. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    В 20-м сборнике рецептов наш пользователь glukmaster поделится опытом решения реальной задачи на практике с помощью A-Parser. А также мы будем анализировать тексты и автоматизировать регистрацию аккаунтов Яндекса. Поехали!

    Автоматическое обновление цен 5000 товаров в интернет-магазине на Bitrix
    Цикл видео из 7 частей, в которых очень детально и наглядно показано, как решать такую задачу, как обновление цен в интернет магазине. Для парсинга используется A-Parser. Посмотреть видео можно по ссылке выше.
    [​IMG]

    Анализ текста
    Одним из самых популярных кейсов по применению А-Парсера является парсинг текстов. При этом возникает задача их анализа. Полноценно решить эту задачу позволяют специальные ресурсы. Ранее мы уже публиковали пресет по парсингу одного из таких сервисов. Теперь же это решение полностью переписано в виде JS-парсера, добавлена возможность анализировать не только тексты, а и полностью страницы, т.е. подавать на вход ссылки. Все детали и сам парсер - по ссылке выше.
    [​IMG]

    Автоматизация регистрации аккаунтов Яндекса
    Как известно, для парсинга WordStat нужны аккаунты Яндекса. А-Парсер умеет их регистрировать, но их срок жизни невелик, т.к. спустя 1-2 суток включается проверка номера телефона. Поэтому возникает необходимость периодической регистрации новых аккаунтов. И это можно легко автоматизировать. По ссылке выше показано как это сделать.
    [​IMG]

    Кроме этого:
    Еще больше различных рецептов в нашем обновленном Каталоге!
    Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

    Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

    Сборники рецептов:
    Сборники статей:
     
    Dark и Pau нравится это.
  11. Dart

    Dart V.I.P

    Регистрация:
    01.10.16
    Сообщения:
    609
    Симпатии:
    208
    Я так и не понял можно ли как-то в задании реализовать IF Не спарсилось в одной ПС THEN Спарсить во второй ПС ELSE Спарсить в третьей ПС. Ну типа если это будет какой-то прям нативный инструмент внутри аля визуальное программирование - вообще будет топчик. Я бы даже доплатил.
     
  12. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    в JS парсерах легко - любая логика, что то подобное в визуальном виде возможно будет в A-Parser 2
    но если знаешь JavaScript на примитивном уровне - смело пиши парсер со своей логикой, ну или закажи в платной поддержке :)
     
  13. Dart

    Dart V.I.P

    Регистрация:
    01.10.16
    Сообщения:
    609
    Симпатии:
    208
    Я так понимаю к готовым парсерам через JS не обратиться?)
     
  14. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    обратиться конечно, в каталоге куча примеров есть, например:
    JS::SE::Yandex::Position::ByRegion
    JS::TextFromSE
     
    Silverstorm и Dart нравится это.
  15. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    [​IMG]

    Улучшения
    • Уменьшение потребления памяти и улучшение стабильности работы x64 версий
    • Добавлена поддержка 2captcha и Xevil в [​IMG] Util::ReCaptcha2
    • Добавлен Parse all results и Parse related to level для [​IMG] SE::Bing
    • В [​IMG] SE::Bing добавлена возможность задавать Safe Search, а также добавлен повтор запроса при получении кешированной "короткой" выдачи
    • В [​IMG] SE::Yandex::Translate, добавлен обход ограничения на кол-во символов в запросе, что позволяет переводить очень большие запросы (>10k символов)
    • В [​IMG] SE::Google::Modern добавлена возможность задать автоматическое определение языка интерфейса в зависимости от IP
    • Движок V8 обновлен до версии 6.4
    Исправления в связи с изменениями в выдаче
    Исправления
    • Исправлена работа [​IMG] SE::Bing:
      • устранена ситуация, когда выдавалась одинаковая выдача для всех страниц
      • исправлена работа параметра Links per page
      • исправлен парсинг количества результатов в некоторых ситуациях
      • исправлена ошибка, при которой не было результатов, если в выдаче одна ссылка
    • Исправлена работа с каптчей в [parser]SE::Yandex::Wordstat[/parser]
    • Исправлена ошибка, когда при запросе с опечаткой [​IMG] SE::Google::Modern не забирал результаты с первой страницы
    • Исправлена ошибка в [parser]Rank::MajesticSeo[/parser], при которой неправильно определялся бан IP
    • В [​IMG] SE::Google::Trends исправлена работа при изменении формата результата по-умолчанию
    • В [​IMG] SE::Google::Modern для Search from country изменен параметр: вместо cr теперь используется gl - это на данный момент позволяет более точно задавать регион
    • Исправлена проблема с чрезмерным потреблением памяти в JavaScript парсерах
    • Исправлена ошибка влияющая на стабильность работы на Linux и Windows
    • Исправлена ошибка в [​IMG] SE::Yandex, при которой не было результатов, если в выдаче одна ссылка
    Команда A-Parser поздравляет всех с Новым годом и Рождеством! Спасибо что вы с нами!
     
    JonnyB нравится это.
  16. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    Как известно, в A-Parser есть возможность создавать свои собственные парсеры, которые могут иметь практически любую логику и в то же время позволяют пользоваться всеми преимуществами А-Парсера. Для написания таких парсеров используется язык JavaScript. В нашей документации подробно описаны все функции и методы, которые можно использовать при написании парсеров. А в сегодняшнем сборнике мы на практических примерах покажем наиболее часто применяемые функции. Поехали!

    [​IMG]

    1. Получение результатов от стандартного парсера.
    В этой статье описано использование функции yield this.parser.request, которая позволяет работать с уже существующими парсерами, получать от них данные и дополнительно обрабатывать их.

    2. Парсинг сайта с проходом по страницах.
    Здесь показан общий подход к созданию парсера, который будет "ходить" по страницам на сайте и забирать с них некоторую информацию.

    3. Парсинг title и description для топ10 сайтов по запросу.
    В данном примере показано как написать собственный парсер, который объединит в себе две разных задачи: парсинг топ10 сайтов и парсинг данных из каждого полученного сайта. При этом также будет показана возможность реализации выбора между несколькими поисковиками, что делает такой парсер еще более универсальным.

    4. Реализация подстановки запросов и их многопоточной обработки.
    Этот пример продемонстрирует, как "на лету" добавлять запросы с помощью tools.query.add, а также, как обрабатывать их в многопоточном режиме.

    5. Работа с CAPTCHA.
    В этой статье на простом примере будет показан общий подход к работе с сайтами, на которых появляется каптча. Будет пошагово разобран алгоритм и продемонстрирован результат работы.

    6. Работа с ReCaptcha2.
    А в этом примере по аналогии с обычной каптчей демонстрируется алгоритм работы с рекаптчей, а также вкратце поясняется принцип ее действия.

    Для каждой статьи в конце будет продемонстрирован результат работы и дана ссылка на готовый парсер.

    Если вы хотите, чтобы мы более подробно раскрыли какой-то функционал парсера, у вас есть идеи для новых статей или вы желаете поделиться собственным опытом использования A-Parser (за небольшие плюшки :) ) - отписывайтесь здесь.

    Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

    Предыдущие сборники статей
     
    Silverstorm и Dart нравится это.
  17. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    [​IMG]
    Улучшения

    • Добавлена поддержка сессий в JavaScript парсерах
    • В [​IMG] SE::Google::Modern добавлена поддержка сессий и улучшена производительность за счет уменьшения частоты появления каптч/рекаптч
    • Добавлена переменная $query.prev - показывает запрос, который использовался на предыдущем уровне
    • Для JS парсеров добавлен метод this.logger.putHTML, который позволяет вывести в лог HTML код
    • В Lite версию добавлен [​IMG] SE::Google::Modern и [​IMG] Util::ReCaptcha2
    • В x86 версиях добавлено предложение перейти на x64
    • Добавлена возможность переименовывания пресетов
    • В окне выбора пресета для папок реализована "память на сворачивание"
    • Изменены иконки для JS парсеров
    • Исправлены ошибки с переводом в интерфейсе
    • Исправлено отображение HTML тегов в логах
    • Исправлен баг при импорте с вложенным парсером
    • Исправлен баг с прокруткой при сохранении JS парсеров и пресетов
    • Доработан Конструктор регулярных выражений
    • Другие мелкие правки в интерфейсе, направленные на улучшение общей работы
    Исправления в связи с изменениями в выдаче
    • В [​IMG] SE::Google::Modern исправлен парсинг сниппетов и рекламы, а также мобильной выдачи
    • В [​IMG] SE::Google::Suggest исправлен парсинг подсказок, а также добавлена опция Remove HTML tags, позволяющая получать подсказки с или без html тегов
    • Исправлен парсинг анкоров и сниппетов в [​IMG] SE::DuckDuckGo
    • [​IMG] SE::Ask, [​IMG] SE::Dogpile, [​IMG] Rank::Mustat
    Исправления
    • Исправлен баг с перемещением заданий в очереди
    • В [​IMG] SE::Google::Modern исправлен баг с кодировкой
    • Исправлена работа параметров Request delay и Extra query string во всех JS парсерах
    • Исправлен выбор файлов запросов
    • Исправлено отображение иконок для JS парсеров
     
    Dart нравится это.
  18. Dart

    Dart V.I.P

    Регистрация:
    01.10.16
    Сообщения:
    609
    Симпатии:
    208
    Блэт, как неудобно оказывается у A-parser - если какая-то ошибка возникает при парсинге - потом хрен запустишь, чтобы удалить очередь например, т.к. сразу же перезагружается. +_+

    Апдейт:
    А все, пояснили как этот делать.
     
    Последнее редактирование: 24.1.2018
    Forbidden нравится это.
  19. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174


    Это видео начинает цикл уроков по созданию JavaScript парсеров. Здесь рассказано о том, как начать писать собственные парсеры, используя функционал JS парсеров в А-Парсере.

    В уроке рассмотрено:
    • Создание кастомного JS парсера
    • Использование встроенного парсера внутри JS парсера
    • Парсинг выдачи поисковой системы с фильтрацией результатов по заданному условию

    Полезные ссылки:

    Статья и готовый парсер: Создание JS парсеров. Получение результатов от стандартного парсера

    Оставляйте комментарии и подписывайтесь на наш канал на YouTube!
     
    Dark нравится это.
  20. Dart

    Dart V.I.P

    Регистрация:
    01.10.16
    Сообщения:
    609
    Симпатии:
    208
    "Переменная типа flat, т.е. единичная" - не единичная, а численная :) Или там что-то другое имел в виду?
     
  21. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    не, не численная, все результаты парсинга можно представить как переменную или массив, например на этой странице title - переменная(flat, "единичный", плоский) - т.е. какой то конкретно один результат который соответствует одному запросу, а также есть массивы(array) - все что можно перечислять списками, например ссылки, набор тегов h1-h6, список комментариев и т.п.
     
    Dart нравится это.
  22. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    Второе видео в цикле уроков по созданию JavaScript парсеров. Здесь рассказано о том, как написать несложный парсер сайта, который будет "листать" страницы, используя функционал JS парсеров в А-Парсере.



    В уроке рассмотрено:
    • Создание кастомного JavaScript парсера без использования встроенных парсеров
    • Парсинг контента сайта постранично с использованием регулярных выражений
    • Реализация прохода по страницам ("пагинации") в JS парсере

    Статья и готовый парсер: Создание JS парсеров. Парсинг сайта с проходом по страницах

    Оставляйте комментарии и подписывайтесь на наш канал на YouTube!
     
    Silverstorm нравится это.
  23. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    [​IMG]

    В A-Parser 1.2.138 добавлена эмуляция node версии 8.9.x с поддержкой загрузки модулей и частичной реализацией fs и net модулей. Это дает возможность обращаться из JavaScript парсеров напрямую к файловой системе, а также использовать подключение по TCP из модулей к другим сервисам(например mysql, redis, chrome...).

    Все это позволило загружать и использовать node модули из каталога npm, в котором собраны множество полезных библиотек для обработки данных, коннекторы к базам данных и множество других интересных вещей. На данный момент протестированы следующие модули: md5, async-redis, jsdom, puppeter.

    Улучшения
    • Добавлена поддержка Node.js модулей в JavaScript парсерах
    • [​IMG] SE::Google::Position, [​IMG] SE::Google::Compromised и [​IMG] SE::Google::TrustCheck полностью переписаны, добавлена поддержка ReCaptcha2
    • Улучшена работы [​IMG] SE::Google::Modern в целом
    • В [​IMG] SE::Youtube добавлен выбор языка, а также реализована возможность включать/отключать Безопасный режим
    • Добавлен [​IMG] Shop::AliExpress
    • Улучшена проверка создаваемых переменных в пресетах
    • Улучшена работа сессий
    • Исправлено отображение имени файла запроса на карточке задания
    • Улучшена работа скрола в Тестовом парсинге
    • Добавлено удаление переносов из сниппетов в [​IMG] SE::Google::Modern
    • Картинка каптчи в парсере [​IMG] SE::Yandex::Register теперь скачивается через прокси
    • Множество мелких улучшений в интерфейсе
    Исправления в связи с изменениями в выдаче
    Исправления
    • Исправлена работа Конструктора регулярных выражений
    • Исправлена работа с кодировками в парсерах переводчиков и JS парсерах
    • Исправлена работа SE::Google::Position
    • Исправлен выбор региона в SE::Yandex::Direct
    • Исправлена работа опции Location в SE::Google::Modern
    • Исправлена работа сессий в SE::Google::Modern при переопределенном домене
    • Исправлена ошибка при совместном использовании опций Перезаписи файла, Начального и Конечного текстов
    • Исправлено отображение вкладок в Тесте задания
    • Исправлено отображение списка пресетов в поле Запустить по завершению
    • Исправлена работа this.proxy.set в JS парсерах
    • Исправлена передача дополнительных параметров в JS парсерах
    • Исправлена ошибка, из-за которой через API нельзя было указать Начальный и Конечный тексты
    • Исправлен экспорт пресетов
     
  24. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    [​IMG]
    Как известно, сейчас Google при парсинге очень часто выдает рекаптчу, что значительно усложняет и замедляет сбор данных.
    В A-Parser есть возможность обходить данную проблему, разгадывая рекаптчу с помощью сторонних сервисов. Поддерживаются различные онлайн сервисы, а также программные решения.

    Одним из таких решений есть XEvil. Его использование дает хороший прирост в скорости, а также значительно удешевляет парсинг, ведь здесь нету оплаты за количество разгаданных каптч/рекаптч, как в онлайн сервисах. Кроме этого, XEvil умеет разгадывать практически любые обычные каптчи (в виде картинки) и данная возможность также поддерживается в A-Parser.



    На данный момент использовать разгадывание рекаптчи с помощью XEvil можно в таких парсерах:

    В видео показано:
    • подключение Xevil к A-Parser для работы с ReCaptcha2
    • проверка работы и демонстрация работы в SE::Google::Modern

    Ознакомиться более детально с возможностями XEvil можно по ссылкам:

    Оставляйте комментарии и подписывайтесь на наш канал на YouTube!
     
  25. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    21-й сборник рецептов. В нем мы научимся отправлять сообщения в Telegram прямо из A-Parser, изучим работу с модулями Node.js в JS парсерах на примере решения задачи фильтрации по множеству признаков, а также спарсим весь IMDb. Поехали!

    Уведомления в Telegram из A-Parser
    Telegram является одним из самых популярных мессенджеров благодаря своей простоте, и в то же время большому функционалу. Среди прочего, в Телеграме можно создавать ботов, с помощью которых можно делать чаты более интерактивными. Взаимодействие с ботом на на стороне сервера происходит через Telegram Bot API. Используя эти возможности, можно легко и буквально за несколько минут настроить уведомления себе в Telegram прямо из парсера. О том, как это сделать, а также несколько реальных примеров - по ссылке выше.
    [​IMG]
    [​IMG]

    Фильтрация по множеству признаков
    Как известно, для фильтрации в А-Парсере используется встроенный функционал фильтров. Но бывают ситуации, когда список признаков, наличие которых нужно проверять, очень большой и его сложно вписать в строку стандартного фильтра.
    Начиная с версии 1.2.127 в A-Parser добавлена поддержка модулей Node.js. Благодаря этому появилась возможность читать список признаков из файла и использовать его для проверки страниц. О том, как это сделать, а также готовый парсер с мультифильтром - по ссылке выше.
    [​IMG]

    Парсинг рекомендаций фильмов из IMDb
    Пример решения задачи по сбору данных о фильмах и их рекомендаций на IMDb. Данная статья показывает, как можно решать задачи, которые на первый взгляд требуют много времени и ресурсов, буквально за несколько часов. Узнать о том, как спарсить весь IMDb за 1,5 часа, а также посмотреть пресет и забрать готовую базу можно по ссылке выше.
    [​IMG]


    Еще больше различных рецептов в нашем Каталоге!

    Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

    Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

    Сборники рецептов:
    Сборники статей:
     
  26. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    Третье видео в цикле уроков по созданию JavaScript парсеров. Здесь рассказано о том, как написать JS парсер, в котором будет поддержка антигейта для разгадывания каптч на страницах.



    В уроке рассмотрено:
    • Создание JS-парсера для разгадывания капчи
    • Работа с объектом this.captcha внутри JavaScript кода
    • Описание процесса разгадывания каптчи, реализованного в A-Parser

    Статья и готовый парсер: Создание JS парсеров. Работа с CAPTCHA.

    Оставляйте комментарии и подписывайтесь на наш канал на YouTube!
     
    Silverstorm нравится это.
  27. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    22-й сборник рецептов. В нем мы разберемся, как проверять индексацию всех страниц сайта одновременно в нескольких поисковиках, научимся парсить данные по ссылкам из выдачи одним заданием и будем искать сабдомены на сайтах. Поехали!

    Получение страниц сайта и проверка индексации в Google и Яндекс
    Данный пресет позволяет спарсить ссылки на все страницы сайта и одновременно проверить их на предмет индексации поисковиками (в примере Google и Яндекс, можно по аналогии добавить другие ПС). Готовый пресет и описание по ссылке выше.
    [​IMG]

    Парсим title и description для TOP10 поисковой выдачи по ключевому слову
    Пример использования tools.query.add в JavaScript парсерах. Данный парсер получает ссылки из выдачи, после чего собирает из каждой страницы title и description. И все это одним заданием с максимальной производительностью, благодаря многопоточному парсингу. Парсер с описанием доступны по ссылке выше.
    [​IMG]

    Поиск сабдоменов сайта
    Небольшой пример, который демонстрирует, как собрать поддомены одного или нескольких сайтов. Используется [​IMG] HTML::LinkExtractor и Parse to level для прохода вглубь по страницам сайта. При этом Конструктором результатов извлекаются из внутренних ссылок домены и выводятся с уникализацией по строке. Готовый пресет - по ссылке выше.
    [​IMG]

    Кроме этого:

    Еще больше различных рецептов в нашем Каталоге!
    Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

    Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

    Сборники рецептов:
     
    JonnyB и Silverstorm нравится это.
  28. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    [​IMG]
    Улучшения

    • [​IMG] SE::Google::Modern - многократно увеличена скорость парсинга
    • Множество улучшений в [​IMG] Net::DNS:
      • Возможность указать несколько DNS и задать метод выбора
      • Бан нерабочих/плохих DNS по специальному эвристическому алгоритму
      • Возможность вывести в результат использованный DNS сервер при удачном запросе
    • В [​IMG] SE::Google::Modern добавлена опция Use sessions
    • В [​IMG] SE::Yandex::WordStat добавлена настройка пресета антигейта для логина
    • Также в [​IMG] SE::Yandex::WordStat удалены настройки Use logins/Use sessions, теперь они включены всегда
    • Добавлена возможность автоматического удаления задания из Завершенных
    • В макросе подстановок {num} добавлена поддержка обратного отсчета
    • В JavaScript парсерах добавлена возможность сохранения произвольных данных в сессии
    • В JavaScript парсерах добавлена возможность прямого сохранения в файл
    • В API методе oneRequest/bulkRequest добавлена возможность указать configPreset
    • В связи с неактуальностью удалены парсеры SE::Google::Mobile и SE::Yandex::Catalog
    Исправления в связи с изменениями в выдаче
    Исправления
    • Количество неудачных больше не обнуляется при постановке на паузу
    • Исправлена проблема с подключением Node.js модулей на Linux
    • Исправлено падение парсера в редких ситуациях при использовании JS парсеров
    • Решена проблема с подключением Node.js модулей lodash, sequelize
    • Исправлена ошибка итератора при равных границах в макросе {num}
     
  29. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    Очередное видео в цикле уроков по созданию JavaScript парсеров. Здесь показано, как реализовать разгадывание рекаптч в JS парсере.



    В уроке рассмотрено:
    • Описание и настройка парсера [​IMG] Util::ReCaptcha2
    • Описание принципа работы ReCaptcha2
    • Создание кастомного JavaScript парсера с поддержкой разгадывания рекаптч

    Ссылки:

    Оставляйте комментарии и подписывайтесь на наш канал на YouTube!
     
  30. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    23-й сборник рецептов. В нем мы будем парсить категории сайтов из Google, научимся формировать файлы YML, а также разберемся, как парсить даты и преобразовывать их в единый формат. Поехали!

    Получение категорий сайтов из Google
    Категоризация сайтов - довольно актуальная задача, но существует немного сервисов, которые могут ее решить. Поэтому, по ссылке выше можно взять небольшой парсер, который позволяет получать категории сайтов из Google.
    [​IMG]

    Выгрузка товаров в формате YML
    YML - это стандарт, разработанный Яндексом для работы с Маркетом. По своей сути, это файлы, схожие с XML, в которых содержится информация о товарах в интернет-магазине. Данный формат обеспечивает регулярное автоматическое обновление каталога на Яндекс.Маркет и позволяет отражать все актуальные изменения (наличие, цена, появление новых товаров). Пример парсинга интернет-магазина и сохранения собранных данных в YML можно посмотреть по ссылке выше.
    [​IMG]

    Парсим Google новости с датой и преобразуем ее
    В поисковой выдаче Google возле новостей публикуется дата. Как правило, это могут быть метки "10 ч. назад" или "26 мая 2018 г.". Иногда может возникнуть задача спарсить все даты и привести их к единому виду. Как именно это сделать, можно узнать по ссылке выше.
    [​IMG]

    Кроме этого:
    Еще больше различных рецептов в нашем Каталоге!
    Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

    Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

    Сборники рецептов:
     
  31. Dart

    Dart V.I.P

    Регистрация:
    01.10.16
    Сообщения:
    609
    Симпатии:
    208
    А вы проверяете каждую неделю парсеры ПС? Или только при обращении юзеров реагируете?
     
  32. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    у нас ежедневные автоматизированные тесты
     
    Dart нравится это.
  33. Silverstorm

    Silverstorm V.I.P

    Регистрация:
    05.10.05
    Сообщения:
    2.886
    Симпатии:
    205
    Forbidden, я все смотрю на примеры парсинга магазинов и хз насколько это может быть практично для магазинов со скажем 100К товаров. Хотя бы теже дубликаты пропустить, уже кажется проблемой (?)
     
  34. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    тебе кажется :) уникализация запросов и результатов была еще в первых версиях парсера лет 5 назад
     
    Silverstorm нравится это.