A-Parser - многофункциональный парсер SE, PR, TrustRank, DMOZ, WHOIS etc.

Forbidden · 11.6.2018 в 13:21 #281

Улучшения

Зависимая задача в Цепочке заданий теперь запускается только когда файл результатов не пустой

Добавлен повтор без смены прокси при неудачной отправке рекаптчи в SE::Google::Modern

Добавлен бан прокси при получении 403 кода ответа в SE::Google::Modern

Процент неудачных запросов теперь отображается относительно числа выполненных запросов

Добавлена возможность вызвать URL после выполнения задания

Улучшен обзор каталогов при выборе файлов запросов

Добавлена поддержка setInterval в JavaScript парсерах

Уменьшено Wait between get status и улучшено логгирование в Util::ReCaptcha2

Улучшена обработка редиректов

Добавлена защита от бесконечного выполнения в JavaScript парсерах

Значительно увеличены возможности check_content в JS парсерах

В ответе API метода info добавлены параметры workingTasks, activeThreads, activeProxyCheckerThreads

Исправления в связи с изменениями в выдаче

Исправлен парсинг рекламы в мобильной версии SE::Google::Modern

Исправлен парсинг количества результатов в SE::Baidu

Rank::MajesticSEO, SE::Google::Modern, SE::Google::Trends

Исправления

Исправлено ведение лога при нескольких паузах задания

Исправлена ошибка, из-за которой запрос считался неудачным при пустой выдаче в SE::Google::Modern

Исправлена работа с url, содержащими фрагмент # в Net::HTTP

Исправлен парсинг ссылок в HTML::LinkExtractor

Исправлена работа опции Pages count в SE::Yandex

Исправлен выбор файлов запросов на Windows 10

Исправлена ошибка, из-за которой иногда нельзя было удалить файл с запросами

Исправлено отображение проксичекера в конфиге потоков

Исправлена кодировка некоторых результатов в SE::Google::Suggest

Исправлена ситуация, когда не читались настройки из config.txt

Forbidden · 21.6.2018 в 11:46 #282

24-й сборник рецептов. В нем мы научимся мониторить окончание срока регистрации доменов с уведомлением в Телеграм, сделаем альтернативный чекер сайтов в базе РКН, а также на простом примере парсера курсов валют изучим работу с базами данных. Поехали!

Получаем уведомления в Telegram об окончании срока регистрации доменов
Мониторинг сроков регистрации доменов - это довольно распространенная задача. A-Parser позволяет легко автоматизировать этот процесс. Более того, можно настроить получение прямо в Телеграм уведомлений о доменах, срок регистрации которых скоро закончится. Готовое решение для автоматической проверки с уведомлением - по ссылке выше.

Проверка блокировки РосКомНадзора через GitHub
В А-Парсере есть стандартный парсер Check::RosKomNadzor, который позволяет проверять наличие сайтов в базе РКН. Данные получаются напрямую из официального сервиса, для работы обязательно нужно подключать антигейт. Кроме того, официальный сервис РКН часто подвергается атакам, в связи с чем может быть недоступен. Но существуют альтернативные источники данных, доступность которых значительно выше и к тому же не требующие проверки в виде каптчи. Парсинг одного из таких источников и реализован в пресете по ссылке выше.

Простой парсер обменника с записью в БД SQLite
Как известно, в A-Parser есть возможность чтения/записи данных в БД SQLite. В этом рецепте показано использование этого функционала на примере парсинга курсов валют. Готовый парсер доступен по ссылке выше.

Еще больше различных рецептов в нашем Каталоге!
Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Сборник рецептов #1: Определяем CMS, оцениваем частотность ключевых слов и парсим Вконтакте

Сборник рецептов #2: собираем форумы для XRumer, парсим email со страниц контактов

Сборник рецептов #3: мобильные сайты, несколько парсеров, позиции ключевых слов

Сборник рецептов #4: поиск в выдаче, парсинг интернет-магазина и скачиваем файлы

Сборник рецептов #5: ссылки из JS, паблик прокси и карта сайта

Сборник рецептов #6: парсим базу номеров телефонов и сохраняем результаты красиво

Сборник рецептов #7: парсим RSS, качаем картинки и фильтруем результат по заголовкам

Сборник рецептов #8: парсим 2GIS, Google translate и подсказки Youtube

Сборник рецептов #9: проверяем сезонность ключевых слов и их полезность

Сборник рецептов #10: пишем кастомный парсер поисковика и парсим дерево категорий

Сборник рецептов #11: парсим Авито, работаем с JavaScript, анализируем тексты и участвуем в акции!

Сборник рецептов #12: парсим Instagram, собираем статистику и делаем свои парсеры подсказок

Сборник рецептов #13: сохраняем результат в файл дампа SQL и знакомимся с $tools.query

Сборник рецептов #14: используем XPath, анализируем сайты и создаем комбинированные пресеты

Сборник рецептов #15: анализируем скорость и юзабилити сайтов, парсим Яндекс.Картинки и Baidu

Сборник рецептов #16: парсинг OpenSiteExplorer с авторизацией, Яндекс.Каталога и Яндекс.Новостей

Сборник рецептов #17: картинки из Flickr, язык ключевых слов, список лайков в ВК

Сборник рецептов #18: скриншоты сайтов, lite выдача Яндекса и проверка сайтов

Сборник рецептов #19: публикация сообщений в Wordpress, парсинг Chrome Webstore и AliExpress

Сборник рецептов #20: автообновление цен в ИМ, анализ текстов и регистрация аккаунтов

Сборник рецептов #21: уведомления в Telegram из A-Parser, мультифильтр и парсинг IMDb

Сборник рецептов #22: проверка индексации в нескольких ПС, многоуровневый парсинг и поиск сабдоменов

Сборник рецептов #23: категории сайтов, парсинг в YML и преобразование дат

Forbidden · 2.7.2018 в 15:48 #283

Улучшения

В Rank::CMS обновлена база определяемых движков, теперь поддерживается одновременно старый и новый формат apps.json (при обновлении рекомендуется также обновить apps.json)

SE::Baidu полностью переписан:

добавлен парсинг related keywords

убран $cachedate из $serp, т.к. его похоже больше нет в выдаче

добавлена опция Get full link, преобразующая обрезанные ссылки в полные

исправлены некоторые регулярные выражения и баг с двойным http в ссылках

Изменения в Rank::MajesticSEO:

Добавлен параметр Check type, позволяет выбрать тип проверки: Root Domain/Subdomin/URL

Убран параметр Extract domain

Исправлена работа в некоторых случаях

Улучшена отзывчивость в редакторе JavaScript парсеров

Улучшена работа HTML::EmailExtractor, устранены зависания, которые возникали на определенных страницах

Обновлен список регионов в парсерах Яндекс

Пустой результат в SE::Google::Trends больше не считается неудачным запросом

Улучшена работа с сессиями в SE::Yandex::WordStat

Исправления в связи с изменениями в выдаче

Исправлен парсинг рекламы в SE::Yandex

Исправлена работа, а также улучшен алгоритм парсинга в SE:uckDuckGo

Исправлено указание региона в парсерах Яндекс

Исправлен парсинг $ads.$i.visiblelink в SE::Google::Modern

Исправлен парсинг $totalcount в SE::Yandex:irect

Исправления

Исправлена ошибка, из-за которой процент обработанных запросов мог быть больше 100

Исправлены ошибки, из-за которых парсинг мог зависать при снятии с паузы, а также сбивался перебор в макросах подстановок

Исправлено отображение кириллицы в $headers в Net::HTTP

Исправлена ошибка в Конструкторе результатов, из-за которой в редких случаях парсер мог падать

Устранена проблема с кодировкой при работе с SQLite

Исправлена ошибка со сменой прокси в JavaScript парсерах

Forbidden · 12.7.2018 в 23:01 #284

В 4-м сборнике статей будет рассмотрено добавление товаров в OpenCart, а также описано создание универсального парсера JSON. В каждой статье приложены готовые JS парсеры, используя которые, можно на реальных примерах изучить описанные методы и поэксперементировать с ними. Поехали!

Работаем с OpenCart. Часть 1. Вступление.
Данная статья начинает цикл об одной из наиболее часто запрашиваемых возможностей - заливке товаров в интернет-магазин. A-Parser - это универсальный инструмент, который кроме прочего может решать и такие задачи. Для тестов выбран движок OpenCart, в 1-й статье будет рассмотрена авторизация, получение списка товаров и добавление товара. Подробности, а также пример парсера - по ссылке выше.

Парсинг JSON ответов и работа с их содержимым
JSON - это довольно популярный способ предоставления данных, который, например, часто используется при работе с API различных сервисов. В А-Парсере есть встроенные инструменты для работы с ним, но не всегда их применение может быть простым, иногда требуется дополнительно писать сложные шаблоны, используя шаблонизатор. Поэтому в статье по ссылке выше будет рассказано, как написать простой универсальный парсер JSON.

Если вы хотите, чтобы мы более подробно раскрыли какой-то функционал парсера, у вас есть идеи для новых статей или вы желаете поделиться собственным опытом использования A-Parser (за небольшие плюшки ) - отписывайтесь здесь.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Предыдущие сборники статей

Сборник статей #1: A-Parser для маркетологов, SEO-специалистов и реальный опыт работы

Сборник статей #2: цикл статей-уроков по созданию JS парсеров

Сборник статей #3: пагинация, переменные и БД SQLite

Forbidden · 23.7.2018 в 16:58 #285

Продолжение цикла уроков по созданию JavaScript парсеров. В этом видео показано, как работать с базой данных SQLite в JS парсере.

В этом уроке рассмотрены:
- Знакомство с языком запросов SQL
- Создание простейшей базы данных SQLite при работе с JS-парсером
- Получение и запись данных в базу SQLite при работе с JS-парсером

Ссылки:
- Интерактивный учебник по SQL | SQL-tutorial.ru - учебник по SQL
- Иллюстрированный самоучитель по SQL для начинающих [страница - 1] | Самоучители по программированию | Иллюстрированные самоучители - тоже учебник по SQL
- Конвертер валют онлайн. Конвертер валют Украины онлайн по курсу НБУ - сайт, который использовался в качестве примера
- Разработка JS парсера с сохранением результата в SQLite - статья и готовый парсер

Оставляйте комментарии и подписывайтесь на наш канал на YouTube!

Forbidden · 2.8.2018 в 11:25 #286

Улучшения

Добавлен новый парсер Rank::Curlie

В HTML::LinkExtractor улучшена обработка портов по умолчанию, теперь ссылки с портом приводятся к каноническому виду

Оптимизирована работа SE::Yandex::WordStat

Улучшена работа с сессиями в SE::Yandex

Улучшена обработка некорректных ответов в SE::Google::Suggest

Исправления в связи с изменениями в выдаче

Исправлены SE::Bing, SE::DuckDuckGo и Rank::MajesticSEO

Исправления

Исправлена проблема с запуском на некоторых linux дистрибутивах

Исправлена загрузка node.js модулей в редких случаях на Windows

JS парсеры: добавлена поддержка dns.lookup и улучшена совместимость с модулем mysql2

JS парсеры: исправлен util.promisify

Исправлена работа некоторых Node.js модулей

В SE::Google::Modern и SE::Bing $totalcount при 0 результатов теперь возвращает 0

Исправлено логгирование в режиме foreground

Forbidden · 13.8.2018 в 15:07 #287

25-й сборник рецептов. В нем будет показан способ периодического парсинга с дозаписью результатов в таблицу, рассмотрен парсинг с помощью Node.js модуля Cheerio без использования регулярных выражений, а также показан парсер первой мобильной поисковой системы в Китае - Shenma. Поехали!

Периодическая проверка обратных ссылок с дозаписью результатов в таблицу
Пример решения одной из наиболее запрашиваемых задач - дозапись периодически получаемых результатов в одну и ту же таблицу. В качестве хранилища данных используется SQLite, при каждом запуске данные добавляются и выводятся в таблицу. Готовый пресет с комментариями - по ссылке выше.

Парсер поисковой системы Haosou
Как известно, в основе почти любого парсера используются регулярные выражения, реже - XPath. Работа с этими методами требует определенных знаний, что в свою очередь может вызывать некоторые сложности. Поэтому существуют и другие методы. Использование одного из них на примере парсинга популярного в Китае поисковика Haosou, показано по ссылке выше.

Парсер китайского поисковика Shenma
Еще один китайский поисковик в этом сборнике - Shenma. Это первая мобильная поисковая система в Китае, ориентирована в первую очередь на мобильные сайты. Пресет - по ссылке выше.

Еще больше различных рецептов в нашем Каталоге!
Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Сборник рецептов #1: Определяем CMS, оцениваем частотность ключевых слов и парсим Вконтакте

Сборник рецептов #2: собираем форумы для XRumer, парсим email со страниц контактов

Сборник рецептов #3: мобильные сайты, несколько парсеров, позиции ключевых слов

Сборник рецептов #4: поиск в выдаче, парсинг интернет-магазина и скачиваем файлы

Сборник рецептов #5: ссылки из JS, паблик прокси и карта сайта

Сборник рецептов #6: парсим базу номеров телефонов и сохраняем результаты красиво

Сборник рецептов #7: парсим RSS, качаем картинки и фильтруем результат по заголовкам

Сборник рецептов #8: парсим 2GIS, Google translate и подсказки Youtube

Сборник рецептов #9: проверяем сезонность ключевых слов и их полезность

Сборник рецептов #10: пишем кастомный парсер поисковика и парсим дерево категорий

Сборник рецептов #11: парсим Авито, работаем с JavaScript, анализируем тексты и участвуем в акции!

Сборник рецептов #12: парсим Instagram, собираем статистику и делаем свои парсеры подсказок

Сборник рецептов #13: сохраняем результат в файл дампа SQL и знакомимся с $tools.query

Сборник рецептов #14: используем XPath, анализируем сайты и создаем комбинированные пресеты

Сборник рецептов #15: анализируем скорость и юзабилити сайтов, парсим Яндекс.Картинки и Baidu

Сборник рецептов #16: парсинг OpenSiteExplorer с авторизацией, Яндекс.Каталога и Яндекс.Новостей

Сборник рецептов #17: картинки из Flickr, язык ключевых слов, список лайков в ВК

Сборник рецептов #18: скриншоты сайтов, lite выдача Яндекса и проверка сайтов

Сборник рецептов #19: публикация сообщений в Wordpress, парсинг Chrome Webstore и AliExpress

Сборник рецептов #20: автообновление цен в ИМ, анализ текстов и регистрация аккаунтов

Сборник рецептов #21: уведомления в Telegram из A-Parser, мультифильтр и парсинг IMDb

Сборник рецептов #22: проверка индексации в нескольких ПС, многоуровневый парсинг и поиск сабдоменов

Сборник рецептов #23: категории сайтов, парсинг в YML и преобразование дат

Сборник рецептов #24: уведомление в Telegram об экспайре доменов, чекер РКН и работа с SQLite

Forbidden · 4.9.2018 в 11:39 #288

Улучшения

Добавлен парсер SE::Yandex::SQI - парсер Индекса качества сайта (Яндекс ИКС)

Оптимизирована работа Очереди заданий

Добавлена поддержка множества экзотических кодировок китайского языка

Добавлена опция Save as UTF-8 with BOM, которая решает проблему определения кодировки при открытии сформированного CSV в Excel

SE::YouTube полностью переписан с использованием современного юзерагента

SE::AOL::Suggest оптимизирован и переписан на JavaScript

Улучшена работа SE::Google, SE::Google::Modern, Rank::MajesticSEO, SE::Bing и Shop::Amazon

Исправления в связи с изменениями в выдаче

Исправлен парсинг мобильной выдачи в SE::Google::Modern

Исправлено определение опечаток в SE::Google и SE::Google::Modern

Исправлена ситуация, при которой в SE::Google::Modern в сниппеты могли попадать ненужные ссылки

Исправлен парсинг рекламы в SE::Yandex

Исправлен парсинг количества результатов в SE::YouTube

Удален SE::Yandex::TIC, т.к. больше не актуален

Исправлен Shop::Yandex::Market, SE::DuckDuckGo, SE::AOL::Suggest

Исправления

Исправлена работа Net::Whois для некоторых доменных зон

Исправлена ошибка, при которой не импортировался пресет, если не установлены модули, используемые в нем

Исправлена кодировка при использовании fs.readdirSync в JS парсерах

Webaz · 4.9.2018 в 13:38 #289

Forbidden · 14.9.2018

Webaz, да, доку на день позже релиза подтягиваем

--- Добавлено 14.9.2018---

В 5-м сборнике статей на реальном примере будет показано, как создать свой канал в Телеграме и полностью автоматизировать его наполнение контентом. Также мы продолжаем цикл статей по работе с OpenCart и во 2-й части будет рассмотрен вопрос массового добавления товаров. Как обычно, в каждой статье приложены готовые JS парсеры, используя которые, можно на реальных примерах изучить описанные методы и поэксперементировать с ними. Поехали!

Полноценный Telegram канал на базе A-Parser
В этой статье будет описан способ создания полноценного канала в Telegram c автоматизированным сбором контента и постингом сообщений через заданные интервалы. И конечно, все это на базе A-Parser. Все подробности, а также готовые пресеты - по ссылке выше.

Работаем с OpenCart. Часть 2. Массовое добавление товаров
Мы продолжаем цикл статей о заливке товаров в интернет-магазин на базе OpenCart. Во второй части будет рассмотрено массовое добавление товара. Подробности, а также пример готового парсера - по ссылке выше.

Если вы хотите, чтобы мы более подробно раскрыли какой-то функционал парсера, у вас есть идеи для новых статей или вы желаете поделиться собственным опытом использования A-Parser (за небольшие плюшки ) - отписывайтесь здесь.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Предыдущие сборники статей

Сборник статей #1: A-Parser для маркетологов, SEO-специалистов и реальный опыт работы

Сборник статей #2: цикл статей-уроков по созданию JS парсеров

Сборник статей #3: пагинация, переменные и БД SQLite

Сборник статей #4: добавление товаров в OpenCart и парсинг JSON

Webaz · 15.9.2018 в 08:50 #291

Forbidden, раньше видел, что есть парсер инстаграмма, а тут Парсеры | A-Parser - парсер для профессионалов SEO не вижу
подскажи есть или нет и если под рукой есть рецепты применения, был бы признателен

Forbidden · 15.9.2018 в 10:47 #292

Webaz сказал(а): ↑

подскажи есть или нет и если под рукой есть рецепты применения, был бы признателен
Нажмите, чтобы раскрыть...

с этим лучше в саппорт, они гораздо больше в курсе

Forbidden · 24.9.2018 в 13:07 #293

Данный парсер является примером для разработки парсера работающего с OpenCart. Решение демонстрирует возможность сбора данных о товарах из стороннего сайта и заливку их на собственный сайт на базе OpenCart через API.

В этом уроке рассмотрены:

парсинг товаров из интернет-магазина

авторизация в OpenCart

работа с API OpenCart для публикации товаров

Статья и готовый пресет опубликованы в нашем Каталоге: Работаем с OpenCart. Часть 2. Массовое добавление товаров

Оставляйте комментарии и подписывайтесь на наш канал на YouTube!

Forbidden · 5.10.2018 в 16:37 #294

Улучшения

Добавлен новый парсер SE::Youtube::Suggest

Добавлена совместимость с модулем mysql2 в JavaScript парсерах

В Util::ReCaptcha2 добавлена поддержка сервиса R.I.P.captcha

В SE::Bing::Suggest добавлена возможность выбора страны

Уменьшено потребление оперативной памяти, а также оптимизирована начальная загрузка, интерфейс теперь открывается быстрее

База регионов в SE::Yandex обновлена и значительно увеличена

Для всех стандартных парсеров, кроме тех, которые работают на основе Net::HTTP, из настроек убраны Max body size и Use gzip

Улучшен Shop::Amazon

Исправления в связи с изменениями в выдаче

Исправлен парсинг рекламы в SE::Google::Modern

Исправлен парсинг в SE::Yandex для регионов, отличных от российских

Полностью обновлен Rank::SEMrush

Исправлена проблема с загрузкой каптчи в SE::Yandex, SE::Yandex::WordStat

Исправлен парсинг количества результатов в SE::Yahoo

SE::Dogpile, SE::DuckDuckGo

Исправления

Исправлена работа с прокси при получении каптчи в SE::Yandex::Register

В очень редких случаях в SE::Yandex могла возникать ошибка Content mismatch

Исправлен Net::Whois при работе с .eu доменами

Forbidden · 17.10.2018 в 10:42 #295

Это видео демонстрирует возможность создания полноценного Telegram канала на базе A-Parser. Парсер периодически и без вмешательства пользователя будет собирать контент и публиковать его на канале.

В уроке рассмотрены:

Регистрация и настройка канала в Телеграм.

Последовательное выполнение нескольких заданий.

Сохранение промежуточных данных в базу SQLite с последующим чтением.

Настройка пресета для постинга сообщений в Telegram-канал.

Статья с подробным описанием процесса создания: Полноценный Telegram канал на базе A-Parser
Ссылки на готовые пресеты:
Подсказки Google Play
Парсинг приложений со скидками в Google Play
Отправка сообщений в Telegram канал

Оставляйте комментарии и подписывайтесь на наш канал на YouTube!

Forbidden · 26.10.2018 в 15:16 #296

26-й сборник рецептов. В нем будут показаны: проверка наличия мобильной версии сайта через Bing, парсинг полного списка регионов Яндекса и способ поиска упоминаний домена в индексе поисковой системы. Также показан пример работы с Node.js модулем mysql2, который позволяет работать с MySQL базами данных. Поехали!

Проверка наличия мобильной версии через Bing
На сегодняшний день наличие мобильной версии является одним из важнейших критериев качества сайта. По данным различных организаций доля мобильного трафика уже давно превышает десктопный. Именно поэтому мобильная версия сайта позволяет увеличить посещаемость сайта, ведь большинство крупных поисковиков отдают предпочтение в выдаче сайтам, имеющим полноценную мобильную версию. Проверить наличие и соответствие стандартам можно с помощью небольшого пресета по ссылке выше.

Получение полного списка регионов Яндекса
Яндекс не публикует в открытом виде полного списка всех регионов, используемых в поиске. И как оказалось, найти полную и актуальную базу в интернете практически невозможно. Поэтому мы исправляем это и по ссылке выше публикуем JavaScript парсер, который позволяет собрать свежую и максимально полную базу регионов Яндекса.

Проверка упоминаний домена в индексе Гугла
Иногда возникает задача по поиску упоминаний домена в индексе поисковой системы. Именно с такой задачей к нам обратился один из пользователей A-Parser. Поэтому по ссылке выше мы публикуем пресет, решающий данную задачу.

Кроме этого:

Пример работы с модулем mysql2

Еще больше различных рецептов в нашем Каталоге!
Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Сборник рецептов #1: Определяем CMS, оцениваем частотность ключевых слов и парсим Вконтакте

Сборник рецептов #2: собираем форумы для XRumer, парсим email со страниц контактов

Сборник рецептов #3: мобильные сайты, несколько парсеров, позиции ключевых слов

Сборник рецептов #4: поиск в выдаче, парсинг интернет-магазина и скачиваем файлы

Сборник рецептов #5: ссылки из JS, паблик прокси и карта сайта

Сборник рецептов #6: парсим базу номеров телефонов и сохраняем результаты красиво

Сборник рецептов #7: парсим RSS, качаем картинки и фильтруем результат по заголовкам

Сборник рецептов #8: парсим 2GIS, Google translate и подсказки Youtube

Сборник рецептов #9: проверяем сезонность ключевых слов и их полезность

Сборник рецептов #10: пишем кастомный парсер поисковика и парсим дерево категорий

Сборник рецептов #11: парсим Авито, работаем с JavaScript, анализируем тексты и участвуем в акции!

Сборник рецептов #12: парсим Instagram, собираем статистику и делаем свои парсеры подсказок

Сборник рецептов #13: сохраняем результат в файл дампа SQL и знакомимся с $tools.query

Сборник рецептов #14: используем XPath, анализируем сайты и создаем комбинированные пресеты

Сборник рецептов #15: анализируем скорость и юзабилити сайтов, парсим Яндекс.Картинки и Baidu

Сборник рецептов #16: парсинг OpenSiteExplorer с авторизацией, Яндекс.Каталога и Яндекс.Новостей

Сборник рецептов #17: картинки из Flickr, язык ключевых слов, список лайков в ВК

Сборник рецептов #18: скриншоты сайтов, lite выдача Яндекса и проверка сайтов

Сборник рецептов #19: публикация сообщений в Wordpress, парсинг Chrome Webstore и AliExpress

Сборник рецептов #20: автообновление цен в ИМ, анализ текстов и регистрация аккаунтов

Сборник рецептов #21: уведомления в Telegram из A-Parser, мультифильтр и парсинг IMDb

Сборник рецептов #22: проверка индексации в нескольких ПС, многоуровневый парсинг и поиск сабдоменов

Сборник рецептов #23: категории сайтов, парсинг в YML и преобразование дат

Сборник рецептов #24: уведомление в Telegram об экспайре доменов, чекер РКН и работа с SQLite

Сборник рецептов #25: дозапись результатов в таблицу, парсинг без регулярок и китайские поисковики

Guinness · 27.10.2018 в 21:44 #297

Хороший парсер, плюсую

Forbidden · 5.11.2018 в 18:22 #298

Улучшения

Добавлено 2 новых парсера:

SE::DuckDuckGo::Images - парсер картинок из DuckDuckGo

SE::Dogpile::Images - парсер картинок из Dogpile

Полностью переписаны 2 парсера:

SE::Google::Images - добавлены региональные настройки, поддержка рекаптчи, возможность задавать различные фильтры поиска и сбор анкоров, ссылок на страницу, ссылок на превью, а также типов изображений

SE::Yandex::Images - добавлен сбор ссылок на превью

Улучшена работа SE::AOL, а также увеличено максимальное количество страниц в настройках

Улучшена работа SE::Ask, а также добавлена возможность парсить связанные ключевые слова

JS парсеры: оптимизирован вызов конструктора и init()

JS парсеры: добавлена поддержка async init()

Исправления в связи с изменениями в выдаче

Исправлен парсинг анкоров в SE::Google::Modern

Исправлено указание региона в SE::Yandex

В [parser]Shop::AliExpress[/parser] исправлен проход по страницам

SE::Bing::Images, SE::Dogpile, SE::DuckDuckGo, SE::Google::ByImage

Исправления

Исправлена утечка памяти при большом количестве попыток

Исправлена ошибка, при которой в Тестовом парсинге при работе с некоторыми ссылками не завершался запрос

Исправлен парсинг различных параметров в Net::Whois

Исправлено отображение русского языка (проблема появилась в предыдущей версии)

Исправлено зависание при работе SE::Yandex::Images с антигейтом

JS парсеры: исправлена работа check_content

JS парсеры: исправлена работа с сессиями (проблема появилась в одной из предыдущих версий)

Dart · 9.11.2018 в 22:13 #299

А можно как-то в а-парсере эвристически находить на странице только контент, исключая текстовую информацию из меню и прочей фигни?

Forbidden · 10.11.2018 в 05:55 #300

Dart сказал(а): ↑

А можно как-то в а-парсере эвристически находить на странице только контент, исключая текстовую информацию из меню и прочей фигни?
Нажмите, чтобы раскрыть...

стандартно нет - можно фильтровать по размеру блока текста, но если есть идеи - можно дописать на JS анализ легко

Forbidden · 16.11.2018 в 17:07 #301

Это вторая часть из цикла видео уроков о парсинге товаров из стороннего сайта и заливке их на собственный сайт на базе OpenCart через API.

В этом уроке показано:

краткое содержание предыдущей части

запуск созданного пресета

демонстрация результатов работы

Первая часть: Видео урок: Массовое добавление товаров в OpenCart, часть 1
Статья и готовый пресет опубликованы в нашем Каталоге: Работаем с OpenCart. Часть 2. Массовое добавление товаров

Оставляйте комментарии и подписывайтесь на наш канал на YouTube!

Forbidden · 3.12.2018 в 11:52 #302

27-й сборник рецептов. В нем собраны рецепты для парсинга списка соискателей на hh.ru, сбора списка юзерагентов и парсинга Авито с записью результатов в MySQL базу данных. Также показан пример отправки файлов в POST запросе. Поехали!

Сбор списка соискателей на HeadHunter
HeadHunter - это один из самых популярных ресурсов для поиска работы. Соответственно, сбор списка соискателей может быть интересен рекрутерам для более эффективного анализа потенциальных кандидатов. Готовое решение для парсинга доступно по ссылке выше.

Получение списка user-agent
Сейчас существует много различных браузеров, которые работают на разных платформах. Многие сайты ограничивают работу со старыми браузерами, а некоторые не отдают контент даже при запросе с юзерагентом относительно нового браузера. В A-Parser можно задавать user-agent для запросов, также существует специальный инструмент, который позволяет при каждом запросе выбирать рандомный из заранее подготовленного списка. Пресет для парсинга таких списков, с возможностью фильтрации по различным параметрам, доступен по ссылке выше.

Парсер Avito с записью в MySQL
Предыдущий пресет для парсинга Авито пользуется большой популярностью. Также наши пользователи часто спрашивают о возможности записи собранных результатов напрямую в базу данных. Поэтому мы подготовили JS парсер, который решает эту задачу. Как обычно, он доступен по ссылке выше.

Кроме этого:

Отправка файлов в POST запросе - пример решения задачи по отправке файлов в POST запросах.

Еще больше различных рецептов в нашем Каталоге!
Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Сборник рецептов #1: Определяем CMS, оцениваем частотность ключевых слов и парсим Вконтакте

Сборник рецептов #2: собираем форумы для XRumer, парсим email со страниц контактов

Сборник рецептов #3: мобильные сайты, несколько парсеров, позиции ключевых слов

Сборник рецептов #4: поиск в выдаче, парсинг интернет-магазина и скачиваем файлы

Сборник рецептов #5: ссылки из JS, паблик прокси и карта сайта

Сборник рецептов #6: парсим базу номеров телефонов и сохраняем результаты красиво

Сборник рецептов #7: парсим RSS, качаем картинки и фильтруем результат по заголовкам

Сборник рецептов #8: парсим 2GIS, Google translate и подсказки Youtube

Сборник рецептов #9: проверяем сезонность ключевых слов и их полезность

Сборник рецептов #10: пишем кастомный парсер поисковика и парсим дерево категорий

Сборник рецептов #11: парсим Авито, работаем с JavaScript, анализируем тексты и участвуем в акции!

Сборник рецептов #12: парсим Instagram, собираем статистику и делаем свои парсеры подсказок

Сборник рецептов #13: сохраняем результат в файл дампа SQL и знакомимся с $tools.query

Сборник рецептов #14: используем XPath, анализируем сайты и создаем комбинированные пресеты

Сборник рецептов #15: анализируем скорость и юзабилити сайтов, парсим Яндекс.Картинки и Baidu

Сборник рецептов #16: парсинг OpenSiteExplorer с авторизацией, Яндекс.Каталога и Яндекс.Новостей

Сборник рецептов #17: картинки из Flickr, язык ключевых слов, список лайков в ВК

Сборник рецептов #18: скриншоты сайтов, lite выдача Яндекса и проверка сайтов

Сборник рецептов #19: публикация сообщений в Wordpress, парсинг Chrome Webstore и AliExpress

Сборник рецептов #20: автообновление цен в ИМ, анализ текстов и регистрация аккаунтов

Сборник рецептов #21: уведомления в Telegram из A-Parser, мультифильтр и парсинг IMDb

Сборник рецептов #22: проверка индексации в нескольких ПС, многоуровневый парсинг и поиск сабдоменов

Сборник рецептов #23: категории сайтов, парсинг в YML и преобразование дат

Сборник рецептов #24: уведомление в Telegram об экспайре доменов, чекер РКН и работа с SQLite

Сборник рецептов #25: дозапись результатов в таблицу, парсинг без регулярок и китайские поисковики

Сборник рецептов #26: мобильные версии сайтов, список регионов Яндекса и упоминания домена в индексе

Forbidden · 25.12.2018 в 13:53 #303

В уходящем году одним из приоритетных направлений стало развитие JavaScript парсеров и функционала по работе с Node.js. Одним из финальных этапов стал данный релиз, в котором была реализована долгожданная поддержка https/tls в Node.js модулях. Также усилия были сосредоточены на повышении стабильности и производительности. В результате этого было сделано множество наработок, которые уже в первой половине 2019 года планируется выпустить в виде нового A-Parser 2.0, где будет много новых и крутых возможностей

Команда A-Parser поздравляет всех с Новым годом и Рождеством! Мы желаем вам успехов в делах, прибыльных проектов и ярких идей. Пускай Новый 2019 год будет годом новых возможностей, все задуманное сбывается, а работа приносит удовольствие!
Спасибо что Вы с нами!!!

В новогоднем релизе, кроме снеговика, было сделано следующее:
Улучшения

Добавлена поддержка https/tls в Node.js модулях, что позволяет использовать все модули, которые работают с API по https, а также по TLSSocket (smtp и т.п.)

Полностью переписан и обновлен SE::Yandex, добавлена возможность парсить мобильную выдачу, а также значительно увеличена производительность

Добавлен парсер позиций в Bing: SE::Bing::Position

Добавлен парсер Util::YandexRecognize, позволяющий разгадывать каптчи без использования сторонних сервисов

Улучшен сбор почт в HTML::EmailExtractor

Улучшена работа опции Dynamic threads limit

В SE::Yandex использование прокси для загрузки картинки каптчи теперь определяется параметром Use proxy парсера Яндекса

В связи с неактуальностью удалены SE::Bing::AddURL, Rank::OpenSiteExplorer и Rank::OpenSiteExplorer::Extended

Исправления в связи с изменениями в выдаче

В SE::Google::Modern исправлено определение опечатки в запросе

В GooglePlay::Apps исправлен проход по страницам

SE::Dogpile, SE::Dogpile::Images, SE::DuckDuckGo

Исправления

Исправлен Safe search в SE::DuckDuckGo::Images

Исправлены падения при работе с SE::DuckDuckGo::Images

Исправлена ошибка при работе с модулем mysql2 версии более 1.5.3

Исправлен парсинг количества результатов в SE::Yandex

Dart · 27.12.2018 в 15:53 #304

Круто, что продукт только развиваешь, застоя нет. И аналогов на рынке тоже нет. Респект!

Forbidden · 4.1.2019 в 11:56 #305

Это 6-й сборник статей, и в нем мы разберемся, как подключать к парсеру Node.js модули, научимся сохранять собранные данные в формате YML, а также изучим работу с API на реальном примере с созданием простого приложения. Поехали!

Работаем с API, часть 1
В этой статье на реальном примере будет показана работа с A-Parser через API. В результате будет создано простое приложение, которое будет получать позицию сайта по ключу в Гугл или Яндекс. Все подробности - по ссылке выше.

Выгрузка товаров для Я.Маркета в формате YML
YML (Yandex Market Language) - это стандарт представления данных, который используется для загрузки/выгрузки информации о товарах в Яндекс.Маркете. Используя А-Парсер, можно спарсить товары с различных сайтов и сохранить их в данном формате для дальнейшего импорта в Маркет. О том, как это сделать, можно почитать в статье по ссылке выше.

Подключение пакетов Node.js в A-Parser
Как известно, в A-Parser можно использовать Node.js модули для более эффективного парсинга. Поэтому, по ссылке выше мы опубликовали небольшой мануал по их установке и использованию.

Если вы хотите, чтобы мы более подробно раскрыли какой-то функционал парсера, у вас есть идеи для новых статей или вы желаете поделиться собственным опытом использования A-Parser (за небольшие плюшки ) - отписывайтесь здесь.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Предыдущие сборники статей

Сборник статей #1: A-Parser для маркетологов, SEO-специалистов и реальный опыт работы

Сборник статей #2: цикл статей-уроков по созданию JS парсеров

Сборник статей #3: пагинация, переменные и БД SQLite

Сборник статей #4: добавление товаров в OpenCart и парсинг JSON

Сборник статей #5: собственный канал в Telegram и массовое добавление товаров в OpenCart

Forbidden · 17.1.2019 в 00:06 #306

28-й сборник рецептов. В нем будет показан способ автоматизации парсинга данных из Wordstat, пример парсинга информации о приложениях со скидками в Google Play, а также готовое решение для сбора подсказок из Яндекс вместе с их типами. Поехали!

Парсинг приложений со скидками в Google Play
Периодически в Google Play разработчики предлагают скидки на приложения, иногда на короткий срок платные становятся полностью бесплатными. С помощью A-Parser можно искать подобные предложения. Кроме этого, в этом парсере собирается множество дополнительных данных и используется сохранение в sqlite базу данных, поэтому его можно рассматривать как еще один пример работы с базами данных в А-Парсере. Готовое решение доступно в каталоге по ссылке выше.

Парсер поисковых подсказок Яндекс
В A-Parser есть стандартный парсер Яндекс подсказок, который по заданным ключевым словам собирает подсказки. Но Яндекс классифицирует подсказки по различным типам, которые в свою очередь позволяют использовать их более рационально, применяя соответствующие фильтры. Стандартный парсер подсказок не возвращает типы, поэтому по ссылке выше опубликован JS парсер для сбора подсказок вместе с их типами.

Автоматизация парсинга Wordstat
В этом парсере реализован автоматический сбор данных из WordStat. При этом, парсер проверяет наличие необходимых для данной задачи аккаунтов, и если требуется - то автоматически регистрирует их. Такое решение может быть полезно для организации периодического парсинга WordStat в автоматическом режиме. Готовое решение - по ссылке выше.

Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Сборник рецептов #1: Определяем CMS, оцениваем частотность ключевых слов и парсим Вконтакте

Сборник рецептов #2: собираем форумы для XRumer, парсим email со страниц контактов

Сборник рецептов #3: мобильные сайты, несколько парсеров, позиции ключевых слов

Сборник рецептов #4: поиск в выдаче, парсинг интернет-магазина и скачиваем файлы

Сборник рецептов #5: ссылки из JS, паблик прокси и карта сайта

Сборник рецептов #6: парсим базу номеров телефонов и сохраняем результаты красиво

Сборник рецептов #7: парсим RSS, качаем картинки и фильтруем результат по заголовкам

Сборник рецептов #8: парсим 2GIS, Google translate и подсказки Youtube

Сборник рецептов #9: проверяем сезонность ключевых слов и их полезность

Сборник рецептов #10: пишем кастомный парсер поисковика и парсим дерево категорий

Сборник рецептов #11: парсим Авито, работаем с JavaScript, анализируем тексты и участвуем в акции!

Сборник рецептов #12: парсим Instagram, собираем статистику и делаем свои парсеры подсказок

Сборник рецептов #13: сохраняем результат в файл дампа SQL и знакомимся с $tools.query

Сборник рецептов #14: используем XPath, анализируем сайты и создаем комбинированные пресеты

Сборник рецептов #15: анализируем скорость и юзабилити сайтов, парсим Яндекс.Картинки и Baidu

Сборник рецептов #16: парсинг OpenSiteExplorer с авторизацией, Яндекс.Каталога и Яндекс.Новостей

Сборник рецептов #17: картинки из Flickr, язык ключевых слов, список лайков в ВК

Сборник рецептов #18: скриншоты сайтов, lite выдача Яндекса и проверка сайтов

Сборник рецептов #19: публикация сообщений в Wordpress, парсинг Chrome Webstore и AliExpress

Сборник рецептов #20: автообновление цен в ИМ, анализ текстов и регистрация аккаунтов

Сборник рецептов #21: уведомления в Telegram из A-Parser, мультифильтр и парсинг IMDb

Сборник рецептов #22: проверка индексации в нескольких ПС, многоуровневый парсинг и поиск сабдоменов

Сборник рецептов #23: категории сайтов, парсинг в YML и преобразование дат

Сборник рецептов #24: уведомление в Telegram об экспайре доменов, чекер РКН и работа с SQLite

Сборник рецептов #25: дозапись результатов в таблицу, парсинг без регулярок и китайские поисковики

Сборник рецептов #26: мобильные версии сайтов, список регионов Яндекса и упоминания домена в индексе

Сборник рецептов #27: парсинг HH, сбор списка user-agent и парсинг Авито с записью в MySQL

Forbidden · 24.1.2019 в 16:29 #307

Улучшения

Улучшение Просмотра логов:

Фильтр по неудачным/выполняющимся задачам

Сортировка по времени выполнения

Поддержка пагинации и поиска по логам

Отображение парсера и запроса

Добавлен новый инструмент tools.memory - key/value хранилище в памяти

Добавлен новый парсер SE::Yandex::SafeBrowsing, который позволяет проверить сайт в блэклисте Яндекса

В SE::Google::Trends реализована возможность сравнивать данные по ключевым словам

Улучшения в логике Shop::Amazon

Улучшена стабильность JavaScript парсеров (движка v8)

JS парсеры: добавлен метод .addElement, который позволяет заполнять массивы в results более удобным способом

JS парсеры: добавлена опция resultArraysWithObjects для this.parser.request, которая позволяет возвращать массив объектов в результатах при вызове другого парсера

JS парсеры: добавлено кэширование DNS ответов

Исправления в связи с изменениями в выдаче

Исправлен парсинг мобильной выдачи в SE::Google::Modern

Исправлен SE::DuckDuckGo::Images при работе с некоторыми видами запросов

Исправлен парсинг при 1-м результате в SE::Yandex

SE::IxQuick, SE::DuckDuckGo, SE::Yandex::Translate, SE::Bing::Suggest

Исправления

Исправлена обработка пустых запросов в JavaScript парсерах

Исправлен вывод картинок в лог, проблема появилась в одной из предыдущих версий

Исправлена работа с некоторыми видами прокси

Исправлена работа опции Stop when found в SE::Yandex::Position

В SE::Yandex при получении ошибки от антигейта не менялись прокси

Исправлен парсинг ссылок на потенциально опасные сайты в SE::Yandex

JS парсеры: исправлена работа check_content с регулярными выражениями, в которых содержится кириллица

JS парсеры: исправлено зависание потоков при использование tls

JS парсеры: множественные исправления в работе сокетов

Forbidden · 6.2.2019 в 08:41 #308

29-й сборник рецептов, в котором опубликован JS парсер для определения языка ключевых слов, предложен вариант решения для нормализации запросов, а также показано, как парсить карту сайта и одновременно собирать тайтлы страниц. Поехали!

Определение языка ключевого слова через Яндекс Переводчик
В A-Parser есть несколько встроенных парсеров для определения языка страницы. Но иногда возникают задачи отфильтровать список ключевых слов по одному или нескольким языкам. Определять язык текстовой строки довольно неплохо умеют различные переводчики, поэтому для решения задачи был выбран Яндекс Переводчик, и по ссылке выше доступен JavaScript парсер, реализующий определение языка ключевого слова.

Нормализатор запросов
При сборе семантического ядра часто возникает вопрос - какая форма запроса является наиболее частотной, например: "купить диван" или "диван купить". Если запрос 3-х или 4-хсловный, то вариантов становится еще больше. Решение такой задачи на базе парсера WordStat доступно в нашем Каталоге по ссылке выше.

Карта сайта и заголовки
Сбор карты сайта - это довольно простая задача для А-Парсера, которая решается встроенным парсером ссылок. Но иногда, кроме простого сбора ссылок, нужно еще и собрать тайтлы. И это можно делать параллельно с проходом по ссылкам в глубину. Готовый пресет доступен по ссылке выше.

Еще больше различных рецептов в нашем Каталоге!
Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Сборник рецептов #1: Определяем CMS, оцениваем частотность ключевых слов и парсим Вконтакте

Сборник рецептов #2: собираем форумы для XRumer, парсим email со страниц контактов

Сборник рецептов #3: мобильные сайты, несколько парсеров, позиции ключевых слов

Сборник рецептов #4: поиск в выдаче, парсинг интернет-магазина и скачиваем файлы

Сборник рецептов #5: ссылки из JS, паблик прокси и карта сайта

Сборник рецептов #6: парсим базу номеров телефонов и сохраняем результаты красиво

Сборник рецептов #7: парсим RSS, качаем картинки и фильтруем результат по заголовкам

Сборник рецептов #8: парсим 2GIS, Google translate и подсказки Youtube

Сборник рецептов #9: проверяем сезонность ключевых слов и их полезность

Сборник рецептов #10: пишем кастомный парсер поисковика и парсим дерево категорий

Сборник рецептов #11: парсим Авито, работаем с JavaScript, анализируем тексты и участвуем в акции!

Сборник рецептов #12: парсим Instagram, собираем статистику и делаем свои парсеры подсказок

Сборник рецептов #13: сохраняем результат в файл дампа SQL и знакомимся с $tools.query

Сборник рецептов #14: используем XPath, анализируем сайты и создаем комбинированные пресеты

Сборник рецептов #15: анализируем скорость и юзабилити сайтов, парсим Яндекс.Картинки и Baidu

Сборник рецептов #16: парсинг OpenSiteExplorer с авторизацией, Яндекс.Каталога и Яндекс.Новостей

Сборник рецептов #17: картинки из Flickr, язык ключевых слов, список лайков в ВК

Сборник рецептов #18: скриншоты сайтов, lite выдача Яндекса и проверка сайтов

Сборник рецептов #19: публикация сообщений в Wordpress, парсинг Chrome Webstore и AliExpress

Сборник рецептов #20: автообновление цен в ИМ, анализ текстов и регистрация аккаунтов

Сборник рецептов #21: уведомления в Telegram из A-Parser, мультифильтр и парсинг IMDb

Сборник рецептов #22: проверка индексации в нескольких ПС, многоуровневый парсинг и поиск сабдоменов

Сборник рецептов #23: категории сайтов, парсинг в YML и преобразование дат

Сборник рецептов #24: уведомление в Telegram об экспайре доменов, чекер РКН и работа с SQLite

Сборник рецептов #25: дозапись результатов в таблицу, парсинг без регулярок и китайские поисковики

Сборник рецептов #26: мобильные версии сайтов, список регионов Яндекса и упоминания домена в индексе

Сборник рецептов #27: парсинг HH, сбор списка user-agent и парсинг Авито с записью в MySQL

Сборник рецептов #28: скидки в Google Play, автоматизация парсинга WordStat и типы Яндекс подсказок

Forbidden · 15.2.2019 в 13:55 #309

Продолжение цикла уроков по созданию JavaScript парсеров. В этом уроке показано как использовать Node.js модули при написании собственных парсеров.

В уроке рассмотрено:

Работа с Node.js и Node package manager (npm)

Первый запуск npm, установка модулей (пакетов)

Использование модулей при создании JS парсера

Ресурсы для работы с npm

Ссылки:

npm

Скринкаст по Node.JS

Node.js

Оставляйте комментарии и подписывайтесь на наш канал на YouTube!

Forbidden · 7.3.2019 в 14:17 #310

Улучшения

В SE::Yandex добавлен парсинг значков

В SE::Google::Modern добавлена опция Disable autocorrect, которая позволяет отключить автоисправление Гугла и парсить выдачу именно по указанному запросу

В SE::Yahoo добавлен выбор страны, языка и Safe Search, обновлен список доменов

В Net::DNS добавлена возможность выводить записи любого типа

В Rank::MajesticSEO добавлена проверка контента и поддержка сессий

Значительно улучшен SE::Google::Suggest, добавлены новые возможности

В SE::IxQuick добавлен параметр Family filter, позволяет выбрать уровень фильтрации

В Shop::Amazon добавлена возможность парсить количество продавцов для каждого товара

Теперь в SE::Yandex при получении 404 кода ответа парсер будет повторять попытку, также улучшена проверка контента

Теперь в Rank::SEMrush при получении 403 кода ответа прокси будет баниться

Добавлена поддержка SOCKS4 прокси

Оптимизирована загрузка и сохранение конфига и файлов заданий

Улучшена скорость загрузки JS парсеров

Уменьшено использование памяти в JS парсерах

Улучшение производительности при использовании сокетов в JS парсерах

Исправления в связи с изменениями в выдаче

В SE::Google::Modern исправлен парсинг анкоров

В SE::Yandex::Images парсинг начинался со 2-й страницы

Исправлен парсинг ссылок в SE::Baidu

Исправлен парсинг countries в Rank::SEMrush::Keyword

SE::DuckDuckGo, SE::DuckDuckGo::Images, SE::IxQuick, Shop::Amazon

Исправления

В SE::Google::Modern исправлена проблема, при которой запрос считается неудачным при использовании Parse not found

Исправлена обработка пустой выдачи в SE::Yandex

Исправлена проблема, когда SE::DuckDuckGo не парсил запросы в которых больше 1 слова

JS парсеры: исправлена работа setTimeout на Windows

Исправлен ряд ошибок, которые появились в процессе оптимизации парсера

Forbidden · 18.3.2019 в 12:07 #311

7-й сборник статей. В нем мы научимся сохранять результаты в виде Excel файлов, продолжим изучение работы через API, а также ознакомимся с 5-ю способами автоматизации последовательного выполнения нескольких заданий. Поехали!

Сохранение результатов в формате Excel (.xlsx)
Вывод результатов в виде xlsx файлов (стандартный формат Excel) - это очень популярный вопрос среди пользователей A-Parser. Ранее такой возможности не было, но с добавлением поддержки Node.js модулей это стало возможным. Поэтому мы публикуем статью, в которой показан реальный пример парсинга с сохранением в Excel. Ознакомиться со всеми подробностями можно по ссылке выше.

Работаем с API, часть 2
Это вторая часть из цикла статей по работе с A-Parser через API. В ней на примере парсинга e-mail будет рассмотрен метод addTask. Все детали - по ссылке выше.

Обзор вариантов последовательного выполнения нескольких заданий
Очень часто возникают задачи, решение которых требует использования возможностей сразу нескольких разных парсеров и при этом результаты работы одного нужно передавать в следующий. А-Парсер - это очень гибкий инструмент, поэтому существует сразу несколько способов, как автоматизировать последовательное выполнение нескольких заданий, при этом максимально автоматизируя работу и повышая производительность. Описание всех возможных методов читайте в обзоре по ссылке выше.

Если вы хотите, чтобы мы более подробно раскрыли какой-то функционал парсера, у вас есть идеи для новых статей или вы желаете поделиться собственным опытом использования A-Parser (за небольшие плюшки ) - отписывайтесь здесь.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Предыдущие сборники статей

Сборник статей #1: A-Parser для маркетологов, SEO-специалистов и реальный опыт работы

Сборник статей #2: цикл статей-уроков по созданию JS парсеров

Сборник статей #3: пагинация, переменные и БД SQLite

Сборник статей #4: добавление товаров в OpenCart и парсинг JSON

Сборник статей #5: собственный канал в Telegram и массовое добавление товаров в OpenCart

Сборник статей #6: работа с API, сохранение в YML и мануал по подключению Node.js модулей

Forbidden · 8.4.2019 в 16:07 #312

Начиная с версии 1.2.455 мы начинаем официальную поддержку Node.JS модуля puppeteer - средства автоматизации работы с браузером Chrome(Chromium), благодаря чему возможен полноценный рендеринг DOM с поддержкой JS. В качестве примера мы выкладываем парсер, который делает скриншоты сайтов в формате PNG, доступен выбор размера скриншота. Chromium может быть запущен как на Windows, так и на Linux серверах без GUI.

Пример парсера и более детальное описание

Документация по puppeteer

Улучшения

SE::Bing::Images полностью переписан, добавлен сбор дополнительных данных, а также в настройках добавлен выбор региона и языка интерфейса

В Net::HTTP добавлены все методы в настройки, а также реализована возможность переопределения через заголовок Method

Добавлена возможность форматирования всех цифр в интерфейсе

JS парсеры: в this.parser.request для override добавлена опция needData, которая определяет передавать или нет в ответе data/pages[], может использоваться для оптимизации

JS парсеры: добавлена поддержка модулей url и ws

Исправления в связи с изменениями в выдаче

Net::Whois - не всегда корректно обрабатывалась доменная зона com.br

SE::Yandex, SE::Ask, SE::DuckDuckGo, SE::DuckDuckGo::Images, Rank::MajesticSEO

Исправления

Исправлена работа функции Bypass Cloudflare в Net::HTTP

Исправлена ошибка, из-за которой при определенных настройках не писался Начальный текст

Исправлена работа некоторых socks4 прокси

Исправлена ошибка в $tools.base64.encode() при работе с кириллическими символами

В Shop::Amazon исправлена ошибка, при которой игнорировался домен

JS парсеры: исправлена редкая ошибка в работе сокетов в Node.js

Forbidden · 18.4.2019 в 11:41 #313

31-й сборник рецептов. В нем будет показан способ создания скриншотов веб-страниц, парсинг подсказок Яндекс Маркета, а также проверка правописания в Google. Кроме этого, только до конца апреля доступна возможность купить XEvil со скидкой. Далее обо всем по порядку.

Скидка -50% на покупку XEvil для существующих и новых пользователей A-Parser
Для всех существующих и новых пользователей A-Parser действует скидка на покупку XEvil -50%!
XEvil - это простая, быстрая и удобная программа для полностью автоматического распознавания и обхода подавляющего числа капч и рекапч, без необходимости подключения каких-либо сторонних сервисов. Использование XEvil в связке с A-Parser позволяет значительно удешевить парсинг ресурсов, где необходимо разгадывать капчи/рекапчи, при этом практически не теряя в скорости.
Акция действует до конца апреля. Количество промокодов ограничено, поэтому не упустите возможность воспользоваться скидкой!
Для получения промокода на покупку XEvil пишите в тикеты.

JS::Chrome::ScreenshotsMaker
Возможность загружать страницы с полной обработкой всех скриптов, аналогично браузеру - это один из самых популярных фичреквестов для A-Parser. Поэтому буквально недавно была добавлена поддержка Node.js модуля puppeteer, с помощью которого теперь можно получать полностью отрендеренные страницы. И мы публикуем первый пример по работе с ним - парсер для создания скриншотов веб-страниц. Больше информации, пример работы и готовый парсер - все это доступно по ссылке выше.

Парсер подсказок Яндекс.Макет
Еще один парсер подсказок, на этот раз из Яндекс Маркета. Собираются подсказки, их популярность (частота), тип, а также, опционально, категория (включая полный путь родительских категорий). Готовый парсер, как обычно, доступен в нашем Каталоге по ссылке выше.

Проверка правописания в Google
Данный парсер позволяет проверить ключевые слова через поиск Google на предмет опечаток и получить исправленные варианты. Готовый пресет доступен по ссылке выше.

Еще больше различных рецептов в нашем Каталоге!
Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Сборник рецептов #1: Определяем CMS, оцениваем частотность ключевых слов и парсим Вконтакте

Сборник рецептов #2: собираем форумы для XRumer, парсим email со страниц контактов

Сборник рецептов #3: мобильные сайты, несколько парсеров, позиции ключевых слов

Сборник рецептов #4: поиск в выдаче, парсинг интернет-магазина и скачиваем файлы

Сборник рецептов #5: ссылки из JS, паблик прокси и карта сайта

Сборник рецептов #6: парсим базу номеров телефонов и сохраняем результаты красиво

Сборник рецептов #7: парсим RSS, качаем картинки и фильтруем результат по заголовкам

Сборник рецептов #8: парсим 2GIS, Google translate и подсказки Youtube

Сборник рецептов #9: проверяем сезонность ключевых слов и их полезность

Сборник рецептов #10: пишем кастомный парсер поисковика и парсим дерево категорий

Сборник рецептов #11: парсим Авито, работаем с JavaScript, анализируем тексты и участвуем в акции!

Сборник рецептов #12: парсим Instagram, собираем статистику и делаем свои парсеры подсказок

Сборник рецептов #13: сохраняем результат в файл дампа SQL и знакомимся с $tools.query

Сборник рецептов #14: используем XPath, анализируем сайты и создаем комбинированные пресеты

Сборник рецептов #15: анализируем скорость и юзабилити сайтов, парсим Яндекс.Картинки и Baidu

Сборник рецептов #16: парсинг OpenSiteExplorer с авторизацией, Яндекс.Каталога и Яндекс.Новостей

Сборник рецептов #17: картинки из Flickr, язык ключевых слов, список лайков в ВК

Сборник рецептов #18: скриншоты сайтов, lite выдача Яндекса и проверка сайтов

Сборник рецептов #19: публикация сообщений в Wordpress, парсинг Chrome Webstore и AliExpress

Сборник рецептов #20: автообновление цен в ИМ, анализ текстов и регистрация аккаунтов

Сборник рецептов #21: уведомления в Telegram из A-Parser, мультифильтр и парсинг IMDb

Сборник рецептов #22: проверка индексации в нескольких ПС, многоуровневый парсинг и поиск сабдоменов

Сборник рецептов #23: категории сайтов, парсинг в YML и преобразование дат

Сборник рецептов #24: уведомление в Telegram об экспайре доменов, чекер РКН и работа с SQLite

Сборник рецептов #25: дозапись результатов в таблицу, парсинг без регулярок и китайские поисковики

Сборник рецептов #26: мобильные версии сайтов, список регионов Яндекса и упоминания домена в индексе

Сборник рецептов #27: парсинг HH, сбор списка user-agent и парсинг Авито с записью в MySQL

Сборник рецептов #28: скидки в Google Play, автоматизация парсинга WordStat и типы Яндекс подсказок

Сборник рецептов #29: язык ключевых слов, нормализация запросов и сбор тайтлов в глубину

Сборник рецептов #30: оценка страниц, форматирование дат и парсинг дропов

Forbidden · 29.4.2019 в 17:55 #314

Видеоурок по работе с MySQL в A-Parser. В нем на реальном примере показано как работать с базами данных MySQL, используя Node.js модуль mysql2.

В этом уроке рассмотрены:

Установка и подключение модулей

Некоторые основы языка запросов SQL

Создание базы данных MySQL

Получение и запись данных в БД, используя JS-парсеры

Полезные ссылки:

MySQL :: MySQL Workbench

mysql

Пример работы с модулем mysql2

Оставляйте комментарии и подписывайтесь на наш канал на YouTube!

Forbidden · 20.5.2019 в 14:32 #315

Улучшения

Новые парсеры:

Maps::Google - по ключевым словам собирает различные данные об организациях в заданных координатах

Maps::Yandex - по ключевым словам собирает различные данные об организациях в заданных координатах

Rank::Bukvarix::Domain - сбор ключевых слов по домену

Rank::Bukvarix::Keyword - сбор ключевых слов по ключевому слову

Удалены 4 неактуальных парсера: Rank::SEMrush::Keyword, SE::QIP, SE::QIP::Position, Rank::MegaIndex

Улучшена работа SE::AOL

JS парсеры: для this.request добавлена опция data_as_buffer, которая определяет возвращать data как строку(String) или объект Buffer

Исправления в связи с изменениями в выдаче

В SE::Google::Modern исправлена работа с рекаптчами, исправлен парсинг сниппетов, а также исправлен парсинг мобильной выдачи

Rank::SEMrush полностью переписан, также полностью изменился список собираемых данных, парсер возвращает только те данные, которые доступны без авторизации

Полностью переписан Rank::Alexa

Исправлена работа Rank::MajesticSEO, теперь обязательно требуется установка Node.js и модуля brotli

В Rank::Social::Signal удалена переменная $facebook_share в связи с прекращением поддержки со стороны FB

SE::IxQuick, Shop::AliExpress, SE::IxQuick, SE::DuckDuckGo::Images, Shop::Amazon, Check::RosKomNadzor

Исправления

Исправлена работа с запросами, содержащими пробел в SE::DuckDuckGo

Исправлена проблема с декомпресией данных на некоторых сайтах

JS парсеры: исправлена работа setImmediate

Войти или зарегистрироваться

A-Parser - многофункциональный парсер SE, PR, TrustRank, DMOZ, WHOIS etc.

Forbidden V.I.P

Forbidden V.I.P

Forbidden V.I.P

Forbidden V.I.P

Forbidden V.I.P

Forbidden V.I.P

Forbidden V.I.P

Forbidden V.I.P

Webaz V.I.P

Forbidden V.I.P

Webaz V.I.P

Forbidden V.I.P

Forbidden V.I.P

Forbidden V.I.P

Forbidden V.I.P

Forbidden V.I.P

Guinness V.I.P

Forbidden V.I.P

Dart V.I.P

Forbidden V.I.P

Forbidden V.I.P

Forbidden V.I.P

Forbidden V.I.P

Dart V.I.P

Forbidden V.I.P

Forbidden V.I.P

Forbidden V.I.P

Forbidden V.I.P

Forbidden V.I.P

Forbidden V.I.P

Forbidden V.I.P

Forbidden V.I.P

Forbidden V.I.P

Forbidden V.I.P

Forbidden V.I.P