1. Вы находитесь на форуме клуба BlackSEO.

    Здесь собрались настоящие профессионалы, накопившие большой опыт в сфере создания и продвижения сайтов. Своими знаниями и умениями они выделяются на фоне общей массы оптимизаторов. Участники форума постоянно выносят на обсуждение задачи, которые всегда на несколько шагов впереди публичных дискуссий, что делает BlackSEO лучшим местом для общения на любые темы, начиная с бизнеса и заканчивая отдыхом.
    Скрыть объявление

A-Parser - многофункциональный парсер SE, PR, TrustRank, DMOZ, WHOIS etc.

Тема в разделе "Реклама и анонсы партнерок и сервисов", создана пользователем Forbidden, 19.4.2012.

  1. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    [​IMG]

    Улучшения
    • Зависимая задача в Цепочке заданий теперь запускается только когда файл результатов не пустой
    • Добавлен повтор без смены прокси при неудачной отправке рекаптчи в [​IMG] SE::Google::Modern
    • Добавлен бан прокси при получении 403 кода ответа в [​IMG] SE::Google::Modern
    • Процент неудачных запросов теперь отображается относительно числа выполненных запросов
    • Добавлена возможность вызвать URL после выполнения задания
    • Улучшен обзор каталогов при выборе файлов запросов
    • Добавлена поддержка setInterval в JavaScript парсерах
    • Уменьшено Wait between get status и улучшено логгирование в [​IMG] Util::ReCaptcha2
    • Улучшена обработка редиректов
    • Добавлена защита от бесконечного выполнения в JavaScript парсерах
    • Значительно увеличены возможности check_content в JS парсерах
    • В ответе API метода info добавлены параметры workingTasks, activeThreads, activeProxyCheckerThreads
    Исправления в связи с изменениями в выдаче
    Исправления
    • Исправлено ведение лога при нескольких паузах задания
    • Исправлена ошибка, из-за которой запрос считался неудачным при пустой выдаче в [​IMG] SE::Google::Modern
    • Исправлена работа с url, содержащими фрагмент # в [​IMG] Net::HTTP
    • Исправлен парсинг ссылок в [​IMG] HTML::LinkExtractor
    • Исправлена работа опции Pages count в [​IMG] SE::Yandex
    • Исправлен выбор файлов запросов на Windows 10
    • Исправлена ошибка, из-за которой иногда нельзя было удалить файл с запросами
    • Исправлено отображение проксичекера в конфиге потоков
    • Исправлена кодировка некоторых результатов в [​IMG] SE::Google::Suggest
    • Исправлена ситуация, когда не читались настройки из config.txt
     
  2. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    24-й сборник рецептов. В нем мы научимся мониторить окончание срока регистрации доменов с уведомлением в Телеграм, сделаем альтернативный чекер сайтов в базе РКН, а также на простом примере парсера курсов валют изучим работу с базами данных. Поехали!

    Получаем уведомления в Telegram об окончании срока регистрации доменов
    Мониторинг сроков регистрации доменов - это довольно распространенная задача. A-Parser позволяет легко автоматизировать этот процесс. Более того, можно настроить получение прямо в Телеграм уведомлений о доменах, срок регистрации которых скоро закончится. Готовое решение для автоматической проверки с уведомлением - по ссылке выше.
    [​IMG]

    Проверка блокировки РосКомНадзора через GitHub
    В А-Парсере есть стандартный парсер [​IMG] Check::RosKomNadzor, который позволяет проверять наличие сайтов в базе РКН. Данные получаются напрямую из официального сервиса, для работы обязательно нужно подключать антигейт. Кроме того, официальный сервис РКН часто подвергается атакам, в связи с чем может быть недоступен. Но существуют альтернативные источники данных, доступность которых значительно выше и к тому же не требующие проверки в виде каптчи. Парсинг одного из таких источников и реализован в пресете по ссылке выше.
    [​IMG]

    Простой парсер обменника с записью в БД SQLite
    Как известно, в A-Parser есть возможность чтения/записи данных в БД SQLite. В этом рецепте показано использование этого функционала на примере парсинга курсов валют. Готовый парсер доступен по ссылке выше.
    [​IMG]

    Еще больше различных рецептов в нашем Каталоге!
    Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

    Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

     
  3. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    [​IMG]
    Улучшения
    • В [​IMG] Rank::CMS обновлена база определяемых движков, теперь поддерживается одновременно старый и новый формат apps.json (при обновлении рекомендуется также обновить apps.json)
    • [​IMG] SE::Baidu полностью переписан:
      • добавлен парсинг related keywords
      • убран $cachedate из $serp, т.к. его похоже больше нет в выдаче
      • добавлена опция Get full link, преобразующая обрезанные ссылки в полные
      • исправлены некоторые регулярные выражения и баг с двойным http в ссылках
    • Изменения в [​IMG] Rank::MajesticSEO:
      • Добавлен параметр Check type, позволяет выбрать тип проверки: Root Domain/Subdomin/URL
      • Убран параметр Extract domain
      • Исправлена работа в некоторых случаях
    • Улучшена отзывчивость в редакторе JavaScript парсеров
    • Улучшена работа [​IMG] HTML::EmailExtractor, устранены зависания, которые возникали на определенных страницах
    • Обновлен список регионов в парсерах Яндекс
    • Пустой результат в [​IMG] SE::Google::Trends больше не считается неудачным запросом
    • Улучшена работа с сессиями в [​IMG] SE::Yandex::WordStat
    Исправления в связи с изменениями в выдаче
    • Исправлен парсинг рекламы в [​IMG] SE::Yandex
    • Исправлена работа, а также улучшен алгоритм парсинга в [​IMG] SE::Biggrin:uckDuckGo
    • Исправлено указание региона в парсерах Яндекс
    • Исправлен парсинг $ads.$i.visiblelink в [​IMG] SE::Google::Modern
    • Исправлен парсинг $totalcount в [​IMG] SE::Yandex::Biggrin:irect
    Исправления
    • Исправлена ошибка, из-за которой процент обработанных запросов мог быть больше 100
    • Исправлены ошибки, из-за которых парсинг мог зависать при снятии с паузы, а также сбивался перебор в макросах подстановок
    • Исправлено отображение кириллицы в $headers в [​IMG] Net::HTTP
    • Исправлена ошибка в Конструкторе результатов, из-за которой в редких случаях парсер мог падать
    • Устранена проблема с кодировкой при работе с SQLite
    • Исправлена ошибка со сменой прокси в JavaScript парсерах
     
  4. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    В 4-м сборнике статей будет рассмотрено добавление товаров в OpenCart, а также описано создание универсального парсера JSON. В каждой статье приложены готовые JS парсеры, используя которые, можно на реальных примерах изучить описанные методы и поэксперементировать с ними. Поехали!

    Работаем с OpenCart. Часть 1. Вступление.
    Данная статья начинает цикл об одной из наиболее часто запрашиваемых возможностей - заливке товаров в интернет-магазин. A-Parser - это универсальный инструмент, который кроме прочего может решать и такие задачи. Для тестов выбран движок OpenCart, в 1-й статье будет рассмотрена авторизация, получение списка товаров и добавление товара. Подробности, а также пример парсера - по ссылке выше.
    [​IMG]

    Парсинг JSON ответов и работа с их содержимым
    JSON - это довольно популярный способ предоставления данных, который, например, часто используется при работе с API различных сервисов. В А-Парсере есть встроенные инструменты для работы с ним, но не всегда их применение может быть простым, иногда требуется дополнительно писать сложные шаблоны, используя шаблонизатор. Поэтому в статье по ссылке выше будет рассказано, как написать простой универсальный парсер JSON.
    [​IMG]

    Если вы хотите, чтобы мы более подробно раскрыли какой-то функционал парсера, у вас есть идеи для новых статей или вы желаете поделиться собственным опытом использования A-Parser (за небольшие плюшки :) ) - отписывайтесь здесь.

    Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

    Предыдущие сборники статей
     
  5. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    Продолжение цикла уроков по созданию JavaScript парсеров. В этом видео показано, как работать с базой данных SQLite в JS парсере.



    В этом уроке рассмотрены:
    - Знакомство с языком запросов SQL
    - Создание простейшей базы данных SQLite при работе с JS-парсером
    - Получение и запись данных в базу SQLite при работе с JS-парсером

    Ссылки:
    - Интерактивный учебник по SQL | SQL-tutorial.ru - учебник по SQL
    - Иллюстрированный самоучитель по SQL для начинающих [страница - 1] | Самоучители по программированию | Иллюстрированные самоучители - тоже учебник по SQL
    - Конвертер валют онлайн. Конвертер валют Украины онлайн по курсу НБУ - сайт, который использовался в качестве примера
    - Разработка JS парсера с сохранением результата в SQLite - статья и готовый парсер

    Оставляйте комментарии и подписывайтесь на наш канал на YouTube!
     
  6. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    [​IMG]

    Улучшения
    • Добавлен новый парсер [​IMG] Rank::Curlie
    • В [​IMG] HTML::LinkExtractor улучшена обработка портов по умолчанию, теперь ссылки с портом приводятся к каноническому виду
    • Оптимизирована работа [​IMG] SE::Yandex::WordStat
    • Улучшена работа с сессиями в [​IMG] SE::Yandex
    • Улучшена обработка некорректных ответов в [​IMG] SE::Google::Suggest
    Исправления в связи с изменениями в выдаче
    Исправления
    • Исправлена проблема с запуском на некоторых linux дистрибутивах
    • Исправлена загрузка node.js модулей в редких случаях на Windows
    • JS парсеры: добавлена поддержка dns.lookup и улучшена совместимость с модулем mysql2
    • JS парсеры: исправлен util.promisify
    • Исправлена работа некоторых Node.js модулей
    • В [​IMG] SE::Google::Modern и [​IMG] SE::Bing $totalcount при 0 результатов теперь возвращает 0
    • Исправлено логгирование в режиме foreground
     
  7. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    25-й сборник рецептов. В нем будет показан способ периодического парсинга с дозаписью результатов в таблицу, рассмотрен парсинг с помощью Node.js модуля Cheerio без использования регулярных выражений, а также показан парсер первой мобильной поисковой системы в Китае - Shenma. Поехали!

    Периодическая проверка обратных ссылок с дозаписью результатов в таблицу
    Пример решения одной из наиболее запрашиваемых задач - дозапись периодически получаемых результатов в одну и ту же таблицу. В качестве хранилища данных используется SQLite, при каждом запуске данные добавляются и выводятся в таблицу. Готовый пресет с комментариями - по ссылке выше.
    [​IMG]

    Парсер поисковой системы Haosou
    Как известно, в основе почти любого парсера используются регулярные выражения, реже - XPath. Работа с этими методами требует определенных знаний, что в свою очередь может вызывать некоторые сложности. Поэтому существуют и другие методы. Использование одного из них на примере парсинга популярного в Китае поисковика Haosou, показано по ссылке выше.
    [​IMG]

    Парсер китайского поисковика Shenma
    Еще один китайский поисковик в этом сборнике - Shenma. Это первая мобильная поисковая система в Китае, ориентирована в первую очередь на мобильные сайты. Пресет - по ссылке выше.
    [​IMG]

    Еще больше различных рецептов в нашем Каталоге!
    Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

    Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

     
  8. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    [​IMG]
    Улучшения
    • Добавлен парсер [​IMG] SE::Yandex::SQI - парсер Индекса качества сайта (Яндекс ИКС)
    • Оптимизирована работа Очереди заданий
    • Добавлена поддержка множества экзотических кодировок китайского языка
    • Добавлена опция Save as UTF-8 with BOM, которая решает проблему определения кодировки при открытии сформированного CSV в Excel
    • [​IMG] SE::YouTube полностью переписан с использованием современного юзерагента
    • [​IMG] SE::AOL::Suggest оптимизирован и переписан на JavaScript
    • Улучшена работа [​IMG] SE::Google, [​IMG] SE::Google::Modern, [​IMG] Rank::MajesticSEO, [​IMG] SE::Bing и [​IMG] Shop::Amazon
    Исправления в связи с изменениями в выдаче
    Исправления
    • Исправлена работа [​IMG] Net::Whois для некоторых доменных зон
    • Исправлена ошибка, при которой не импортировался пресет, если не установлены модули, используемые в нем
    • Исправлена кодировка при использовании fs.readdirSync в JS парсерах
     
  9. Webaz

    Webaz V.I.P

    Регистрация:
    20.10.06
    Сообщения:
    2.009
    Симпатии:
    46
    upload_2018-9-4_13-37-59.png
     
  10. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    Webaz, да, доку на день позже релиза подтягиваем :)
    --- Добавлено 14.9.2018---
    В 5-м сборнике статей на реальном примере будет показано, как создать свой канал в Телеграме и полностью автоматизировать его наполнение контентом. Также мы продолжаем цикл статей по работе с OpenCart и во 2-й части будет рассмотрен вопрос массового добавления товаров. Как обычно, в каждой статье приложены готовые JS парсеры, используя которые, можно на реальных примерах изучить описанные методы и поэксперементировать с ними. Поехали!

    Полноценный Telegram канал на базе A-Parser
    В этой статье будет описан способ создания полноценного канала в Telegram c автоматизированным сбором контента и постингом сообщений через заданные интервалы. И конечно, все это на базе A-Parser. Все подробности, а также готовые пресеты - по ссылке выше.
    [​IMG]

    Работаем с OpenCart. Часть 2. Массовое добавление товаров
    Мы продолжаем цикл статей о заливке товаров в интернет-магазин на базе OpenCart. Во второй части будет рассмотрено массовое добавление товара. Подробности, а также пример готового парсера - по ссылке выше.
    [​IMG]


    Если вы хотите, чтобы мы более подробно раскрыли какой-то функционал парсера, у вас есть идеи для новых статей или вы желаете поделиться собственным опытом использования A-Parser (за небольшие плюшки :) ) - отписывайтесь здесь.

    Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

    Предыдущие сборники статей
     
  11. Webaz

    Webaz V.I.P

    Регистрация:
    20.10.06
    Сообщения:
    2.009
    Симпатии:
    46
  12. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    с этим лучше в саппорт, они гораздо больше в курсе
     
  13. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    Данный парсер является примером для разработки парсера работающего с OpenCart. Решение демонстрирует возможность сбора данных о товарах из стороннего сайта и заливку их на собственный сайт на базе OpenCart через API.



    В этом уроке рассмотрены:
    • парсинг товаров из интернет-магазина
    • авторизация в OpenCart
    • работа с API OpenCart для публикации товаров

    Статья и готовый пресет опубликованы в нашем Каталоге: Работаем с OpenCart. Часть 2. Массовое добавление товаров

    Оставляйте комментарии и подписывайтесь на наш канал на YouTube!
     
  14. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    [​IMG]

    Улучшения
    • Добавлен новый парсер [​IMG] SE::Youtube::Suggest
    • Добавлена совместимость с модулем mysql2 в JavaScript парсерах
    • В [​IMG] Util::ReCaptcha2 добавлена поддержка сервиса R.I.P.captcha
    • В [​IMG] SE::Bing::Suggest добавлена возможность выбора страны
    • Уменьшено потребление оперативной памяти, а также оптимизирована начальная загрузка, интерфейс теперь открывается быстрее
    • База регионов в [​IMG] SE::Yandex обновлена и значительно увеличена
    • Для всех стандартных парсеров, кроме тех, которые работают на основе [​IMG] Net::HTTP, из настроек убраны Max body size и Use gzip
    • Улучшен [​IMG] Shop::Amazon
    Исправления в связи с изменениями в выдаче
    Исправления
    • Исправлена работа с прокси при получении каптчи в [​IMG] SE::Yandex::Register
    • В очень редких случаях в [​IMG] SE::Yandex могла возникать ошибка Content mismatch
    • Исправлен [​IMG] Net::Whois при работе с .eu доменами
     
  15. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    Это видео демонстрирует возможность создания полноценного Telegram канала на базе A-Parser. Парсер периодически и без вмешательства пользователя будет собирать контент и публиковать его на канале.



    В уроке рассмотрены:
    • Регистрация и настройка канала в Телеграм.
    • Последовательное выполнение нескольких заданий.
    • Сохранение промежуточных данных в базу SQLite с последующим чтением.
    • Настройка пресета для постинга сообщений в Telegram-канал.

    Статья с подробным описанием процесса создания: Полноценный Telegram канал на базе A-Parser
    Ссылки на готовые пресеты:
    Подсказки Google Play
    Парсинг приложений со скидками в Google Play
    Отправка сообщений в Telegram канал

    Оставляйте комментарии и подписывайтесь на наш канал на YouTube!
     
  16. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    26-й сборник рецептов. В нем будут показаны: проверка наличия мобильной версии сайта через Bing, парсинг полного списка регионов Яндекса и способ поиска упоминаний домена в индексе поисковой системы. Также показан пример работы с Node.js модулем mysql2, который позволяет работать с MySQL базами данных. Поехали!

    Проверка наличия мобильной версии через Bing
    На сегодняшний день наличие мобильной версии является одним из важнейших критериев качества сайта. По данным различных организаций доля мобильного трафика уже давно превышает десктопный. Именно поэтому мобильная версия сайта позволяет увеличить посещаемость сайта, ведь большинство крупных поисковиков отдают предпочтение в выдаче сайтам, имеющим полноценную мобильную версию. Проверить наличие и соответствие стандартам можно с помощью небольшого пресета по ссылке выше.
    [​IMG]

    Получение полного списка регионов Яндекса
    Яндекс не публикует в открытом виде полного списка всех регионов, используемых в поиске. И как оказалось, найти полную и актуальную базу в интернете практически невозможно. Поэтому мы исправляем это и по ссылке выше публикуем JavaScript парсер, который позволяет собрать свежую и максимально полную базу регионов Яндекса.
    [​IMG]

    Проверка упоминаний домена в индексе Гугла
    Иногда возникает задача по поиску упоминаний домена в индексе поисковой системы. Именно с такой задачей к нам обратился один из пользователей A-Parser. Поэтому по ссылке выше мы публикуем пресет, решающий данную задачу.
    [​IMG]

    Кроме этого:
    Еще больше различных рецептов в нашем Каталоге!
    Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

    Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

     
  17. Guinness

    Guinness V.I.P

    Регистрация:
    09.08.06
    Сообщения:
    879
    Симпатии:
    52
    Хороший парсер, плюсую
     
    Forbidden нравится это.
  18. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    [​IMG]

    Улучшения
    • Добавлено 2 новых парсера:
    • Полностью переписаны 2 парсера:
      • [​IMG] SE::Google::Images - добавлены региональные настройки, поддержка рекаптчи, возможность задавать различные фильтры поиска и сбор анкоров, ссылок на страницу, ссылок на превью, а также типов изображений
      • [​IMG] SE::Yandex::Images - добавлен сбор ссылок на превью
    • Улучшена работа [​IMG] SE::AOL, а также увеличено максимальное количество страниц в настройках
    • Улучшена работа [​IMG] SE::Ask, а также добавлена возможность парсить связанные ключевые слова
    • JS парсеры: оптимизирован вызов конструктора и init()
    • JS парсеры: добавлена поддержка async init()
    Исправления в связи с изменениями в выдаче
    Исправления
    • Исправлена утечка памяти при большом количестве попыток
    • Исправлена ошибка, при которой в Тестовом парсинге при работе с некоторыми ссылками не завершался запрос
    • Исправлен парсинг различных параметров в [​IMG] Net::Whois
    • Исправлено отображение русского языка (проблема появилась в предыдущей версии)
    • Исправлено зависание при работе [​IMG] SE::Yandex::Images с антигейтом
    • JS парсеры: исправлена работа check_content
    • JS парсеры: исправлена работа с сессиями (проблема появилась в одной из предыдущих версий)
     
    Dart нравится это.
  19. Dart

    Dart V.I.P

    Регистрация:
    01.10.16
    Сообщения:
    609
    Симпатии:
    208
    А можно как-то в а-парсере эвристически находить на странице только контент, исключая текстовую информацию из меню и прочей фигни?
     
  20. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    стандартно нет - можно фильтровать по размеру блока текста, но если есть идеи - можно дописать на JS анализ легко
     
  21. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    Это вторая часть из цикла видео уроков о парсинге товаров из стороннего сайта и заливке их на собственный сайт на базе OpenCart через API.



    В этом уроке показано:
    • краткое содержание предыдущей части
    • запуск созданного пресета
    • демонстрация результатов работы
    Первая часть: Видео урок: Массовое добавление товаров в OpenCart, часть 1
    Статья и готовый пресет опубликованы в нашем Каталоге: Работаем с OpenCart. Часть 2. Массовое добавление товаров

    Оставляйте комментарии и подписывайтесь на наш канал на YouTube!
     
  22. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    27-й сборник рецептов. В нем собраны рецепты для парсинга списка соискателей на hh.ru, сбора списка юзерагентов и парсинга Авито с записью результатов в MySQL базу данных. Также показан пример отправки файлов в POST запросе. Поехали!

    Сбор списка соискателей на HeadHunter
    HeadHunter - это один из самых популярных ресурсов для поиска работы. Соответственно, сбор списка соискателей может быть интересен рекрутерам для более эффективного анализа потенциальных кандидатов. Готовое решение для парсинга доступно по ссылке выше.
    [​IMG]

    Получение списка user-agent
    Сейчас существует много различных браузеров, которые работают на разных платформах. Многие сайты ограничивают работу со старыми браузерами, а некоторые не отдают контент даже при запросе с юзерагентом относительно нового браузера. В A-Parser можно задавать user-agent для запросов, также существует специальный инструмент, который позволяет при каждом запросе выбирать рандомный из заранее подготовленного списка. Пресет для парсинга таких списков, с возможностью фильтрации по различным параметрам, доступен по ссылке выше.
    [​IMG]

    Парсер Avito с записью в MySQL
    Предыдущий пресет для парсинга Авито пользуется большой популярностью. Также наши пользователи часто спрашивают о возможности записи собранных результатов напрямую в базу данных. Поэтому мы подготовили JS парсер, который решает эту задачу. Как обычно, он доступен по ссылке выше.
    [​IMG]

    Кроме этого:
    Еще больше различных рецептов в нашем Каталоге!
    Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

    Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

     
    Dart нравится это.
  23. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    [​IMG]
    В уходящем году одним из приоритетных направлений стало развитие JavaScript парсеров и функционала по работе с Node.js. Одним из финальных этапов стал данный релиз, в котором была реализована долгожданная поддержка https/tls в Node.js модулях. Также усилия были сосредоточены на повышении стабильности и производительности. В результате этого было сделано множество наработок, которые уже в первой половине 2019 года планируется выпустить в виде нового A-Parser 2.0, где будет много новых и крутых возможностей :Wink:

    Команда A-Parser поздравляет всех с Новым годом и Рождеством! Мы желаем вам успехов в делах, прибыльных проектов и ярких идей. Пускай Новый 2019 год будет годом новых возможностей, все задуманное сбывается, а работа приносит удовольствие!
    Спасибо что Вы с нами!!!


    В новогоднем релизе, кроме снеговика:), было сделано следующее:
    Улучшения

    • Добавлена поддержка https/tls в Node.js модулях, что позволяет использовать все модули, которые работают с API по https, а также по TLSSocket (smtp и т.п.)
    • Полностью переписан и обновлен [​IMG] SE::Yandex, добавлена возможность парсить мобильную выдачу, а также значительно увеличена производительность
    • Добавлен парсер позиций в Bing: [​IMG] SE::Bing::Position
    • Добавлен парсер [​IMG] Util::YandexRecognize, позволяющий разгадывать каптчи без использования сторонних сервисов
    • Улучшен сбор почт в [​IMG] HTML::EmailExtractor
    • Улучшена работа опции Dynamic threads limit
    • В [​IMG] SE::Yandex использование прокси для загрузки картинки каптчи теперь определяется параметром Use proxy парсера Яндекса
    • В связи с неактуальностью удалены [​IMG] SE::Bing::AddURL, [​IMG] Rank::OpenSiteExplorer и [​IMG] Rank::OpenSiteExplorer::Extended
    Исправления в связи с изменениями в выдаче
    Исправления
    • Исправлен Safe search в [​IMG] SE::DuckDuckGo::Images
    • Исправлены падения при работе с [​IMG] SE::DuckDuckGo::Images
    • Исправлена ошибка при работе с модулем mysql2 версии более 1.5.3
    • Исправлен парсинг количества результатов в [​IMG] SE::Yandex
     
    Dart нравится это.
  24. Dart

    Dart V.I.P

    Регистрация:
    01.10.16
    Сообщения:
    609
    Симпатии:
    208
    Круто, что продукт только развиваешь, застоя нет. И аналогов на рынке тоже нет. Респект!
     
    Forbidden нравится это.
  25. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    Это 6-й сборник статей, и в нем мы разберемся, как подключать к парсеру Node.js модули, научимся сохранять собранные данные в формате YML, а также изучим работу с API на реальном примере с созданием простого приложения. Поехали!

    Работаем с API, часть 1
    В этой статье на реальном примере будет показана работа с A-Parser через API. В результате будет создано простое приложение, которое будет получать позицию сайта по ключу в Гугл или Яндекс. Все подробности - по ссылке выше.
    [​IMG]

    Выгрузка товаров для Я.Маркета в формате YML
    YML (Yandex Market Language) - это стандарт представления данных, который используется для загрузки/выгрузки информации о товарах в Яндекс.Маркете. Используя А-Парсер, можно спарсить товары с различных сайтов и сохранить их в данном формате для дальнейшего импорта в Маркет. О том, как это сделать, можно почитать в статье по ссылке выше.
    [​IMG]

    Подключение пакетов Node.js в A-Parser
    Как известно, в A-Parser можно использовать Node.js модули для более эффективного парсинга. Поэтому, по ссылке выше мы опубликовали небольшой мануал по их установке и использованию.
    [​IMG]

    Если вы хотите, чтобы мы более подробно раскрыли какой-то функционал парсера, у вас есть идеи для новых статей или вы желаете поделиться собственным опытом использования A-Parser (за небольшие плюшки :) ) - отписывайтесь здесь.

    Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

    Предыдущие сборники статей
     
  26. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    28-й сборник рецептов. В нем будет показан способ автоматизации парсинга данных из Wordstat, пример парсинга информации о приложениях со скидками в Google Play, а также готовое решение для сбора подсказок из Яндекс вместе с их типами. Поехали!

    Парсинг приложений со скидками в Google Play
    Периодически в Google Play разработчики предлагают скидки на приложения, иногда на короткий срок платные становятся полностью бесплатными. С помощью A-Parser можно искать подобные предложения. Кроме этого, в этом парсере собирается множество дополнительных данных и используется сохранение в sqlite базу данных, поэтому его можно рассматривать как еще один пример работы с базами данных в А-Парсере. Готовое решение доступно в каталоге по ссылке выше.
    [​IMG]

    Парсер поисковых подсказок Яндекс
    В A-Parser есть стандартный парсер Яндекс подсказок, который по заданным ключевым словам собирает подсказки. Но Яндекс классифицирует подсказки по различным типам, которые в свою очередь позволяют использовать их более рационально, применяя соответствующие фильтры. Стандартный парсер подсказок не возвращает типы, поэтому по ссылке выше опубликован JS парсер для сбора подсказок вместе с их типами.
    [​IMG]

    Автоматизация парсинга Wordstat
    В этом парсере реализован автоматический сбор данных из WordStat. При этом, парсер проверяет наличие необходимых для данной задачи аккаунтов, и если требуется - то автоматически регистрирует их. Такое решение может быть полезно для организации периодического парсинга WordStat в автоматическом режиме. Готовое решение - по ссылке выше.
    [​IMG]


    Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

    Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

     
  27. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    [​IMG]

    Улучшения
    • Улучшение Просмотра логов:
      • Фильтр по неудачным/выполняющимся задачам
      • Сортировка по времени выполнения
      • Поддержка пагинации и поиска по логам
      • Отображение парсера и запроса
    • Добавлен новый инструмент tools.memory - key/value хранилище в памяти
    • Добавлен новый парсер [​IMG] SE::Yandex::SafeBrowsing, который позволяет проверить сайт в блэклисте Яндекса
    • В [​IMG] SE::Google::Trends реализована возможность сравнивать данные по ключевым словам
    • Улучшения в логике [​IMG] Shop::Amazon
    • Улучшена стабильность JavaScript парсеров (движка v8)
    • JS парсеры: добавлен метод .addElement, который позволяет заполнять массивы в results более удобным способом
    • JS парсеры: добавлена опция resultArraysWithObjects для this.parser.request, которая позволяет возвращать массив объектов в результатах при вызове другого парсера
    • JS парсеры: добавлено кэширование DNS ответов
    Исправления в связи с изменениями в выдаче
    Исправления
    • Исправлена обработка пустых запросов в JavaScript парсерах
    • Исправлен вывод картинок в лог, проблема появилась в одной из предыдущих версий
    • Исправлена работа с некоторыми видами прокси
    • Исправлена работа опции Stop when found в [​IMG] SE::Yandex::Position
    • В [​IMG] SE::Yandex при получении ошибки от антигейта не менялись прокси
    • Исправлен парсинг ссылок на потенциально опасные сайты в [​IMG] SE::Yandex
    • JS парсеры: исправлена работа check_content с регулярными выражениями, в которых содержится кириллица
    • JS парсеры: исправлено зависание потоков при использование tls
    • JS парсеры: множественные исправления в работе сокетов
     
  28. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    29-й сборник рецептов, в котором опубликован JS парсер для определения языка ключевых слов, предложен вариант решения для нормализации запросов, а также показано, как парсить карту сайта и одновременно собирать тайтлы страниц. Поехали!

    Определение языка ключевого слова через Яндекс Переводчик
    В A-Parser есть несколько встроенных парсеров для определения языка страницы. Но иногда возникают задачи отфильтровать список ключевых слов по одному или нескольким языкам. Определять язык текстовой строки довольно неплохо умеют различные переводчики, поэтому для решения задачи был выбран Яндекс Переводчик, и по ссылке выше доступен JavaScript парсер, реализующий определение языка ключевого слова.
    [​IMG]

    Нормализатор запросов
    При сборе семантического ядра часто возникает вопрос - какая форма запроса является наиболее частотной, например: "купить диван" или "диван купить". Если запрос 3-х или 4-хсловный, то вариантов становится еще больше. Решение такой задачи на базе парсера WordStat доступно в нашем Каталоге по ссылке выше.
    [​IMG]

    Карта сайта и заголовки
    Сбор карты сайта - это довольно простая задача для А-Парсера, которая решается встроенным парсером ссылок. Но иногда, кроме простого сбора ссылок, нужно еще и собрать тайтлы. И это можно делать параллельно с проходом по ссылкам в глубину. Готовый пресет доступен по ссылке выше.
    [​IMG]

    Еще больше различных рецептов в нашем Каталоге!
    Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

    Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

     
  29. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    Продолжение цикла уроков по созданию JavaScript парсеров. В этом уроке показано как использовать Node.js модули при написании собственных парсеров.



    В уроке рассмотрено:
    • Работа с Node.js и Node package manager (npm)
    • Первый запуск npm, установка модулей (пакетов)
    • Использование модулей при создании JS парсера
    • Ресурсы для работы с npm

    Ссылки:
    Оставляйте комментарии и подписывайтесь на наш канал на YouTube!
     
  30. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    [​IMG]

    Улучшения
    • В [​IMG] SE::Yandex добавлен парсинг значков
    • В [​IMG] SE::Google::Modern добавлена опция Disable autocorrect, которая позволяет отключить автоисправление Гугла и парсить выдачу именно по указанному запросу
    • В [​IMG] SE::Yahoo добавлен выбор страны, языка и Safe Search, обновлен список доменов
    • В [​IMG] Net::DNS добавлена возможность выводить записи любого типа
    • В [​IMG] Rank::MajesticSEO добавлена проверка контента и поддержка сессий
    • Значительно улучшен [​IMG] SE::Google::Suggest, добавлены новые возможности
    • В [​IMG] SE::IxQuick добавлен параметр Family filter, позволяет выбрать уровень фильтрации
    • В [​IMG] Shop::Amazon добавлена возможность парсить количество продавцов для каждого товара
    • Теперь в [​IMG] SE::Yandex при получении 404 кода ответа парсер будет повторять попытку, также улучшена проверка контента
    • Теперь в [​IMG] Rank::SEMrush при получении 403 кода ответа прокси будет баниться
    • Добавлена поддержка SOCKS4 прокси
    • Оптимизирована загрузка и сохранение конфига и файлов заданий
    • Улучшена скорость загрузки JS парсеров
    • Уменьшено использование памяти в JS парсерах
    • Улучшение производительности при использовании сокетов в JS парсерах
    Исправления в связи с изменениями в выдаче
    Исправления
    • В SE::Google::Modern исправлена проблема, при которой запрос считается неудачным при использовании Parse not found
    • Исправлена обработка пустой выдачи в [​IMG] SE::Yandex
    • Исправлена проблема, когда [​IMG] SE::DuckDuckGo не парсил запросы в которых больше 1 слова
    • JS парсеры: исправлена работа setTimeout на Windows
    • Исправлен ряд ошибок, которые появились в процессе оптимизации парсера
     
  31. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    7-й сборник статей. В нем мы научимся сохранять результаты в виде Excel файлов, продолжим изучение работы через API, а также ознакомимся с 5-ю способами автоматизации последовательного выполнения нескольких заданий. Поехали!

    Сохранение результатов в формате Excel (.xlsx)
    Вывод результатов в виде xlsx файлов (стандартный формат Excel) - это очень популярный вопрос среди пользователей A-Parser. Ранее такой возможности не было, но с добавлением поддержки Node.js модулей это стало возможным. Поэтому мы публикуем статью, в которой показан реальный пример парсинга с сохранением в Excel. Ознакомиться со всеми подробностями можно по ссылке выше.
    [​IMG]

    Работаем с API, часть 2
    Это вторая часть из цикла статей по работе с A-Parser через API. В ней на примере парсинга e-mail будет рассмотрен метод addTask. Все детали - по ссылке выше.
    [​IMG]

    Обзор вариантов последовательного выполнения нескольких заданий
    Очень часто возникают задачи, решение которых требует использования возможностей сразу нескольких разных парсеров и при этом результаты работы одного нужно передавать в следующий. А-Парсер - это очень гибкий инструмент, поэтому существует сразу несколько способов, как автоматизировать последовательное выполнение нескольких заданий, при этом максимально автоматизируя работу и повышая производительность. Описание всех возможных методов читайте в обзоре по ссылке выше.


    Если вы хотите, чтобы мы более подробно раскрыли какой-то функционал парсера, у вас есть идеи для новых статей или вы желаете поделиться собственным опытом использования A-Parser (за небольшие плюшки :) ) - отписывайтесь здесь.

    Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

    Предыдущие сборники статей
     
  32. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    [​IMG]

    Начиная с версии 1.2.455 мы начинаем официальную поддержку Node.JS модуля puppeteer - средства автоматизации работы с браузером Chrome(Chromium), благодаря чему возможен полноценный рендеринг DOM с поддержкой JS. В качестве примера мы выкладываем парсер, который делает скриншоты сайтов в формате PNG, доступен выбор размера скриншота. Chromium может быть запущен как на Windows, так и на Linux серверах без GUI.

    Улучшения
    • [​IMG] SE::Bing::Images полностью переписан, добавлен сбор дополнительных данных, а также в настройках добавлен выбор региона и языка интерфейса
    • В [​IMG] Net::HTTP добавлены все методы в настройки, а также реализована возможность переопределения через заголовок Method
    • Добавлена возможность форматирования всех цифр в интерфейсе
    • JS парсеры: в this.parser.request для override добавлена опция needData, которая определяет передавать или нет в ответе data/pages[], может использоваться для оптимизации
    • JS парсеры: добавлена поддержка модулей url и ws
    Исправления в связи с изменениями в выдаче
    Исправления
    • Исправлена работа функции Bypass Cloudflare в [​IMG] Net::HTTP
    • Исправлена ошибка, из-за которой при определенных настройках не писался Начальный текст
    • Исправлена работа некоторых socks4 прокси
    • Исправлена ошибка в $tools.base64.encode() при работе с кириллическими символами
    • В [​IMG] Shop::Amazon исправлена ошибка, при которой игнорировался домен
    • JS парсеры: исправлена редкая ошибка в работе сокетов в Node.js
     
    Net_Prosto нравится это.
  33. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    31-й сборник рецептов. В нем будет показан способ создания скриншотов веб-страниц, парсинг подсказок Яндекс Маркета, а также проверка правописания в Google. Кроме этого, только до конца апреля доступна возможность купить XEvil со скидкой. Далее обо всем по порядку.

    Скидка -50% на покупку XEvil для существующих и новых пользователей A-Parser
    Для всех существующих и новых пользователей A-Parser действует скидка на покупку XEvil -50%!
    XEvil - это простая, быстрая и удобная программа для полностью автоматического распознавания и обхода подавляющего числа капч и рекапч, без необходимости подключения каких-либо сторонних сервисов. Использование XEvil в связке с A-Parser позволяет значительно удешевить парсинг ресурсов, где необходимо разгадывать капчи/рекапчи, при этом практически не теряя в скорости.
    Акция действует до конца апреля. Количество промокодов ограничено, поэтому не упустите возможность воспользоваться скидкой!
    Для получения промокода на покупку XEvil пишите в тикеты.
    [​IMG]

    JS::Chrome::ScreenshotsMaker
    Возможность загружать страницы с полной обработкой всех скриптов, аналогично браузеру - это один из самых популярных фичреквестов для A-Parser. Поэтому буквально недавно была добавлена поддержка Node.js модуля puppeteer, с помощью которого теперь можно получать полностью отрендеренные страницы. И мы публикуем первый пример по работе с ним - парсер для создания скриншотов веб-страниц. Больше информации, пример работы и готовый парсер - все это доступно по ссылке выше.
    [​IMG]

    Парсер подсказок Яндекс.Макет
    Еще один парсер подсказок, на этот раз из Яндекс Маркета. Собираются подсказки, их популярность (частота), тип, а также, опционально, категория (включая полный путь родительских категорий). Готовый парсер, как обычно, доступен в нашем Каталоге по ссылке выше.
    [​IMG]

    Проверка правописания в Google
    Данный парсер позволяет проверить ключевые слова через поиск Google на предмет опечаток и получить исправленные варианты. Готовый пресет доступен по ссылке выше.
    [​IMG]

    Еще больше различных рецептов в нашем Каталоге!
    Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

    Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

     
  34. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    Видеоурок по работе с MySQL в A-Parser. В нем на реальном примере показано как работать с базами данных MySQL, используя Node.js модуль mysql2.



    В этом уроке рассмотрены:
    • Установка и подключение модулей
    • Некоторые основы языка запросов SQL
    • Создание базы данных MySQL
    • Получение и запись данных в БД, используя JS-парсеры

    Полезные ссылки:
    Оставляйте комментарии и подписывайтесь на наш канал на YouTube!
     
  35. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    [​IMG]

    Улучшения
    • Новые парсеры:
      • [​IMG] Maps::Google - по ключевым словам собирает различные данные об организациях в заданных координатах
      • [​IMG] Maps::Yandex - по ключевым словам собирает различные данные об организациях в заданных координатах
      • [​IMG] Rank::Bukvarix::Domain - сбор ключевых слов по домену
      • [​IMG] Rank::Bukvarix::Keyword - сбор ключевых слов по ключевому слову
    • Удалены 4 неактуальных парсера: Rank::SEMrush::Keyword, SE::QIP, SE::QIP::Position, Rank::MegaIndex
    • Улучшена работа [​IMG] SE::AOL
    • JS парсеры: для this.request добавлена опция data_as_buffer, которая определяет возвращать data как строку(String) или объект Buffer
    Исправления в связи с изменениями в выдаче
    • В [​IMG] SE::Google::Modern исправлена работа с рекаптчами, исправлен парсинг сниппетов, а также исправлен парсинг мобильной выдачи
    • [​IMG] Rank::SEMrush полностью переписан, также полностью изменился список собираемых данных, парсер возвращает только те данные, которые доступны без авторизации
    • Полностью переписан [​IMG] Rank::Alexa
    • Исправлена работа [​IMG] Rank::MajesticSEO, теперь обязательно требуется установка Node.js и модуля brotli
    • В [​IMG] Rank::Social::Signal удалена переменная $facebook_share в связи с прекращением поддержки со стороны FB
    • [​IMG] SE::IxQuick, [​IMG] Shop::AliExpress, [​IMG] SE::IxQuick, [​IMG] SE::DuckDuckGo::Images, [​IMG] Shop::Amazon, [​IMG] Check::RosKomNadzor
    Исправления
    • Исправлена работа с запросами, содержащими пробел в [​IMG] SE::DuckDuckGo
    • Исправлена проблема с декомпресией данных на некоторых сайтах
    • JS парсеры: исправлена работа setImmediate