1. Вы находитесь на форуме клуба BlackSEO.

    Здесь собрались настоящие профессионалы, накопившие большой опыт в сфере создания и продвижения сайтов. Своими знаниями и умениями они выделяются на фоне общей массы оптимизаторов. Участники форума постоянно выносят на обсуждение задачи, которые всегда на несколько шагов впереди публичных дискуссий, что делает BlackSEO лучшим местом для общения на любые темы, начиная с бизнеса и заканчивая отдыхом.
    Скрыть объявление

A-Parser - многофункциональный парсер SE, PR, TrustRank, DMOZ, WHOIS etc.

Тема в разделе "Реклама и анонсы партнерок и сервисов", создана пользователем Forbidden, 19.4.2012.

  1. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    A-Parser - 1.1.388 - новый парсер disconnect.me, улучшения в экспорте заданий

    Улучшения
    • Добавлен парсер [​IMG] [noparse]SE::Biggrin:isconnectMe[/noparse] - поисковая система от бывших сотрудников Google, можно выбирать один из трех вариантов выдачи: Google, Bing, Yahoo
    • Теперь при сохранении пресета задания, сохраняется название файла запросов или сам список запросов
    • При экспорте задания, появилась возможность указать включать или нет запросы в код пресета, а также теперь отображается список настроек парсеров которые будут включены в код
    • В очереди заданий добавлена возможность свернуть\развернуть одновременно все задания на странице
    • В очереди заданий для свернутых заданий теперь отображается время выполнения
    • Увеличена скорость парсинга [​IMG] SE::Google
    Исправления в связи с изменениями в выдачи
    • В [​IMG] SE::Google::Images больше не парсится параметр size
    • Исправлены [​IMG] SE::Google, [​IMG] SE::Google::TrustCheck, [​IMG] SE::Google::Compromised, [​IMG] SE::Ask, [​IMG] [noparse]SE::Biggrin:ogpile[/noparse], [​IMG] Rank::Mustat, [​IMG] Rank::Category, [​IMG] SE::AOL
    Исправления
    • A-Parser мог падать при использовании парсеров [​IMG] SE::Yandex::WordStat, [​IMG] [noparse]SE::Biggrin:ogpile[/noparse], а также при использовании Просмотра логов после перезапуска парсера
    • В парсере [​IMG] Net::Whois не определялась дата экспайра для некоторых доменов
    • В парсере [​IMG] SE::Bing не корректно обрабатывались ссылки содержащие символ &

    Обновление партнерской программы

    Участвуйте в нашей партнерской программе рекламируя A-Parser в своих блогах и на форумах! Размер комиссии - 15%:
    • A-Parser Lite: $18
    • A-Parser Pro: $30
    • A-Parser Enterprise: $42
    [​IMG]

    В обновленном интерфейсе доступна удобная статистика заработанных средств и выплат, а также список привлеченных пользователей

    Подробнее про условия участия в партнерской программе читайте в соответствующем разделе
     
  2. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    A-Parser: видео урок по парсингу 2ГИС

    Денис Бартаев рассказывает о парсинге информации о компаниях и их телефонов из базы 2ГИС

    [​IMG]

    В выпуске рассматриваются
    • Использование парсера-паука HTML::LinkExtractor и его настройка для фильтрации ссылок
    • Работа с параметром Parse To Level
    • Использование парсера Net::HTTP и его настройка для выборки данных со страницы с помощью регулярных выражений
    • Создание Excel-таблицы из результатов парсинга

    Подписывайтесь на наш канал!

    Оставляйте в комментариях свои идеи и пожелания для будущих видео
     
    Последнее редактирование: 8.2.2016
  3. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    Сборник рецептов #12: парсим Instagram, собираем статистику и делаем свои парсеры подсказок

    12-й выпуск Сборника рецептов. В нем мы рассмотрим пример парсинга Instagram, проверим новую возможность вывода статистики и научимся составлять кастомные парсеры подсказок. А также:
    • Обзор вариантов представления результатов
    • Универсальный чекер страниц
    • Парсинг трафика и стоимости по ключевым словам из SEMrush
    • Обновление и улучшение пресетов для парсинга Авито и 2GIS
    Парсинг Instagram
    Instagram на сегодня является одним из самых популярных приложений для обмена фото с элементами социальной сети (осенью 2015 года аудитория превысила 400 млн пользователей). Такая популярность делает данный сервис привлекательным для парсинга, с целью получения различной информации. Как парсить Инстаграм с помощью А-Парсера - по ссылке выше.
    [​IMG]

    Статистика по результатам парсинга
    Начиная с версии 1.1.336 в А-Парсере появилась возможность вести и обрабатывать статистику парсинга, благодаря поддержке шаблонизатора в Начальном и Конечных текстах. Теперь в выдаче можно подсчитать количество ссылок на каждом домене, количество сабдоменов для каждого домена, частоту каждого сабдомена; получить списки доменов, имеющих сабдомены и многое другое... Несколько примеров показаны по ссылке выше.
    [​IMG]

    Как сделать свой парсер подсказок?
    В A-Parser уже существуют парсеры подсказок для Google, Yandex, AOL, Bing и Yahoo. Но есть и другие сервисы, которые также выдают подсказки. О том, как сделать свой парсер подсказок, а также примеры для Baidu, Rambler, Mail.Ru, LiveInternet, DuckDuckGo и GooglePlay смотрите по ссылке выше.
    [​IMG]

    Кроме этого еще несколько рецептов:


    Еще больше различных рецептов в нашем Каталоге примеров!


    --- Добавлено сообщение ---
    A-Parser - 1.1.434 - парсинг частотности Яндекс.Директ с большой скоростью, улучшения использования памяти

    В этой версии проделана большая работа по добавлению поддержки агрегации запросов. Теперь парсер частотности ключевых слов [​IMG] SE::Yandex::Direct::Frequency может получать данные со скоростью 20000-50000 слов\минуту

    Улучшения
    • Уменьшено потребление памяти при использовании большого числа потоков и\или нескольких парсеров в одном задании
    • Уменьшено потребление памяти при большой очереди завершенных заданий
    • В парсере [​IMG] SE::Yandex::Direct::Frequency добавлена возможность выбрать все регионы или выбрать несколько определенных
    • В парсере [​IMG] SE::Yandex::Direct::Frequency добавлена поддержка Яндекс аккаунтов, а так же поддержка AntiGate и парсинг по 500 ключевых слов за один запрос
    • В парсере [​IMG] SE::Yandex::Direct::Frequency добавлена возможность выбора периода за последний месяц, за определенный месяц, за квартал или за год
    • Для Windows и Linux улучшена поддержка юникода в именах файлах, независимо от языка интерфейса ОС
    • Добавлена возможность просматривать логи только неудачных запросов
    • В API добавлена возможность указать флаг removeOnComplete при добавлении задания, тем самым задания будут автоматически удалятся после завершения
    • В просмотре логов теперь можно выделить данные для копирования
    • В парсере [​IMG] Net::HTTP добавлен параметр Max cookies count, ограничивающий число Cookie для сохранения
    • В парсере [​IMG] Net::HTTP расширен список кодов ответов, а также добавлена возможность указать регулярное выражения для проверки кода ответа
    • В очереди заданий теперь можно искать необходимые задания по названию, номеру, подстроке в запросах, имени файлов запросов и результатов
    • В парсере [​IMG] HTML::LinkExtractor добавлена опция Check next page, позволяющая расширить логику перехода по ссылкам
    • Добавлена опция Page as new query, которая передает переход на следующую страницу как новый запрос, тем самым позволяя убрать ограничение на количество страниц для перехода
    Исправления в связи с изменениями выдачи
    • В парсере [​IMG] SE::Yandex исправлен парсинг связанных ключевых слов
    • В парсере SE::Youtube исправлен парсинг количества видео по запросу
    • Исправлен парсинг Google Blogs в парсере SE::Google
    • Исправлены [​IMG] SE::AOL, SE::Ask, SE::Baidu, SE::Google, SE::Google::pR, SE::DisconnectMe, SE::QIP, SE::Yandex
    Исправления
    • Исправлено отображение длинных выпадающих меню
    • Исправлена кодировка запросов в просмотре логов
    • Исправлено падение при использовании опции Parse to level в некоторых ситуациях
    • Исправлено падение в парсере [​IMG] SEO::ping
    • Прокси с авторизацией теперь сохраняются корректно в файл живых прокси alive.txt
    • Исправлена работа с прокси при указании пустой пары логин\пароль для авторизации
    • В парсере [​IMG] SE::Yandex::WordStat теперь при использовании опции Remove + from keywords плюсы удаляются также для фраз правого столбика
    • Исправлено экранирование символа + в HTTP запросах

    Все изменения и описания новых возможностей скоро будут доступны в документации
    --- Добавлено 16.3.2016---
    A-Parser: видео урок - генерация sitemap.xml используя возможности JavaScript

    Денис Бартаев рассказывает об использовании JavaScript в A-Parser:



    • Использование LinkExtractor
    • Показан пример разбора заголовков ответов
    • Введение в основы JavaScript
    • Использование возможностей tools.js для решения практической задачи
    Подписывайтесь на наш канал!

    Оставляйте в комментариях свои идеи и пожелания для будущих видео
     
    Dark нравится это.
  4. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    A-Parser - 1.1.462 - цепочки заданий, сохранение JavaScript функций в пресете задания

    Улучшения
    • Добавлена возможность использовать цепочки заданий - запускать определенное задание после завершение текущего, с возможностью указать файл результатов первого задания, как файл запросов для следующего
    • Теперь JavaScript функции можно сохранять в настройках задания, что позволяет включать их при экспорте задания
    • При форматировании элементов массивов через метод .format теперь можно использовать все простые(Flat) переменные, которые выдает парсер или которые формируются используя Конструктор результатов
    • В прокси чекер добавлена опция Load limit count, позволяющая задать максимальное число прокси для загрузки с источников
    • В парсере [​IMG] Net::HTTP для опции Check content добавлен переключатель Match / Not Match позволяющий проверять не только наличие, но и отсутствие определенного контента на странице
    • Теперь файл задания не перезаписывается при отсутствии свободного места на диске
    • В лог добавлена информация о версии парсера, количество свободной памяти и другая полезная информация
    Исправления в связи с изменениями выдачи
    • Исправлены [​IMG] SE::Yandex, [​IMG] SE::Google

    Исправления

    • В парсере [​IMG] SE::Google сниппеты и анкоры парсились с некорректной кодировкой при использовании Антигейта
    • При использовании опции Конечный текст и кириллического имени файла результата конечный текст сохранялся в файл с неверной кодировкой в имени
    • При использовании лога после постановки задания на паузу и продолжении работы лог переставал писаться, также при отключении логирования и попытке просмотра лога парсер мог упасть
    • В Тестировщике заданий при закрытии окна с активным заданием появлялась ошибка
    • В парсере [​IMG] SE::Yandex::Biggrin:irect::Frequency некоторые фразы не обрабатывались при использовании аккаунтов, а также некорректно передавалось гео без использования аккаунтов
    • Макрос $pagenum в парсере [​IMG] Net::HTTP переставал работать если после него были указаны символы
    • Парсер [​IMG] SE::Google::TrustCheck не работал совместно с антигейтом
    --- Добавлено 7.4.2016---
    A-Parser - 1.1.481 - множество оптимизаций скорости, использование пресетов в цепочках и планировщике

    [​IMG]

    В этой версии был внедрен ряд качественных улучшений, призванных увеличить предельную скорость парсинга:
    • Быстрая обработка UTF-8, прирост скорости на некоторых задачах до 1.5х
    • Внедрен механизм анализа используемых переменных в результатах, что позволяет оптимизировать скорость извлекая только требуемые данные. Первым оптимизированным парсером стал [​IMG] SE::Google: двукратный прирост предельной скорости парсинга при сборе только ссылок(7000-10000 запросов в минуту, по 100 результатов на запрос, другими словами теперь можно получить 1 миллион ссылок за 1-1.5 минуты)
    • Теперь информация о запросах $response формируется только по требованию
    • Оптимизирована работа шаблонизатора при использовании множества парсеров в одном задании
    Другие улучшения:
    • Теперь при использовании опции "Запустить задание по завершению" используется имя пресета вместо номера задания из очереди
    • В планировщике заданий также используется имя пресета, что позволяет очищать очередь без риска потерять сохраненные задания для планировщика
    Исправления в связи с изменениями в выдачи:
    • [​IMG] SE::Google - поиск по блогам, также увеличена скорость парсинга за счет изменения запросов
    • [​IMG] SE::Yahoo, [​IMG] SE::Biggrin:uckDuckGo, [​IMG] SE::AOL
    Исправления:
    • В парсере [​IMG] Rank::Archive исправлена логика при обработке ошибки 403 Forbidden
    • Исправлено падение при изменении числа потоков в задании
    • Исправлена поддержка TLS для некоторых сайтов
    • Исправлено зависание задания при падении воркера
    • Теперь задание можно остановить если оно находится в режиме ожидания слота
    • Исправлена работа опции "Сохранять размер окна"
    • Исправлена ошибка в [​IMG] HTML::LinkExtractor при работе опции Parse to level в случаях когда сайт отдал редирект на другую страницу
     
    Dark нравится это.
  5. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    Сборник рецептов #13: сохраняем результат в файл дампа SQL и знакомимся с $tools.query

    13-й выпуск Сборника рецептов. В нем мы научимся сохранять результат в файл дампа SQL, который будет сразу готов для импорта в базу данных; познакомимся с очень полезным инструментом $tools.query, с помощью которого можно объединять несколько заданий в одно и делать другие интересные вещи; а также увидим еще несколько полезных рецептов.

    Вывод результата в формате дампа SQL
    С вопросом "можно ли сохранять результаты сразу в базу данных" очень часто обращаюся пользователи в техподдержку. И так, как на данный момент напрямую сохранять результаты в БД нет возможности (но планируется), то предлагаю вариант выводить их в файл дампа, а потом импортировать в базу данных. Как это делается - показано по ссылке выше.
    [​IMG]

    Обзор инструмента $tools.query
    $tools.query довольно часто встречается в примерах на форуме. В А-Парсере этот инструмент появился уже больше года назад, но обзора по нему до этого времени не было выпущено. Поэтому мы исправляемся и по ссылке выше вы сможете ознакомиться с некоторыми его возможностями.
    [​IMG]

    Еще несколько рецептов:
    Еще больше различных рецептов в нашем Каталоге примеров!

    Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

    Предыдущие сборники
     
    Dark нравится это.
  6. Dark

    Dark Рулевой Администрация

    Регистрация:
    04.10.05
    Сообщения:
    9.342
    Симпатии:
    391
    Forbidden, все лучше и лучше!!!
     
    Forbidden нравится это.
  7. Silverstorm

    Silverstorm V.I.P

    Регистрация:
    05.10.05
    Сообщения:
    2.886
    Симпатии:
    205
    Forbidden, на днях хотел купить :) но сапорт не ответил на вопросы понятным образом:

    1. требования к серверу относительно языка (это php, python, go) ?
    2. как правильно оплатить пайпелом? будет какой-то инвойс (хотя бы что-то похожее)? корп карта.
    3. есть ли доступ к сорцам?
    4. что происходит если не оплачивать апдейты и как их оплачивать с перерывами? (для нас парсинг это дело раз в пару месяцев)
     
  8. sklip

    sklip Well-Known Member

    Регистрация:
    25.01.11
    Сообщения:
    1.569
    Симпатии:
    104
    Silverstorm
    3) нету
    4) работает старая версия, но если к примеру гугл изменил выдачу и поправили это в апарсере ты не сможешь парсить
     
    Dark нравится это.
  9. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    1. требований нет, процедура установки легкая и описана тут Установка и обновление | A-Parser - парсер для профессионалов SEO
    2. при оплате выбрать PayPro, будет какой то инвойс красивый
    3,4 склип ответил ), сорцов нет, можешь использовать без апдейтов, сколько угодно, когда понадобится - заплатишь(за прошлое время платить ненадо), по умолчанию 6 мес апдейтов включено
     
  10. Silverstorm

    Silverstorm V.I.P

    Регистрация:
    05.10.05
    Сообщения:
    2.886
    Симпатии:
    205
    Forbidden нравится это.
  11. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    A-Parser - 1.1.500 - использование разных источников прокси в разных заданиях и парсерах

    В этой версии проделана большая работа по улучшению проверки прокси и добавлению возможности использования разных источников прокси:
    [​IMG]
    • Появилась возможность запускать сразу несколько прокси чекеров, каждый поддерживает собственные настройки и собственный рабочий каталог с возможностью указать различные источники проксей
    • В настройках задания, появилась возможность указать прокси от каких чекеров должны использоваться(выбор между всеми или перечисление конкретных)
    • Более того в одном задании каждый парсер может использовать различные источники прокси
    • Добавлен график живых прокси и статистика по обработке источников
    • Уменьшено потребление памяти при большом числе живых прокси
    • В API теперь возможно получить список всех живых прокси, а также список прокси для конкретных прокси чекеров
    Благодаря этим нововведениям появилась возможность раздельной работы с разными прокси серверами, когда одни прокси подходят для парсинга сайтов, другие лучше для парсинга выдачи поисковых систем, а третьи могут быть "заточены" под определенный сервис

    Другие улучшения:
    • Для парсера [​IMG] Rank::CMS добавлена опция эмуляции браузера, она включена по умолчанию и повышает процент распознавания многих CMS
    • В редакторе заданий появилась возможность сворачивать парсеры, что позволяет удобнее работать с большими заданиями
    Исправления в связи с изменениями в выдачи:
    • [​IMG] Rank::MajesticSEO, [​IMG] SE::Yandex, [​IMG] Rank::Archive, [​IMG] SE::Google::Images, [​IMG] SE::Google::TrustCheck, [​IMG] SE::Yandex::Catalog
    Печальная новость коснулась [​IMG] SE::Google::Blum1:R - Google прекратил отображать PageRank для сайтов, но у нас в арсенале есть множество парсеров для гораздо более точной оценки рейтинга домена!
     
  12. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    A-Parser: видео урок - сбор отзывов о компании

    Денис Бартаев рассказывает, как собрать отзывы о компании в необходимом регионе:



    • Парсинг отзывов с популярного сервиса
    • Работа с парсером Net::HTTP, переход по сайту в глубину
    • Использование конструкторов запросов и результатов
    • Получение нескольких элементов контента одним регулярным выражением
    • Работа с асинхронными запросами в A-Parser
    • Просмотр результата в табличном виде в Excel

    Подписывайтесь на наш канал!

    Оставляйте в комментариях свои идеи и пожелания для будущих видео
     
    Dark нравится это.
  13. Dark

    Dark Рулевой Администрация

    Регистрация:
    04.10.05
    Сообщения:
    9.342
    Симпатии:
    391
    Хочу поделиться : А-парсер, офигенная вещь. Поставил задачу на проверку 116 миллионов доменов для определения CMS, 1000 потоков, нагрузки на сервер практически нет, LA 0.5. Файл с доменами - 2 гигабайта.
    Forbidden - шикарный софт, шикарный! Молодец.

    ps. желающим приобрести - в подписи клик.
     
    Forbidden нравится это.
  14. Pau

    Pau V.I.P

    Регистрация:
    30.07.08
    Сообщения:
    947
    Симпатии:
    141
    не
    Оффтоп если без соксов то не нахватай автоабуз от криво настроенных серверов и паникующих хостеров.
    Я когда чекал 2 раза пришлось переезжать из-за этого.
     
  15. Dark

    Dark Рулевой Администрация

    Регистрация:
    04.10.05
    Сообщения:
    9.342
    Симпатии:
    391
    Pau, на соксах я это год проверять буду.
     
  16. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    Все от хостера зависит, обычно hetzner паникер
     
  17. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    1.1.532 - парсинг регистратора в Whois, множество исправлений

    Улучшения

    • В парсере [​IMG] Net::Whois добавлен парсинг названия регистратора домена

    Исправления в связи с изменениями в выдачи

    • [​IMG] SE::YouTube, [​IMG] SE::AOL, [​IMG] [noparse]SE::Biggrin:ogpile[/noparse], [​IMG] SE::Yandex

    Исправления

    • Исправлено падение при использовании JavaScript(tools.js) на Windows, также исправлена некорректная работа на Linux
    • Исправлена проблема с логином на некоторых аккаунтах Яндекса
    • Исправлено определение ранка в парсере [​IMG] Rank::Alexa для доменов с www.
    • Исправлена работа с некоторыми доменными зонами в парсере [​IMG] Net::Whois, а также отображение статуса для некоторых зон
    • Исправлено падение [​IMG] Rank::CMS при использовании опции -nofork
    • Исправлены проблемы в работе нового прокси чекера: отключение чекера при изменении настроек, переопределение чекера в задании, а также проблема с отображением в некоторых браузерах
    • Исправлена работа опции Prepend/Append text в некоторых случаях
     
  18. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    A-Parser - 1.1.566 - кэширование запросов, удобная работа с настройками, множество улучшений

    [​IMG]
    Улучшения
    • Теперь для парсеров [​IMG] Net::HTTP, [​IMG] HTML::TextExtractor, [​IMG] HTML::LinkExtractor, [​IMG] Rank::CMS кэшируются одинаковые HTTP запросы при использовании любой комбинации из этих парсеров в одном задании, что исключает выполнение повторных запросов к одному URL, как следствие растет скорость, уменьшается нагрузка на целевые сайты
    • Добавлена опция Max connections per host позволяющая ограничить максимальное число одновременных подключений к одному домену/IP
    • Добавлена опция Global proxy ban позволяющая расшарить статистику по бану проксей между заданиями
    • В парсере [​IMG] HTML::LinkExtractor улучшено отображение табличных данных и списков
    • В парсере [​IMG] SE::Yandex::WordStat добавлена возможность указать минимальную частотность для добавления запроса на вложенный парсинг
    • В парсере [​IMG] SE::Yandex добавлена опция Parse all results позволяющая автоматически обходить ограничение на размер выдачи и собирать гораздо больше результатов
    • В редакторе заданий добавлена функция Copy overrides позволяющая копировать настройки из одного парсера в другой
    • В редакторе заданий добавлена функция Save overrides to preset позволяющая создать новый пресет на основе переопределенных значений
    • При просмотре логов с опцией "Только неудачные" теперь отображаются только те потоки, в которых были неудачные запросы
    • При использовании xPath совместно с сохранением отдельных запросов в один массив данные заполняются равномерно
    • В очереди заданий добавлена дата последнего изменения задания при отображении в компактном виде
    • В очереди заданий добавлена возможность скачать файл результатов при незавершенном парсинге
    • При использовании опции "Сохранять неудачные запросы" теперь дополнительно сохраняются оригинальные запросы для всего задания
    • Добавлена опция Report captcha - распознанные Google каптчи отправляются на наш сервер для анализа, включена по умолчанию
    Исправления в связи с изменениями в выдаче
    • [​IMG] SE::Yandex, [​IMG] Rank::DMOZ, SE::AOL
    Исправления
    • Исправлена проблема с большим потреблением памяти на ОС Windows
    • Исправлено неверное сохранение параметра уникализации в некоторых случаях
    • Не работала замена на группы в регулярных выражениях в Конструкторе запросов
    • В парсер HTML::LinkExtractor исправлен парсинг ссылок с пробелами
    • Исправлена проблема с отображением заданий в очереди с большим числом запросов добавленных через текстовое поле
     
  19. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    A-Parser: видео урок - парсим Rambler с XPath

    Денис Бартаев рассказывает, как в несколько кликов создать парсер любой поисковой системы на примере Rambler.ru. Мы получим всю необходимую информацию: ссылки, анкоры, сниппеты, число результатов, связанные ключевые слова и проверку на опечатку в запросе.



    В уроке рассмотрены
    • Использование XPath для создания кастомного парсера
    • Обход капчи без использования Antigate
    • Использование Template toolkit для форматирования результата
    • Объединение результатов парсинга в массив объектов с полями, связанными по индексу

    Подписывайтесь на наш канал!

    Оставляйте в комментариях свои идеи и пожелания для будущих видео
     
    Dark нравится это.
  20. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    A-Parser - 1.1.594 - Улучшение скорости парсинга Google в 10-20 раз

    [​IMG]

    После ужесточения парсинга со стороны гугла A-Parser стал парсить его быстрее чем раньше, результаты тестирования парсинга в 1000 потоков, 1 страница по 100 результатов - более 4000 запросов в минуту

    [​IMG]

    Улучшения
    • Переработан парсер [​IMG] SE::Google - увеличена скорость парсинга в 10-20 раз
    • Названия пресетов заданий теперь сортируются при добавлении
    Исправления
    • [​IMG] SE::Google - исправлена обработка каптчи в связи с изменением выдачи
    • [​IMG] Net::Whois - исправлена работа с некоторыми зонами
    • [​IMG] SE::Yandex::Register - исправлена работа с каптчей при регистрации аккаунта
    • Исправлено отображение дебаг информации для прокси чекеров
     
  21. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    A-Parser - 1.1.619 - большая оптимизация потребления памяти, увеличение скорости парсинга Яндекса

    [​IMG]

    В этой версии проделана большая работа по оптимизации потребления памяти, а также стабильной работе парсера 24/7 с множеством числом заданий

    Улучшения
    • Уменьшение потребления памяти
    • Оптимизация парсера [​IMG] SE::Yandex - увеличение предельной скорости парсинга в 2.5 раза(~1500 запросов минуту, i7-4770)
    Исправления в связи с изменениями в выдаче
    • [​IMG] SE::Google, [​IMG] SE::AOL, [​IMG] SE::Yandex, [​IMG] SE::Biggrin:ogpile, [​IMG] SE::YouTube, [​IMG] SE::Bing
    Исправления
    • Исправлен [​IMG] SE::Google при работе с антигейтом: неверная обработка запросов со скобками и очень длинных запросов
    • Исправлен [​IMG] Net::HTTP - при выполнении цепочки редиректов теперь передается оригинальный реферер
    • Исправлена работа с сессиями в [​IMG] SE::Yandex::WordStat
     
  22. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    A-Parser - 1.1.626 - парсер Яндекс картинок, поддержка каптчи при логине в Яндекс, удаление нерабочих аккаунтов

    [​IMG]

    В версии 1.1.626 добавлена поддержка каптчи при логине в Яндекс аккаунт в парсерах [​IMG] SE::Yandex, [​IMG] SE::Yandex::WordStat и [​IMG] SE::Yandex::Direct::Frequency:

    [​IMG]

    Также для этих парсеров добавлена настройка Remove bad accounts, которая автоматически удаляет аккаунты с неверным логин/паролем или требующие подтверждения по телефону. Опция включена по умолчанию

    Добавлен новый парсер картинок [​IMG] SE::Yandex::Images, поддерживает все фильтры(размер, ориентация, тип, цвет, тип файла...). Как известно Яндекс отлично индексирует все картинки для взрослых - отличный способ набрать контента для своих доров/тюбов. В дополнении есть возможность выставить безопасный поиск

    [​IMG]

    Парсер Яндекс картинок также поддерживает работу с антигейтом(anti-captcha, rucaptcha, CapMonster - любой сервис с поддержкой API антигейта)

    Исправления в связи с изменениями в выдачи
    • [​IMG] SE::DuckDuckGo
     
  23. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    Сборник рецептов #15: анализируем скорость и юзабилити сайтов, парсим Яндекс.Картинки и Baidu

    15-й выпуск Сборника рецептов. В нем мы будем парсить Google PageSpeed Insights, который позволяет оценивать скорость загрузки, юзабилити сайтов и даже получать их скриншоты; сделаем кастомный парсер Яндекс.Картинок и научимся получать полные ссылки из выдачи Baidu. Поехали!

    Анализ скорости загрузки и юзабилити сайтов
    У Google есть довольно неплохой сервис PageSpeed Insights, который измеряет скорость загрузки веб-страниц, оценивает их юзабилити и даже делает скриншоты страниц. При этом оценивается обычная и мобильная версия парсера. Поэтому мы не могли обойти стороной такой сервис и не сделать для него парсер. О том, что получилось - читайте по ссылке выше.
    [​IMG]

    Кастомный парсер Яндекс Картинок
    На форуме неоднократно спрашивали когда в А-Парсер будет добавлен парсер картинок Яндекса. На данный момент такой парсер уже есть: [​IMG] SE::Yandex::Images. Но в данной статье будет показан пример кастомного парсера Яндекс.Картинок, который довольно хорошо демонстрирует возможности [​IMG] Net::HTTP. Подробности - по ссылке выше.
    [​IMG]

    Как получить полные ссылки из Baidu
    Также довольно часто спрашивают как получить полные ссылки из Baidu. Дело в том, что этот поисковик обрезает ссылки в выдаче, и на выходе получаются ссылки такого вида:
    Поэтому в данной статье будет показан способ получения полных ссылок с помощью A-Parser.
    [​IMG]

    Кроме этого:

    Еще больше различных рецептов в нашем Каталоге примеров!

    Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

    Предыдущие сборники:
     
    Dark нравится это.
  24. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    A-Parser - 1.1.652 - динамический лимит потоков, поддержка цифровой каптчи для Google

    [​IMG]

    В версии 1.1.652 добавлена поддержка динамического лимита потоков, позволяющая распределить лимит между всеми запущенными заданиями, тем самым увеличивается общая скорость выполнения заданий в очереди

    Помимо этого парсер [​IMG] SE::Google теперь поддерживает работу с цифровыми каптчами, а сервис Cheap-Captcha предоставил пользователям A-Parser уникальную скидку: всего 25 центов за 1000 распознанных каптч

    Улучшения
    • Теперь A-Parser пропускает пустые запросы, это улучшение расширяет логику обработки запросов
    • В парсере [​IMG] Net::HTTP не передаются пустые хедеры
    • В парсере [​IMG] SE::Yandex::WordStat теперь корректно определяются аккаунты с заблокированной функцией парсинга вордстата
    Исправления в связи с изменениями в выдачи
    • [​IMG] SE::Yandex, [​IMG] SE::AOL
    Исправления
    • В парсере [​IMG] SE::Yandex::WordStat исправлена работа при редиректе на региональный домен, а также исправлена работа с устаревшими сессиями
    • [​IMG] Net::Whois не корректно работал с зоной .tr
    • В парсере [​IMG] SE::Google невозможно было получить исходник страницы($data) при использовании антигейта
    • В парсере [​IMG] SE::Yandex не сохранились сессии при использовании аккаунтов
     
  25. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
  26. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    A-Parser - 1.1.669 - 64 битная Linux версия, проверка позиций по множеству доменов

    [​IMG]

    Начиная с версии 1.1.669 A-Parser доступен в 64 битной версии для Linux, основные преимущества:
    • уменьшение потребления памяти
    • больше нет ограничений на максимальное потребление памяти в 4Гб, что позволит запускать больше заданий одновременно и в большее число потоков
    Напоминаю что A-Parser одинаково хорошо работает на Windows, Linux и FreeBSD

    Другая хорошая новость - сервис Cheap-Captcha.com дарит всем пользователям A-Parser'а $5 на разгадывание 20000 каптч для Google или Яндекса

    Улучшения
    • Все парсеры позиций в поисковых системах([​IMG] SE::Google::Position, [​IMG] SE::Yandex::Position, ...) теперь поддерживают съем позиций сразу по нескольким доменам
    • Для парсера [​IMG] SE::Yandex добавлена возможность указать язык результатов поиска
    Исправления в связи с изменениями в выдаче
    • [​IMG] SE::Google, [​IMG] SE::Yandex, [​IMG] SE::DuckDuckGo, [​IMG] SE::Yandex::Direct::Frequency
    Исправления
    • В предыдущий версии появилась ошибка в обработке нескольких ключевых слов за один запрос в парсере [​IMG] SE::Yandex::Direct::Frequency
    • Очистка очереди заданий работала некорректно
     
    Dark нравится это.
  27. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    Сборник рецептов #16: парсинг OpenSiteExplorer с авторизацией, Яндекс.Каталога и Яндекс.Новостей

    16-й выпуск Сборника рецептов. В нем мы научимся парсить OpenSiteExplorer с авторизацией, попробуем забирать все сайты из Яндекс.Каталога и сделаем парсер Яндекс.Новостей. Поехали!

    Парсинг OpenSiteExplorer (MOZ) с авторизацией
    С помощью рассмотренного в статье способа, можно парсить OSE с авторизацией, что в свою очередь позволяет обходить ограничение на 10 запросов с одного IP в сутки. Плюс ко всему, значительно расширен набор возвращаемых параметров по сравнению со стандартным парсером. Кроме этого, можно совсем не использовать прокси, что дает значительный прирост в скорости! Сам пресет и описание - по ссылке выше.
    [​IMG]

    Парсинг всех сайтов из указанной категории Я.Каталога
    Многие пользователи A-Parser неоднократно спрашивали о возможности спарсить все сайты из Яндекс.Каталога. Поэтому мы публикуем сам пресет и подробное описание процесса его создания и работы. Все это - по ссылке выше.
    [​IMG]

    Как парсить Яндекс.Новости?
    В А-Парсере в стандартном парсере Google можно парсить новости. А вот для Яндекса на данный момент нету такой возможности. Но решается это довольно просто. Как именно - читайте по ссылке выше. Плюс бонусом небольшой пресет для парсинга подсказок из Я.Новостей - еще один способ парсить ключевые слова :)
    [​IMG]

    Кроме этого:


    Еще больше различных рецептов в нашем Каталоге примеров!

    Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

     
    Dark нравится это.
  28. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    A-Parser - 1.1.681 - обход защиты CloudFlare, улучшения в конструкторах запросов

    [​IMG]
    В версии A-Parser 1.1.681 добавлен автоматический обход проверки CloudFlare на браузер, тем самым позволяя собирать информацию с сайтов под защитой самого популярного облачного провайдера. Работает в парсерах [​IMG] Net::HTTP, [​IMG] HTML::LinkExtractor и [​IMG] HTML::TextExtractor

    В конструкторах запросов улучшена логика при разделении запроса на части

    Исправления в связи с изменениями в выдачи
    • [​IMG] SE::Yandex - пропускались некоторые ссылки
    • [​IMG] SE::MailRu, [​IMG] SE::Baidu
    Исправления
    • Исправлена поддержка тега meta http-equiv в парсере [​IMG] Net::HTTP
    • Теперь x64 Linux версия A-Parser запускается на всех современных дистрибутивах
    • В парсере [​IMG] SE::Yandex::Direct::Frequency исправлена ошибка, которая могла приводить к зацикливанию запросов
    • Исправлена ошибка в Тестировщике заданий, при которой не очищался результат предыщущего парсинга
     
  29. NikoShark

    NikoShark V.I.P

    Регистрация:
    21.06.07
    Сообщения:
    157
    Симпатии:
    33
    Бро, машина огонь! Спасибо за нее!
     
    Dark, Forbidden и JpS нравится это.
  30. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    Здесь было много текста с картинками какую крутую версию мы выпустили, а также новогодний розыгрыш лицензий. Но форум похерил все картинки, так что читайте тут https://a-parser.com/threads/2912/ ))
     
  31. Dark

    Dark Рулевой Администрация

    Регистрация:
    04.10.05
    Сообщения:
    9.342
    Симпатии:
    391
    Forbidden, что не так с картинками ? Пиши в лс, будем разбираться
     
    Forbidden нравится это.
  32. Webaz

    Webaz V.I.P

    Регистрация:
    20.10.06
    Сообщения:
    2.009
    Симпатии:
    46
    Машина реально крутая, теперь нужно JS учить)) чтобы пересеты делать)
     
    Forbidden нравится это.
  33. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    1.1.726 - новые возможности планировщика, множество исправлений

    [​IMG]

    Улучшения

    • В планировщик добавлена возможность ежемесячного запуска заданий, с возможностью выбрать определенный день месяца
    • В планировщике теперь можно указать уникальность задания, если задание активно в очереди то при попытке его запуска через планировщик оно будет отложено до следующего запуска
    • Файл логов задания теперь удаляется одновременно с удалением задания
    • В тестовом парсинге улучшен дебагер и предпросмотр HTML кода

    Исправления в связи с изменениями в выдачи
    • [​IMG] SE::YouTube, [​IMG] Rank::Biggrin:MOZ, [​IMG] Rank::Mustat, [​IMG] SE::Biggrin:ogpile, [​IMG] SE::Ask, [​IMG] SE::AOL

    Исправления

    • В парсере [​IMG] Net::Whois исправлен парсинг дат для множества доменных зон
    • Функция добавления ! перед каждым словом(для снятия частотности по WordStat) в некоторых случаях работала некорректно
    • Исправлена ошибка при работе прокси с использованием только одной попытки(Request retries)
    • Исправлена ошибка при которой парсер падал при неверно составленном Конструкторе результатов
    • В некоторых случаях использование XPath могло приводить к зависанию парсера
    • В парсере [​IMG]SEO::Blum1:ing исправлена обработка ответов для некоторых сервисов
    • В некоторых случаях ошибка задания могла отображаться некорректно


    Так же, мы хотели бы ещё раз поздравить наших победителей которые получили лицензии A-Parser'a: Сергея Чернова, Романа Лисина и Илью Нечаева. Поздравляем вас ещё раз!

     
    Dark нравится это.
  34. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    1.1.743 - исправлен парсер Яндекса, множество исправлений в JavaScript парсерах

    [​IMG]

    В версии 1.1.743 выпущено множество исправлений для JavaScript парсеров, а также добавлены новые примеры: определение языка страницы через Яндекс переводчик и сбор текстовки по ключевому слову одним заданием(на выбор через Google или Яндекс)

    Улучшения
    • В JavaScript парсерах добавлена возможность создавать новые запросы(this.query.add)
    • В парсере [​IMG]SE::Yahoo теперь определяется бан прокси по IP
    • Добавлен параметр, позволяющий A-Parser'у работать с файлами запросов и результатов вне рабочего каталога
    Исправления в связи с изменениями в выдаче
    • [​IMG]SE::Yandex - парсил только первую страницу выдачи
    • [​IMG] SE::Google::Trends - использовал все попытки если по ключевому слову не было данных
    Исправления
    • Исправлена работа опции Max threads per proxy(максимальное число потоков на одну прокси)
    • В парсере [​IMG] HTML::LinkExtractor исправлен парсинг ссылок с фрагментом(#)
    Исправления в JavaScript парсерах
    • Настройки checkbox воспринимались некорректно
    • Исправлена ошибка в работе this.cookies.setAll
    • В интерфейсе не отображались измененные параметры конфига
    • Исправлены утечки памяти
    • Исправлено игнорирование параметра success
    • Исправлено поведение при использовании Override настроек
    • Исправлена ошибка при получении результатов из другого парсера
     
    Dark нравится это.
  35. Dart

    Dart V.I.P

    Регистрация:
    01.10.16
    Сообщения:
    609
    Симпатии:
    208
    Столкнулся я тут с проблемой в Bing (ну и у Yahoo та же херня) при парсинге выдачи сотен тысяч ключей. Паршу в 100 потоков, 1128 проксей юзаю из них 1000 - от fineproxy микс и еще свои 128 приватных проксей (есть делэй несколько минут между запросами, разово паршу где-то 1000 ключей, потом таймаут есть). В какой-то момент проксям отдается результат совсем не по тому ключу, который парсил, полная белиберда, но если попробовать без прокси, то отдаст нормальный резалт. Я так понимаю проблема таки в проксе? Если я ваш какой-нибудь прокси-тариф, например, на 100 потоков возьму - такой херни не будет?
     
  36. Webaz

    Webaz V.I.P

    Регистрация:
    20.10.06
    Сообщения:
    2.009
    Симпатии:
    46
    Dart, интересный баг