1. Вы находитесь на форуме клуба BlackSEO.

    Здесь собрались настоящие профессионалы, накопившие большой опыт в сфере создания и продвижения сайтов. Своими знаниями и умениями они выделяются на фоне общей массы оптимизаторов. Участники форума постоянно выносят на обсуждение задачи, которые всегда на несколько шагов впереди публичных дискуссий, что делает BlackSEO лучшим местом для общения на любые темы, начиная с бизнеса и заканчивая отдыхом.
    Скрыть объявление

A-Parser - многофункциональный парсер SE, PR, TrustRank, DMOZ, WHOIS etc.

Тема в разделе "Реклама и анонсы партнерок и сервисов", создана пользователем Forbidden, 19.4.2012.

  1. syncmater

    syncmater V.I.P

    Регистрация:
    03.10.10
    Сообщения:
    295
    Симпатии:
    7
    Подскажите как добавить к парсингу Net::HTTP фильтр. Паршу и сохраняю линки определеные. Но идет много лишнего, нужно узказать файл.тхт или просто список строк видя которые не должно идти в результат. Как одиночный фильтр добавить нашел, а как списком сделать не знаю
     
  2. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
  3. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    A-Parser - 1.1.162 - новые парсеры Seznam и подсказок AOL, уменьшено потребление памяти на 40%

    Улучшения
    • [​IMG] SE::Seznam - парсер чешской поисковой системы seznam.cz
    • [​IMG] SE::AOL::Suggest - парсер подсказок с поисковой системы AOL
    • Уменьшено начальное потребление памяти на 40%
    • В парсере [​IMG] Net::HTTP добавлена возможность указать произвольные заголовки запроса, с поддержкой возможностей шаблонизатора
    • Добавлена опция позволяющая сохранять параметры окна интерфейса A-Parser
    • Добавлена возможность пропускать обновления на определенную версию
    • Улучшено отображение интерфейса при изменении размеров окна и растягивании на весь экран
    • Добавлен параметр командной строки -nofork позволяющий отключить многоядерную обработку результатов
    Исправления
    • Исправлено отображение текущий версии A-Parser для пользователей Lite версии
    • Исправлена работа тестового парсинга с некоторыми ресурсами
    • Исправлен парсер [​IMG] Rank::Ahrefs в связи с изменением в выдаче
    • Исправлена работа опции Use pages для парсера [​IMG] Net::HTTP при использовании перебора запросов
     
  4. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    A-Parser - 1.1.177 - Новый модуль SEO::Blum1:ing и парсер Rank::Mustat, улучшения в интерфейсе

    Улучшения
    • Новый модуль [​IMG] SEO::Blum1:ing - массовая отправка Ping запросов в сервисы поддерживающие Weblog API(Google Blog Search, Feed Burner, Ping-o-Matic и т.п.)
    • Новый парсер [​IMG] Rank::Mustat - оценка трафика на сайте, также стоимость и рейтинг домена
    • Для парсера [​IMG] Net::Whois добавлена возможность вручную указать адрес whois-сервера
    • В поле Additional headers парсера [​IMG] Net::HTTP теперь возможно использовать переменные из конструктора запросов
    • Добавлена опция позволяющая перезаписывать файл результата
    • Добавлена возможность поиска пресета задания по названию
    • Автоматическая прокрутка к выбранному элементу во всех списках в интерфейсе парсера
    • В очереди заданий теперь отображаются названия пресетов

    Исправления
    • Парсер [​IMG] Rank::Ahrefs исправлен в связи с изменением в выдачи
    • Исправлен вывод Raw results для парсера [​IMG] Net::Whois
    • Исправлен вывод порядкового номера запроса $query.num
    • Исправлена работа метода API bulkRequest
     
  5. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    A-Parser - 1.1.200 - возможность добавлять запросы на основе результатов парсинга, множество исправлений


    Улучшения

    • Добавлена возможность добавлять новые запросы на основе результатов парсинга, что позволяет составлять более продвинутые пресеты по сбору данных
    • Парсер [​IMG] SE::Google::Images теперь парсит без https
    • Добавлена возможность ограничить максимальное число соединений на один прокси сервер
    • В API добавлена возможность удалять файл результата
    • Обновлен Perl модуль по работе с API AParser.pm
    • В Конструкторе результатов теперь автоматически подставляются имена результирующих переменных
    • Добавлена возможность использовать запрос $query в настройке Extra query string

    Исправления

    • В парсере [​IMG] SE::Yandex исправлена обработка каптчи, переход по страницам и парсинг времени кэширования, в связи с изменением в выдачи
    • Исправлена возможность сохранять бинарные данные(скачивать картинки, видео, документы...)
    • Исправлен вывод запроса после форматирования для конкретного парсера, используя конструкцию $p1.query.query
    • Исправлена кодировка при сохранении неудачных запросов
    • Исправлена ошибка, при которой задания могли не удалятся из очереди
    • Исправлена кодировка в именах файлов результатов
    • В парсере [​IMG] HTML::LinkExtractor исправлена работа при переходе одновременно по внутренним и внешним ссылкам
    • При использовании нескольких парсеров и опции Parse to level в некоторых случаях могли накапливаться запросы что приводило к утечке памяти
    • Исправлен вылет парсера при использовании некоторых регулярных выражений
    • Исправлена обработка относительных путей в парсере [​IMG] Net::HTTP при использовании опции Next Page Regex
    • Исправлен парсинг количества результатов в парсере [​IMG] SE::Google при использовании арабской локализации
    • Исправлена блокировка файла после завершения задачи при использовании нескольких файлов результатов
    • Исправлен парсер [​IMG] Rank::Ahrefs в связи с изменением в выдачи
    • Исправлена ошибка работы с исходным кодом страницы в парсере [​IMG] SE::Google
     
  6. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    Демо версия A-Parser

    Рады представить онлайн демо версию A-Parser, в которой можно ознакомиться со всеми возможностями перед покупкой парсера или перед переходом на новую версию

    Демо версия предоставляет доступ к A-Parser установленному на нашем сервере, период тестирования - 6 часов, по истечению этого времени все настройки автоматически будут сброшены

    Ограничения демо версии:
    • Результаты парсинга не доступны для загрузки
    • Максимальное число потоков - 100
    • Парсинг возможен только с использованием прокси
     
  7. Dark

    Dark Рулевой Администрация

    Регистрация:
    04.10.05
    Сообщения:
    9.342
    Симпатии:
    391
    Попробовал новую версию - это просто феерический оргазм! Forbidden, супер софт!
     
  8. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    A-Parser - 1.1.224 - улучшенные возможности по уникализации результатов, множество исправлений

    Все возможности новой версии можно протестировать в демо версии A-Parser

    Улучшения

    • Добавлена возможность уникализировать результаты созданные с помощью Конструктора результатов
    • Добавлена возможность передавать дополнительные параметры на сервис распознавания каптчи(например специальные настройки для CapMonster)
    • В парсер [​IMG] SE::Bing::Images добавлена возможность отключить безопасный поиск
    • В парсер [​IMG] SE::YouTube добавлен фильтр по 4K видео
    • Добавлена возможность применять Конструктор запросов после подстановок запросов
    • В парсер [​IMG] SE::Bing добавлена возможность парсить связанные кейворды в глубину, автоматически подставляя новые кейворды в запросы(Parse to level)
    • Переработан выбор файлов запросов, теперь вложенные директории отображаются только при клике по ним

    Исправления в связи с изменениями в выдачи

    • Исправлен парсер [​IMG] SE::Yandex::WordStat
    • Исправлен парсер [​IMG] SE::Yahoo
    • Исправлен парсер [​IMG] SE::AOL
    • Исправлен парсинг связанных ключевых слов в парсере [​IMG] SE::Bing
    • Исправлен парсинг времени последнего кэширования страницы в парсере [​IMG] SE::Yandex
    • Исправлен регистратор аккаунтов [​IMG] SE::Yandex::Register
    • Исправлен парсинг связанных ключевых слов в парсере [​IMG] SE::Yandex


    Исправления

    • Некорректно работала опция сохранения переноса строк для Windows (CRLF)
    • Иногда задание могло зависнуть в состоянии pausing/stopping
     
  9. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    A-Parser - 1.1.247 - новые парсеры поисковиков Ask и Comcast, произвольные шаблоны в конструкторе результатов

    Улучшения

    • В конструкторе результатов и фильтрах теперь возможно использовать произвольный шаблон в качестве аргумента для преобразования или фильтрации
    • В парсер [​IMG] SE::Yandex добавлена возможность выбора домена yandex.com для парсинга
    • Добавлен новый поисковик [​IMG] SE::Ask с американской выдачей Google
    • Добавлен новый поисковик [​IMG] SE::Comcast с американской выдачей Google
    • Добавлена статистика для завершенных заданий, а также отображение общего времени выполнения задания
    • Добавлен объект $request, который доступен при форматировании результата и позволяет извлечь любую информацию о текущем запросе, а также о всех редиректах выполненных перед конечным запросом
    Исправления

    • Парсер мог заблокировать файл результата после завершения задания
    • Исправлена некорректная обработка <base href= в некоторых случаях
    • Парсер вылетал при использовании инструмента генерации произвольного User-Agent tools.ua.random() в тестовом парсинге
    • В быстром задании не работал выбор запросов из файла
    • Некорректно обрабатывался редирект с автоматическим выбором схемы(ссылки вида //domain.com/)

    Исправления в связи с изменениями в выдачи

    • В парсере [​IMG] Rank::Alexa исправлен парсинг страны и регионального рейтинга
    • Улучшен парсинг тИЦ в парсере [​IMG] SE::Yandex::TIC
    • Исправлен парсер [​IMG] SE::Yahoo
    • Исправлено определение блокировки IP-адреса в парсере [​IMG] Rank::Ahrefs
    • Исправлен парсер [​IMG] SE::Yandex::WordStat::ByDate
    • Парсер [​IMG] Rank::Category перешел на семантический анализатор от Ашманова
     
  10. Dark

    Dark Рулевой Администрация

    Регистрация:
    04.10.05
    Сообщения:
    9.342
    Симпатии:
    391
    Forbidden, :siske::siske::siske::siske::siske:
    Молодцы!
     
  11. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    Программа LinkAParser - объединение функционала генератора PandoraBox и парсера A-Parser

    С помощью данного софта задействованы основные возможности парсера A-Parser при генерации сайтов программой PandoraBox.

    Обсуждение на форуме A-Parser'а и ссылка на сайт генератора

    Применяет возможности А-Парсера для:
    • Парсинга релевантного текста
    • Парсинга релевантных картинок
    • Парсинга релевантных видео роликов

    Понимает какие ключи уже обработаны и не парсит одно и тоже дважды
    С программой идут готовые пресеты, которые достаточно импортировать и можно запускать генерацию
    Спаршенные данные программа структурировано раскладывает в файлы и папки
    Спаршенный текст программа чистит от мусора по множеству признаков

    В комплекте с программой идет набор дополнительных макросов:
    • Макрос вывода релевантного текста с подмешанными ключами
    • Макрос вывода релевантного текста без ключей
    • Макрос вывода релевантной картинки
    • Макрос вывода релевантной картинки как локальной(проксирование скриптом)
    • Макрос вывода релевантного видео ролика
    Для работы необходима лицензия парсера A-Parser Enterprise
     
  12. Dark

    Dark Рулевой Администрация

    Регистрация:
    04.10.05
    Сообщения:
    9.342
    Симпатии:
    391
    Forbidden, Это круто, но на объеме работать не будет, и дело не в А-Парсере, а в пандоре, это же десктопная софтина, на дворе 21-й век, а народ все еще генерит десктопным софтом.
     
  13. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    ну по комментам кто то юзает :) видимо годно

    Оффтоп да потом в апарсере(или как его назвать уже незнаю) запилю мощный генератор
     
  14. Dark

    Dark Рулевой Администрация

    Регистрация:
    04.10.05
    Сообщения:
    9.342
    Симпатии:
    391
    Forbidden, Ты Ацкий Сотона!
     
  15. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    Сборник рецептов #3: мобильные сайты, несколько парсеров, позиции ключевых слов

    Итак, продолжаем серию статей с рецептами применения A-parser: комплексные примеры с одновременным использованием различного функционала парсера.

    Проверяем наличие мобильной версии для 1000000 сайтов

    Работаем с большими объемами данных и учимся искать совпадения в raw data.
    [​IMG]
    • за 8 часов работы данного задания мы узнали что почти 41% самых посещаемых сайтов не имеют мобильных версий. Кто знает, возможно обзаведясь мобильной версией, они стали бы еще более посещаемыми?

    По списку запросов получаем страницы, CMS, PR, e-mail из whois

    Комплексное задание, выполняемое в 2 этапа, в котором мы учимся работать с несколькими парсерами, регулярными выражениями, а также красиво выводим результаты во многоуровневые каталоги и несколько файлов.
    [​IMG]
    • на первом этапе используется 1 парсер, на втором - 3
    • в конструкторе результатов используется регулярное выражения для извлечения необходимой информации
    • результаты выводятся в виде вложенных папок и текстовых файлов по следующей схеме:
    Код:
    PR_1
         \Joomla
               \domain.com
                       contacts.txt
                       cache.txt
          \Drupal
          \WordPress
         \no CMS
    PR_2
    PR_3
    Узнать позиции по кеям, как?

    Знакомимся с парсером [​IMG] SE::Google::Blum1:osition и проверяем на каком месте в поисковой выдачи находится ключевое слово.
    [​IMG]

    Детальнее о самом парсере здесь.

    Предыдущие сборники:

    Сборник рецептов #4: поиск в выдаче, парсинг интернет-магазина и скачиваем файлы

    Очередной, 4-й выпуск сборника рецептов. Поехали!

    Анализ выдачи гугла на наличие ключа в тайтле и дескрипшене

    Пользуемся возможностями шаблонизатора Template Toolkit. Используем циклы и поиск. А также сохраняем разные результаты в разные файлы.
    [​IMG]
    В данном примере осуществляется поиск ключа в анкорах и сниппетах, и в зависимости от результата, сохраняет их в 1 из 3 соответствующих файлов. Все подробности, а также сохранение в 4-ре файла по ссылке выше.

    Парсинг товаров с сайта

    Парсим интернет-магазин и формируем свою HTML-страницу с результатами.
    [​IMG]
    Суть задания заключается в том, чтобы спарсить названия и характеристики товара из интернет-магазина, сохранив привязку к категории и фото товара. Как все это сделать - по ссылке выше.

    Скачиваем файлы

    Сохраняем на жесткий диск различные документы из поисковой выдачи, с определением их типа, а также возможностью формировать уникальное имя файла.
    [​IMG]
    Ну а здесь нам необходимо парсить из выдачи Гугла ссылки на документы формата doc, xls и pdf. Так же необходимо скачивать данные документы, при этом обеспечить уникальность имени файла. Детали - по ссылке выше.

    Предыдущие сборники:
     
  16. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    Сборник рецептов #5: ссылки из JS, паблик прокси и карта сайта

    5-й выпуск сборника рецептов. Здесь мы научимся парсить ссылки из страниц, где их подгружает JS-скрипт, будем собирать паблик прокси и составлять карту сайта.

    Подгрузка ссылок через JS
    Есть очень много сайтов, где контент загружается специальным скриптом (AJAX). К примеру, это может быть поиск на сайте. И как спарсить с таких сайтов информацию? Ведь если посмотреть код страницы в браузере - то, к примеру, ссылки там есть, а парсер их не видит... Решение есть, и оно довольно не сложное. Как это сделать - по ссылке выше.
    [​IMG]

    Сборщик паблик прокси: как лучше и насколько это эффективно
    Всем известно, что в интернете есть очень много сайтов, где выкладывают публичные прокси (что это на Википедии). Если возникает необходимость в использовании таких прокси - появляется проблема в их сборе, при этом, естественно нужны только живые. Наверное так же известно, что используя А-парсер, можно их собирать. А вот как это делать и насколько это эффективно - читайте по ссылке выше.
    [​IMG]

    Карта сайта с помощью A-parser
    Карта сайта простыми словами - это XML-файл, который помогает поисковикам лучше индексировать сайт. Некоторые SEOшники считают ее отсутствие грубейшей ошибкой. Существует очень много сервисов и инструментов для создания таких карт, ну а мы попробуем создать ее с помощью A-parser. Что из этого получится, и как это делать - читайте по ссылке выше.
    [​IMG]

    Предыдущие сборники:
     
  17. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    Сборник рецептов #6: парсим базу номеров телефонов и сохраняем результаты красиво

    6-й выпуск сборника рецептов. Здесь мы попробуем собирать скрытые номера мобильных телефонов из доски объявлений и научимся сохранять результаты работы А-парсера в таблицы с возможностью сортировки.

    Парсим базу мобильных телефонов
    Базы телефонов могут использоваться по-разному, но основной вид их использования - рассылка смс рекламного характера. А если базу еще и возможно отсортировать по городу, интересу или другим характеристикам, т.е. сделать таргетированную рассылку, то эффективность сильно возрастает. Подобные базы собираются разными способами, мы же поговорим о том, как это сделать с помощью А-парсера.
    [​IMG]

    Вывод результатов в таблицу
    Бывает, возникает необходимость в красивом и удобном выводе данных, полученных в результате парсинга. И если обычного текстового вида недостаточно, нужно искать другие способы вывода. Об одном таком способе и пойдет речь в статье по ссылке выше.
    [​IMG]


    Предыдущие сборники:
     
  18. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    Сборник рецептов #7: парсим RSS, качаем картинки и фильтруем результат по заголовкам

    7-й выпуск сборника рецептов. Здесь мы рассмотрим вариант парсинга RSS, будем скачивать картинки в зависимости от их характеристик и научимся фильтровать результат по хедерам.

    Парсинг RSS
    На сегодняшний день RSS остаются довольно популярным вариантом доставки новостей и контента пользователям. В связи с этим его используют почти на всех сайтах, где бывает более-менее периодическое обновление информации. А для нас это возможность быстро спарсить свежие обновления сайта, не анализируя сам сайт. И один из способов, как это сделать описан по ссылке выше.
    [​IMG]

    Как фильтровать результат по определенным хедерам?
    Как известно, А-парсер предназначен для парсинга, в основном, текстовой информации. Но кроме этого им вполне реально парсить и другие обьекты (файлы, картинки и т.п.). При этом существует возможность фильтровать их по заголовкам ответа сервера. Об этом по ссылке выше.
    [​IMG]

    Скачивание картинок указанного разрешения и размера
    Если выше мы фильтровали результат только по хедерам и рассматривали вариант с документами, то в данной статье мы будем скачивать картинки и фильтровать их по размеру и разрешению. Как это сделать - можно увидеть по ссылке выше.
    [​IMG]

    Еще больше различных рецептов в нашем Каталоге примеров!

    Предыдущие сборники:

     
  19. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    Сборник рецептов #8: парсим 2GIS, Google translate и подсказки Youtube

    8-й выпуск сборника рецептов. В нем мы будем парсить базу организаций из каталога 2GIS, научимся парсить подсказки из Youtube и напишем кастомный парсер Google translate.

    Парсинг 2GIS
    2GIS - это довольно большой справочник организаций России (и не только...) с возможностью просмотра их расположения на карте. База содержит более 1580000 организаций в 270 городах России. После парсинга представляет интерес как справочник сайтов, электронных адресов и телефонов организаций.
    [​IMG]

    Парсинг Google Translate
    В данной статье рассмотрен способ написания кастомного парсера Google translate на основе [​IMG] Net::HTTP. Также реализована возможность задавать направление перевода. Можно использовать для пакетного перевода больших обьемов текста.
    [​IMG]

    Парсинг подсказок Youtube
    Парсинг подсказок поисковых систем - довольно популярный способ поиска ключевых слов. В данной статье также используется [​IMG] Net::HTTP, с помощью которого создается кастомный парсер подсказок Youtube. Реализована возможность задавать язык и страну, а также использовать уже спаршенные подсказки в качестве новых запросов на нужную глубину.
    [​IMG]

    Еще больше различных рецептов в нашем Каталоге примеров!

    Предыдущие сборники:

     
  20. Dark

    Dark Рулевой Администрация

    Регистрация:
    04.10.05
    Сообщения:
    9.342
    Симпатии:
    391
    Forbidden, А шаблоны парсить можно ? Не тупо сохранить, а сделать подстановки в то, что сохраняется ?
     
  21. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    если подробнее изложишь суть то скорее всего можно :) у нас саппорт работает на постоянной основе который составляет всякого рода интересные задания
     
  22. JonnyB

    JonnyB V.I.P

    Регистрация:
    14.04.06
    Сообщения:
    416
    Симпатии:
    29
    круто, что начали публиковать сборник рецептов, спасибо. А то софт мощный, но не всегда хватает знаний применить его.
     
  23. Babloman

    Babloman V.I.P

    Регистрация:
    23.10.11
    Сообщения:
    771
    Симпатии:
    41
    JonnyB + 100%

    п.с.: софт огонь.
     
  24. b0bah

    b0bah V.I.P

    Регистрация:
    06.05.12
    Сообщения:
    136
    Симпатии:
    1
    Да это просто зверь машина)
     
  25. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    Сборник рецептов #9: проверяем сезонность ключевых слов и их полезность

    9-й выпуск Сборника рецептов. В нем мы будем работать с ключевыми словами: проверять их сезонность и искать свободные ниши в рунете, проверяя "полезность" ключевиков.

    Определение сезонности ключевых слов через Wordstat
    Использование нужных ключевых слов в нужное время - один из способов привлечения дополнительного трафика на сайт. Для определения сезонности ключевых слов существует немало различных способов и сервисов. О том, как это делать с помощью А-Парсера - читайте по ссылке выше.
    [​IMG]

    Поиск свободных ниш в RU сегменте интернета
    Используя на сайте не только сезонные, а и "полезные" ключевые слова, можно значительно повысить шансы попасть в ТОП10 поисковиков. И если о сезонности мы писали ранее, то о "полезности", а точнее о "незанятости" ключевых слов мы поговорим в данной статье. Полезные или незанятые - это такие КС, которые пользователи часто ищут, но конкуренция по которым не очень высокая. Как их искать - читайте по ссылке выше.
    [​IMG]

    Еще больше различных рецептов в нашем Каталоге примеров!

    Предыдущие сборники:
     
  26. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    A-Parser - 1.1.292 - парсинг JSON, улучшения использования памяти, множество исправлений

    Улучшения
    • Поддержка разбора JSON структур в шаблонизаторе
    • Добавлена опция "Конструктор запросов на всех уровнях", позволяющая использовать конструктор запросов на всех уровнях вложенного парсинга
    • При просмотре статистики работы задания теперь отображается общее число HTTP запросов
    • Новый инструмент отладки Gladiator, позволяющий быстро локализовать возможные утечки памяти
    Исправления в связи с изменениями в выдачи
    • Исправлено определение наличия каптчи на этапе логина в парсере [​IMG] SE::Yandex::WordStat
    • Полностью переработан [​IMG] Rank::Ahrefs
    • Исправлен парсинг времени кэширования в [​IMG] SE::Yandex
    • Исправлен [​IMG] SE::Google::Images
    • Исправлен [​IMG] SE::Bing
    • Исправлен [​IMG] SE::Yahoo::Suggest
    • Исправлен [​IMG] SE::AOL
    Исправления
    • Исправлен парсер [​IMG] SE::Yandex::TIC - ресурсы у которых тИЦ был неопределен отображались как тИЦ = 0, исправлено на тИЦ = -1
    • Исправлено множество утечек памяти
    • При замене в регулярных выражениях не работал символ переноса \n
    • При использовании большого числа переменных в конструкторе запросов или результатов они могли не влезать в видимую область
     
  27. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    Сборник рецептов #10: пишем кастомный парсер поисковика и парсим дерево категорий

    10-й выпуск Сборника рецептов. В нем мы сделаем кастомный парсер поисковика search.disconnect.me и научимся парсить категории из сайтов с сохранением иерархии и путей к ним.

    Парсер search.disconnect.me или альтернатива inurl Google
    В одном из сообщений на форуме был упомянут довольно интересный сервис search.disconnect.me. Также в последнее время все чаще стали появляться сообщения о проблемах при парсинге Гугла с поисковыми операторами. А так как вышеупомянутый сервис позволяет парсить Гугл, при этом не выдавая каптч и без бана прокси, можно попробовать сделать для него парсер на основе [​IMG] Net::HTTP. Что из этого получилось - можно посмотреть по ссылке выше.

    [​IMG]

    Парсинг дерева категорий с сохранением структуры
    В версии 1.1.292 появилась новая опция Query Builders on all levels. С ее помощью можно регулировать, когда применять Конструктор запросов при парсинге "в глубину". И благодаря этой опции стало возможным парсить дерево категорий из сайтов с сохранением структуры. Как это работает - можно посмотреть по ссылке выше.
    [​IMG]

    Еще больше различных рецептов в нашем Каталоге примеров!

    Предыдущие сборники:
     
  28. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    A-Parser - 1.1.323 - парсинг с помощью XPath, поддержка JavaScript в шаблонизаторе, тестировщик заданий

    Улучшения
    • Добавлен новый Тестировщик заданий, позволяющий тестировать все задание целиком, включая использование нескольких парсеров, конструкторов запросов и результатов. Тестировщик позволяет просматривать результаты по каждому созданному файлу, а также отображает логи выполнения по каждому запросу
    • Для парсера [​IMG] Net::Whois добавлена опция Recursive query, которая позволяет получать расширенную версию WHOIS(контактные email адреса и т.п.)
    • Добавлена поддержка XPath запросов, сильно упрощающая разбор HTML документов
    • Добавлен новый инструмент tools.js, позволяющий исполнять JavaScript из шаблонизатора, теперь помимо возможности использовать JavaScript для обработки и вывода результатов стало возможно частично исполнять скрипты встроенные в HTML(Выборочная обработка JavaScript: расшифровка телефонов)

    [​IMG]

    Исправления в связи с изменениями в выдачи
    • Исправлен парсинг рекламных объявлений в [​IMG] SE::Google
    • Исправлен парсер [​IMG] Rank::Ahrefs
    • Исправлен парсер [​IMG] Rank::Biggrin:MOZ
    Исправления
    • При использовании динамического имени файла append text теперь пишется один раз
    • Исправлена работа с ссылками, которые содержат некоторые символы Юникода в [​IMG] Net::HTTP
    • Исправлена обработка каптчи в [​IMG] SE::Yandex::Register
    • Исправлен парсинг подсказок в [​IMG] SE::Google::Suggest
     
  29. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    Сборник рецептов #11: парсим Авито, работаем с JavaScript, анализируем тексты и участвуем в акции!

    Розыгрыш призов, условия акции смотри в конце!

    11-й выпуск сборника рецептов. В нем мы разберем пример парсинга Авито, научимся расшифровывать телефонные номера, скрытые за JS и будем анализировать тексты.

    Парсинг Авито
    Если просмотреть сайты с вакансиями для фрилансеров, то можно увидеть, что очень часто требуется парсить популярный сайт объявлений avito.ru. Чаще всего в результате нужна база телефонов, реже - списки объявлений и цены. Данная информация может быть необходима маркетологам, для изучения ситуации на рынке, спамерам для рассылки смс и т.д...
    Задачу по парсингу Авито можно решить также с помощью А-Парсера. О том как это сделать - читайте по ссылке выше.
    [​IMG]

    Выборочная обработка JavaScript: расшифровка телефонов
    Бывает, что при парсинге различных ресурсов можно наткнуться на информацию, которая скрыта скриптом на JavaScript. До недавнего времени A-Parser не умел обрабатывать JS, и такие сайты оставались в "зоне недоступности". Но начиная с версии 1.1.318 A-Parser научился выборочно работать с JS. Поэтому теперь есть возможность более эффективно парсить такие ресурсы и получать нужную информацию.
    Как это делать и больше подробностей о поддержке JS в А-Парсере читайте по ссылке выше.
    [​IMG]

    Анализ текста

    Иногда возникает необходимость проанализировать спаршенный или написанный текст по различным параметрам (например: тошнота, водность, определить тематику и язык, найти наиболее повторяющиеся слова и т.п.). Для этого существует много различных приложений и онлайн-сервисов. Парсинг одного из таких сервисов будет показан по ссылке выше.
    [​IMG]

    Почти 3 месяца назад у нас появилась Платная услуга по составлению заданий для А-Парсера. Она оказалась очень актуальна среди новых пользователей парсера, а также среди тех, у кого не хватает времени на его изучение. За время ее существования было составлено более 70 заданий, при этом 75% состояли из 2-х и более пресетов. Среднее время на составление одного заказа, от согласования деталей до получения готового набора пресетов, составляет около 4 часов. При этом, каждый пресет тщательно тестируется, а получаемый результат обсуждается с клиентом.

    Так как A-Parser - это программа для парсинга различной информации, 26 ноября, во Всемирный день информации, будет разыграно:
    • 5 пакетов прокси (100 потоков на месяц)
    • 3 бесплатных составления 1-го задания для А-Парсера
    В акции принимают участие все, кто ретвитнет нашу новость об этой акции в Twitter. Подписывайтесь на наши каналы в Twitter: русскоязычный @a_parser и англоязычный @a_parser_en и следите за новостями на сайте! Победители акции будут определены случайно с помощью сервиса random.org. Видео определения победителей будет выложено вместе с результатами акции.

    Еще больше различных рецептов в нашем Каталоге примеров!

    Предыдущие сборники:
     
  30. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    Снижение комиссии при оплате PayPro и Итоги акции

    В связи с плохой проходимостью платежей в системе Interkassa было принято решение снизить комиссию PayPro до 3%. PayPro теперь является рекомендуемым способом оплаты, который принимает все популярные платежные системы: PayPal, Visa/MasterCard, QIWI, Yandex.Money, Wire Transfer

    Напоминаю что всегда доступен прием WebMoney без комиссии

    Одновременно с этим мы перевели Members Area на русский язык, добавили систему уведомлений на e-mail, а также готовим инструкцию по использованию нашего магазина

    Итоги акции:

    Итак, сегодня 26 ноября, а значит пора подводить итоги нашей акции!
    Всего участников оказалось не так и много - 14 человек. Поэтому шансы получить 1 из 8-ми призов были довольно велики.
    Было проведено определение победителей, видео по ссылке: http://files.a-parser.com/Video/Action_26_11_15.avi

    [​IMG]

    Искренне поздравляем всех счастливчиков! А те, кому не повезло в этот раз - не отчаивайтесь, вскоре будут новые акции! Поэтому следите за нашими новостями на сайте или в Твиттере.

    Победители, для уточнения деталей и получения призов, свяжитесь через Твиттер с выигрышных аккаунтов с администрацией А-Парсера @a_parser
     
  31. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    A-Paeser - 1.1.355 - улучшения работы с регионами в Google и Яндексе, новые методы API, множество исправлений

    Улучшения

    • В парсере [​IMG] SE::Yandex теперь также собираются ссылки на колдунщики(внутренние сервисы Яндекса), что позволяет более точно определять позиции сайтов в выдаче
    • В парсере [​IMG] SE::Yandex улучшено определение misspell(исправленных) запросов
    • В парсере [​IMG] SE::Yandex домен Яндекса теперь выбирается автоматически в зависимости от выбранного региона
    • В парсере [​IMG] SE::Google улучшена работа с сессиями
    • В парсере [​IMG] SE::Bing добавлен выбор локации
    • В интерфейсе парсера теперь доступен список последних сообщений с форума поддержки
    • Для парсера [​IMG] SE::Yandex добавлена поддержка турецкого домена yandex.com.tr
    • В парсере [​IMG] Net::HTTP добавлена поддержка шаблонизатора в поле Cookies
    • Теперь у начального текста, формата результата и конечного текста, общее пространство переменных, что позволяет решать задачи по выводу статистики
    • В макрос num добавлена возможность указать шаг итераций, формат {num:START:END:STEP}
    • Добавлен новый метод API getParserInfo - выводит список всех доступных результатов, который может вернуть парсер
    • Добавлен новый метод API update - обновляет исполняемый файл парсера до последней доступной версии, после успешного ответа A-Parser будет автоматически перезапущен
    • Метод API info теперь дополнительно выдает список всех доступных парсеров

    Исправления в связи с изменениями в выдаче

    • В [​IMG] SE::Google исправлено указание локации
    • В [​IMG] SE::Bing исправлен парсинг серпа и связанных ключевых слов
    • В [​IMG] SE::Yandex исправлен сбор сниппетов и анкоров
    • В [​IMG] SE::Yahoo исправлен парсинг выдачи и работа с региональными доменами
    • Исправлены [​IMG] Rank::Category, [​IMG] SE::Bing::Images, [​IMG] SE::Bing::LangDetect, [​IMG] SE::Baidu, [​IMG] SE::AOL, [​IMG] SE::Google::SafeBrowsing, [​IMG] SE::Yandex::Register

    Исправления

    • Исправлено игнорирование максимального числа активных заданий
    • В парсере [​IMG] HTML::LinkExtractor исправлена обработка относительных ссылок
    • Исправлена перезапись результатов при паузе\старте или при перезапуске парсера и одновременно включенной опции "Перезаписать файл"
    • Исправлена работа функции tools.parseJSON если страница была декодирована в UTF-8
    • Исправлен вывод результатов в Тестировщике заданий
     
  32. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    A-Parser: вводный видео урок, обзор возможностей

    Денис Бартаев рассказывает о базовых возможностях A-Parser

    [​IMG]

    В выпуске рассматриваются:
    • Основные настройки рядового парсера на примере SE::Yandex
    • Настройки Антигейт
    • Настройки прокси с проверкой статуса и без
    • Основные инструменты тестирования результатов парсинга
    • Базовые методы работы с шаблонизатором результатов, переменные парсеров
    • Примеры создания заданий, и описание процедуры работы с Редактором заданий
    Подписывайтесь на наш канал!


    A-Parser на СПИК 2015 - запись доклада Леонида Гроховского

    A-Parser на СПИК 2015! Почти половина доклада посвящена обзору некоторых возможностей A-Parser

    Как использовать парсеры для SEO? Как проверять индексацию страниц, как узнать позиции сайта. Об этом в докладе "Парсеры на службе у SEO-специалистов" рассказывает Леонид Гроховский. Подписывайтесь на его канал https://www.youtube.com/user/Grohovskiy
    И на наш https://www.youtube.com/channel/UCvypGICrfCky8tPtebmIvQw

    [​IMG]


    Тезисы:
    • Проверка индексации сайтов
    • Сбор сниппетов
    • Парсинг подсвеченных слов из сниппетов
    • Проверка позиций и входных страниц
    • Сбор запросов и подсказок
    • Определение частотности для списка запросов
    • Парсинг VK
    • Выкачивание базы у любого сайта
    • Взаимодействие с A-Parser через API
     
    Последнее редактирование: 15.12.2015
  33. Pau

    Pau V.I.P

    Регистрация:
    30.07.08
    Сообщения:
    947
    Симпатии:
    141
    Оффтоп когда апарсером можно уже будет генерить по макросам миллионы хтмл ?
     
  34. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    Оффтоп
    весной думаю :)
     
  35. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    A-Parser - 1.1.370 - планировщик заданий, улучшения в парсерах Google и Яндекса

    В новой версии добавлен планировщик заданий, позволяющий легко запланировать выполнение задач, требующих периодичного исполнения, например такие как анализ позиций сайтов или ссылочных показателей

    [​IMG]

    Другие улучшения
    • В опции Check next page для парсера [​IMG] Net::HTTP добавлен параметр Limit, позволяющий ограничивать максимальное число переходов на следующую страницу
    • В парсере [​IMG] SE::Google улучшена работа с сессиями
    • Парсеры [​IMG] SE::Google и [​IMG] SE::Yandex оптимизированы при работе без антигейта
    • Для парсера [​IMG] SE::Bing::Translator добавлены все новые языки
    • В API при добавлении задания появилась возможность указать флаг removeOnRestart, при указании которого задания будут автоматически удалены при перезапуске парсера
    Исправления в связи с изменениями в выдачи

    • [​IMG] SE::Ask - парсилась только первая страница
    • [​IMG] SE::Google - исправлен парсинг сниппетов
    • Исправлены [​IMG] SE::MailRu, [​IMG] [noparse]SE::Biggrin:ogpile[/noparse], [​IMG] [noparse]SE::Google::Blum1:R[/noparse], [​IMG] SE::QIP и [​IMG] [noparse]SE::QIP::Blum1:osition[/noparse]

    Исправления

    • При использовании нескольких форматов запросов и опции Parse to level парсер мог вылетать с ошибкой
    • В парсере [​IMG] SE::Google могла повторно отправляться каптча при использовании антигейта
    • Исправлен баг с отображением формата результата после импорта пресета
    • Исправлен баг с отображением переменных в Конструкторе результатов