1. Вы находитесь на форуме клуба BlackSEO.

    Здесь собрались настоящие профессионалы, накопившие большой опыт в сфере создания и продвижения сайтов. Своими знаниями и умениями они выделяются на фоне общей массы оптимизаторов. Участники форума постоянно выносят на обсуждение задачи, которые всегда на несколько шагов впереди публичных дискуссий, что делает BlackSEO лучшим местом для общения на любые темы, начиная с бизнеса и заканчивая отдыхом.
    Скрыть объявление

A-Parser - многофункциональный парсер SE, PR, TrustRank, DMOZ, WHOIS etc.

Тема в разделе "Реклама и анонсы партнерок и сервисов", создана пользователем Forbidden, 19.4.2012.

  1. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    A-Parser - версия 1.0.183 - Русская каптча и эмуляция браузера в Яндексе

    Теперь в настройках Антигейта([​IMG] Util::AntiGate) появилась возможность указать дополнительные настройки для каптчи: длину, регистрозависимость, состоит ли каптча только из цифр или её необходимо отправить русскоговорящему сотруднику, и т.п.

    Яндекс ввел показ русской каптчи в выдачи, теперь парсер корректно обрабатывает её:
    [​IMG]

    В дополнении к этому в парсере [​IMG] SE::Yandex появилась опция эмуляции браузера, что позволяет добиться высокой скорости парсинга и малого расхода каптч. Парсинг топ-50 выдачи Яндекса в 500 потоков с использованием антигейта(средняя скорость ~2000 запросов в минуту):
    [​IMG]

    Исправления:
    • Исправлен парсинг сниппетов в парсере [​IMG] SE::Google
    Подробнее тут: Изменения в версии 1.0.183
     
  2. DmitryHT

    DmitryHT V.I.P

    Регистрация:
    21.02.08
    Сообщения:
    735
    Симпатии:
    31
    неужели антигейт стал нормально распозновать РУ капчу?
     
  3. Dark

    Dark Рулевой Администрация

    Регистрация:
    04.10.05
    Сообщения:
    9.342
    Симпатии:
    391
    Forbidden, сделал бы мне триал, хоть бы позырил в работе, и если че купил бы :)
     
  4. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    да ща вроде все ок с распознаванием
    по факту и антигейт то ненужен, 2k+ без антигейта:
    [​IMG]


    стукни мне)
     
  5. Dark

    Dark Рулевой Администрация

    Регистрация:
    04.10.05
    Сообщения:
    9.342
    Симпатии:
    391
    Офигенный софт, просто прелесть, распарсил яху, на 2.5кк запросов за ночь :Biggrin:
    Forbidden, респект и уважуха! ) И огромное спасибо сам знаешь за что :Wink:
     
  6. Dwarv

    Dwarv V.I.P

    Регистрация:
    10.05.08
    Сообщения:
    383
    Симпатии:
    7
    Софт хороший, в продаже лучше точно нет.
     
  7. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    :) спасибо парни
     
  8. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    A-Parser - версия 1.0.198 - Улучшения в работе с Google, множественные исправления

    Улучшения:
    • Улучшения в работе с сессиями в парсере [​IMG] SE::Google - уменьшено использование каптч
    • Улучшения в работе с сессиями в парсере [​IMG] SE::Yandex::WordStat::ByDate - уменьшено использование каптч
    • Парсер [​IMG] Net::HTTP теперь возвращает контент для обработки при любых ответах сервера(в т.ч. неудачных)
    Исправления:
    • В парсере [​IMG] SE::Google не распознавалась каптча
    • В парсере [​IMG] SE::Yandex не сохранялись сессии
    • HTTP прокси с авторизацией не работали в комбинации с некоторыми парсерами(например SE::Yandex)
    • Макрос результата {firstquery} (первый запрос при использовании вложенного парсинга или парсинга с подстановками) не корректно работал с подстановками
    • Исправлено определение количества результатов в выдаче в парсере [​IMG] SE::Google
    • Парсер [​IMG] SE::Yandex::WordStat::ByDate не возвращал недельную разбивку, теперь выбор периода разбивки добавлен в настройки
    • Парсер [​IMG] SE::Google::Compromised в некоторых случаях работал некорректно
    • Исправлен парсер [​IMG] SE::AOL
    • Исправлен парсер [​IMG] Rank::OpenSiteExplorer
    Подробнее тут: Версия 1.0.198
     
  9. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    A-Parser - версия 1.0.201 - обновлен парсер картинок Google, парсинг Bing News

    Улучшения
    • Полностью переписан парсер картинок [​IMG] SE::Google::Images - теперь он парсит новую выдачу, до 10 страниц по 100 результатов
    • Парсер [​IMG] SE::Bing теперь поддерживает парсинг Bing News, также теперь можно выбрать время выдачи(за все время, за 24 часа, за неделю или за месяц)
    • Парсер [​IMG] HTML::LinkExtractor теперь автоматически считает внутренними ссылки с поддоменов www. и ftp., возможность учитывать все поддомены как внутренние оставлена без изменений
    Исправления
    • Исправлен парсер [​IMG] SE::Bing::LangDetect в связи с изменением в выдачи
    • Исправлен парсер [​IMG] Rank::Ahrefs в связи с изменением в выдачи
    • Парсер [​IMG] SE::Google некорректно работал с каптчей при использовании регионального домена Google
    • Парсер [​IMG] SE::Yandex::WordStat зацикливался при работе с прокси, что приводило к остановке парсинга
    Подробнее: Изменения в версии 1.0.201
     
  10. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    A-Parser - 1.0.214 - новогоднее обновление, более 30 изменений!

    Всех с наступающим Новым годом! Мы заготовили вам большой подарок, включающий более 30 изменений!

    [​IMG]
    Интерфейс претерпел множество изменений:
    • Переработано отображение задания в очереди, теперь оно более наглядное и информативное
    • Настройки теперь сгруппированы по закладкам, что сильно упрощает навигацию
    • Появилась возможность перемещать задание непосредственно в начало или в конец очереди
    • Обновлен перевод всех элементов на русский язык
    • В задании отображается прогресс в виде процента выполненных запросов
    • Иконка теперь корректно отображается во всех браузерах
    • Основное окно теперь можно позиционировать в верхний левый угол и масштабировать на всю рабочую область браузера
    • Исправлена ошибка в импорте пресетов
    Добавлены новые парсеры, общее число парсеров перевалило за 50:
    • [​IMG] Rank::Linkpad - парсер беклинков(линк, анкор, уровень вложенности) и статистики(число беклинков, доноров, iGood и т.д.) с сервиса linkpad.ru(бывший solomono)
    • [​IMG] SE::Bing::Images - парсер картинок с поисковика Bing(ссылка, размер, разрешение и сниппет)
    • [​IMG] SE::Yandex::WordStat::ByRegion - парсер статистики ключевых слов по регионам и городам в Вордстате
    • [​IMG] SE::Yandex::Webmaster::Index - быстрая оценка количества проиндексированных страниц в Яндексе
    • [​IMG] SE::Google::Trends - парсер кейвордов в тренде по версии Google, дополнительно парсит принадлежность кейвордов к группам
    • [​IMG] Rank::Alexa::API - быстрый чекер алексы через API
    Улучшения:
    • В парсер Яндекса [​IMG] SE::Yandex добавлен парсинг ссылки на кэш страницы, также теперь парсер пробует использовать другую прокси если Яндекс принудительно перенаправляет на региональный домен(ua, kz, tr)
    • Теперь можно производить уникализацию, фильтрацию и применять конструктор результатов ко всем результатам созданным пользователем с использованием фукнции Parse custom result(парсинг произвольного контента с помощью регулярных выражений)
    • В настройках теперь возможно указать тип переноса строки используемый по умолчанию(Windows или Linux)
    • Добавлена возможность сохранять неудачные запросы
    • В статистику работы задания добавлен вывод забаненых проксей для каждого используемого парсера
    • Файл с запросами теперь можно выбирать из подпапок
    • В парсер частотности ключевых слов [​IMG] SE::Yandex:: Direct::Frequency добавлен парсинг дополнительных ключевых слов(подсказок)
    • В парсер Вордстата [​IMG] SE::Yandex::WordStat добавлена возможность выбора сразу нескольких регионов для оценки
    Исправления:
    • [​IMG] Rank::MajesticSEO в связи с изменением в выдаче
    • [​IMG] Rank::Ahrefs в связи с изменением в выдаче
    • [​IMG] SE::AOL в связи с изменением в выдаче
    • [​IMG] Net::Whois - некорректно определял незанятые домены в некоторых зонах
    • Исправлено падение в некоторых случаях при использовании большого файла запросов совместно с уникализацией запросов
    Подробнее: Изменения в версии 1.0.214
     
  11. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    A-Parser - версия 1.0.218

    Улучшения
    • Парсер [​IMG] Net::Whois теперь поддерживает работу с интернациональными доменами(IDN, например яндекс.рф)
    • Для парсера [​IMG] SE::AOL добавлена опция No results is error - в некоторых случаях аол может вернуть пустую выдачу на вполне нормальный запрос, с этой опцией запросы с пустой выдачей будут перепаршиваться повторно
    Исправления
    • Парсер картинок [​IMG] SE::Google::Images в связи с изменением в выдаче
    • Парсер [​IMG] SE::AOL в связи с изменением в выдаче
    • При использовании API после некоторого числа запросов оно переставало отвечать
    • Парсер [​IMG] SE::Baidu в связи с изменением в выдаче
    • Исправлена ошибка в обработке списка файлов запросов, что приводило к невозможности выбрать файл запроса из папки queries/
    • Опция Try in Parser Test работала некорректно
    • Исправлена ошибка в интерфейсе при составлении заданий с использованием опций Parse custom result/Results Builder, появившаяся в предыдущей версии

    Подробнее: Изменения в версии 1.0.218
     
  12. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    A-Parser - версия 1.0.223

    Новые парсеры:
    • [​IMG] SE::Yandex::Catalog - парсер сайтов по Яндекс.Каталогу, парсит ссылку, анкор, сниппет, категорию и гео-привязку. Также парсит количество результатов по запросу
    • [​IMG] Rank::Archive - парсит дату первого и последнего кэширования сайта в веб архиве(archive.org), также парсит количество сохраненных копий сайта. Данный парсер будет очень полезен для оценки доменов
    Исправления:
    • Парсер [​IMG] SE::AOL в связи с изменением в выдачи
    • Парсинг связанных кейвордов(related) в парсере [​IMG] SE::Bing в связи с изменением в выдачи
    • В некоторых случаях могли не передаваться дополнительные параметры к запросу(Extra query string)

    Подробнее: Изменения в версии 1.0.223
     
  13. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    A-Parser - версия 1.0.232 - Новый шаблонизатор результатов, подстановка переменных и многое другое

    Поздравляем всех защитников отечества с их профессиональным праздником!

    В A-Parser включен шаблонизатор Template Toolkit - мощный инструмент для форматирования результатов, запросов, строк поиска и сравнения и т.д.; его основные особенности:
    • Поддержка переменных, условий, циклов, макросов
    • Множество встроенных функций для строк, массивов и хешей
    • Неограниченные возможности по расширению
    • Подробная документация на русском и английском языках
    На данный момент по умолчанию действует старый шаблонный движок, тем самым позволяя использовать все ранее сохраненные настройки. Полный переход на новый движок будет плавный и будет включать следующие этапы:
    • Развернутый пост о преимуществах с примерами на следующей неделе
    • Обновление конфигурации A-Parser с новым синтаксисом формата вывода результатов
    • Выпуск версии с поддержкой нового шаблонизатора по умолчанию
    • Помощь со стороны технической поддержки в адаптации старых проектов
    Новый синтаксис применяется если шаблон содержит комбинацию [% ... %], уже сейчас новый синтаксис можно использовать в:
    • Шаблонах форматирования результатов(Result format)
    • Шаблоне имени файла(Result file name)
    • Фильтрах результатов для подстановки переменных данных(запросов, результатов) в условия сравнения
    • Функции поиска по регулярному выражению(Parse custom result) в качестве части регулярного выражения
    Другие улучшения:
    • Добавлена функция сохранения исходного кода страниц, с которых осуществляется парсинг, что даёт возможность дополнительной обработки результатов(Raw data results)
    • Подстановка запросов(или результатов) в условия для сравнения в фильтрах и как часть регулярного выражения для Parse custom result
    • Дополнительный параметр к HTTP запросу(Extra query string) теперь подставляется только для главных запросов, от которых ожидаются результаты парсинга. Для вспомогательных запросов(работа с cookie, каптчей, авторизацией) этот параметр не подставляется
    Исправления:
    • Исправлена утечка памяти при обработке кодировки некоторых сайтов и сервисов
    • Исправлен парсер [​IMG] SE::Yandex - в связи с изменением в выдаче результаты из рекламных блоков считались результатами основной выдачи
    • Парсер [​IMG] Rank::CMS не работал при использовании функции логирования долгих регулярных выражений(Log long running regex)
    Подробнее тут: Версия 1.0.232
     
  14. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    Новый шаблонизатор в A-Parser

    Зачем?
    • Расширение возможностей - старый шаблонизатор был ограничен в возможностях, фактически он не умел ничего кроме вывода переменных и массивов
    • Наглядный пример: используя шаблоны можно результаты парсинга автоматически преобразовать в дорвеи, готовые для загрузки на хостинг! Другой пример: готовый отчет по анализу доменов в виде HTML или CSV файла
    • Лёгкий способ использовать переменные данные(запросы, результаты парсинга) на всех этапах работы парсера(формирование запроса; фильтрация, уникализация, форматирование, дополнительная обработка результатов)
    • Исчерпывающая документация: Template Toolkit - проверенный времен шаблонный движок, который имеет большое сообщество пользователей
    Массив? Переменная? Мне нужно программировать?
    • Однозначно нет :) A-Parser рассчитан на широкую аудиторию и из коробки позволяет выполнять все основные задачи без каких либо дополнительных знаний
    • Шаблоны призваны упростить решение сложных комплексных задач, например подсчет количества ссылок в топ10 выдачи Яндекса, в которых встречается исходный запрос в анкоре
    • Шаблон - не язык программирования, он содержит около 5 основных макросов которые легко запомнить и использовать
    Читать далее
     
  15. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    A-Parser - версия 1.0.236 - промежуточный релиз, исправление текущих ошибок

    Улучшения:
    • Теперь можно перемещать задания в очереди используя API - добавлен метод moveTask
    • Многократно увеличена скорость при обработке регулярных выражений в Parse custom result
    Исправления:
    • Исправлена ошибка в [​IMG] SE::Yandex приводящая к падению парсера, ошибка появилась в предыдущей версии
    • Исправлен парсер [​IMG] SE::YouTube в связи с изменением в выдаче
    • Парсер мог упасть при использовании неправильного регулярного выражения, ошибка появилась в предыдущей версии
    • Исправлен регистратор аккаунтов в Яндексе [​IMG] SE::Yandex::Register в связи с изменением в выдаче
    • Исправлен парсер [​IMG] SE::Yahoo в связи с изменением в выдаче
    Подробнее тут: Версия 1.0.236
     
  16. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    A-Parser - 1.0.268 - Бета версия, полный переход на новый шаблонизатор, множество улучшений

    Основные улучшения:
    • Переход на систему быстрых обновлений, теперь получить обновление на канале бета-версии можно за пару минут
    • Полный переход на новый шаблонизатор, старый синтаксис более недоступен
    • Все настройки в автоматическом режиме преобразуются под новый синтаксис при первом старте парсера
    • Создан инструмент для тестирования шаблонов, в нем можно проверить форматирование до парсинга
    • В настройках можно указать часто используемые макросы и функции, которые будут доступны в любом месте где используется шаблонизатор
    • Шаблоны также работают в полях Prepend и Append - автоматическое добавление заголовка и окончания для файлов результатов
    • Теперь шаблон можно задавать в удобном многострочном редакторе
    • Увеличена скорость работы конструктора запросов и результатов
    • В парсере [​IMG] SE::Yandex::Suggest теперь можно выбрать произвольный регион, в т.ч. на основе IP адреса
    Исправления в связи с изменениями в выдачи:
    • Исправлена опция эмуляции браузера для парсера [​IMG] SE::Yandex
    • Исправлен парсинг выдачи [​IMG] SE::Yandex при запросах вида url:, а так же исправлен парсинг рекламных блоков
    • Исправлен парсер тИЦ [​IMG] SE::Yandex::TIC
    • Исправлен парсер [​IMG] Rank::Ahrefs - выдавал неверные данные
    • Исправлен парсинг общего числа результатов в [​IMG] SE::Baidu
    • Исправлен парсер [​IMG] Rank:: DMOZ
    • Исправлен парсер картинок [​IMG] SE::Google::Images
    • Исправлен парсинг описаний к видео в [​IMG] SE::YouTube
    Информация
    • Для обновления необходимо зайти в Members Area, раздел Downloads, в секции A-Parser Beta запросить обновление кликнув по Update
    • Все вопросы по новому синтаксису шаблонов можно задавать в этом топике
    • Для желающих тестировать самые последние версии создан отдельный скайп-чат, подробнее тут
    Список всех изменений в версии 1.0.268
     
  17. Dark

    Dark Рулевой Администрация

    Регистрация:
    04.10.05
    Сообщения:
    9.342
    Симпатии:
    391
    Forbidden, молодцы! :Wink:
     
  18. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    Новая документация и текущий статус Бета-версии

    В скором времени увидит свет A-Parser версии 1.1.0 - результат двух-месячной разработки Бета-версии. На текущий момент Бета-версия абсолютно стабильна и рекомендуется к использованию как новым пользователям, так и всем кто уже имеет лицензию

    Ключевой особенностью новой версии парсера является наличие новой документации, в которой мы постарались осветить все возможности и особенности работы A-Parser'а. В документации подробно описаны такие возможности как:
    Обсудить новую документацию можно на форуме

    Помимо этого текущая бета версия содержит множество исправлений и улучшений, следите за новостями о релизе!
     
  19. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    Новая версия Lite, автоматическая оплата прокси

    • Добавлена новая лицензия Lite, включающая только парсеры Google и Яндекса
    • Добавлена автоматическая оплата через WebMoney, Yandex.Money, Visa, MasterCard, Paxum, LiqPay, PerfectMoney, W1, Банки, СМС, Терминалы оплаты
    • Оплачивать можно лицензии на A-Parser, A-Poster, прокси, обновления A-Parser и дополнительные лицензии A-Parser
    • Новая сетка цен
    • Последние изменения в бета версии
    • Переработано описание парсера
    Мы ждем ваших вопросов :) наши контакты
     
  20. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    Релиз A-Parser 1.1.0, автоматический прием PayPal, Wire, QIWI

    Релиз A-Parser 1.1.0 - результат активной разработки в течении двух месяцев в рамках бета-версии

    [​IMG]

    Улучшения
    • Новый парсер [​IMG] HTML::TextExtractor::LangDetect - улучшенное определение языка страницы, без использования сторонних сервисов
    • Для парсера [​IMG] SE::Google добавлена возможность указывать локацию поиска - город или регион
    • Новый инструмент - обновление A-Parser, теперь обновления можно устанавливать автоматически через интерфейс, поддерживается два канала обновлений - Stable и Beta
    • Для уникализации результатов теперь используется LevelDB - лучшая скорость и низкое потребление памяти
    • Улучшена работа с битыми кодировками и детектирование кодировки страницы
    • В инструменте тестирования шаблонов теперь доступны предустановленные результаты для всех парсеров
    • Шаблонизатор теперь можно использовать в самих запросах, в формате запроса, а также в Конструкторе результатов
    • Для парсера [​IMG] Net::HTTP при формировании POST запроса добавлена возможность использовать шаблонизатор в теле запроса
    • Добавлена возможность выводить результаты в формате JSON
    • Новая опция Not found is error для парсера [​IMG] Net:: DNS - позволяет перепроверять ложные ответы от DNS серверов
    • Добавлена возможность удалять неиспользуемые базы данных Keep unique
    • Новые подсказки в интерфейсе, соответствуют новому формату шаблонов
    • Добавлена возможность сбросить пароль доступа к интерфейсу A-Parser
    • Сервер парсера теперь можно выключить или перезапустить через веб-интерфейс
    Исправления
    • Исправлен парсер [​IMG] SE::Yandex в связи с переходом на новую выдачу
    • Исправлен парсер [​IMG] SE::AOL в связи с изменением в выдачи
    • Исправлен ошибка, при которой проверка прокси начиналась заново при перезагрузке интерфейса
    • Исправлена медленная работа очереди заданий при большом количестве заданий(более 1000)
    • Исправлен вывод исходного запроса $query.first при многоуровневом парсинге в [​IMG] SE::Yandex::WordStat
    • [​IMG] Net:: DNS - исправлена работа на ОС Windows
    • [​IMG] SE::Yandex::Webmaster::Index удален в связи с прекращением работы сервиса
    • Исправлено некорректное определение некоторых полей в парсере [​IMG] Net::Whois
    • Исправлена работа переменной $pagenum в парсере [​IMG] Net::HTTP
    • Исправлена ошибка, при которой парсер мог вылететь при использовании уникализации по простым результам
    • Задания с пустым файлом запросов не завершались автоматически
    • Исправлен парсер [​IMG] Rank::Ahrefs в связи с изменением в выдачи
    • Исправлен парсер [​IMG] Rank::Alexa в связи с изменением в выдачи
    • Исправлен парсер [​IMG] Rank::MajesticSEO в связи с изменением в выдачи
    • Исправлена работа с кодировкой windows-1251
    • Исправлен подсчет числа простых результатов
    • Исправлена работа метода CONNECT при использовании прокси с авторизацией по логин\паролю
    • Исправлен парсер [​IMG] Rank::Category в связи с изменением в выдачи
    Полный список всех изменений в соответствующем разделе

    Также мы рады сообщить что добавили прием PayPal, QIWI и Wire Transfer в автоматическом режиме
     
  21. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    A-Parser - версия 1.1.20 - обновление парсера Rank::CMS, разные форматы результатов для нескольких файлов

    Улучшения
    • Полностью переработан парсер [​IMG] Rank::CMS, теперь он определяет движок сайта на основе большой и качественной базы признаков Wappalyzer, также появилась возможность выбрать категорию или конкретные движки для распознавания
    • Появилась возможность сохранять результаты одного задания в разные файлы, с выбором формата результата для каждого файла, к примеру при парсинге Гугла можно сохранять ссылки в один файл и сниппеты в другой
    • Добавлена возможность использовать шаблоны в параметрах Extra query string и User Agent
    • В шаблонах теперь можно использовать инструменты, которые доступны через переменную $tools, первый инструмент - выбор произвольного User Agent: $tools.ua.random(), список агентов хранится в файле files/tools/user-agents.txt
    • Улучшен парсер [​IMG] [noparse]Net::Biggrin:NS[/noparse] при работе через прокси
    • В API появилась возможность запрашивать статус сразу нескольких заданий
    • В API появилась возможность скачивать файл результата
    • Парсер [​IMG] SE::AOL теперь позволяет выбрать US, UK, FR или DE выдачу
    • В парсере [​IMG] Rank::Ahrefs теперь дополнительно парсятся параметры URL Rank и Ahrefs Domain Rank
    Исправления
    • Исправлен парсер [​IMG] SE::YouTube в связи с изменением в выдачи
    • Исправлен парсинг с блогов в парсере [​IMG] SE::Google в связи с изменением в выдачи
    • Исправлена ошибка при которой парсер мог вылететь если в качестве запроса передать очень длинный URL
     
  22. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    A-Parser - версия 1.1.41 - новые парсеры MailRu и Dogpile, поддержка многоядерности для чекера CMS

    Улучшения
    • Новый парсер [​IMG] SE::MailRu - собирает ссылки, анкоры и сниппеты, количество результатов в выдаче
    • Новый парсер [​IMG] [NOPARSE]SE::MailRu::Blum1:osition[/NOPARSE] - проверяет позиции сайтов в выдаче go.mail.ru
    • Новый парсер [​IMG] [NOPARSE]SE::Biggrin:ogpile[/NOPARSE] - парсер поисковика dogpile.com, собирает ссылки, анкоры и сниппеты, количество результатов в выдаче и связанные ключевые слова
    • Добавлена экспериментальная поддержка многоядерных процессоров для наиболее требовательного к ресурсам процессора парсера [​IMG] Rank::CMS
    • Для парсера [​IMG] Rank::Ahrefs добавлен парсинг социальных факторов(google+, twitter, facebook), а также возможность выбора режима отчета(ссылка, папка, домен, домен с сабдоменами)
    • Для парсера [​IMG] Rank::MajesticSEO добавлена возможность получать данные по полной ссылке
    • Новая опция Emulate browser headers для парсера [​IMG] Net::HTTP - автоматически эмулирует хедеры современных браузеров
    • Для парсера [​IMG] [NOPARSE]SE::Yandex::Blum1:osition[/NOPARSE] теперь доступна статистика по использованию каптчи
    Исправления
    • Исправлен парсинг рекламных блоков в парсере [​IMG] SE::Google в связи с изменением в выдачи
    • Исправлен парсер [​IMG] SE::Baidu в связи с изменением в выдачи
    • Исправлен парсер проверки языка сайта [​IMG] SE::Bing::LangDetect
     
  23. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    A-Parser - версия 1.1.61 - улучшение очереди заданий, поддержка аккаунтов в парсере Яндекса

    Улучшения
    • Появилась возможность ограничивать общее потребление потоков, что позволяет пропускать задания превышающие текущее потребление, давая возможность выполнится заданиям с меньшим числом потоков. Также данный функционал полезен при использовании прокси-сервисов с лимитированным числом подключений, тем самым можно гарантированно не выходить за пределы тарифа
    • В очереди заданий теперь можно удалить все задания разом, отдельно для активной очереди и очереди завершенных заданий
    • Парсер [​IMG] SE::Yandex теперь поддерживает работу с аккаунтами(опция Use Accounts)
    • При парсинге рекламы в [​IMG] SE::Google теперь дополнительно можно вывести позицию рекламного блока(сверху или справа), а также номер страницы выдачи, на котором показано рекламное объявление
    Исправления
    • Исправлено отображение русских имен файлов запросов и результатов на ОС Linux
    • Исправлено определение ТИц в парсере [​IMG] SE::Yandex::TIC
    • Исправлено распознавание каптчи в регистраторе аккаунтов Яндекса [​IMG] SE::Yandex::Register в связи с изменением в выдачи
    • Исправлена работа с заблокированными аккаунтами в парсере [​IMG] SE::Yandex::WordStat
     
  24. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    Сборник рецептов #1: Определяем CMS, оцениваем частотность ключевых слов и парсим Вконтакте

    Этот пост начинает серию статей с рецептами применения A-Parser: комплексные примеры с одновременным использованием различного функционала парсера. Помимо детального разбора заданий можно также оценить скорость обработки запросов и скачать результаты парсинга

    Определяем CMS для 1000000 доменов за 15 часов

    В примере рассказано как определить используемый движок у сайтов из базы Алексы топ-миллион, результат автоматически сортируется по файлам с названием CMS. Также дан пример как увеличить скорость обработки и проверить 1 миллион доменов всего за 2 часа

    [​IMG]

    Немного статистики:
    • Скорость парсинга составила 1100 доменов в минуту
    • Всего определились 301841 из 1000000 доменов как использующие на своей главной странице одну из популярных CMS, форумов или Wiki
    • Определено 126 различных CMS
    • Топ 10 самых популярных CMS, первое значение определяет количество доменов:
    Код:
    209855 WordPress
    23732 Joomla
    22945 Drupal
    6488 TYPO3 CMS
    4917 vBulletin
    3726 1C-Bitrix
    2515 phpBB
    2415 ExpressionEngine
    2022 DataLife Engine
    1928 Microsoft SharePoint
    Читать целиком »

    Оценка частотности по Вордстату, словарь Даля, 115000 слов за 40 минут
    Проверяем словарь Даля на частотность запросов в Яндексе используя парсер [​IMG] SE::Yandex::WordStat, скорость парсинга составила 3000 слов в минуту без использования каптчи! Результат сохраняется в 2 разных файла - в первом статистика по исходным запросам, во втором - все новые ключевые слова из левой и правой колонки Вордстата

    Немного статистики:
    • Парсинг 115390 ключевых слов занял всего 40 минут
    • 80208 слов из 115390 имеют ненулевую статистику в Вордстате
    • Общее число показов всех слов составляет 20001443927, ~20 миллиардов в месяц
    • Дополнительно спаршено 1143045 новых ключевых слов с общим числом показов ~36 миллиардов в месяц
    Читать целиком »

    Создаем парсер VKontakte обрабатывающий 14000 анкет в минуту
    В примере показывается как с помощью парсера [​IMG] Net::HTTP и регулярных выражений можно создать парсеры почти любых сайтов и сервисов, например VKonktake
    Пример разделен на 2 части:
    • Сбор ссылок на анкеты из результатов поиска
    • Обработка анкет - парсинг полей "Родной город", "Семейное положение" и "Время захода на анкету"
    В результате получаем файл с примерно следующим содержимым:
    Код:
    http://vk.com/id1492 - none - none - none
    http://vk.com/id1485 - п. Сиверский - всё сложно - заходил 15 сентября в 1:34
    http://vk.com/id1489 - Ленинград - none - Online
    http://vk.com/id1481 - Санкт-Петербург - none - заходила 48 минут назад
    http://vk.com/id1482 - град Поднебесный - не женат - Online
    http://vk.com/id1493 - none - none - none
    Читать целиком »
     
  25. Silverstorm

    Silverstorm V.I.P

    Регистрация:
    05.10.05
    Сообщения:
    2.886
    Симпатии:
    205
    Forbidden, а у тебя есть сервис какой-то для парсинга гугла? просто лениво покупать-ставить на сервер-заморачиваться с проксями.

    мне надо одноразово спарсить урлы из гугла по 200-300 кейвордов :/

    может кто-то поможет за мзду малую?
     
  26. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    у меня нету :)

    интересно было бы пользоваться парсером как saas? т.е. платишь абонентку за месяц например и тебе дается установленный парсер на наших серверах, с нашими проксями - только давай задания и забирай результаты
     
  27. JpS

    JpS Кассир V.I.P

    Регистрация:
    11.10.05
    Сообщения:
    16.765
    Симпатии:
    1.102
    задумался. может быть не в месяц (хотя и так наверное нормально, если цены будут адекватные), а вообще "по заданиям". ибо вот реально, пару-тройку раз в году задумываюсь чтобы купить у тебя этот парсер :) но думаю "а зачем он мне остальные 363 дня будет?" и успокаиваюсь. а разовые задачи иногда так и хочется на него выложить. кстати возможно это было бы хорошим "триалом". люди посмотрели, понравилось, когда поняли что за полгода "за задания" платят больше чем за стоимость софта - купили бы наверняка. но пока не посмотрят - не поймут. вот я вот "нутром чую" что там все хорошо, но сомневаюсь "брать не брать" :)
     
  28. Webaz

    Webaz V.I.P

    Регистрация:
    20.10.06
    Сообщения:
    2.009
    Симпатии:
    46
    Silverstorm, пиши сделаю
     
  29. Silverstorm

    Silverstorm V.I.P

    Регистрация:
    05.10.05
    Сообщения:
    2.886
    Симпатии:
    205
    Webaz, спс! отзовусь, сейчас как раз добираю малеха кейвордов.
     
  30. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    A-Parser - версия 1.1.86 - поддержка многоядерной обработки и фильтрации результатов

    В данной версии добавлена поддержка обработки и фильтрации результатов(Parse custom result, Конструкторы результатов и фильтры) на многоядерных процессорах, что в несколько раз увеличивает скорость парсинга при использовании "тяжелых" регулярных выражений, например скорость сбора email адресов со страниц достигает 10000 ссылок в минуту при 2000 потоках(при этом A-Parser обрабатывает поток 130 мбит\с gzip-сжатых данных)

    Другие улучшения
    • Добавлена возможность указать сразу несколько форматов для запроса, что позволяет комбинировать множество вариантов подстановок для одних и тех же запросов в одном задании
    • Добавлена возможность использовать формат запроса на всех уровнях вложенного парсинга, например при парсинге ключевых слов с подсказок Google подстановки будут добавляться так же и для новых найденных ключевых слов(как и для исходных запросов)
    • Для парсера [​IMG] SE::Yandex добавлена возможность парсить не персонализированную выдачу, что позволяет более точно снимать позиции сайтов
    • В парсере [​IMG] Net::HTTP опция Check next page теперь поддерживает захват следующей ссылки для перехода, она будет использоваться если не указана опция Use pages
    Исправления
    • В некоторых случаях могли неверно обрабатываться страницы большого размера с сжатием gzip
    • Парсер [​IMG] Net::Whois не работал без использования прокси, ошибка появилась в предыдущей версии
    • В конструкторе результатов, при использовании замены по регулярному выражению, некорректно обрабатывалась замена переменных $1 $2...
    • Парсер мог упасть при использовании одинаковой базы Keep unique в двух одновременно работающих заданиях
     
  31. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    A-Parser - 1.1.108 - улучшения паука сбора ссылок, множество исправлений

    Улучшения парсера [​IMG] HTML::LinkExtractor
    • Добавлена опция Follow links позволяющая выбрать порядок следования по ссылкам: только по внутренним, по внутренним и внешним, только по внешним
    • Добавлен массив результатов $followlinks, который содержит ссылки для последующего перехода, над этим массивом можно применять фильтры и конструкторы результатов, что позволяет переходить только по определенным ссылкам(например только по топикам форумов)
    • Добавлена корректная обработка тега <base href=
    Другие улучшения
    • Теперь парсер автоматически определяет кодировку по содержимому страницы, если другие методы не дали результатов. В случае если кодировку определить не удается и она не является корректной с точки зрения UTF-8 то содержимое страницы становится недоступным для обработки. Данное улучшение призвано исправить редкие проблемы когда файл результата A-Parser'а невозможно использовать в качестве запросов, т.к. файл мог содержать некорректную кодировку
    • При парсинге рекламы в [​IMG] SE::Google теперь дополнительно парсится видимая ссылка на сайт
    Исправления
    • Исправлен парсер [​IMG] SE::Yandex в связи с изменением в выдачи
    • На платформе Windows при закрытии приложения парсера возникала ошибка
    • В парсере [​IMG] Net::Whois не был доступен исходный результат $data для пользовательской обработки
    • В парсере [​IMG] SE::Yandex была ошибка в получении каптчи если в запросе содержалась скобка
    • Результат $query мог быть изменен некоторыми парсерами
    • Парсер [​IMG] Rank::OpenSiteExplorer исправлен в связи с изменением в выдачи
    • Добавлен запрет на изменение результатов с зарезервированными именами($query, $info)
    • При использовании нескольких конструкторов результатов невозможно было выбрать новые результаты для обработки
     
  32. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    Сборник рецептов #2: собираем форумы для XRumer, парсим email со страниц контактов

    Этот пост продолжает серию статей с рецептами применения A-Parser: комплексные примеры с одновременным использованием различного функционала парсера. Помимо детального разбора заданий можно также оценить скорость обработки запросов и скачать результаты парсинга

    Парсим базу для XRumer: 420000 форумов за 9 часов

    Учимся быстро собирать большие базы методом перебора

    [​IMG]

    За 9 часов работы:
    • Было обработано 525254 запроса на максимальную глубину
    • Спаршено 68 миллионов ссылок, 420к из которых подходят под фильтр и уникальны по домену
    • Средняя скорость парсинга составила 1000 запросов в минуту
    Собираем 1.65 миллиона email со страниц контактов за 2.5 часа

    Парсим ссылки на страницы с контактными данными, затем собираем с них email-адреса

    [​IMG]

    • Средняя скорость обработки составила 12000 ссылок в минуту
    • ТОП-10 почтовых доменов:
    Код:
    249772 mail.ru
    129894 gmail.com
    91901 yandex.ru
    25625 rambler.ru
    20821 bk.ru
    19773 hotmail.com
    14656 yahoo.com
    14117 list.ru
    13636 inbox.ru
    11670 ukr.net
    

    Сбор перелинкованных топиков

    Метод описывает как используя возможности парсера [​IMG] HTML::LinkExtractor собирать ссылки на перелинкованные топики - еще один хороший метод сбора баз форумов для XRumer

    Алгоритм работы:
    • Переходим только по внешним ссылкам
    • Фильтруем ссылки для перехода по признакам форумов
    • Добавляем уникализацию по домену
    • Сохраняем ссылки по которым переходим, тем самым собираем все ссылки на новые форумы которые встретятся

    Парсинг форумов по признакам и запросам

    Классический вариант сбора форумов - используя признаки движков и подставляя дополнительные кейворды. Ссылки дополнительно фильтруются по регулярному выражению и проходят уникализацию по домену

    Предыдущие рецепты:
     
  33. Forbidden

    Forbidden V.I.P

    Регистрация:
    24.04.08
    Сообщения:
    1.496
    Симпатии:
    174
    A-Parser - версия 1.1.135 - множество улучшений и исправлений в связи с изменениями в выдачи

    Улучшения
    • Теперь парсер-паук для сбора ссылок [​IMG] HTML::LinkExtractor основывается на парсере [​IMG] Net::HTTP и поддерживает все его возможности и опции, включая работу с Cookies
    • В парсер [​IMG] SE::Google добавлена возможность подставлять в запросы найденные Related keywords, что позволяет собрать большую базу тематических ключевых слов, которая будет сильно отличаться от подсказок
    • Добавлена возможность выбора текущего пресета для прокси-чекера через API
    • В парсере [​IMG] SE::Google добавлен обход лишнего редиректа на HTTPS
    • Улучшена скорость обработки HTTPS запросов на некоторых сайтах, затрагивает парсер [​IMG] SE::Yandex::WordStat
    • На ОС Windows x64 парсер может использовать до 3Гб оперативной памяти
    • В интерфейсе добавления заданий появилась возможность сворачивать настройки парсеров
    • Улучшен импорт пресетов: теперь при совпадении названий пресетов настроек парсеров пользователю будет предложено заменить пресет или создать новый с другим именем
    Исправления
    • В парсере [​IMG] Net::HTTP исправлена медленная обработка запросов при одновременном использовании опции Emulate browser headers и методе HEAD
    • Исправлена проблема с запуском парсера на некоторых версиях Windows
    • В парсере [​IMG] SE::Google исправлена обработка запросов с нулевым результатом, в связи с изменением в выдачи
    • В парсере [​IMG] SE::Yahoo исправлена работа с региональными доменами, в связи с изменением в выдачи
    • Исправлена ошибка в парсере [​IMG] SE::Google при которой парсер мог вылетать если использовалась опция Location
    • Исправлена ошибка в интерфейсе добавления Конструкторов результата, при которой в списке результатов могли появляться лишние элементы
    • Парсер [​IMG] SE::Baidu исправлен в связи с изменением в выдачи
    • В парсере [​IMG] SE::YouTube исправлен парсинг общего числа результатов, в связи с изменением в выдачи
    • Неудачные запросы сохранялись в неверной кодировке
    • Исправлена работа опции Raw data results
    • В парсере SE::Google исправлена работа опции Parse not found, в связи с изменением в выдачи
    • В парсере SE::Yandex исправлен парсинг Related keywords, в связи с изменением в выдачи
    • Исправлена работа с доменами в зоне .be для парсера Net::Whois
    • Парсер SE::Yahoo исправлен в связи с изменением в выдачи
    • В парсере SE::Yandex исправлена обработка времени кэширования страниц для некоторых форматов дат
    • В API исправлен метод getTaskResultsFile, в некоторых случаях IP адрес сервера заменялся IP адресом клиента
     
  34. Gnom

    Gnom V.I.P

    Регистрация:
    25.02.09
    Сообщения:
    2.421
    Симпатии:
    192
    А есть возможность обратиться разово, для парсинга? Т.к. мне надо кое чего спарсить, но не на постоянной основе, а один-два раза.
     
  35. sklip

    sklip Well-Known Member

    Регистрация:
    25.01.11
    Сообщения:
    1.569
    Симпатии:
    104
    salvador, можешь ко мне обратится к примеру