A-Parser - многофункциональный парсер SE, PR, TrustRank, DMOZ, WHOIS etc.

Forbidden · 3.6.2013 в 16:54 #71

A-Parser - версия 1.0.37

Улучшения:

При добавлении быстрого задания теперь количество попыток выполнить запрос(Request retries) установлено в 200

Исправления:

Исправлен парсер SE::YouTube в связи с изменением в выдачи

Исправлено импортирование заданий(ошибка появилась в предыдущей версии)

Исправлена обработка каптчи у парсера SE::Google

Исправлен подсчет количества результатов(ошибка появилась в предыдущей версии)

Связанные задачи:

Ошибка #516: SE::YouTube broken
Ошибка #515: Bug when importing/loading tasks(introduced in 1.0.27)
Ошибка #479: Fix again Google captcha
Ошибка #478: Fix counting results from arrays(bug introduced in 1.0.27)
Улучшение #523: Tasks added from Quick Task now have Request retries = 200
Улучшение #480: Validating parser/preset exists before adding task
Нажмите, чтобы раскрыть...

Forbidden · 11.6.2013 в 15:10 #72

A-Parser - версия 1.0.49

Улучшения в парсере гугла:

CaptchaKiller - убийца каптчи для парсера SE::Google - теперь можно парсить inurl: даже на паблик проксях!

В последнее время Google довольно сильно ужесточил парсинг с операторами(inurl:, site: и т.д.), постоянно показывая каптчу(проверочную картинку), что не позволяло спарсить результаты выдачи без использования хороших проксей или сервиса АнтиКаптча. Это улучшение позволяет A-Parser'у автоматически обходить каптчу без использования сервисов

Сравнение парсинга с CaptchaKiller и без на форуме

Теперь дополнительно парсятся рекламные блоки - ссылка, анкор и сниппет, что позволяет собрать список конкурентов в Google AdWords

Также парсер SE::Google теперь сохраняет сессии что позволяет парсить еще быстрее, получая меньшее число ошибок

Улучшения в сохранении результатов:

Теперь в имени файла результата можно использовать все макросы доступные в Result format, что позволяет в имени файла использовать любую часть результата или запроса(пример: при парсинге Google PR сохранять ссылки в файлы 0.txt - 10.txt, где цифра означает PageRank)

Теперь возможно указать папку(с неограниченной вложенностью) для сохранения результата

Комплексный пример: {date}_{time}/parser1({pr}).txt - будет создавать новую папку с текущей датой и временем и автоматически сортировать результаты по файлам

Остальные улучшения:

В качестве запросов можно использовать файлы из папки с результатами

В парсере SE::Yandex появился новый результат {misspell} определяющий посчитал ли Яндекс запрос опечаткой или нет

В ProxyChecker изменена проверочная ссылка по умолчанию

В API теперь возможно отключить ведение логов

В парсерe SE::Yahoo убраны результаты {totalcount} и trending[] в связи с изменением в выдаче

В ProxyChecker теперь возможно отключить проверку загруженных проксей - все прокси будут считаться живыми

Исправления парсеров в связи с изменением в выдаче:

SE::Bing - не парсились релейтед кейворды

SE::Yahoo - не парсилась основная выдача и релейтед кейворды

SE::AOL - не парсилась выдача

SE::Yandex::Suggest - в некоторых случаях не парсились кейворды

SE::Yandex - исправлена логика при показе каптчи

SE::Yandex::WordStat - исправлена логика при показе каптчи

SE::YouTube - не учитывались параметры фильтров

Rank::Alexa - не парсился основной рейтинг

Rank::Ahrefs - не парсилось количество беклинков

Полный список изменений тут: 1.0.49

Forbidden · 14.6.2013 в 12:23 #73

A-Parser - версия 1.0.60

Улучшения в CaptchaKiller для парсера SE::Google

Исправлена загрузка каптчи в SE::Yandex::WordStat и работа фильтров в SE::YouTube

Полный список изменений тут: 1.0.60

gerbill · 16.6.2013 в 13:50 #74

может ли парсер скачать картинки с гугл картинок? не ссылки на картинки а сами полноразмерные картинки по списку запросов и с применением гугл-картинкового фильтра (типа только жпеги, не меньше 500 килобайт размером)

Forbidden · 16.6.2013 в 15:32 #75

может - сначала парсим\фильтруем ссылки, потом качаем с помощью Net::HTTP в файлики

Forbidden · 17.6.2013 в 17:40 #76

парсим линки на картинки по параметрам:

за час набрали 135к уник домена >500kb

сохраняем картинки в файлики:

4 часа, забили 100мбит\с

напарсили 112 гиг картинок

кстати, пока делал тест нашел баг - поправил, неверно бинарные файлы сохранялись(картинки)

P.S. скоро будет цикл статей с различными вариантами применения парсера

Forbidden · 3.7.2013 в 12:18 #77

A-Parser - версия 1.0.69

Новый парсер HTML::TextExtractor - парсит текстовые блоки с указанной страницы, можно использовать для парсинга огромного количества текста для наполнения своих сайтов и доров, можно настроить минимальную длину текстового блока для парсинга

В парсере Net::HTTP появилась возможность использовать POST и HEAD запросы, пример парсинга с POST запросом:

Другие улучшения:

Теперь в формате результата есть возможность указать исходный запрос - {firstquery}, позволяет при парсинге в глубину сохранять результаты по файлам с именами изначальных запросов

В парсер Net::Whois добавлен парсинг NS серверов и статусов доменов

В парсере Net::Whois теперь используется единый формат даты регистрации и окончания регистрации - dd.mm.yyyy для всех зон

Новые результаты для всех парсеров:

{retries} - использованное количество попыток на данный запрос

{querynum} - порядковый номер запроса

{lvl} - уровень вложенности запроса(при использовании опций Parse all results, Parse to level)

Для парсера Net::HTTP добавлен параметр Max redirects count - определяет максимальное количество редиректов

Для всех парсеров SE::Google::* добавлен домен www.google.by

Теперь есть возможно указать задержку между запросами(актуально только при парсинге в 1 поток)

Исправления:

Исправлен парсинг подсказок SE::Bing::Suggest

Исправлено сохранение результатов с двоичными данными(изображения, видео и т.п.)

Подробнее тут: 1.0.69

JpS · 3.7.2013 в 13:55 #78

парсер текста берет любой-любой юрль? т.е. выдергивает из абстрактного HTML-я "все что сможет" или под каждый "вид" юрла надо отдельно писать регулярку/правила/етц?
в смысле - это что-то похожее на readability или нет?

Forbidden · 3.7.2013 в 17:17 #79

любой текст, регулярки не нужны, на выходе массив блоков текста, без форматирования(пример на скрине)

JpS · 3.7.2013 в 17:59 #80

Forbidden сказал(а):

, на выходе массив блоков текста
Нажмите, чтобы раскрыть...

а всякие аяксы, джаваскртипы и пр. хренотенть навигационная - вырезается? по какому принципу? или туда попадает все что по дом-модели попадает под опреджелние #text?
другими словами, если взять какой-то новостной сайт, обвешанный плюшками, менюшками, навигацией и рекламой, он выдернет _только_ содержательную часть?
если да, то какие библиотеки использовались для детекта "полезного" текста? какие-то пабликовые или "свои наработки"?

Forbidden · 3.7.2013

JS он не обрабатывает
по сути да то что #text

добавлено через 40 секунд
Навигация туда кстати попадает, это видно на скрине
в настройках можно указать минимальную длину текста и хапать только большие блоки

anza · 3.7.2013 в 20:46 #82

JpS сказал(а): ↑

если да, то какие библиотеки использовались для детекта "полезного" текста? какие-то пабликовые или "свои наработки"?
Нажмите, чтобы раскрыть...

Оффтоп если ты в поиске детектора полезного текста, то я остановился на плагине для фф Evernote Clearly, переписывать не стал выдрал из него ядро и прикрутил к phantomjs + на отсев поставил еще скрипты c индексами читабильности текстов ARI, FleschReadingEase, GunningFogIndex, SMOGIndex. Readability на фоне Evernote Clearly смотрится поделкой выпускника ФАСТ КГТУ.

JpS · 3.7.2013 в 21:07 #83

Оффтоп anza, понял только половину
вообще я так понимаю у тебя что-то клиентское. мне бы серверное.

anza · 3.7.2013 в 21:13 #84

Оффтоп

JpS сказал(а): ↑

ообще я так понимаю у тебя что-то клиентское. мне бы серверное.
Нажмите, чтобы раскрыть...

все серверное, исполнение яс

Dark · 4.7.2013 в 01:51 #85

Хм, полазил, посмотрел, забавная штукенция аднака )
Вот вроде все умеет, и если реализовано на уровне а-постера - вообще респект и уважуха, но есть пару но.

Вот мне нужно чекать постоянно выдачу на предмет моих доменов по тем или иным фразам - мне нужно какую-то обертку к API дописывать ?

Нужно мониторить домены на просрочку и одновременно чекать их по алексе, а еще и предварительно собрав по признакам с пары-тройки сотен сайтов - реализовать можно ?

Forbidden · 4.7.2013

Там уровень намного выше чем у A-Poster(старый динозавр

Ты можешь создать один раз задание, запустить его когда надо, потом для следующего чека сделать его копию и он опять отпарсить

можешь это автоматизировать через API
http://a-parser.com/wiki/user-api/ тут описание что поддерживается

Darkover сказал(а): ↑

Вот мне нужно чекать постоянно выдачу на предмет моих доменов по тем или иным фразам
Нажмите, чтобы раскрыть...

для этого есть парсеры SE::Google:osition, SE::Yandex:osition, SE::QIP:osition
описание тут: http://a-parser.com/wiki/google-position/
на вход идет список
domain key
domain2 key2
...
и т.п.

Darkover сказал(а): ↑

Нужно мониторить домены на просрочку и одновременно чекать их по алексе
Нажмите, чтобы раскрыть...

без проблем - Net::Whois + Rank::Alexa в одном задании, на вход список доменов

добавлено через 1 минуту
P.S. в будущем будет запуск по расписанию, тут описывал http://a-parser.com/threads/477/

Forbidden · 12.7.2013 в 14:04 #87

A-Parser - версия 1.0.71

Мини-апдейт, исправляет ошибки:

В предыдущей версии перестал работать Util::AntiGate, следствием чего перестала работать возможность распознавания каптчи(в парсерах Google, Yandex и т.п.)

В конструкторе результатов(Results builder) не работала функция замены по регулярному выражению(Regex Replace)

Парсер падал если не мог создать папку с результатами

Подробнее тут: 1.0.71

В данный момент ведется активный перенос парсера на обновленную платформу и сокращение времени выпуска новых версий(на данный момент компиляция всем пользователям занимает около 2ух дней)

sklip · 25.7.2013 в 12:28 #88

Стал обладателем, ставится в 2 клика, тестим

Forbidden · 26.7.2013 в 10:37 #89

A-Parser - версия 1.0.81

В этой версии только экстренные исправления в связи с изменением в выдаче:

SE::YouTube

Rank::Alexa

Rank::MajesticSEO

Также исправлена некорректная работа парсера при использовании UTF-8 в регулярных выражениях

Подробнее тут: 1.0.81

Перенос парсера на новую платформу, начатый около 2ух недель назад, подходит к концу и в ближайшее время будет доступна бета-версия.

Forbidden · 5.8.2013 в 09:22 #90

A-Parser - версия 1.0.91

Новый парсер SE::Yandex::WordStat::ByDate - парсит статистику показов ключевых слов Yandex WordStat по месяцам или неделям:

Новый парсер SE::Baidu - парсит поисковую систему baidu.com, популярную в китае и японии:

Теперь парсер гугла SE::Google может парсить по новостям и блогам:

Парсер Яндека SE::Yandex дополнительно парсит рекламные объявления в выдаче:

Другие улучшения:

Можно выбрать несколько файлов для обработки - на каждый файл будет создано свое задание:

Теперь в апарсере есть новости и подсказки на английском и русском:

В парсере Net::HTTP появилась возможность указать Cookies

В парсер HTML::TextExtractor добавлена возможность отключить парсинг анкоров у ссылок

Исправления:

Исправлен парсер Rank::Ahrefs в связи с изменением в выдаче

Исправлена ошибка при которой парсер мог упасть при большом числе файлов запросов

Исправлена работа конструктора результатов Results builder при использовании макроса {query}

Отсутствовала прокрутка в тестовом парсинге

Иногда число активных заданий могло уменьшаться

Подробнее тут: 1.0.91

Webaz · 5.8.2013 в 10:50 #91

Forbidden сказал(а):

SE::Yandex::WordStat::ByDate
Нажмите, чтобы раскрыть...

за это отдельное спасибо

Forbidden · 5.8.2013 в 11:20 #92

Webaz сказал(а): ↑

за это отдельное спасибо
Нажмите, чтобы раскрыть...

да незачто, на очереди еще много чего интересного

sklip · 9.8.2013

Ребят кто знает подскажите как настроить, взять из файла домены
отпарсить по site:site.com
покласть в site.com.txt

добавлено через 1 минуту

Forbidden · 9.8.2013 в 13:16 #94

sklip сказал(а): ↑

Ребят кто знает подскажите как настроить, взять из файла домены
отпарсить по site:site.com
покласть в site.com.txt
Нажмите, чтобы раскрыть...

Ты немного форумом ошибся, форум поддержки тут: http://a-parser.com/forum/

P.S. если по теме - на вид все ок, попробуй число попыток увеличить

Forbidden · 10.8.2013 в 15:28 #95

A-Parser - версия 1.0.95

Исправление парсера SE::Yandex::WordStat - Яндекс целиком изменил сервис и мы одни из первых исправили парсер
Версия с поддержкой каптчи выйдет немного позже.
Также исправлен парсинг ссылок объявлений в парсере SE::Yandex

Подробнее тут: 1.0.95

Forbidden · 19.8.2013 в 08:57 #96

A-Parser - версия 1.0.99

Вновь исправлен SE::Yandex::WordStat в связи с изменением в выдаче, также возвращена поддержка работы с антигейтом и теперь автоматически сохраняются хорошие сессии для экономии прокси и каптч

Улучшения в Extract Top Domain(в Query Builders, Results Builders и в уникализации результатов) - теперь парсер корректно определяет все региональные поддомены вида *.org.ru, *.co.uk и др.

Обновлен список языков для всех парсеров гугла SE::Google::*

Исправления:

В парсере HTML::LinkExtractor некорректно обрабатывались ссылки mailto: и javascript:, также теперь по умолчанию этот парсер не переходит по редиректам

В парсере SE::Bing исправлена ошибка при которой A-Parser мог падать в некоторых случаях

Исправлено зависание при парсинге SE::Baidu

В интерфейсе иногда могли пропадать настройки парсеров

Исправлен SE::YouTube в связи с изменением в выдаче

Подробнее тут: 1.0.99

Webaz · 19.8.2013 в 10:20 #97

Forbidden сказал(а):

SE::Yandex::WordStat
Нажмите, чтобы раскрыть...

SE::Yandex::WordStat by date тоже заработал?

Forbidden · 19.8.2013 в 15:27 #98

Webaz сказал(а): ↑

SE::Yandex::WordStat by date тоже заработал?
Нажмите, чтобы раскрыть...

нет, http://a-parser.com/threads/694/

Forbidden · 26.8.2013 в 09:30 #99

A-Parser - версия 1.0.111

Расширение API:

Новый метод info - получение информации о PID, версии парсера и количества заданий в очереди

Новый метод getTaskConf - получение полных настроек задания по его ID

AParser.pm - Perl модуль, реализует текущее API

Парсеры SE::Yandex::WordStat и SE::Yandex::WordStat::ByDate полностью исправлены после последних обновлений Яндекса. Средняя скорость проверки теперь составляет 5000 кейвордов в минуту без использования антигейта.

В парсеры SE::Bing::Suggest и SE::Suggest добавлена опция Parse to level позволяющая автоматически подставлять найденые подсказки опять в запросы, тем самым происходит парсинг вглубь до 10 уровней вложенности

В парсере Rank::MajesticSEO теперь можно проверить количество беклинков у конкретной страницы сайта

Исправлены:

[NOPARSE]SE:MOZ[/NOPARSE] - в связи с изменение в выдаче

Опция Match subdomains(проверка сабдоменов) во всех парсерах позиций сайта(Positions) - ошибка появилась в предыдущей версии

Подробнее тут: 1.0.111

Forbidden · 6.9.2013 в 15:17 #100

A-Parser - версия 1.0.119

Новый метод уникализации DataBase - не использует оперативную память, 100% точность. Убраны старые методы Dynamic, DynamicHash, 16-64mb как неактуальные, подробности тут

Реализовано лимитирование потоков, в случае превышения потоков в задании парсер выдаст ошибку и не запустит задание. На Windows лимит установлен в 2000 потоков, на Linux в 10000(или меньше если ulimit -n меньше)

Исправлена обработка каптчи в парсере SE::Yandex. Также теперь можно указать регион поиска в цифровом формате через Extra query string, возможность выбора региона из списка сохраняется

В API добавлена возможность переопределить настройки пресета в методах oneRequest и bulkRequest. Добавлен новый метод getParserPreset - позволяет изучить доступные настройки для каждого парсера. Обновлен модуль AParser.pm

Добавлен парсер новой поисковой системы SE:: DuckDuckGo

Обновлен список доменов гугла в парсере SE::Google. Также теперь парсер гугла может определять ошибочно был введен запрос или нет(результат {misspell})

Исправления:

Иногда ссылка на первый ролик в SE::YouTube парсилась некорректно

Исправлено падение в некоторых случаях после постановки задания на паузу

Исправлен двойной запуск задачи после паузы, баг появился в одной из предыдущих версий

При дублировании задания частично пропадали настройки Results Builder

Подробнее тут: 1.0.119

push2me · 7.9.2013 в 20:14 #101

пользуюсь, доволен как слон! спасибо за софт !

Forbidden · 2.10.2013 в 10:31 #102

A-Parser - версия 1.0.130

Важное улучшение - теперь все парсеры(а их 43) проходят ежедневное автоматическое тестирование, что позволяет оперативно реагировать на изменения в выдаче или работе всех сервисов, с которыми работает A-Parser.

Улучшения:

Новый макрос результата {dump} - выводит в удобном виде все результаты получаемые парсером

Улучшен парсинг SE::AOL - теперь необходимо гораздо меньше попыток для успешного парсинга

Теперь парсер SE::Bing парсит до 1000 результатов с каждого запроса

В парсере [NOPARSE]SE::Google:R[/NOPARSE] если у домена или страницы нету PageRank то в результате выведет -1

Парсер [NOPARSE]SE:MOZ [/NOPARSE]переименован в [NOPARSE]Rank:MOZ[/NOPARSE]

Исправления:

Исправлена работа уникализации результатов в тесте A-Parser'а

Исправлено автоматическое удаление временных файлов при работе уникализации

Rank::Alexa в связи с изменением в выдаче

SE::Google::Compromised в связи с изменением в выдаче

SE::QIP в связи с изменением в выдаче

[NOPARSE]SE:uckDuckGo[/NOPARSE] в связи с изменением в выдаче

SE::Yandex::WordStat в связи с изменением в выдаче

[NOPARSE]Rank:MOZ [/NOPARSE]ошибка при проверке домена с www.

Rank::Ahrefs в связи с изменением в выдаче

Подробнее тут: 1.0.130

Forbidden · 14.10.2013 в 09:16 #103

A-Parser - версия 1.0.148

Новый парсер SE::Yandex[noparse]:[/noparse]irect::Frequency - проверка частотности ключевых слов через Яндекс.Директ.
Без распознавания каптчи средняя скорость проверки 3000 ключевых слов в минуту при 500 потоках:

На хороших проксях и при большем числе потоков можно добиться скорости более 20000 кеев в минуту

В парсере HTML::TextExtractor теперь корректно обрабатываются списки(<select>)

Исправления в связи с изменением в выдаче:

Rank::Alexa

SE::Google - определение запросов по которым нет результатов

Другие исправления:

Исправлена логика работы Parse all results(Parse to level) совместно с макросами перебора букв(или фраз из файла)

При парсинге SE::YouTube в некоторых случаях некорректная обработка UTF-8 могла приводить к падению парсера

При парсинге SE::Yandex::WordStat::ByDate с пустым запросом парсер падал с ошибкой

В Perl-модуле AParser.pm исправлено добавление задания с запросами из файла(для пользователей с Enterprise лицензией)

Парсер SE::Yandex мог прекратить парсинг запроса если прокси вернула некорректный редирект(актуально для паблик-прокси)

Исправлено некорректное сохранение данных в UTF-8 во многих парсерах

Редактирование задания в очереди приводило к невозможности запустить это задание(с ошибкой о несуществующем файле запросов)

Forbidden · 25.10.2013 в 09:19 #104

A-Parser - версия 1.0.154

В связи с тем что WordStat теперь можно парсить только используя аккаунты появился новый парсер SE::Yandex::Register - автоматически регистрирует тысячи аккаунтов используя антигейт.

На скриншоте пример регистрации 1000 аккаунтов за 15 минут. Скорость ограничена возможностями антигейта.

Парсеры SE::Yandex::WordStat и SE::Yandex::WordStat::ByDate теперь поддерживают авторизацию и позволяют парсить миллионы кейвордов и проверять частотность без использования антигейта. Теперь затраты на каптчу только при регистрации аккаунтов!

Другие улучшения:

Теперь A-Parser поддерживает неограниченное число вложенных запросов(при использовании опции Parse to level)

Теперь все парсеры позиций сайтов по ключевым словам могут сравнивать искомую позицию по домену, по главному домену и по полной ссылке(опция Match type)

В парсер SE::Yandex добавлен результат geo, который определяет является ли запрос гео-зависимым(предупреждение о показе результатов для конкретного региона)

Исправления:

Исправлен парсер подсказок SE::Google::Suggest в связи с изменением в выдаче

Исправлен парсер SE:: DuckDuckGo - в связи с изменением в выдаче некорректно определял последнюю страницу

При использовании очень больших файлов запросов парсер мог вылетать при возобновлении работы задания после паузы

Подробнее тут: Версия 1.0.154

Forbidden · 9.11.2013 в 09:11 #105

A-Parser - версия 1.0.180

Парсер Яндекса SE::Yandex:

Добавлена опция Parse not found, определяющая парсить ли выдачу если по искомому запросу найдено ноль результатов и предложена выдача по другому запросу

Теперь яндекс гораздо реже показывает каптчу

Исправлена отправка каптчи в связи с изменением в выдачи

В некоторых случаях неверно отправлялся запрос на антигейт о неправильной каптчи

Парсер Яндекс Вордстата SE::Yandex::WordStat:

Улучшена работа с аккаунтами - неверно определялся заблокированный аккаунт

Нельзя было использовать антигейт совместно с аккаунтами

Другие улучшения:

Реализована статистика работы по каждому заданию, в текущей версии считает количество успешных запросов, использование проксей, попыток и HTTP-запросов

Теперь при просмотре логов неудачные запросы выделяются красным цветом для удобства отладки

Небольшие улучшения в скорости работы прокси

Исправления:

Исправлен парсер SE::AOL в связи с изменением в выдачи

Исправлен парсер Rank::Ahrefs в связи с изменением в выдачи

Исправлен парсер SE::Google::TrustCheck в связи с изменением в выдачи

Исправлено разделение логов по запросам

Подробнее тут: Изменения в версии 1.0.180

Войти или зарегистрироваться

A-Parser - многофункциональный парсер SE, PR, TrustRank, DMOZ, WHOIS etc.

Forbidden V.I.P

Forbidden V.I.P

Forbidden V.I.P

gerbill V.I.P

Forbidden V.I.P

Forbidden V.I.P

Forbidden V.I.P

JpS Кассир V.I.P

Forbidden V.I.P

JpS Кассир V.I.P

Forbidden V.I.P

anza V.I.P

JpS Кассир V.I.P

anza V.I.P

Dark Рулевой Администрация

Forbidden V.I.P

Forbidden V.I.P

sklip Well-Known Member

Forbidden V.I.P

Forbidden V.I.P

Webaz V.I.P

Forbidden V.I.P

sklip Well-Known Member

Forbidden V.I.P

Forbidden V.I.P

Forbidden V.I.P

Webaz V.I.P

Forbidden V.I.P

Forbidden V.I.P

Forbidden V.I.P

push2me Active Member

Forbidden V.I.P

Forbidden V.I.P

Forbidden V.I.P

Forbidden V.I.P