Грабберы обычно пишутся под определенные cms, либо для парсинга rss.
Но MultiReader – это универсальное решение. В нем для парсинга вам нужно задать теги, между которыми будет парситься текст и граббер его соберет. Благодаря этому, контент можно парсить с любых сайтов.
Преимущества:

  • быстро работает
  • имеет самый богатый функционал
  • удобна в использовании
  • постоянно развивается
  • может использоваться в комплексе с синонимайзером

Версии программы:

  • демо
  • Silver
  • Gold
  • Platinum
Демо Silver Gold Platinum
Количество проектов 1 2 5 1000
Потоков на проект 1 2 5 10
Страниц в проекте 200 200 1000 1000000
Экспорт в файлы Нет Да Да Да
Фильтрованный экспорт в файлы Нет Да Да Да
Групповое удаление Да Да Да Да
Групповое редактирование Да Да Да Да
Стоимость (WMZ)
-
75 100 150

Внимание! Сейчас идет небольшая акция:
До 28 февраля включительно вы можете приобрести любую версию ридера со скидкой 50%!
При этом при покупке по акции платиновой версии вы можете приобрести коммерческую версию синонимайзера WordSyn всего за 25WMZ.
Т.е. за 100 wmz вы получаете Platinum версию парсера + синонимайзер WordSyn.
Пример парсинга.
Например, мне нужно напарсить новостей про автомобили. Я решил их парсить с mail.ru
Вот подходящий раздел http://auto.mail.ru/articles.html?rubric_id=15
В парсере создаю новый проект “Файл – Проекты – Создать”
Появляется окно “Новый проект”

Жмем “Вперед” и мне предлагают выбрать вариант парсинга, их всего 3

Паук
Вы указываете начальную страницу, и программа загружает и парсит все страницы из этого домена до указанной вами глубины. Может быть полезна тем, кому неважен объем трафика, и кто хочет получить максимальное количество материалов с одного сайта.

Диапазон страниц
Вы указываете шаблон страниц в виде http://site.tld/article/{xxx} и указываете начало и конец диапазона. Программа загружает все страницы из указанного диапазона. При этом экономится трафик, так как вы загружаете только те страницы, которые заведомо содержат нужные типы материалов.

Список страниц
Вы указываете один или несколько урлов, и программа загружает и скачивает только их. Может быть полезно тем, кто получает списки урлов из других источников.

“Список страниц” сразу окидываем, поскольку уйдет много времени на сбор ссылок.

“Диапазон страниц” тоже откинем. Да, у новостей похожие url http://auto.mail.ru/article.html?id= Но так можно напарсить не только автоновости, но и новости по другим тематикам.

Остается “Паук”.
Выбираем его и жмем “вперед”, появляется окно настроек.

В поле “начальный адрес” указываем http://auto.mail.ru/articles.html?rubric_id=15
Сканировать будем страницы до глубины 5
И самое главное сейчас указать какие страницы нужно сохранять.
На вкладке “Условия сохранения страниц” в поле “Если URL содержит” вписываем http://auto.mail.ru/article.html?id=

Таким образом паук пройдется по части автопортала и сохранит только текст со страниц с новостями.
Жмем “Вперед” Появляется окно “Поиск шаблона”. Переходим на вкладку “Вручную”.

Здесь указываем между какими тегами парсить текст. Для этого открываем исходный код любой новости и смотрим между какими тегами она находится.
И переходим дальше. Появляется окно “Исключения”

Здесь трогать ничего не будем.
Переходим вперед и задаем названия проекта.

После создания проекта нажимаем на кнопку “Запуск” и идем пить чай :)

После того, как парсинг закончится. Можно сохранить напарсенные новости в удобном для вас формате.

Граббер появился всего лишь несколько дней назад. Но возможности уже впечатляют, надеюсь и дальше он будет развиваться :)

UPD: Сейчас вы можете получить скидку 10% на эту программу, подробнее…

  • Top 100 блоги про финансы: Инвестиции, Пифы, Акции, Forex, Деньги, SEO и др.
  • Цены на жилье во время кризиса падают. И цена квадратного метра в москве за зиму заметно снизилась.
  • Кухня – это важнейшее место в доме. А классическая кухня – это самый популярный вид кухни.
  • Бесплатно и без регистрации скачать фильмы, музыку, софт – Gudnem.ru

Теги: ,

Похожие записи:

Комментарии (4) »


  1. Да хорошая вещь, да и цена в принцыпе не кусается еще и со скидкой


  2. А в какие форматы можно экспортировать новости? И в каком виде они экспортируются (разметка)?


  3. Ну функционал вроде норм , думаю что стоит попробывать


  4. Для указанного примера шаблон должен быть следующим:

    {content}

    При этом будьте внимательны – после последней угловой скобки не должно быть переводов на новую строку. В той версии, что выложена сейчас, текст используется так, как есть. В новой версии эта бага исправлена, и начальные и конечные пробельные символы удаляются.

    Если приведенный мною пример по какой-то причине испортится (все таки я использую неразрешенные теги), посетите мой блог, на котором я продублирую этот пример.

    Буду рад, если вы посетите форум, посвященный всем моим программам. Адрес форума есть на моем блоге. Ссылка на блог есть в меню Помощь каждой моей программы.

    С уважением, Сергей.
    Разработчик программы MultiReader