Парсеры, грабберы, контентоворователи

28 Сентябрь 2009 | Автор: Virtual

Собирателей различного вида контента с сайтов в общем-то много, но большинство заточено под определенные цели: какие-то парсеры тащат картинки, какие-то сохраняют ссылки, некоторые заточены только под парсинг определенных сайтов. Но сегодня я бы хотел поговорить про универсальные парсеры контента, которые можно настроить под любой сайт.

Multireader
Первым таковым в моей жизни был multireader

Программа эта предназначена для сохранения текстов с любых сайтов, кроме того можно собрать воедино несколько текстовых файлов, и есть парсер gogo.ru
Для граббинга контента с нужного сайта создаёте новый проект, где указываете начальный url, можно поставить галочку “грабить только до уровня” и указать необходимый уровень – очень удобно, когда нужны только свежие статьи, располагающиеся ближе к главной странице.

В программе есть 2 уровня распознавания шаблона контента:
Автоматический – не всегда программа правильно находит текст, поэтому о существовании этого режима лучше вообще забыть.
Ручной – более актуальный способ: выбираете откуда брать заголовки статей (из тайтла, или из тегов h1/h2… но самому указать между какими тегами находится заголовок нельзя, поэтому если ваш “подопытный” свёрстан нестандартно, то вы не сможете получить нормальные заголовки), и указываете где (между какими тегами) находится сам текст статьи.

Кроме того в парсере есть очень удобная фишка, экономящая трафик и время – есть возможность указать условия загрузки и сохранения страниц.
Например, если я укажу слово “tag” в условиях загрузки, то парсер будет заходить только на страницы, содержащие это слово.

При экспорте контента можно создать любой шаблон, например, чтобы сперва выводился заголовок, потом ставился какой-нибудь разделить, а дальше шла сама статья. Экспортировать можно как в отдельные файлы, так и все статьи в один файл.

Но у меня почему-то возникли проблемы с парсингом большого количеств страниц и я перестал им пользоваться, тем более появился другой, более удобный для меня парсер.

Sjs-site-grabber
Sjs – универсальный парсер контента!
Автор этой программы вам должен быть знаком хотя бы по скрипту “живые комментарии“.
Программа появилась несколько дней назад, но бурно развивается.

Здесь же сперва парсятся все внутренние ссылки на сайте на все страницы. В настройках можно указать каких данных не должно быть в url. После завершения работы парсера ссылок полученны данные можно обработать, удалив ненужные ссылки. Если вам требуется контент не со всего сайта, а только из одного раздела, то можно сохранить ссылки только с нужной страницы.
И после создания файла со списком ссылок переходим непосредственно к парсингу статей, для этого создаётся шаблон, где указывается между какими тегами находится заголовок, статья, и откуда брать рубрику для этой статьи (этого нет в других парсерах, здесь же, если вы грабите целый сайт, где несколько разных категорий, то в итоге ваши статьи останутся привязанными к этим категориям).

Статьи можно экспортировать в 4 формата: для WPT, Zebrum Lite, Satellite-X (этот формат подходит и для Autoblog-X) и простой формат.

Минус – нельзя создать свой шаблон для экспорта.

Есть и уникальная функция у этого граббера – он может сохранять изображения, находящиеся в статьях. Этого нет в аналогичных продуктах.

Автор прислушивается к хорошим советам и постоянно обновляет своё детище.

Если вы при покупке сообщить, что вы от меня (от Virtual’a), то вы получите скидку 10%.

UPD. В парсер добавлено:

  • Сохранение настроек – теперь не надо каждый раз все настраивать
  • Новый формат шаблона контента. Теперь можно использовать до 99 тегов, вместо [title],[text] и т.д. используем [1], [2], [3]… там где надо. В совокупности со следующим пунктом дает огромные возможности в реализации своих сдей.
  • Возможность задать свой формат вывода. Теперь можно его менять не обращаясь ко мне. В 1 файл, в кучу файлов, названия этих файлов… все задается.
  • Возможность парсить текст с/без ссылок. При желании ссылкам добавляются теги noindex
  • Устранены несколько мелких багов. Спасибо всем, кто помогал и продолжает помогать совершенствовать программу.

GEN-S
Парсер статей на gen-s.ru (про сервис я уже писал).

Сам сервис предназначен для мутации (уникализации) статей. В момент написания прошлой статьи качество было ещё “не очень”, сейчас же оно заметно улучшилось, но идеальным оно не станет никогда, сами понимаете – не человек рерайтит статьи.

Основное отличие этого парсера от предыдущих в том, что он условно бесплатный (сперва можно напарсить 100 статей, чтобы продолжить парсинг, эти статьи нужно прогнать через сервис, т.е. за парсер вы не платите, а оплачиваете только уникализацию статей) .
Этот парсер отлично подойдёт для тех, кому нужен уникальный контент для сателлитов.

А в остальном он похож на его вышепредставленных сородичей: точно также указываете между какими тегами находится заголовок, где находится сама статья и с каких страниц парсить контент.
Кроме этого для статей можно сразу ввести метку. В сервисе есть целый мануал по использованию парсера.

Экспортировать статьи можно как все в один файл, так и в xml файл, и в формат для Satellite-X/Autoblog-X.

Кстати, там сейчас проходит акция каждый раз пополняя счет на сумму от 50 рублей Вы получаете бонус в размере 100 рублей.

И на забывайте про счастье, рекламу и бабло.

На этом всё! С вами был Virtual, оставайтесь на первом :D

  • Качественная разработка сайтов с индивидуальным подходом в Минске.
  • Абонентское обслуживание компьютеров в Киеве.
  • Профессиональный плиточник – с ним ремонт станет проще.

Теги: , , ,

Похожие записи:

Комментарии (7) »


  1. Спасибо за описание моей программы. Только вот скриншот бы другой поставить. Сегодня вышла версия 0.9, а на картинке версия 0.1:)


  2. Тоже пользуюсь Sjs-site-grabber. Мне нравится


  3. Есть бесплатный плагин для Firefox outwit – http://www.outwit.com/
    Прекрасно и удобно парсит всё что угодно, настраивается собственный граббер, всё сохраняет в Excel.
    А вообще много возни с парсерами для с каждого сайта – у меня BlogBot всё из выдачи Google автоматом парсит, синонимизирует и публикует, я туда даже не лезу – настроил и забыл.


  4. SeoBromid, аналогично. Всем рекомендую Sjs-site-grabber.


  5. Надо попробовать попользовать)
    Никогда программы не юзал. Под свои потребности сам себе писал скриптики которые парсили то что мне надо :)


  6. Зло это все)


  7. Благодаря Search Bot,
    outwit действительно лучшие.