Записи с тегом "парсер"

Только для новичков – заработок в интернете за клики

Самый простой и дешёвый способ добычи качественного уникального контента – это его парсинг из мест, которые не могут проиндексировать ПС.
Некоторое личности берут контент с чужих сателлитов, которые ещё не успели войти в индекс, что по сути является паразитизмом, а паразитов в нашем обществе никто не любит. Но это злостный паразитизм, когда и “растению-хозяину” становится плохо. Но есть и более лёгкие формы паразитизма, когда контент берётся, например, из всем известной социальной сети Вконтакте.
Владельцы по сути не страдают, но и помогают “паразитам” жить дальше :)

Единственный известный мне парсер обсуждений Вконтакте – это парсер от parsermaster’а

Принцип работы парсера:
На входе вводим: логин (email), пароль и номер группы.

Парсер авторизуется, доходит до списка с обсуждениями и собирает, абсолютно все сообщения всех обсуждений группы.

На выходе вы получаете txt файл формата

“автор сообщения|дата сообщения|адрес до аватара|сообщение|название группы|тема обсуждения|номер группы”

Пример:

Алексей Лемеш|4 авг 2009 в 16:56|http://cs204.vkontakte.ru/u42757523/c_1079bc0d.jpg|Петровский остров – очень красивое место! Можно пройти от м "Крестовский остров" по Большому Петровскому мосту с Крестовского на Петровский остров. Петровская площадь, Дом ветеранов сцены… А если пойти на западную оконечность острова (территория яхт-клуба), то открываются красивые виды на губу малой Невы и Невки, Финский залив и о. Декабристов.|Cамодеятельный туризм под Питером (группа закрыта, доступна только для просмотра)|интересные места в Питере, именно в черте города|55728
Виктория blackberry Цупсман|13 сен 2009 в 22:41|http://cs9650.vkontakte.ru/u311103/c_0a39f4cc.jpg|Была сегодян в мозаичном дворике, о котором писала в начале августа) место вроде и интересное… вот только грязновато там(( некультурная у нас молодежь… к сожалению(так же побывала и в дворике "страны ОЗ" вот там вообще скукота мрак.. делать там не чего… так.. развлекалка для местных жителей с детьми погулять, ехать туда целенаправлено – не стоит, с моей точки зрения|Cамодеятельный туризм под Питером (группа закрыта, доступна только для просмотра)|интересные места в Питере, именно в черте города|55728

Скриншоты:
Стартовая страница

Лог выполнения

Цена парсера:
40 wmz

Купить можно на этой странице

Требования к хостингу
php 5.2.*
curl
safe_mode = off

Применение контента:
Парсер выдаёт и имя юзера, его аватар и сообщение. Этих данных вполне достаточно для создания псевдофорума.
Просто контент можно использовать и для сателлитов и для доров.

Но формат вывода не удобен для дальнейшей обработки. К счастью есть конвертеры на parsermaster.ru и на wmaid.com

1. Сюда вставляем получившийся массив данных
2. Вводим имя файла и расширение
3. DATA1 это первое поле во входном массиве, DATA2 это второе и так далее.
| – это разделитель во входных данных

Элитная женская парфюмерия и духи.
Оригинальный дизайн интерьера и ремонт квартир.

Парсеры, грабберы, контентоворователи

28 Сентябрь 2009 | Автор: Virtual

Собирателей различного вида контента с сайтов в общем-то много, но большинство заточено под определенные цели: какие-то парсеры тащат картинки, какие-то сохраняют ссылки, некоторые заточены только под парсинг определенных сайтов. Но сегодня я бы хотел поговорить про универсальные парсеры контента, которые можно настроить под любой сайт.

Multireader
Первым таковым в моей жизни был multireader

Программа эта предназначена для сохранения текстов с любых сайтов, кроме того можно собрать воедино несколько текстовых файлов, и есть парсер gogo.ru
Для граббинга контента с нужного сайта создаёте новый проект, где указываете начальный url, можно поставить галочку “грабить только до уровня” и указать необходимый уровень – очень удобно, когда нужны только свежие статьи, располагающиеся ближе к главной странице.

В программе есть 2 уровня распознавания шаблона контента:
Автоматический – не всегда программа правильно находит текст, поэтому о существовании этого режима лучше вообще забыть.
Ручной – более актуальный способ: выбираете откуда брать заголовки статей (из тайтла, или из тегов h1/h2… но самому указать между какими тегами находится заголовок нельзя, поэтому если ваш “подопытный” свёрстан нестандартно, то вы не сможете получить нормальные заголовки), и указываете где (между какими тегами) находится сам текст статьи.

Кроме того в парсере есть очень удобная фишка, экономящая трафик и время – есть возможность указать условия загрузки и сохранения страниц.
Например, если я укажу слово “tag” в условиях загрузки, то парсер будет заходить только на страницы, содержащие это слово.

При экспорте контента можно создать любой шаблон, например, чтобы сперва выводился заголовок, потом ставился какой-нибудь разделить, а дальше шла сама статья. Экспортировать можно как в отдельные файлы, так и все статьи в один файл.

Но у меня почему-то возникли проблемы с парсингом большого количеств страниц и я перестал им пользоваться, тем более появился другой, более удобный для меня парсер.

Sjs-site-grabber
Sjs – универсальный парсер контента!
Автор этой программы вам должен быть знаком хотя бы по скрипту “живые комментарии“.
Программа появилась несколько дней назад, но бурно развивается.

Здесь же сперва парсятся все внутренние ссылки на сайте на все страницы. В настройках можно указать каких данных не должно быть в url. После завершения работы парсера ссылок полученны данные можно обработать, удалив ненужные ссылки. Если вам требуется контент не со всего сайта, а только из одного раздела, то можно сохранить ссылки только с нужной страницы.
И после создания файла со списком ссылок переходим непосредственно к парсингу статей, для этого создаётся шаблон, где указывается между какими тегами находится заголовок, статья, и откуда брать рубрику для этой статьи (этого нет в других парсерах, здесь же, если вы грабите целый сайт, где несколько разных категорий, то в итоге ваши статьи останутся привязанными к этим категориям).

Статьи можно экспортировать в 4 формата: для WPT, Zebrum Lite, Satellite-X (этот формат подходит и для Autoblog-X) и простой формат.

Минус – нельзя создать свой шаблон для экспорта.

Есть и уникальная функция у этого граббера – он может сохранять изображения, находящиеся в статьях. Этого нет в аналогичных продуктах.

Автор прислушивается к хорошим советам и постоянно обновляет своё детище.

Если вы при покупке сообщить, что вы от меня (от Virtual’a), то вы получите скидку 10%.

UPD. В парсер добавлено:

  • Сохранение настроек – теперь не надо каждый раз все настраивать
  • Новый формат шаблона контента. Теперь можно использовать до 99 тегов, вместо [title],[text] и т.д. используем [1], [2], [3]… там где надо. В совокупности со следующим пунктом дает огромные возможности в реализации своих сдей.
  • Возможность задать свой формат вывода. Теперь можно его менять не обращаясь ко мне. В 1 файл, в кучу файлов, названия этих файлов… все задается.
  • Возможность парсить текст с/без ссылок. При желании ссылкам добавляются теги noindex
  • Устранены несколько мелких багов. Спасибо всем, кто помогал и продолжает помогать совершенствовать программу.

GEN-S
Парсер статей на gen-s.ru (про сервис я уже писал).

Сам сервис предназначен для мутации (уникализации) статей. В момент написания прошлой статьи качество было ещё “не очень”, сейчас же оно заметно улучшилось, но идеальным оно не станет никогда, сами понимаете – не человек рерайтит статьи.

Основное отличие этого парсера от предыдущих в том, что он условно бесплатный (сперва можно напарсить 100 статей, чтобы продолжить парсинг, эти статьи нужно прогнать через сервис, т.е. за парсер вы не платите, а оплачиваете только уникализацию статей) .
Этот парсер отлично подойдёт для тех, кому нужен уникальный контент для сателлитов.

А в остальном он похож на его вышепредставленных сородичей: точно также указываете между какими тегами находится заголовок, где находится сама статья и с каких страниц парсить контент.
Кроме этого для статей можно сразу ввести метку. В сервисе есть целый мануал по использованию парсера.

Экспортировать статьи можно как все в один файл, так и в xml файл, и в формат для Satellite-X/Autoblog-X.

Кстати, там сейчас проходит акция каждый раз пополняя счет на сумму от 50 рублей Вы получаете бонус в размере 100 рублей.

И на забывайте про счастье, рекламу и бабло.

На этом всё! С вами был Virtual, оставайтесь на первом :D

  • Качественная разработка сайтов с индивидуальным подходом в Минске.
  • Абонентское обслуживание компьютеров в Киеве.
  • Профессиональный плиточник – с ним ремонт станет проще.