neudor

log

Entries Comments



Category: catalogs

Яндекс и дублированный контент.

11 July, 2008 (08:48) | catalogs | By: neudor

Первый каталог уже давно доделан, выложен и проиндексирован сапой. Полностью. Больше 11000 страниц. Клёво быть программистом, и не ныть про вордпресс =). А вот Яндекс, сцуко, тупит. Основных записей почти нет. Есть только страницы со списками, ссылающимися как раз на страницы с контентом.

Видимо, всё дело в том, что я контент тупо пёр с википедии. Надо бы намутить какой-то мега мешап, добавить каменты, голосовалки, последние новости по теме… Если разрожусь чем-то подобным и оно будет мега крутым — пожалуй выложу.

Хотя, может у яндекса бот тупо тормоз. Вон, ещё вчера (10.07) у него в кэше лежал индекс хабра от 7.06. Гугл, например, даже ко мне чаще заходит. Форменное безобразие.

Как модно говорить — палю темы.

24 June, 2008 (21:25) | catalogs | By: neudor

Откуда брать каталоги? Пожалуй, озвучу одну идею, которой заниматься не буду. По крайней мере пока.

Это каталог драйверов. Где брать — не скажу. Есть гугл. Скажу лучше про очевидные полезности. Драйвера нужны всем, всегда и постоянно. Даже не знаю какие доказательства привести. Вроде бы очевидно. Единственная и самая главная сложность — это стягивание собственно файлов. Даже если вы найдёте для парсинга каталог, на котором все файлы лежат прямыми ссылками — всё равно понадобится хотя бы банальное переливание их на ваш хост. А тут уж и хостер взбрыкнуть может. Вобщем сложности есть, но они преодолимы.

Короче, теперь для примера я буду говорить не про мифические “ваши каталоги”, а про вполне конкретные воплощения каталога драйверов.

И на последок озвучу ещё одну интересную мысль. Вот вы добыли трудом и потом некий каталог. Навернули скрипт его просмотра, продаёте рекламу. И что дальше? Поиски нового каталога? А можно ли использовать уже спарсенный каталог во второй и третий раз? Можно!

Первое решение – это некоторая уникализация контента. Что и как можно почитать например у Арсера. Можно ещё попробовать сменить дизайн. Но это всё какие-то сомнительные потуги.

Я предлагаю взять основную часть уникальной записи (это скорее всего будет тупо title-заголовок). Здесь я имею ввиду, что нужно отбросить всякие левые описательные штуки, аннотации и тому подобное. А оставить от каждой записи только название (ну и сам файл драйвера – если говорить о каталоге драйверов), принять его за кейворд, и провести поиск по этому кейворду в поисковых системах. Контент можно брать в виде RSS. Ну и нагнать себе в базу ещё релевантного контента. И вывешивать снова. И снова продавать сапу.

Фактически, всё это можно делать бесконечно. В бесконечных вариациях, смешивая контент с разных источников. Вот такая жила. Насколько она золотая — покажет время.