Всего за 459.9 руб. Купить полную версию
4. Затем формируется выборка шинглов, вернее, контрольных сумм и непосредственно сравнение и анализ документов. Из всех полученных контрольных сумм отбирается несколько десятков значений. Производится это путем случайной выборки, к примеру, 70 математических функций из заблаговременно составленного реестра, каждая из которых может описывать интересный для целей data mining параметр: пересечение, вложенность и т. д. Все шинглы документа пропускаются через каждое из 70 выражений, что дает на выходе значения, атрибутируемые тому или иному шинглу. Для каждой из 70 функций выбирается шингл с минимальным (возможны и иные критерии) значением контрольной суммы. В результате на базе анализируемого документа составляется сигнатура из 70 значений контрольных сумм. При сравнении с другим документом, который подвергся такой же операции, берутся шинглы, отобранные по совпадающим функциям. К примеру, если при отборе шинглов в обоих случаях было использовано 25 одинаковых функций из 70, то сравнение выполняется по 25 соответствующим контрольным суммам.
5. В результате анализа, если обнаружена высокая доля совпадения контрольных сумм двух документов, делается вывод о том, являются ли эти документы четкими (контент полностью совпадает) или нечеткими (контент претерпел некоторые изменения) дубликатами.
Конечно, алгоритм мы продемонстрировали лишь в общих чертах, чтобы дать представление о принципе поиска дубликатов методом шинглов.
Поисковики используют и другие сложные методы проверки текстов на уникальность. Среди них – статистический анализ частотности слов с использованием распределения Ципфа для поиска аномалий, наложение длинных пассажей (более длинных, чем шинглы, отрывков текста) для поиска совпадений в документах, которые подверглись ручному рерайту с разрушением шинглов, и другие методы.
Таким образом, избежать санкций поисковиков за использование чужого контента можно, лишь создавая оригинальный контент – самостоятельно ли, с привлечением ли копирайтера или рерайтера, способного качественно преобразовать заимствованный текст.
Семантическая разметка страниц
Индексируя страницы сайта, поисковый робот первым делом извлекает из них информацию. Чем более че\тко и организованно она подана "посланцу" Google или "Яндекса", тем быстрее и точнее он решит эту задачу.
На быстроту и корректность сбора данных для индексации влияет так называемая семантическая разметка страницы. Такое форматирование веб - документа призвано преподнести контент поисковику в предельно понятном, "съедобном" виде. Страница без семантической разметки будет так или иначе интерпретирована роботом, но ему придется самостоятельно структурировать извлеченную из нее информацию. А поскольку алгоритмы поисковых систем неидеальны, при отсутствии помощи со стороны сайтовладельца им не всегда удается безошибочно трактовать материалы и обеспечивать безупречный поиск по ключевым запросам.
Зато благодаря "семантической паутине", охватывающей все больше интернет - площадок, поисковики оказываются в состоянии давать пользователям точно и внятно сформулированные ответы на их запросы.
Микроформаты и микроданные
Семантическая разметка страницы осуществляется по специальным стандартам. Исторически сложилось так, что два гиганта поиска – Google и "Яндекс" изначально придерживались каждый своего формата. Разработчики из корпораций Google, Yahoo! и Microsof создали проект под названием Schema.org. Он основан на разметке с помощью тегов microdata ("микроданные"). "Яндекс" присоединился к инициативе западных коллег осенью 2011 года, а до того начал продвигать в массы другую методологию – "микроформаты" (h p://microformats.org/wiki).
Очевидным образом веб - мастеров мягко подталкивают к тому, чтобы они прибегали к семантической разметке страниц. Администраторам сайтов в Рунете ради повышения привлекательности сайта для "Яндекса" и Google нужно учитывать оба формата и составлять две версии семантического описания контента.
Вот пример описания продукта с применением формата microdata:
(div itemscope itemtype="http://schema.org/Product")
(span itemprop="name")Микроволновая печь Samsung MW73VR(/span)
(img src="/reader/60/38/b143860/samsung - microwave - mw73vr.jpg" alt='Микроволновая печь Samsung MW73VR' />
(div itemprop="aggregateRating" itemscope itemprop="h p://schema.org/AggregateRating">
Средняя оценка покупателей (span itemprop="ratingValue">4(/ span>
на основе (span itemprop="reviewCount">11(/span>отзывов(/div>
(div itemprop="offers" itemscope itemtype="h p://schema.org/ Offer">
(span itemprop="price">2630 р.(/span>
(link itemprop="availability" href="h p://schema.org/ InStock" />В наличии
(/div>
(span itemprop="description">Отдельностоящая микроволновая печь объемом 20 л и мощностью 800 Вт(/span>
(div itemprop="reviews" itemscope itemtype="h p://schema.org/ Review">
(span itemprop="name">Отличная печка(/span> – от (span itemprop="author">Иван(/span>,
(meta itemprop="publishDate" content="2012 - 04 - 01">1 апреля 2012
(div itemprop="reviewRating" itemscope itemtype="h p:// schema.org/Rating">
(meta itemprop="worstRating" content = "1">
(span itemprop="ratingValue">4(/span>/
(span itemprop="bestRating">5(/span>stars
(/div>
(span itemprop="description">Легко чистить(/span>
(/div>
(/div>
Формат microformats hProduc "Яндекса" на текущий момент используется поисковиком для описания автомобилей в программе "Отзывы по автомобилям". Пример разметки микроформатами приведен на странице помощи в сервисе "Яндекс. Вебмастер" (h p:// help.yandex.ru/webmaster/?id=1113265).
Насколько верна семантическая разметка с использованием микроформатов на вашем сайте, легко проверить соответствующим валидатором в "Яндекс. Вебмастере" (h p:// webmaster.yandex.ru/microtest.xml).
CMS с поддержкой микроформатов
Для работы с большим количеством страниц рациональнее обеспечить семантическую разметку инструментами CMS. Среди готовых решений, которые поддерживают микроформаты, – Drupal, Wordpress, Movable ype. Под "самописную" CMS придется создавать специальный модуль со сходной функциональностью.
Важно помнить, что предназначение семантической разметки – помочь поисковику проанализировать и структурировать созданный для посетителя и видимый ему контент. Любое отклонение от курса (например, попытка упорядочить скрытый текст и другие сомнительные элементы) может быть расценено как нарушения правил поисковой системы и грозит наложением санкций на ресурс вплоть до "пессимизации".
Семантическая разметка – это мало того, что большой шаг к улучшению результатов поиска, но и средство, делающее прозрачнее отношения между сайтами и поисковыми системами. А значит, процедура в равной мере коммерчески и "гигиенически" значимая.
Трафиковое продвижение
В действиях оптимизатора главный вектор – вывод проекта в топ. Но по достижении желаемых позиций очень важно закрепиться на них и обеспечить сайту прочное положение в выдаче. Удерживать занятые высоты и противостоять конкурентам в "Топ - 10" по средне– и высокочастотным запросам достаточно сложно. А значит, необходимы средства, которые помогут наладить неослабевающий приток целевых посетителей на сайт, если стандартных методов SEO окажется недостаточно.
На сегодняшний день в системе SeoPul реализованы два способа такой подстраховочной стабилизации. Первый – подключение синхронизированной кампании контекстной рекламы. Второй – трафиковое продвижение. О нем мы и поговорим.
Что это такое
Название метода говорит само за себя: его целью являются не позиции в топе, а сам трафик, или поток целевых посетителей. Иначе говоря, не качественный показатель продвижения, а количественный. При запуске SEO - кампании SeoPul прогнозирует посещаемость для каждого ключевого слова, но это лишь приблизительные величины. В случае с трафиковым продвижением количество посетителей известно заранее. Через какое - то время после запуска такой кампании можно провести анализ посещаемости и вычислить коэффициент конверсии. В итоге владелец площадки имеет на руках данные о том, какое количество посетителей ему требуется привлечь, чтобы обеспечить определенный уровень продаж. Чтобы
"добыть" необходимое количество посетителей в SeoPult, достаточно пары кликов.
Технология трафикового продвижения – это три пункта:
• составление большого семантического ядра из тысяч ключевых запросов;
• создание тысяч целевых страниц с контентом, оптимизированным под эти ключевики;
• много дешевых ссылок.
Преимущества трафикового продвижения:
• дешевый целевой трафик;
• устойчивость к смене алгоритмов поисковых систем (например, что видимость сайта по НЧ - запросам достаточно стабильна при смене алгоритмов "Яндекса" и не опускается ниже 65 %);
• быстрый вывод сайта в топ;
• возможность более гибко управлять бюджетом.
Наряду с перечисленными преимуществами существует лишь один недостаток – огромная трудоемкость процесса. Подбор запросов и контроль продвижения тысяч страниц не по плечу одному человеку. Трафиковый модуль SeoPul как раз таки автоматизирует эти многочисленные рутинные операции.