Рекомендуємо

Google відношення до дублікатів

Проблема копіювання матеріалів досить гостро стоїть в інтернеті. Такі компанії, як Google чи Yahoo постійно намагаються боротись з цим явищем, але як показує практика поки що без особливих успіхів. Між тим, проблема стає все більш і більш поширена, тому що існує багато дублікатів, які можна знайти в інтернеті.

На перших порах становлення інтернету, поява дублікатів віталась, оскільки вони зменшують імовірність того, що закривши один веб-сервер, можна буде надавати документи, які розміщенні на іншому сервері. Але з часом інтернет перетворився на місце заробітку, в хід пішли будь-які засоби, в тому числі дублювання контенту. Зрештою google отримав новий патент для боротьби з цим явищем, але наскільки він виявиться ефективним, покаже лише час

Патент на виявлення дублікатів

Винахідники: Daniel Dulitz, Alexandre A. Verstak, Sanjay Ghemawat, Jeffrey A. Dean
Належить Google
US Patent 7,627,613
Схвалено 1 грудня 2009
Подано на розгляд 3 липня 2003

Дублюючі документи детектируются в системі веб-краулера. При отриманні просканованих документа та його ідентифікації визначається набір документів (якщо такий існує) володіють однаковим контентом. Інформація, що ідентифікує знову просканованих документ і вибраний набір документів, вставляється в інформацію, що ідентифікує набір нових документів.

Дублюючі документи включаються і виключаються з нових наборів документів на основі показників кожного документа, що не залежать від запиту. У відповідно до набору попередньо встановлених умов ідентифікується один документ, який представлятиме новий набір документів.

Описова частина патенту багато в чому повторює деталі, які вже розкриті в більш ранніх патентах, що стосуються того, як компанія Google може звертатися з краулінгом і якірним текстом. Наприклад, описуючи як адреси деяких веб-сторінок циклічно скануються на періодичній основі з перервами, що обчислюються днями, тижнями або навіть довше. Деякі адреси скануються щодня, а інші - взагалі кілька разів на день.

Патент про детектуванні звітів документів не надто концентрується на якірному тексті, але зате розкриває деякі подробиці того, як може фільтр контенту пошукової машини працювати з серверами дублюючого контенту (в патенті такі сервера називаються Dupserver). Першим кроком, який може зробити пошукова машина при отриманні знову відсканованої сторінки від веб-краулера, може бути звірка з Dupserver на предмет того, чи є сторінка копією іншого документа. Якщо є, то далі може слідувати визначення канонічної (основної) версії документа.

Цей патент, швидше за все, не покриває всі види дублюючого контенту, які компанія Google може виявити - багато сторінок з дублюючим контентом можуть відрізнятися один від одного різними характеристиками. Наприклад, використанням різних шаблонів, заповнених стандартним контентом на зразок заголовків, футерів і бічних колонок, що є різними на різних сайтах. Або ж сторінки можуть містити частину дублікату і частину унікального тексту. Або ж контенту, скопійованого з різних джерел і зібраного на одній сторінці. Патент визначає вид дублюючого контенту, про який йде мова, а також дозволяє дізнатися про те, як можуть оброблятися редіректи і дублюючийся контент з ними пов'язаний:

Дублюючі документи це документи, що мають значну частину ідентичного контенту або, в деяких випадках, повністю ідентичний контент, але мають різні адреси.

Відповідно, існує як мінімум три сценарії в яких веб-краулер може зустріти дублюються документи:

· Дві сторінки, включаючи будь-яку комбінацію звичайної веб-сторінки (веб-сторінок) і країну (сторінок) тимчасового редіректу, є дублюючими документами, якщо мають ідентичний контент сторінки, але різні адреси (URL);

· Дві сторінки тимчасових редиректів є дублюючою документами якщо вони ведуть на одну цільову адресу, але адреси їхніх джерел розрізняються;

· Звичайна веб-сторінка та сторінка тимчасового редіректу є дублюючими документами, якщо адреса звичайної веб-сторінки є цільовою адресою сторінки тимчасового редіректу або контент звичайної веб-сторінки співпадає з контентом сторінки тимчасового редіректу.

Сторінки постійних редиректів не задіяні безпосередньо в детектуванні звітів документів, так як краулери налаштовані не викачувати контент цільової сторінки. Проте, звичайні веб-сторінки або сторінки тимчасового редіректу можуть у своєму контенті містити адресу, що є вихідною адресою сторінки з постійним перенаправленням. Таким чином, окрім визначення звітів документів, Dupserver також виконує завдання по заміні вихідних адрес, вставлених в контент звичайної веб-сторінки або сторінки тимчасового редіректу, відповідними цільовими адресами постійних редиректів, відомими Dupserver'у.

У патенті згадуються деякі подробиці різних методів детектування дублюючого контенту, які можуть використовуватися. Серед них є, наприклад, взяття "відбитків пальців" контенту на сторінках для подальшого зіставлення контента з різних сторінок. Також розглядаються можливості зберігання таких "відбитків" у таблицях і вибору канонічних адрес для контенту.

Швидкий перегляд патенту може привести когось до висновку, що канонічною версією контенту повинна вибиратися сторінка з найвищим показником PageRank, але в патенті сказано, що іноді "канонічної сторінкою відповідного класу не обов'язково стає документ з найвищими оцінками (тобто найвищим PageRank або іншими параметрами, що не залежать від запиту) ".

Нам надають наступний приклад. Google може зберегти всі сторінки з дублюючим контентом. Потім при знаходженні нової копії машина може оцінити PageRank (або інший показник, що не залежить від запиту) нової сторінки і визначити чи є цей показник значно вище відповідних показників вже відомих копій. І лише потім нова сторінка може бути (а може і не бути) призначена канонічною. Можливо, що враховуються й інші фактори, але відкрито в патенті ці чинники не називаються.

Навіть незважаючи на те, що цей патент про дублюються контенті були подані на розгляд більше 6 років тому, вони вартують витраченого на ознайомлення з ними часу. У них досить докладно описані способи краулінга сторінок, які може застосовувати Google, а також способи збору і обробки отриманої зі сторінок інформації. Якщо вас цікавить те, як працюють пошукові машини, то ці два документи дадуть вам цікаві ідеї про те, що відбувається під час краулінга сторінок. Наприклад:

* Як Google може обробляти тимчасові і постійні редиректи,
* Як Google визначає різну частоту краулінга для сторінок,
* Як Google може вирішувати яку адресу сторінки з дублюючим контентом може вважатися канонічним,
* Як текст навколо посилань може бути обраний для ролі анотації до цих посиланнях,
* Як якірний текст, який вказує на дублюються документи, може бути пов'язаний з канонічною версією документа.

Джерело http://www.seobythesea.com/?p=3114

 
Останнє на сайтівипадкові статті
Лучшая цена пеленальные комоды бывает только на CentroMall.ru; Вы можете создать свой персональных набор теней, купив отдельную упаковку и разместив в .; потребительский кредит сбербанка