تو یه ویدیوی گوگل سرچ سنترال، گری ایلیز از گوگل بخشی از فرآیند ایندکس کردن صفحات وب رو توضیح میده که شامل انتخاب صفحات کانونی (canonical) میشه. گری تو این ویدیو توضیح میده که صفحه کانونی از نظر گوگل به چه معناست، یه توضیح خلاصه درباره سیگنالهای صفحه وب میده، از بخش مرکزی یه صفحه صحبت میکنه و اینکه با صفحات تکراری چیکار میکنه که این یعنی یه طرز فکر جدید در مورد صفحات تکراریه.
بعدشم میره سراغ اینکه صفحه کانونی از نظر ما یعنی چی، هم از دیدگاه ناشر و هم از دیدگاه سئوکارها (کسایی که بهینه سازی سایت برای موتورهای جستجو رو انجام میدن).
ناشرا فکر میکنن صفحه کانونی صفحهي اصلیه (صفحهای که خودشون به عنوان نسخه اصلی در نظر گرفتن) و سئوکارها هم فکر میکنن صفحه کانونی یعنی قویترین نسخهی یه صفحه از نظر رتبهبندی توی گوگل. اما همونطور که گری ایلیز از گوگل توضیح داد، مفهوم صفحه کانونی برای گوگل با چیزی که ناشرا و سئوکارها فکر میکنن کاملا فرق داره. تو مستندات رسمی گوگل درباره کانونیسازي: لینک مستندات گوگل از کلمه «رفع تکراری» برای انتخاب صفحه کانونی استفاده شده و ۵ تا دلیل رایج برای اینکه یه سایت چرا ممکنه صفحات تکراری داشته باشه رو لیست میکنه.
۵ دلیل برای داشتن صفحات تکراری:
- محتوای منطقهای: مثلا یه مقاله برای آمریکا و انگلیس که از آدرسهای اینترنتی مختلف در دسترس هستن ولی در اصل همون مطلب به یه زبان مشترک هستن.
- نسخههای دستگاهی: مثلا صفحهای که هم نسخه موبایل داره هم نسخه دسکتاپ.
- نسخههای پروتکل: مثلا نسخههای HTTP و HTTPS یه سایت.
- عملکردهای سایت: مثلا نتایج مرتبسازی و فیلتر کردن تو یه صفحه دستهبندی.
- نسخههای اتفاقی: مثلا نسخه دمو سایت که به اشتباه برای خزندههای گوگل قابل دسترسی باقی مونده.
یه جورهایی میشه به آدرس های کانونی (Canonical URLs) از سه تا زاویه نگاه کرد و حداقل پنج تا دلیل برای وجود صفحات تکراری (Duplicate Pages) وجود داره.
گری یه روش دیگه هم برای درک مفهوم کانونی معرفی می کنه.
سیگنال ها برای انتخاب آدرس های کانونی استفاده می شن.
آیلیس یه تعریف دیگه از کانونی ارائه می ده، این بار از دیدگاه ایندکس شدن (Indexing) و در مورد سیگنال هایی صحبت می کنه که برای انتخاب آدرس های کانونی استفاده می شن.
گری توضیح می ده:
«گوگل تشخیص می ده که آیا صفحه، کپی یه صفحه دیگه که قبلا توی ایندکسش هسته یا نه و اینکه کدوم نسخه باید توی ایندکس باقی بمونه، یعنی همون نسخه کانونی. اما توی این مورد، نسخه کانونی از بین یه گروه از صفحات تکراری، اون صفحه ای هستش که با توجه به سیگنال هایی که از هر نسخه جمع آوری شده، به بهترین شکل نماینده اون گروه باشه.»
بعدش گری مکث می کنه تا در مورد خوشه بندی صفحات تکراری (Duplicate Clustering) توضیح بده و کمی بعد دوباره به صحبت در مورد سیگنال ها برمی گرده.
گری ادامه میده:
“اکثر مواقع، فقط صفحات کانونی توی نتایج جستجو نمایش داده میشن. اما چجوری بفهمیم کدوم صفحه کانونی هستش؟ خب، بعد از اینکه گوگل محتوای صفحه شما رو ببینه، یا به طور خاص، محتوای اصلی یا بخش مرکزی (مرکز توجه) یه صفحه رو ببینه، اون صفحه رو با یه صفحه (یا صفحات) دیگه که محتوای شبیهی دارن (اگه وجود داشته باشه) گروه بندی می کنه. این همون خوشه بندی صفحات تکراریه.”
فقط یه نکته رو اینجا بگم که گری به محتوای اصلی به عنوان “بخش مرکزی صفحه” اشاره می کنه، که جالبه چون یه مفهومی به اسم “توضیحات بخش مرکزی” توسط مارتین اسپلیت از گوگل معرفی شده. گری در مورد این توضیحات بخش مرکزی توضیح زیادی نداد، اما چیزی که گفت می تونه به ما کمک کنه مفهومش رو بهتر بفهمیم.
بخش بعدی ویدیو جاییه که گری در مورد ماهیت سیگنال ها صحبت می کنه.
«آیلیس توضیح میده که “سیگنال ها” چی هستن:
“بعد گوگل یه سری سیگنال رو که قبلا برای هر صفحه محاسبه کرده با هم مقایسه می کنه تا نسخه کانونی رو انتخاب کنه. سیگنال ها تیکه هایی از اطلاعات هستن که موتور جستجو در مورد صفحات و وب سایت ها جمع آوری می کنه و برای پردازش های بعدی استفاده می شه. بعضی از سیگنال ها خیلی واضحن، مثل نشانه گذاری های صاحب سایت توی کد HTML مثل rel=”canonical”، در حالی که بعضی دیگه، مثل اهمیت یه صفحه خاص توی اینترنت، پیچیده ترن.”
خوشه های تکراری یه کانونی دارن.
بعدش گری توضیح می ده که برای هر خوشه از صفحات تکراری توی نتایج جستجو، یه صفحه به عنوان کانونی انتخاب می شه. هر خوشه تکراری فقط یه کانونی داره.
گری ادامه می ده:
“از هر خوشه تکراری، یه نسخه از محتوا به عنوان کانونی انتخاب می شه. این نسخه، اون محتوا رو برای همه نسخه های دیگه توی نتایج جستجو نمایش می ده. نسخه های دیگه توی خوشه، تبدیل به نسخه های جایگزین می شن که ممکنه توی شرایط دیگه نمایش داده بشن، مثلا وقتی کاربر به دنبال یه صفحه خیلی خاص از اون خوشه باشه.”
نسخههای جایگزین صفحات وب
اون قسمت آخر خیلی جالبه و مهمه که بهش فکر کنیم چون میتونه به رتبهبندی برای انواع مختلف یک کلمه کلیدی، به خصوص برای صفحات وب تجارت الکترونیک کمک کنه. گاهی اوقات سیستم مدیریت محتوا (CMS) برای در نظر گرفتن تغییرات یک محصول، مثلا سایز یا رنگ اون، صفحات وب تکراری ایجاد میکنه که بعدا روی توضیحات اون محصول تاثیر میگذاره. گوگل ممکنه این صفحات رو برای رتبهبندی تو نتایج جستجو انتخاب کنه، چون این صفحات با یه عبارت جستجوی خاص بهتر مطابقت پیدا میکنن.
این موضوع مهمه چون شاید بخواهیم صفحات تکراری رو با تگ noindex ریدایرکت کنیم تا از ایندکس شدنشون تو نتایج جستجو جلوگیری کنیم. این کار به خاطر ترس از مشکل (غیر واقعی) رقابت کلمات کلیدی انجام میشه. اضافه کردن تگ noindex به صفحاتی که نسخههای یه صفحه دیگه هستن میتونه نتیجه عکس بده، چون ممکنه این صفحات بهترین گزینه برای رتبهبندی تو یه عبارت جستجوی دقیقتر باشن که شامل رنگ، سایز یا شماره نسخههای متفاوتی نسبت به صفحه اصلیه.
نکات مهم در مورد Canonicals (و بیشتر) که باید به خاطر بسپارید
تو صحبتهای گری درباره کنونیکال (رسمیسازی آدرس صفحات) نکات زیادی بود، حتی یه سری موضوعات جانبی هم درباره محتوا اصلی مطرح شد. حالا هفت تا نکته مهم رو با هم مرور میکنیم که یادمون بمونه:
- به محتوای اصلی «مرکز محتوا» گفته میشه.
- گوگل برای هر صفحهای که پیدا میکنه یه سری «علامتها» رو محاسبه میکنه.
- این علامتها درواقع دادههایی هستن که بعد از کشف شدن صفحات وب، برای «پردازش بیشتر» استفاده میشن.
- بعضی از این علامتها با ترفندهای ناشر (مثل همون اشارههایی که ایلیش اشاره کرد و احتمالا دستورالعملها) قابل کنترل هستن. یکی از این اشارهها همون ویژگی لینک rel=canonical هستش.
- اما یه سری علامتهای دیگه خارج از کنترل ناشر هستن، مثل اهمیت صفحه تو بستر اینترنت.
- بعضی از صفحات تکراری میتونن به عنوان نسخههای جایگزین عمل کنن.
- نسخههای جایگزین صفحات وب هنوز میتونن رتبهبندی بشن و برای گوگل (و ناشر) برای اهداف رتبهبندی مفید باشن.