גוגל מעדכנת את עומק הסריקה שלה

גוגל עדכנה את מסמך העזרה שלה ב-Googlebot ומציינת שה Googlebot יסרוק עד ל-15MB הראשונים של הדף ואז יפסיק. דבר זה מחדד עוד יותר את הצורך שלנו באופטימיזציית קוד, מבנה ותוכן נכונים ומעלה שוב את נושא תקציב הזחילה של גוגל - סביבו מתחוללים הרבה מאוד שינויי אלגוריתם.

מהו גוגל בוט?


גוגל בוט הוא השם הכללי של סורק האינטרנט של גוגל. Googlebot הוא למעשה שני סוגים שונים של סורקים: סורק שולחני המדמה משתמש במחשב שולחני, וסורק נייד המדמה משתמש במכשיר נייד.


רוב האתרים נסרקים על ידי Googlebot Desktop ו-Googlebot Smartphone. ניתן לזהות את תת-הסוג של Googlebot על ידי התבוננות במחרוזת של שאילתת החיפוש ב URL. עם זאת, שני סוגי הסורק product token (סוכן משתמש) ב-robots.txt, ולכן לא ניתן לכוון באופן סלקטיבי לא ל-Googlebot Smartphone או ל-Googlebot Desktop באמצעות robots.txt.


איך גוגלבוט סורק את האתר ?


הסורק תוכנן להיות מופעל בו-זמנית על ידי אלפי מכונות כדי לשפר את הביצועים ואת קנה המידה ככל שהרשת גדלה. כמו כן, כדי לצמצם את השימוש ברוחב הפס, גוגל מפעילה סורקים רבים במכונות הממוקמות ליד האתרים שהם עשויים לסרוק (CDN). לכן, יומני האתר (LOGS) עשויים להציג ביקורים ממספר מחשבים בגוגל, כולם עם סוכן המשתמש של Googlebot. המטרה של גוגל היא לסרוק כמה שיותר דפים מהאתר בכל ביקור מבלי לתפוס את רוחב הפס של השרת המארח. אם האתר מתקשה לעמוד בקצב של בקשות הסריקה של Google, תוכלו לבקש שינוי בקצב הסריקה.


בעבר, Googlebot סרקה דרך HTTP/1.1. עם זאת, החל מנובמבר 2020, Googlebot החלה לסרוק בפרוטוקולי HTTP/2 ולכן חשוב לבדוק אם הפרוטוקול נתמך על ידי האתר מה שיחסוך משאבי מחשוב (לדוגמה, מעבד, זיכרון RAM) עבור האתר ו-Googlebot.


כמה גוגלבוט סורקת ?


גוגלבוט יכול לסרוק את 15MB הראשונים של קובץ HTML או קובץ מבוסס טקסט שנתמך על ידי גוגל. כל המשאבים שאליהם מתייחסים ב-HTML, כגון תמונות, סרטונים, CSS ו-JavaScript, נשלפים בנפרד. לאחר 15MB הראשונים של הקובץ, Googlebot מפסיק את הסריקה ולוקח בחשבון רק את 15MB הראשונים של הקובץ לאינדקס. מגבלת גודל הקובץ חלה על הנתונים הלא דחוסים. שימו לב שלסורקים אחרים עשויים להיות מגבלות שונות.


סוגי הקבצים שגוגל יכולה לאנדקס

גוגל יכולה להוסיף לאינדקס את התוכן של רוב סוגי הדפים והקבצים. סוגי הקבצים הנפוצים ביותר שאפשר להוסיף לאינדקס הם:

  • Adobe Flash ‏(‎.swf)

  • Adobe Portable Document Format ‏(‎.pdf)

  • Adobe PostScript ‏(.ps)

  • Autodesk Design Web Format ‏(‎.dwf)

  • Google Earth ‏(‎.kml‏, ‎.kmz)

  • GPS eXchange Format ‏(‎.gpx)

  • Hancom Hanword ‏(‎.hwp)

  • HTML ‏(‎.htm,‏ ‎.html וסיומות קובץ אחרות)

  • Microsoft Excel ‏(‎.xls‏, ‎.xlsx)

  • Microsoft PowerPoint ‏(‎.ppt‏, ‎.pptx)

  • Microsoft Word ‏(‎.doc‏, ‎.docx)

  • OpenOffice presentation ‏(‏‎.odp)

  • OpenOffice spreadsheet ‏(‎.ods)

  • OpenOffice text ‏(‎.odt)

  • Rich Text Format ‏(‎.rtf)

  • Scalable Vector Graphics ‏(‎.svg)

  • TeX/LaTeX (.tex)‎

  • Text ‏(‎.txt‏, ‎.text וסיומות קובץ אחרות), כולל קוד מקור בשפות תכנות נפוצות:

  • Code Basic ‏(‎.bas)

  • Code C/C++ ‏(‎.c‏, ‎.cc‏, ‎.cpp‏, ‎.cxx‏, ‎.h‏, ‎.hpp)

  • Code #C ‏(‎.cs)

  • Code Java ‏(‎.java)

  • Code Perl‏ (‎.pl)

  • Code Python ‏(‎.py)

  • Wireless Markup Language ‏(‎.wml‏, ‎.wap)

  • XML ‏(‎.xml)

ניתן לבצע חיפוש בגוגל לפי סוג קובץ

ניתן להשתמש באופרטור filetype: בחיפוש כדי להגביל את התוצאות לסוג קובץ מסוים. לדוגמה, החיפוש filetype:pdf seo יחזיר קובצי PDF שמופיע בהם המונח "seo".


היי, לא לדאוג.....

נשמע כמו ג'יבריש ? יש שאלות נוספות? תרצו לקבל הסבר מקיף על נושא המאמר ? לקבל ייעוץ אישי, הדרכה ואפילו ליווי עסקי ?

שמי עמית צוק ואני עורכת מגזין קידום אתרים, בעלת מעל ל 20 שנות ניסיון בפיתוח אתרים, קידום וניהול קמפיינים באינטרנט ובניית אסטרטגיות שיווקיות ופרסומיות באינטרנט. צרו עימי קשר (מבטיחה לא לשלוח ספאם). ועוד משהו קטן...



41 צפיות0 תגובות

פוסטים אחרונים

הצג הכול