Dani: Man weiss auch, sie crawlen schneller als sie indexieren. Kommen wir zum zweiten Punkt, den du vorhin genannt hast: die Indexierung.
Wie geht es jetzt weiter, wenn Crawled ist und nun indexiert wird? Dort ist es dann so, dass man eben nicht Content auf der Seite haben sollte, welcher für die Suchmaschine optimiert wurde, sondern relevanter Content.
Erzähl mal etwas zum Indexieren. Was hat dort jetzt Relevanz des Crawlens zum Indexieren?
Erich: Beim Indexieren geht es darum, den Inhalt, der gefunden wurde, aufzubereiten: doppelte Einträge rauslöschen, die ganze Seite rendern, damit man sieht, was für Content auf dieser Seite enthalten ist. Das wird dann ausgewertet und in den Index, die Datenbank reingeschrieben, wo der Treffer herausgeholt wurde.
Dort unterscheidet Google zwischen Soft 404 Fehlern, im Gegensatz zu den 400er Fehlern, wo die Seite nicht existiert. Die «Soft 404» sind Seiten, die wenig Content haben oder wo Google sagt, dass sie keine Relevanz haben. Und das sieht man auch in der Search Console: die Seiten wurden zwar «crawled», jedoch nicht indexiert. Das betrifft vor allem Seiten, die gemäss Google wenig relevanten Content haben oder die Contentqualität als schlecht eingestuft wird.
Dani: Heisst, wenn ich eine Seite live stelle, eigentlich mit Bullshit, dann wird sie lange nicht im Index auftauchen und wird von Google nicht gefunden. Heisst im Umkehrschluss, nur noch wirklich wichtige Inhalte schaffen es in den Index. Seiten, die man mit mittelmässigem Content unter einer kleinen Beschreibung auf Platz 1 bis 10 landet bei Google, sind vorbei. So wird man nicht mehr grosses Manövriermassen haben, wenn man nicht gehaltvolle Content liefern kann. Gehen wir aber weiter.
Dann gibt es auch noch Doublicate Content und solche Themen. Es ist nicht nur der Content, der indexiert wird, welcher die Relevanz schafft, sondern eben, wir haben ja noch Harte 404, Soft 404, wir haben Inhalte, die teilweise doppelt sind oder gerade auch länderspezifisch doppelt entstehen. Was ist dazu zu erzählen?
Erich: Gut, das war jetzt nicht unbedingt etwas Neues, was an der Konferenz kam. Aber dort wurde nochmals darauf hingewiesen, dass die Canonical Tags eine wichtige Rolle spielen. Canonical Tags heisst, wenn ich zwei Seiten habe, die ähnlichen Content haben. Da kann ich auf der einen Seite sagen: "Hey, berücksichtige die andere Seite, die ist relevant bezüglich dieses Contents." Und das kann ich machen über das Well Canonical über den Canonical Link den ich setze. Dort definiere ich, welche Seite die Relevante ist.
Dani: Aber es kann ja sein, dass ich eine internationale Firma bin und ich habe wirklich im Schweizerdeutschen die gleichen Inhalte für ein Produkt oder eine Beschreibung, wie ich in Deutschland und sogar in Österreich habe. Vielleicht noch mit dem einzigen Unterschied, dass ich in Deutschland das scharfe S nutze und in der Schweiz doppel SS schreibe. Wie gehe ich da vor? Ich möchte jbei Google Deutschland sichtbar sein, ich will bei Google in der Schweiz sichtbar sein, ich will bei Google Österreich sichtbar sein. Was mache ich denn da?
Erich: Das Gleiche haben wir auch, wenn wir französischen, deutschen und italienischen Content in der Schweiz haben, wo wir den Content übersetzen. Dort gibt es den sogenannten Hreflang, den ich definieren kann. Was dort aber wichtig ist bei den Hreflang, die muss ich auf allen Sprachseiten bidirektional haben. Das heisst, ich muss von Deutsch auf Französisch verweisen und Google oder der Suchmaschine sagen: "Hey, du bist jetzt zwar auf der deutschen Seite und diese Seite in französischer Sprache ist diese und umgekehrt auf der französischen Seite muss ich sagen: Die deutsche Seite ist diese. Ich muss gegenseitig diese Seiten mit dem Hreflang Tag im Hintergrund verlinken.
Dani: Damit, wenn Google am Indexieren ist, auch sieht, das ist diese Sprache oder das ist diese Sprache oder das Land, um eben Klarheit zu schaffen…
Erich: … und die Erkennung als Duplicate Content verhindern resp. dass es eben keiner ist. Oder, dass Google am Ende sagt, welches die richtige Seite ist. Das machen sie zum Teil auch. Bei den Canonicals sieht man in der Search Console, ob es sich um vom User definierte Canonicals handelt, oder ob Google die Canonicals definiert hat, weil es aufgrund des User Codes unklar war.
Dani: Heisst aber, es lohnt sich immer wieder in die Search Consolen hineinzuschauen, um zu erkennen, ob man alles richtig gesetzt hat. Oder Google sagt, dass man eine ganz andere URL gesetzt hat, dann zeugt es von einem Fehler im System, wo die Canonicals falsch gesetzt wurden.
Es ging noch ein weiteres Thema an dieser Konferenz, nämlich JavaScript. Da hat Google gesagt: "Hey, legt doch diese wichtigen, sehr relevanten Informationen ins HTML und speist diese nicht via JavaScript ein".
Erich: Die Aussage war nicht so, dass sie gesagt haben, dass man das gar nicht mehr machen darf. Die Aussage war einfach, wenn ihr sicher gehen wollt, dass es von uns angeschaut wird, dann macht es in HTML. Ihr dürft das schon auf JavaScript machen. Wenn ihr Pech habt, interpretieren wir es einfach nicht richtig oder gar nicht. Das war die Aussage dahinter.
Was aber noch dazukommt, ist das Document Object Model, das man auf einer Webseite hat.
Das ist eine Hierarchie und auch wieder eine Struktur im Hintergrund, wie eine Webseite aufgebaut wird. Die fängt grundsätzlich an mit einem Head und einem Bodybereich. Der Headbereich sind Zusatzinformationen, die auf der Webseite nicht angestellt werden. Hier reden wir nicht von den Kopfzielen eurer Webseite, in der die Navigation ist, sondern es geht sogenannte Metainformationen, die im Hintergrund abgelegt sind, die verschiedene Aufgabenstellungen haben.
Dann kommt der Bodybereich. Im Bodybereich erwartet Google, dass der Inhalt kommt, sprich das, was wirklichen Wert hat auf eurer Webseite. Dort versuchen sie zu identifizieren, z.B. habe ich eine Navigation, eine Fusszeile. Habe ich eventuell eine Sidebar, die man heute immer weniger sieht. Oder eine Seitenspalte und was ist wirklich der Content und was ist das, was am meisten Gewicht hat, und probieren das aus der Seitenstruktur herauszulesen. Diese bekommt dort immer mehr Gewicht. Innerhalb des Bodycontents ist es wichtig, eine saubere Struktur zu haben mit H1, H2, H3. Wie die Seite strukturiert ist, dass Crawler die Daten anschliessend entsprechenden herausziehen und in der Indexierung verarbeiten können.