Google-Problem mit Umlauten
-
N’Abend!
Ich sehe gerade, dass Google anscheinend damit Probleme hat wordpress.com Blogs, die auf Deutsch geschrieben sind und Umlaute (ä, ö, ü) enthalten, sauber zu indizieren bzw. sauber in den Suchergebnissen darzustellen.
Beispiel:
<quote>Der erstellt nicht nur unglaublich beeindruckende Übersetzungen von einzelnen Sätzen (Dieser Text wird jetzt mit Google Sprachtools übersetzt! …</quote>
Kann man das irgendwie „tunen“ (anderer Zeichensatz), damit die Google-Hits nicht so hässlich aussehen? Oder sind das Einstellungen, die nur seitens wordpress.com gemacht werden können?
-
Standardmässig ist bei WP.com UTF8 als Zeichensatz eingestellt. Heisst, alle Zeichen werden UTF8-kodiert in der Datenbank abgelegt. UTF8 ist die am weitesten verbreitete Zeichenkodierung und Google hat damit kein Problem. Den Zeichensatz kannst du unter Einstellungen > Lesen >> Zeichensatz für Seiten und Feeds auch ändern. Wenn du den Zeichensatz änderst musst du alle Umlaute erneut eingeben, da sie, wie gesagt, schon UTF8-kodiert in der Datenbank abgelegt wurden. Solange du nicht in einer „exotischen“ Sprache schreiben möchtest, besteht aber für eine Änderung kein Grund. Bitte zeige doch mal einen Link zu einem Google-Ergebniss…
-
Hallo Olaf,
UTF-8 habe ich auch auch eingestellt.
Versuch mal bitte http://www.google.de/search?q=sprachtools
Der derzeit 8te Link von oben (auf dassammelsurium.wordpress.com) ist der, den ich meine. Andere Suchergebnisse auf Google die auf meinen Blog zeigen, werden ähnlich dargestellt.
Gruß
Holger -
Google nutzt bei dir seltsamerweise windows-1252 als Content-Type… ich hab` mir jetzt ein gutes Dutzend andere Ergebnisse von deutschsprachigen WP.com-Blogs angeschaut und dort gab es nirgends das Problem. Hattest du eventuell früher einen anderen Zeichensatz eingestellt?
-
Eingestellt nicht. Aber ich könnte mir vorstellen, dass der Grund darin zu suchen ist, dass der Blog früher auf Blogger.com gehostet wurde. Nach einiger Zeit bin ich zu wordpress.com umgezogen und habe die bereits geschriebenen Einträge „mitgenommen“.
Vielleicht ist da irgendwas durcheinander gekommen…?
-
…das ist Googles-Rache dafür, dass du umgezogen bist ;) Aber ich schätze, dass es wohl daran liegt, obwohl man ja sofort sieht, wenn ein Umlaut falsch dargestellt wird. Dieses Problem ist mit keinem anderen Blog zu reproduzieren… ich bin da ehrlich gesagt, im Moment ratlos…
-
Ich habe das eimal ausprobiert, bin nämlich auch vor einiger Zeit von Blogger umgestiegen, bzw. die alten Beiträge importiert. In der Google-Suche für einen meiner Beiträge waren auch Umlaute, funktioniert aber prima…
[Link Suchergebnisse]
(In den Suchergebnissen sind sowohl der Blogger-, als auch der Worpress-Post zu sehen)Bin an der Stelle auch ratlos…
Magnox
-
Toll…!! Ein (fast) zerschossenes Linux, ein Festplatten-Crash und ein unerklärliches Google-Problem an einem (!!) Tag. Ich muss ein sch..ß Karma haben *lach*
Ich frag‘ nachher mal spasseshalber im Englisch-Sprachigen Forum. Vielleicht hat dort jemand eine „Erleuchtung“ ;-)
-
Wenn ich die von dir verlinkte Seite mal beim W3C-Validator oder Validome checke, dann sagt er mir nur, dass in Zeile 422 / Spalte 289 ein Zeichen existiert, was nicht UTF-8 ist. Auch die HTML Tidy-Erweiterung sagt mir das. Aber in meiner Quelltext-Ansicht kann ich das Zeichen nicht weiter eingrenzen, denn in Zeile 422 steht bei mir nur das schließende DIV des Clustrmaps-TextWidget. Ich denke, diese verfl… Zeichen verwirrt Google hier.
Ich würde mir mal alle deine TextWidgets anschauen und nochmal neu setzen und abspeichern. Da kann schon mal ein falscher Zeichensatz mitkopiert werden.
Und wenn du die TextWidgets eh änderst, dann würde ich (da dein WordPress-Theme XHTML benutzt und nicht HTML) auch die Tags richtig schließen. für BR also < BR / > und nicht < B R >, (ohne Leerzeichen natürlich) analog für den IMG-Tag. Und bei den Bildern könntest Du das ALT-Attribut ergänzen.
Viel Erfolg! -
Werde ich auf jeden Fall machen! Möglicherweise liegt es tatsächlich daran. Schaden wird es sicherlich nichts.
Gestern habe ich übrigens noch herausgefunden, dass Google nicht alle Seiten meines Blogs verkackt, sondern nur einige. Ich habe im Cache z.B. das gefunden:
Und dort werden alle Umlaute und sonstigen Sonderzeichen „richtig“ dargestellt. Da fällt einem doch nix mehr ein, oder!? %-(
-
Ich habe die Index-Seite des Blog jetzt auch durch den Validator gejagt und bei mir schreit er
Im Dokument befindet sich in Zeile 623 und Spalte 289 ein ungültiges Zeichen.
Dieses Zeichen ist in der verwendeten Zeichenkodierung (utf-8) nicht erlaubt.Zeile 623 erzeugt einen Teil der Kategorie-Auflistung, auf deren XHTML-Code ich keinen Zugriff habe. Das ungültige Zeichen kann ich auch nicht finden!
Strange, …
Support-Anfrage bei WordPress.com blieb übrigens ergebnislos. Marc hat zwar vorhin geantwortet, weiß aber auch keinen Rat.
-
Schon komisch…
Auf jeder deiner Seiten soll das „böse“ Zeichen woanders sein. Mal ist es Zeile 412, mal 419, du schreibst von Zeile 623…
Noch merkwürdiger ist, dass nach dem schließenden BODY-Tag, bzw. HTML-Tag noch Code kommt. Irgendwas stimmt mit deinem Theme nicht. Und wie man an anderer Stelle hier im Forum gesehen hat, gibt es dafür keine ausgewiesene Stelle oder Vorgehensweise, was dann zu tun ist.
Obwohl WordPress groß damit wirbt, dass es validen Code erstellt und nur die Themes Probleme bereiten, existieren hier bei WordPress.com bei vielen Themes eklatante Fehler im Code und es scheint niemanden zu interessieren. Auch wenn exakte Fehlerbeschreibungen abgegeben werden, passiert nichts. Schade eigentlich.
Aber back on topic:
Zeile 623 ist bei mir folgende:
< li>< a href=“http://picasaweb.google.com/blogbilder“>Galerie</ a></ li>
auf der Disclaimer-Seite wäre es Zeile 392:
< a href=“http://www.netvibes.com/subscribe.php?url=http%3A%2F%2Fdassammelsurium.wordpress.com%2F“><img src=“http://farm1.static.flickr.com/178/429163977_f8ccd4d4ca_o.gif“ /></ a>Auch wenn ich mir nicht vorstellen kann, dass es das ist, könntest Du aus %3A wieder einen Doppelpunkt machen und aus den %2F einen Schrägstrich.
Hast Du aus allen Text-Widgets mal den herauskopiert (in Notepad o.ä.), dann wieder hineinkopiert und das Text-Widget gespeichert?
Manchmal verstecken sich nämlich hinter einem Bindestrich andere Zeichen (Unicode-Minus, bedingter Trennstrich, etc.) und dann gibt es Probleme. Einmal in Notepad kopiert sollte er diesen „Ballast“ wegschmeißen und „plain text“ daraus machen.
-
Stimmt, die „://“ – Sache ist mir noch gar nicht aufgefallen. Ich habe das mal geändert und der Validator schreit noch immer. Natürlich weiterhin an den unterschiedlichsten Stellen…
Ich habe spasseshalber einen anderen WordPress-Blog, der mein Theme verwendet, durch den Validator gejagt und dort gab es keine derartigen Probleme, wie bei mir.
Es muss also an den Text-Widgets liegen. Deren Inhalte habe ich gestern schon wie du beschreibst raus- und wieder rein kopiert. Kein Erfolg. Mir kommt aber gerade eine weitere Idee: Ich werfe mal alle Text-Widgets raus und schaue, ob die Validierung dann funktioniert…
Danke übrigens für deine Hilfe =)
-
… der Fehler hat sich irgendwie durch das RSS-Widget eingeschlichen!
Ich habe alle (!) Widgets aus dem Theme geworfen und nach und nach eingebaut. Nachdem das RSS-Widget mit den Google Picasa-Stream eingebunden war, schrie der Validator plötzlich wieder, dass ein nicht UTF-8 Zeichen gefunden wurde.
Auf den Stream kann ich verzichten, … Also lasse ich das Widget draußen. Jetzt meckert der Validator zwar noch immer, aber das sind XHTML-Fehler(chen) die mich ganz ehrlich gesagt nicht großartig stören.
Lustig finde ich nur, dass der Validator eigentlich ja immer an der selben Stelle hätte meckern müssen – nämlich dort, wo der RSS-Feed steht. Hat er ja aber nicht getan. Strange, sehr strange!
-
Allerdings, strange. Aber gute Idee, die Widgets einzeln zu überprüfen!
Hast Du den Feed mal im Feed-Validator getestet?
Gruß Torsten
- Das Thema ‘Google-Problem mit Umlauten’ ist für neue Antworten geschlossen.