Aktuell beschäftigt mich PDF & Joomla.

Zuerst hab ich ein Tool gesucht, mit dem ich ein Verzeichnis der betreffenden Site, das viele PDFs enthält, indizieren kann und entsprechend auch bei der Site-Suche berücksichtigt wird. Immerhin wurde ich mit PDFindexer fündig. Leider kann das Tool auf der betreffenden Site nicht voll arbeiten, da ein dabei genutztes pdftotext nicht ausgeführt werden kann, weil der Server auf einem SUN-OS läuft und es dafür keine Binaries gibt. Dennoch werden mit dem Tool zu mindestens die Dateinamen aus dem Verzeichnis erfasst. Ein Problem war noch, dass bei der Anzeige von Suchergebnissen, an denen der PDFindexer beteiligt war, immer zu jedem Ergebnis die Fehlermeldung hinzufügte, dass eben pdftotext nicht ausgeführt werden konnte. Dann hab ich mich zunächst auf die lange Suche nach der Stelle gemacht, wo denn diese doofe Meldung produziert wird...wurde aber nicht fündig. Dann hab ich mich an dich Stelle ran gemacht, in der die Fehlermeldung in die Ergebnisseite gebracht wird (default_results.php ) und hab da doch tatsächlich ein "if (fehlermeldung von PDFindexer = true) dann zeige nur Ergebnistitel und nicht Teile des Inhalts" eingebaut.

 Nun zu Frust Teil zwo. Wenn man zu einem Beitrag ein PDF-Icon zur PDF-Generierung eines Artikels einblendet und dies auch nutzt, sind die PDF-Ergebnisse manchmal sehr traurig.Als Abhilfe gibt es phocaPDF. Das führt fast immer zu schönen PDFs. Zu kämpfen hatte/habe ich dann noch mit zwei Dingen. Erstens gab es Stellen, an denen noch nicht phocaPDF sondern das Joomla-eigene PDFtool eingesetzt wurde (sieht man daran, dass als QueryString "?format= pdf" statt "?format=phocapdf" steht) . Phoca wurde immer überall eingesetzt, wenn ich SEO  und das System-Chache Plugin abgeschaltet hab. Wenn nicht, gab es eben ein paar Überbleibsel mit "format=phocapdf". Das hab ich dann mit einem Rewrite in der htaccess umschifft, die den Querystring umschreibt:

RewriteCond %{QUERY_STRING}  ^format=pdf$
# Auf den QueryString kann nicht direkt über eine RewriteRule zugegriffen werden,
#sondern muss in der RewriteCond abgefangen werden
RewriteRule ^(.*)$ $1?format=phocapdf [L] 

Gute Tipps hat mir hier  die Mod Rewrite FAQ bzw das Kapitel "Mögliche Fehlerquellen" gegeben-

Als ich das erledigt hatte, gab es dann auch noch mit phoca eine output-Probleme, die einen Zeichensalat in der Anzeige des PDFs ergaben (d.h.der Doumententyp wurde dem Browser nicht korrekt übermittelt, es wurde dem Browser gesagt, jetzt käme was in "text/html" ). Problem war: JoomSEO (Plugin zur Suchmaschinen-Optimerung, siehe auch hier) hatte schon was in den Output geschrieben bevor phocaPDF den Doumententyp im Response angeben konnte.