17 novembre, 2008

Indexation des textes des images PDF par Google

Si le texte des fichiers PDFs est indexable par Google depuis un certain temps, il n'en était pas de même pour le texte des images contenues dans les PDF. C'est chose faite désormais, par l'usage de technologies de reconnaissance des caractères (OCR - Optical Character Recognition).
Cela veut donc dire que vos documents scannés peuvent être lus et interprétés par Google désormais grâce à l'OCR, alors que jusqu'à présent, seuls les documents enregistrés sous PDF l'étaient.

Voici quelques exemples, cliquez ensuite sur "Version html":
[repairing aluminum wiring]
[spin lock performance]
[Mumps and Severe Neutropenia]
[Steady success in a volatile world]

Source : Official Google Blog