Google prêt à indexer des documents scannés
par Michael Arrington (adaptation: Alain Eskenazi) 31 octobre 2008

Google a annoncé son intention de commencer à inclure des documents scannés dans ses résultats de recherche ce qui requiert une quantité de travail importante et  une prouesse technologique via reconnaissance d’image. A la différence des documents textes standards, les document scannés ne contiennent aucunes données texte que les robots de Google peuvent détecter. Google utilise la technologie de reconnaissance optique de caractères , transformant les photos de mots en textes numériques.

Jusque la Google n’avait réussi qu’a détecter les textes qui entouraient une image, comme le titre par exemple mais jamais le contenu visuel de l’image. Dorénavant Google sera capable de référencer le texte présent à l’intérieur même de l’image. Quand vous tombez sur un document scanné dans un résultat de recherche vous pourrez le voir en PDF ou en format texte via HTML.

Cette technologie n’est pas nouvelle mais n’a  encore jamais fait preuve d’une véritable précision et le fait que Google parvienne à le faire sur une si grande échelle est impressionnant. Cela va également permettre d’élargir le champ des recherches et de découvrir du contenu qui n’existait que sur papier.

Voici un exemple: Repairing Aluminum Wiring et plus de détails sur cette annonce ici.

Commentaires rss icon

  • Le fait que Google le fasse à une immense échelle n’est pas particulièrement impressionnant sur le plan de la précision. Enfin, on en sait surtout rien du tout, il y aura certainement encore des erreurs d’imprécision. Ce qui est impressionnant, c’est la puissance de calcul toujours pus phénoménale qu’est capable de fournir Google.
    Entre parenthèse, Google fait de l’OCR (reconnaissance de caractères) depuis longtemps, sur le projet Google Books.

  • Je suis d’accord avec toi Canardo, mais on ne peut pas nier que ça va logiquement amener un contenu important. Je suis pas pro-Google, mais c’est une très bonne chose de la faire.

  • Google le monstre qui avale tout!

  • On est effectivement sur de rien! Google multiplie le nombre d’applications en ligne qui en général ne sont pas encore tout à fait fiable. Que cela demande une enorme quantité de calcul et que, quantitativement uniquement, cela represente quelque chose d’enorme, on est encore bien loin de la qualité optimale… mais toujours content d’utiliser ces services!

Laisser un commentaire

Commenting Options

Enter your personal information to the left, or sign in with your Facebook account by clicking the button below.

Alternatively, you can create an avatar that will appear whenever you leave a comment on a Gravatar-enabled blog.

Rétrolien
  • MediaTemple Logo
  • QuickSprout Logo
  • OpenX Logo
  • Cotendo Logo