Reconnaissance optique de caractères
Reconnaissance optique de caractères (OCR) est un processus dans lequel texte imprimé ou manuscrit est mécaniquement ou électroniquement lire et converti en une forme reconnue par un ordinateur. Le processus sophistiqué considère les formes des lettres et les compare à une bibliothèque de formes similaires. Quand un match est fait, un caractère représentant le motif est affiché sur l'écran, ou saisi dans un fichier informatique. OCR permet à un document est numérisé et lu par un ordinateur, la création d'un fichier qui peut être édité ou sollicité par d'autres moyens.
Logiciel OCR
Logiciels est utilisé pour la mise en œuvre moderne OCR. Le logiciel a progressé depuis ses débuts, dans laquelle les programmes devaient être calibré pour chaque police unique, il a été en mesure de reconnaître. Il est disponible sous forme autonome comme un programme spécialement créé pour la tâche, et en tant que composant logiciel de numérisation. L'avènement de l'Internet et le cloud computing a conduit à l'élaboration de programmes de ROC sur le Web, éliminant ainsi la nécessité pour les installations de bureau ou serveur individuel.
Le processus de reconnaissance
Fonctions du logiciel OCR par reconnaître d'abord la distinction entre les zones sombres et claires de l'image numérisée. Comme il découvre une distinction lumière-obscurité, le logiciel recherche des modèles reconnaissables, tels que des lignes verticales et horizontales, ainsi que des courbes connectés ou partielles. Si l'on peut reconnaître un motif comme une lettre ou un autre caractère, il cherche dans sa base de données pour le caractère correspondant dans le langage de l'ensemble de l'ordinateur. Il passe ensuite ce personnage sur le document ou l'afficher assemble. Si le logiciel est incapable de reconnaître un caractère, il peut faire sa meilleure estimation ou remplacer un caractère alternatif, afin de maintenir le processus.
Problèmes potentiels avec le logiciel OCR
Puisque le logiciel OCR repose sur la reconnaissance des formes, tout artefact sur la page qui pourrait potentiellement affecter ce processus est une source de problèmes. OCR fonctionne mieux quand il ya une distinction claire entre les caractères et le fond du document, idéalement noir sur blanc. Coloré ou milieux chargés qui font les modèles moins distinctif peut causer des problèmes. Taches, des plis et d'autres dommages au document peuvent déboucher sur une reconnaissance de caractère incorrect ainsi.