Maintenant que le module de reconnaissance de caractères est suffisamment avancé, nous allons poursuivre deux tâches en parallèle : - L'amélioration de la reconnaissance de textes, notamment par un meilleur découpage des zones de texte en caractères individuels - L'application des connaissances que nous avons pu acquérir à la reconnaissance des symboles musicaux proprement dite. Le problème principal réside dans les lignes des portées, qui "brouillent" la reconnaissance. Deux solutions sont possibles: Soit nous essayons d'enlever physiquement ces lignes de l'image, en tentant de reconstituer les parties des symboles qui sont dessinées dessous Soit nous adaptons nos algorithmes de reconnaissance, en leur faisant ignorer partiellement ou totalement ces parties-là. Entre les deux, notre coeur balance... |
|
|
by Olivier Guillion | | | |
|
Le module d'extraction de zones de caractères dans une image et le module de reconnaissance ont été fusionnés. On peut donc maintenant charger une page scannée, lancer une analyse, et obtenir graphiquement le texte reconnu affiché en surimpression sur le scan. Cela va nous permettre de poursuivre plus avant l'amélioration de la reconnaissance, mais nous devrons rapidement résoudre le problème de lenteur de calcul, qui va nous gêner dans nos mises au point. Avant d'optimiser les routines de reconnaissances elles-mêmes, nous essayons de trouver un algorithme simple et rapide, fiable à 100%, permettant d'éliminer des comparaisons les caractères trop différents du caractère scanné. En effet, plutôt que de rendre plus rapide la fonction complexe de comparaison, il vaudrait mieux qu'elle soit exécutée le moins souvent possible. Et rien ne nous empêchera, une fois cela fait, de l'optimiser quand même... |
|
|
by Olivier Guillion | | | |
|
Ca y est, un module de reconnaissance optique des caractères alphanumériques est maintenant opérationnel. Lorsque les caractères individuels ont été correctement extraits du texte, et que le programme d'extraction peut fournir quelques informations sur l'échelle des caractères et leur position par rapport à la ligne de base, ce module a un taux de succès qui avoisine les 100%. Les erreurs qu'il commet encore surviennent sur des scans de mauvaise qualité, ou lorsque plusieurs lettres collées sont considérées comme une seule. Il nous faut maintenant interconnecter nos différents modules, pour réaliser une chaine complète allant de l'image scannée au texte complet extrait. Seul bémol pour l'instant, la reconnaissance, si elle fonctionne assez bien, reste abominablement lente. Du travail d'optimisation devra être effectué pour rendre le procédé utilisable, mais ce n'est pas notre souci pour l'instant. D'abord quelque chose qui fonctionne tout court, et ensuite seulement quelque chose qui fonctionne vite. |
|
|
by Olivier Guillion | | |
| |
|
Souvent, les scans des pages sont effectués avec une faible précision, ce qui peut poser problème au module de reconnaissance. Avec peu de pixels, les caractères sont crénelés, présentant des arêtes aiguës, et certaines opérations graphiques (extraction de squelette ou de contour par exemple) peuvent être perturbées. Aussi désirons-nous, lorsque le nombre de pixels est insuffisant, "zoomer" le caractère afin de reconstituer les courbes et les formes qui les composent. Evidemment, il ne s'agit pas simplement d'agrandir les pixels, cela ne supprimerait pas le crénelage. Deux solutions sont utilisables. La première, la plus simple, consiste à agrandir les pixels du caractère puis d'appliquer un effet de flou assez puissant. Les contours du caractère deviennent alors indéfinis. En jouant alors sur l'histogramme des valeurs de gris, on peut lui redonner une certaine netteté. Les courbes sont ainsi arrondies. La seconde est d'utiliser un redimensionnement "bicubique". Il s'agit de considérer que chaque position intermédiaire entre les pixels suit une fonction mathématique (polynôme d'ordre 3) dépendante des pixels adjacents. La valeur des pixels intermédiaires passe donc d'une valeur de pixel à l'autre en suivant une courbe douce (spline). Les deux méthodes donnent des résultats assez proches. Par exemple, ici, à gauche le caractère brut, dont les pixels ont été simplement agrandis,. au milieu, le résultat de l'agrandissement par flou/histogramme, et à droite le résultat de l'agrandissement bicubique : La méthode du milieu donne des formes plus rondes, mais au détriment des détails (base et jonction de la barre verticale du "P", haut de la barre du "d", etc) et a tendance à éroder les lignes fines, comme le haut du "e". Nous avons donc conservé l'agrandissement bicubique (à droite). Il sera appliqué dès que le caractère à reconnaître est d'une taille inférieure à un seuil à déterminer. |
|
|
by Olivier Guillion | | | |
|
Nous avons maintenant passé en revue la plupart des algorithmes de reconnaissance de caractères. Nous commençons à avoir une vision claire de ce qui peut fonctionner et des problèmes inhérents à chaque méthode. Un bon taux de reconnaissance pourrait être effectué en écrivant un sous-programme spécifique pour chaque caractère, du genre : "s'il y a un demi-cercle en bas à gauche, et une grande ligne verticale à droite, c'est un 'd' ". Mais nous préférerions éviter ce genre de chose, car cela empêche une amélioration de l'algorithme par apprentissage. Pour que le résultat change, il faut modifier le programme... Une autre méthode, l'une des plus anciennes, qui donne étonnamment de bons résultats, est la comparaison graphique des matrices de points. Mais cette méthode reconnaît mal les fontes ou les styles encore jamais rencontrés. L'extraction de données caractéristiques du caractères (position des trous et des bosses, courbes, lignes, etc) permet d'atteindre d'assez bons taux avec seulement une poignée de données décrivant le caractère. Nous essayons donc d'implémenter une méthode "mixte", combinant l'extraction de données caractéristiques et une reconnaissance de la matrice de points. Sachant que les deux méthodes, indépendamment, trouvent toujours le bon résultat dans les 5 premiers, la combinaison des deux devrait donc augmenter sensiblement le taux de reconnaissance. La manière de combiner les deux n'a, d'après la documentation que nous avons pu trouver, jamais été mise en oeuvre jusqu'ici. Est-ce parce que cela ne fonctionne pas, ou parce que personne n'y a pensé avant ? Les tests de ces prochains jours nous permettront de le savoir. |
|
|
by Olivier Guillion | | |
| |
|
|