Search My Text

  • Upload
    -

  • View
    216

  • Download
    0

Embed Size (px)

DESCRIPTION

OCR + search in text

Citation preview

Strong Smell v1.0

Computer & Mobile VisionRalis par: Fares Ben Hamouda & Jawher Jouini

1Plan de la prsentationIntroduction la vision par ordinateurProblmatique et Description de lide du projetEtat de lartEtude et critique de lexistantRalisation et Description TechniqueConclusion & perspectives5SIM1 - 2015/201622Introduction la vision par ordinateur5SIM1 - 2015/20163

La vision humaine permet de:Comprendre la composition dune scne en terme des objets qui la composentDtecter des objets mobilesComprendre et interprter les concavits dun objet partir dune seule image Et ce, partir de limage forme sur la rtine mais aussi dun processus dinterprtation visuel complexe incorporant des connaissances a priori La vision par ordinateur:Ne cherche pas reproduire la vision humaine (bien trop complexe-> neurosciences)Cherche rsoudre certaines tches (rduites) que peut effectuer la vision humaineOn est toujours en qute dun systme dinterprtation partir dimages

Problmatique5SIM1 - 2015/20164

Description de lide du projetCe projet utilise de la reconnaissance optique des caractres OCRPermet lutilisateur de chercher un mot ou une chaine alphanumrique dans nimporte quel texte (plusieurs langages sont supports) et laide de la camra de son priphriqueIl na qu entrer la chaine au clavier ou au micro (Reconnaissance vocale)Il oriente la camra vers le texte et le prend en photo, si le mot est trouv il sera colori.Lutilisateur peut aussi configurer lapplication en mode scan continu, ainsi le mot sera colori au fur et mesure de la visualisation camraLe texte reconnu et extrait est aussi stock localement et peut tre diffus, gnr comme PDF5SIM1 - 2015/20165Description de lide: points fortsUtile dans les milieux administratifs et institutionnelsNcessite juste un smartphone Android5SIM1 - 2015/20166Etat de lart: Comment fonctionne un OCR? 1. Les contours de limage sont analyss et stocks2. Les contours sont rassembls sous forme de Binary Large OBject3. Les Blobs sont organises en lignes de texte4. Les lignes de texte sont divises en mots5. La Premire passe du processus de reconnaissance tente de reconnatre chaque mot son tour6. Les mots accepts sont passs un adaptative trainer7. Les rgles apprises par le trainer seront employs dans un second passage, puisquil tentera de reconnatre les mots qui nont pas t reconnus de manire satisfaisante lors du premier passage8. Les espaces superflus sont limins et le texte vrifi pour les petites capitalisations9. Sortie du texte numris5SIM1 - 2015/20167Au cours de ce processus, Tesseract utilise:

Des algorithmes de dtection de lignes de texte Des algorithmes de dtection de mots proportionnelles et non proportionnelles (un mot proportionnel est un mot o toutes les lettres sont de la mme largeur)Des algorithmes pour hacher les caractres lis et pour associer des caractres casssLanalyse linguistique pour identifier le mot le plus probable form par un groupe de personnages eux classificateurs de caractres: un classificateur statique, et un classificateur adaptatif qui emploie des donnes de formation, qui sert mieux distinguer entre les majuscules et minuscules

Etat de lart: prtraitementImages captures en niveau de grisApplication au choix dun seuillage par 3 mthodes (Mthode de Fisher, dOtsu ou la mthode de Seuillage avec le filtre de Sobel)Le seuillage a pour objectif de segmenter une image en plusieurs classes en n'utilisant que l'histogramme. On suppose donc que l'information associe l'image permet elle seule la segmentation et qu'une classe est caractrise par sa distribution de niveaux de gris. A chaque pic de l'histogramme est associe une classe (un segment). Le seuillage minimisation de la variance intraclasse (mthode de Fisher) est difficilement applicable lorsque le nombre de segments est lev. En effet, il faut tester exhaustivement tous les (N-1)-uples (s1,...,sN-1 ) possibles. De plus, il faut que chaque classe ait une taille significative en nombre de niveaux de gris pour que les indicateurs statistiques aient un sens. Dans le cas de la binarisation (N=2), cette mthode est performante. Otsu a propos de raliser plutt une maximisation de la variance inter-classe.La mthode dOtsu est plus intressante d'un point de vue calculatoire car elle ne ncessite pas de calcul de variances. 5SIM1 - 2015/20168Etude et critique de lexistantPlusieurs solutions mobiles utilisent ou implmentent des OCR afin dassurer des oprations de numrisation simples et habituelles (conversion dun texte du support papier en texte numris) Les concurrents ayants le plus de notorit: Google Goggles (une numrisation assez fiable et avance qui se base sur un algorithme avanc et de lintelligence artificielle Google Translate pour Android, traduction en temps rel et laide de la ralit augmente, dun texte pris par la camra du terminal mobile5SIM1 - 2015/20169Ralisation5SIM1 - 2015/201610

Description techniqueLapplication a t dveloppe en utilisant Eclipse, Android SDK et NDKLapplication supporte la version 14 de lAPI au minimum (version 4.0)Lapplication est disponible en 3 langues: Anglais, Franais et ArabeLapplication utilise le moteur OCR Tesseract qui supporte plusieurs langages5SIM1 - 2015/201611Description technique: LimitesTesseract OCR est performant mais prsente quelques limites:Contrairement dautres OCR, Tesseract ne reconnait pas lcriture manuscrite et est limit environ 64 policesSans le prtraitement quon a effectu (entre autres le recours au seuillage), la fiabilit de la conversion est loin detre garantie5SIM1 - 2015/201612Conclusion & perspectivesCette application est forte de ses fonctionnalits et de son design attirantElle est destine tous ceux qui utilisent quotidiennement une grande quantit de documents en papier et qui nont besoin que de certains points qui ne ncessitent pas une lecture complteElle reste sujette des volutions et des mises jours qui peuvent amliorer certaines fonctionnalits afin de les optimiser. Par exemple, lors du prtraitement, agir sur les images captures pour avoir une meilleure nettet5SIM1 - 2015/2016135SIM1 - 2015/201614