Upload
meda-conferences
View
752
Download
0
Tags:
Embed Size (px)
Citation preview
ABBYY FineReader - חכם OCR
–בעברית והמרת תוכן ומסמכים פענוח
!מוצלח לארכיון דיגטאלי הדרך
2011מצגת בכנס לניהול ידע ומסמכים
:י"ע
חיים רון
מ"מאגרי תוכנה בע
Title and presenter ABBYY FineReader 11
?OCRמהו
OCR – (Optical Character Recognition זיהוי תווים אופטיאו )
שנסרקה או צולמה במצלמה , הטקסטהמרה של תמונת הוא .לטקסט הניתן לעריכה במחשב, דיגיטלית
Title and presenter ABBYY FineReader 11
?ABBYY FineReaderמהו
FineReader - תוכנת הינהOCR וקבצי תמונות דיגיטליות של טקסט , מסמכי ניירהממירה , חכמהPDF מבנה תצוגתם המקורישמירה על תוך , בקלות ובמהירות, הניתנים לעריכה ולחיפושלפורמטים .
Title and presenter ABBYY FineReader 11
FineReader – תוכנת ה-OCR המובילה טכנולוגית:
חכמה מדויקת
יעילה
.עובדת מהר יותר מכל מקלידה מקצועית
.משחררת זמן יקר לנושאים חשובים יותר
?ABBYY FineReaderמהו
Title and presenter ABBYY FineReader 11
ששימושיו רבים" אולר שוויצרי"הינו FineReader-מנוע ה
?ABBYY FineReaderמהו
Title and presenter ABBYY FineReader 11
:FineReader 11 Professional Desktopתכונות כולל מיקום תמונות בתוך הטקסט, מסמכים תואמים לגרסת המקור מנגנוןADRT – מדרוג , מנתח המסמך ובונה תוכן העניינים, זיהוי מסמכים מותאם
.מספרי דפים ועוד, הערות שוליים, כותרות עליונות ותחתונות, כותרותי מסמכPDF חיפושיםלמסמכים שניתן לערוך ולבצע בהם ותמונה הופכים מצלמה דיגטאלית או סמארטפון , קלט מסורק( 2מינימום Megapixel) צרו ספרים לקריאה על מכשירי ה-E-Book שלכם לדוגמא למסמכי –הפכו מסמכים לארכיון דיגיטאליPDF/A דחיסתMixed Raster Content (MRC) לקבציPDF תאילנדית קוראנית , יפנית, סינית, י"כתב רש, כולל אידיש)שפות 189-בתווים זיהוי
שפות 45-בונעזרת במילונים ( וערבית ברמה טכניתי בינה מלאכותית"לימוד פונטים חדשים ע קבצי תמונות כקלט במבנה:
BMP, DIB, RLE, PCX, DCX, JPEG, JPEG 2000, JBIG2, PNG, TIFF, PDF, XPS, DjVu, GIF, WDP
שמירת פלט מסמכים במבנה: DOC, DOCX, XLS, XLSX, PPTX, RTF, PDF, PDF/A, DjVu, HTML, CSV, TXT, ODT, EPUB, fb2
שמירת פלט תמונות במבנה: BMP, DIB, RLE, PCX, DCX, JPEG, JPEG 2000, JBIG2, PNG, TIFF, PDF, PDF/A, DjVu
תמיכה בעבוד מקבילי על מספר מעבדים
?ABBYY FineReaderמהו
Title and presenter ABBYY FineReader 11
:FineReader 11 Corporate Desktopתכונות כולל את כל יכולות גירסת ה-Professional
תמיכה בעבודת אצווה ב-Batch לעבודה , "חמות"מול ספריות (24x7)אוטומאטית
תזמון ועבוד תסריטי עבודת אצווה התקנת רשת עם רישיונות צפים תמיכה בעבודה בשיטתTerminal-Server הוספת אנשי קשר מכרטיסי ביקור ל-Microsoft Outlook ,
שפות 25-תמיכה ב
?ABBYY FineReaderמהו
Title and presenter ABBYY FineReader 11
FineReader 11
OCR ממצלמה
1 “Brightness & Contrast” בחירת הבהירות וקונטרסט
1 2 3
2 “Levels”
בחירת רמת הצללים על ההסטוגרם
3 Enhanced Trapezium Crop
ג התמונה"ציון הטרפזיום ע
Title and presenter ABBYY FineReader 11
מתמונות" רעשים"הוצאת
SDK's Strategy
Overview and
9
סריקה מקורית
לאחר העיבוד
Title and presenter ABBYY FineReader 11
טיפול ברקע התמונה
FineReader Engine
10
10
סריקה מקורית
לאחר הטיפול
Title and presenter ABBYY FineReader 11
הוצאת צבעים מתמונה לחתימות וחותמות" פילטר"
FineReader Engine
10
11
Title and presenter ABBYY FineReader 11
OCR ממצלמה מימדים 3-יישור מ –תיקון ויישור לצילום טרפזיוני
FineReader Engine
10
12
לפני
אחרי
Title and presenter ABBYY FineReader 11
OCR ממצלמה תיקון תמונות מטושטשות
FineReader Engine
10
13
לפני
אחרי
Title and presenter ABBYY FineReader 11
OCR ממצלמה ISOהורדת רעשי
FineReader Engine
10
14
לפני
אחרי
Title and presenter ABBYY FineReader 11
ABBYY Recognition Server 3.0
שרת מבוססFineReader OCR למיכון תהליך המרת מסמכים על פני מחלקות שונות בתאגיד בנפחים בינוניים עד גדולים מאוד
המרת נפחים גדולים של מסמכים מודפסים לפורמאטים הניתנים לחיפוש כגוןPDF או PDF/A
י "עיישומים אחרים מבוססי שרת עם ופשוטה אינטגרציה מהירהAPI כולל עברית, שפות 198-זיהוי אופטי ברמת דיוק גבוהה ב מחשבים של אשכול בעל יכולת להשתמש במשאבים המוצר(Clusters ) ושל יחידות עיבוד מרכזיות
(CPU )זמניםוכך למעשה ניתן להמיר כל כמות של מסמכים תוך עמידה בלוחות , מרובות במקביל עמדות שליטה וניהול :
ליצירת סדר , למוצר עמדת ניהול מרכזית להגדרת פרמטרים לעבוד -עמדת ניהול ושליטה מרכזית פעולות לפרוייקטים מסוימים ולניהול עמדות זיהוי ואימות הפענוח
עם אפשרות לפיצול למסמכים נפרדים –עמדת סריקה
עמדת אימות מסמכים אנדקס לפי שדה במיקום מסויים או אינדקס ידני, אופציה לאינדוקס מלא –עמדת אינדוקס מסמכים
ל" שקוף"הפלט-Google Search, SharePoint Server and Windows Desktop Search למערכות ממשקיםDMS מובילות 2תמיכה בפענוח ברקודD and 1D ,כולל QR תמיכה בפונטים מסוג :OCR-A, OCR-B, MICR & CMC7
Title and presenter ABBYY FineReader 11
המרת מסמכים לארכיון דיגטאלי
SDK's Strategy
Overview and
16
...נותן אפשרות לאחזר מסמכים ולהשתמש בהם
Title and presenter ABBYY FineReader 11
ABBYY FineReader Engine 10
תוכנה ערכת פיתוח למפתחי- Software Development Kits (SDK) המייצרת מערכות לניהול דומותאו מערכות (EDMS)מסמכים אלקטרוניים
הטכנולוגיות הכלולות בערכה הן : מנועFineReader
לינוקס ומק, ה חלונות"עובד במ
OCR - מודפסיםתווים אופטי של תווים זיהוי
ICR - מודפסזיהוי כתב יד
OMR – זיהוי סימנים אופטי
Barcode recognition – פענוח כל סוגי ברקוד
2D and 1D , כוללQR
המרתPDF למסמכים ברי חיפוש כולל ל-PDF/A
הן בטפסים מסודרים –עיבוד טפסים
בטפסים מובנים למחצהוהן
יכולת לזיהוי אזורי
מסמך לאינדקס מלאניתוח
בדפוס שפות 198זיהוי(OCR ) עבריתכולל
בכתב יד מודפס שפות 113זיהוי(ICR )
מילונים בשפות שונות 47תמיכת הזיהוי באמצעות
תמיכה ב-API
תמיכה בעיבוד מקבילי
1.0
1.5
2.0
2.5
3.0
3.5
4.0
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Rate
, tim
es
Pages in a document
Recognition performance increase rate for multi-core systems comparing to one-core system
2 cores
4 cores
Title and presenter ABBYY FineReader 11
ABBYY Mobile OCR Engine 4.0
ערכת פיתוח למפתחי תוכנה על סמארטפון/PDA - Software Development Kits (SDK)
תכונות הערכה : כוללת מנועFineReader
לינוקס, מובילין, חלונות מוביל, ה חלונות"במעובדת , מק וסימביאן, אייפון, אנדרואיד
דורשת נפח זיכרון מינימאלי
מילונים 21-שפות ו 62תמיכה בזיהוי
שפות 25–כוללת יישום לקריאה ופענוח כרטיסי ביקור ל
יישורה וניתוח , לבן-התהליך כולל עיבוד התמונה בשחור
מבנה הנתונים
Title and presenter ABBYY FineReader 11
ABBYY FlexiCapture Engine 9.0
תוכנה ערכת פיתוח למפתחי- Software Development Kits (SDK) לניתוח מסמכים במבנה טפסים קבועים או משתנים
תכונות הערכה : OCR - מודפסיםתווים אופטי של תווים זיהוי
ICR - מודפסזיהוי כתב יד
OMR – זיהוי סימנים אופטי
Barcode recognition – 2פענוח כל סוגי ברקודD and 1D , כוללQR
המרתPDF למסמכים ברי עריכה וחיפוש כולל ל-PDF/A
הן בטפסים מסודרים והן בטפסים מובנים למחצה –עיבוד טפסים
יכולת לזיהוי אזורי
מסמך לאינדקס מלאניתוח
שפות בזיהוי תווים אופטי 198תמיכה רחבה בשפות עם(OCR ) עבריתכולל
שפות בזיהוי כתב יד 113זיהוי(ICR )
מילונים בשפות שונות 47תמיכת הזיהוי באמצעות
ניתוח חשבוניות בעברית
תמיכה ב-API
תמיכה בעיבוד מקבילי
ה חלונות"עובד במ
Title and presenter ABBYY FineReader 11
הדגמה
Title and presenter ABBYY FineReader 11 December 4, 2011
www.abbyy.co.il 21
:י"יישום לדוגמא ע
1991-לישכת שירות שנוסדה ב
עובדים 370-מעסיקה כ
ציוד סריקה משוכלל
מיליון דף בחודש 8-סריקה של כ
ארכיון הפרוטוקולים של כנסת ישראל: פרויקט ראשון שבוצע
Title and presenter ABBYY FineReader 11 December 4, 2011
www.abbyy.co.il 22
פרויקט הארכיון הדיגיטאלי לספריית הכנסת
:היקף הפרויקט
שנה 40דף של פרטוקולים של הכנס לאורך 500,000-צילום ופענוח מלא ל.
זיהויOCR בעברית
שגויים/אימות ותיקון ידני לחריגים
נושאי , ביצוע אינדקס לפי תוכן מלא וגם לפי שמות חברי הכנסת הדוברים הדיון ותאריכים
יצוא הפלט ל-PDF בר חיפוש
אחוז השגויים היה נמוך מאוד
Title and presenter ABBYY FineReader 11 December 4, 2011
www.abbyy.co.il 23
דוגמא לדף מפרטוקול הכנסת
Title and presenter ABBYY FineReader 11 December 4, 2011
www.abbyy.co.il 24
DPMSמסך האימות במערכת
Title and presenter ABBYY FineReader 11 December 4, 2011
www.abbyy.co.il 25
PDF-ו WORDפלט במבנה
Title and presenter ABBYY FineReader 11 December 4, 2011
www.abbyy.co.il 26
לקוחות בישראל רשימה חלקית של
Title and presenter ABBYY FineReader 11
!תודה על תשומת הלב