27
ABBYY FineReader - חכםOCR פענוח והמרת תוכן ומסמכים בעברית הדרך לארכיון דיגטאלי מוצלח! מצגת בכנס לניהול ידע ומסמכים2011 ע" י: חיים רון מאגרי תוכנה בע" מ

חיים רון

Embed Size (px)

Citation preview

Page 1: חיים רון

ABBYY FineReader - חכם OCR

–בעברית והמרת תוכן ומסמכים פענוח

!מוצלח לארכיון דיגטאלי הדרך

2011מצגת בכנס לניהול ידע ומסמכים

:י"ע

חיים רון

מ"מאגרי תוכנה בע

Page 2: חיים רון

Title and presenter ABBYY FineReader 11

?OCRמהו

OCR – (Optical Character Recognition זיהוי תווים אופטיאו )

שנסרקה או צולמה במצלמה , הטקסטהמרה של תמונת הוא .לטקסט הניתן לעריכה במחשב, דיגיטלית

Page 3: חיים רון

Title and presenter ABBYY FineReader 11

?ABBYY FineReaderמהו

FineReader - תוכנת הינהOCR וקבצי תמונות דיגיטליות של טקסט , מסמכי ניירהממירה , חכמהPDF מבנה תצוגתם המקורישמירה על תוך , בקלות ובמהירות, הניתנים לעריכה ולחיפושלפורמטים .

Page 4: חיים רון

Title and presenter ABBYY FineReader 11

FineReader – תוכנת ה-OCR המובילה טכנולוגית:

חכמה מדויקת

יעילה

.עובדת מהר יותר מכל מקלידה מקצועית

.משחררת זמן יקר לנושאים חשובים יותר

?ABBYY FineReaderמהו

Page 5: חיים רון

Title and presenter ABBYY FineReader 11

ששימושיו רבים" אולר שוויצרי"הינו FineReader-מנוע ה

?ABBYY FineReaderמהו

Page 6: חיים רון

Title and presenter ABBYY FineReader 11

:FineReader 11 Professional Desktopתכונות כולל מיקום תמונות בתוך הטקסט, מסמכים תואמים לגרסת המקור מנגנוןADRT – מדרוג , מנתח המסמך ובונה תוכן העניינים, זיהוי מסמכים מותאם

.מספרי דפים ועוד, הערות שוליים, כותרות עליונות ותחתונות, כותרותי מסמכPDF חיפושיםלמסמכים שניתן לערוך ולבצע בהם ותמונה הופכים מצלמה דיגטאלית או סמארטפון , קלט מסורק( 2מינימום Megapixel) צרו ספרים לקריאה על מכשירי ה-E-Book שלכם לדוגמא למסמכי –הפכו מסמכים לארכיון דיגיטאליPDF/A דחיסתMixed Raster Content (MRC) לקבציPDF תאילנדית קוראנית , יפנית, סינית, י"כתב רש, כולל אידיש)שפות 189-בתווים זיהוי

שפות 45-בונעזרת במילונים ( וערבית ברמה טכניתי בינה מלאכותית"לימוד פונטים חדשים ע קבצי תמונות כקלט במבנה:

BMP, DIB, RLE, PCX, DCX, JPEG, JPEG 2000, JBIG2, PNG, TIFF, PDF, XPS, DjVu, GIF, WDP

שמירת פלט מסמכים במבנה: DOC, DOCX, XLS, XLSX, PPTX, RTF, PDF, PDF/A, DjVu, HTML, CSV, TXT, ODT, EPUB, fb2

שמירת פלט תמונות במבנה: BMP, DIB, RLE, PCX, DCX, JPEG, JPEG 2000, JBIG2, PNG, TIFF, PDF, PDF/A, DjVu

תמיכה בעבוד מקבילי על מספר מעבדים

?ABBYY FineReaderמהו

Page 7: חיים רון

Title and presenter ABBYY FineReader 11

:FineReader 11 Corporate Desktopתכונות כולל את כל יכולות גירסת ה-Professional

תמיכה בעבודת אצווה ב-Batch לעבודה , "חמות"מול ספריות (24x7)אוטומאטית

תזמון ועבוד תסריטי עבודת אצווה התקנת רשת עם רישיונות צפים תמיכה בעבודה בשיטתTerminal-Server הוספת אנשי קשר מכרטיסי ביקור ל-Microsoft Outlook ,

שפות 25-תמיכה ב

?ABBYY FineReaderמהו

Page 8: חיים רון

Title and presenter ABBYY FineReader 11

FineReader 11

OCR ממצלמה

1 “Brightness & Contrast” בחירת הבהירות וקונטרסט

1 2 3

2 “Levels”

בחירת רמת הצללים על ההסטוגרם

3 Enhanced Trapezium Crop

ג התמונה"ציון הטרפזיום ע

Page 9: חיים רון

Title and presenter ABBYY FineReader 11

מתמונות" רעשים"הוצאת

SDK's Strategy

Overview and

9

סריקה מקורית

לאחר העיבוד

Page 10: חיים רון

Title and presenter ABBYY FineReader 11

טיפול ברקע התמונה

FineReader Engine

10

10

סריקה מקורית

לאחר הטיפול

Page 11: חיים רון

Title and presenter ABBYY FineReader 11

הוצאת צבעים מתמונה לחתימות וחותמות" פילטר"

FineReader Engine

10

11

Page 12: חיים רון

Title and presenter ABBYY FineReader 11

OCR ממצלמה מימדים 3-יישור מ –תיקון ויישור לצילום טרפזיוני

FineReader Engine

10

12

לפני

אחרי

Page 13: חיים רון

Title and presenter ABBYY FineReader 11

OCR ממצלמה תיקון תמונות מטושטשות

FineReader Engine

10

13

לפני

אחרי

Page 14: חיים רון

Title and presenter ABBYY FineReader 11

OCR ממצלמה ISOהורדת רעשי

FineReader Engine

10

14

לפני

אחרי

Page 15: חיים רון

Title and presenter ABBYY FineReader 11

ABBYY Recognition Server 3.0

שרת מבוססFineReader OCR למיכון תהליך המרת מסמכים על פני מחלקות שונות בתאגיד בנפחים בינוניים עד גדולים מאוד

המרת נפחים גדולים של מסמכים מודפסים לפורמאטים הניתנים לחיפוש כגוןPDF או PDF/A

י "עיישומים אחרים מבוססי שרת עם ופשוטה אינטגרציה מהירהAPI כולל עברית, שפות 198-זיהוי אופטי ברמת דיוק גבוהה ב מחשבים של אשכול בעל יכולת להשתמש במשאבים המוצר(Clusters ) ושל יחידות עיבוד מרכזיות

(CPU )זמניםוכך למעשה ניתן להמיר כל כמות של מסמכים תוך עמידה בלוחות , מרובות במקביל עמדות שליטה וניהול :

ליצירת סדר , למוצר עמדת ניהול מרכזית להגדרת פרמטרים לעבוד -עמדת ניהול ושליטה מרכזית פעולות לפרוייקטים מסוימים ולניהול עמדות זיהוי ואימות הפענוח

עם אפשרות לפיצול למסמכים נפרדים –עמדת סריקה

עמדת אימות מסמכים אנדקס לפי שדה במיקום מסויים או אינדקס ידני, אופציה לאינדוקס מלא –עמדת אינדוקס מסמכים

ל" שקוף"הפלט-Google Search, SharePoint Server and Windows Desktop Search למערכות ממשקיםDMS מובילות 2תמיכה בפענוח ברקודD and 1D ,כולל QR תמיכה בפונטים מסוג :OCR-A, OCR-B, MICR & CMC7

Page 16: חיים רון

Title and presenter ABBYY FineReader 11

המרת מסמכים לארכיון דיגטאלי

SDK's Strategy

Overview and

16

...נותן אפשרות לאחזר מסמכים ולהשתמש בהם

Page 17: חיים רון

Title and presenter ABBYY FineReader 11

ABBYY FineReader Engine 10

תוכנה ערכת פיתוח למפתחי- Software Development Kits (SDK) המייצרת מערכות לניהול דומותאו מערכות (EDMS)מסמכים אלקטרוניים

הטכנולוגיות הכלולות בערכה הן : מנועFineReader

לינוקס ומק, ה חלונות"עובד במ

OCR - מודפסיםתווים אופטי של תווים זיהוי

ICR - מודפסזיהוי כתב יד

OMR – זיהוי סימנים אופטי

Barcode recognition – פענוח כל סוגי ברקוד

2D and 1D , כוללQR

המרתPDF למסמכים ברי חיפוש כולל ל-PDF/A

הן בטפסים מסודרים –עיבוד טפסים

בטפסים מובנים למחצהוהן

יכולת לזיהוי אזורי

מסמך לאינדקס מלאניתוח

בדפוס שפות 198זיהוי(OCR ) עבריתכולל

בכתב יד מודפס שפות 113זיהוי(ICR )

מילונים בשפות שונות 47תמיכת הזיהוי באמצעות

תמיכה ב-API

תמיכה בעיבוד מקבילי

1.0

1.5

2.0

2.5

3.0

3.5

4.0

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Rate

, tim

es

Pages in a document

Recognition performance increase rate for multi-core systems comparing to one-core system

2 cores

4 cores

Page 18: חיים רון

Title and presenter ABBYY FineReader 11

ABBYY Mobile OCR Engine 4.0

ערכת פיתוח למפתחי תוכנה על סמארטפון/PDA - Software Development Kits (SDK)

תכונות הערכה : כוללת מנועFineReader

לינוקס, מובילין, חלונות מוביל, ה חלונות"במעובדת , מק וסימביאן, אייפון, אנדרואיד

דורשת נפח זיכרון מינימאלי

מילונים 21-שפות ו 62תמיכה בזיהוי

שפות 25–כוללת יישום לקריאה ופענוח כרטיסי ביקור ל

יישורה וניתוח , לבן-התהליך כולל עיבוד התמונה בשחור

מבנה הנתונים

Page 19: חיים רון

Title and presenter ABBYY FineReader 11

ABBYY FlexiCapture Engine 9.0

תוכנה ערכת פיתוח למפתחי- Software Development Kits (SDK) לניתוח מסמכים במבנה טפסים קבועים או משתנים

תכונות הערכה : OCR - מודפסיםתווים אופטי של תווים זיהוי

ICR - מודפסזיהוי כתב יד

OMR – זיהוי סימנים אופטי

Barcode recognition – 2פענוח כל סוגי ברקודD and 1D , כוללQR

המרתPDF למסמכים ברי עריכה וחיפוש כולל ל-PDF/A

הן בטפסים מסודרים והן בטפסים מובנים למחצה –עיבוד טפסים

יכולת לזיהוי אזורי

מסמך לאינדקס מלאניתוח

שפות בזיהוי תווים אופטי 198תמיכה רחבה בשפות עם(OCR ) עבריתכולל

שפות בזיהוי כתב יד 113זיהוי(ICR )

מילונים בשפות שונות 47תמיכת הזיהוי באמצעות

ניתוח חשבוניות בעברית

תמיכה ב-API

תמיכה בעיבוד מקבילי

ה חלונות"עובד במ

Page 20: חיים רון

Title and presenter ABBYY FineReader 11

הדגמה

Page 21: חיים רון

Title and presenter ABBYY FineReader 11 December 4, 2011

www.abbyy.co.il 21

:י"יישום לדוגמא ע

1991-לישכת שירות שנוסדה ב

עובדים 370-מעסיקה כ

ציוד סריקה משוכלל

מיליון דף בחודש 8-סריקה של כ

ארכיון הפרוטוקולים של כנסת ישראל: פרויקט ראשון שבוצע

Page 22: חיים רון

Title and presenter ABBYY FineReader 11 December 4, 2011

www.abbyy.co.il 22

פרויקט הארכיון הדיגיטאלי לספריית הכנסת

:היקף הפרויקט

שנה 40דף של פרטוקולים של הכנס לאורך 500,000-צילום ופענוח מלא ל.

זיהויOCR בעברית

שגויים/אימות ותיקון ידני לחריגים

נושאי , ביצוע אינדקס לפי תוכן מלא וגם לפי שמות חברי הכנסת הדוברים הדיון ותאריכים

יצוא הפלט ל-PDF בר חיפוש

אחוז השגויים היה נמוך מאוד

Page 23: חיים רון

Title and presenter ABBYY FineReader 11 December 4, 2011

www.abbyy.co.il 23

דוגמא לדף מפרטוקול הכנסת

Page 24: חיים רון

Title and presenter ABBYY FineReader 11 December 4, 2011

www.abbyy.co.il 24

DPMSמסך האימות במערכת

Page 25: חיים רון

Title and presenter ABBYY FineReader 11 December 4, 2011

www.abbyy.co.il 25

PDF-ו WORDפלט במבנה

Page 26: חיים רון

Title and presenter ABBYY FineReader 11 December 4, 2011

www.abbyy.co.il 26

לקוחות בישראל רשימה חלקית של

Page 27: חיים רון

Title and presenter ABBYY FineReader 11

!תודה על תשומת הלב