Upload
evaminerva
View
38
Download
0
Tags:
Embed Size (px)
Citation preview
Wishful Thinking
Text ToolsSearch
Morphological search
Approximate search
Intertextual analysis (parallel passages)
Alignment
Translation alignment
Taxonomy of texts
Text Tools (II)Language identification
Code switching
Linguistic analysis
Morphology
Syntax
Colocations
Machine translation
Lexicon building
Text Tools (III)Critical editions
Linkage
Textual analysis
Classification
Dating
Authorship
Clustering
Stylometrics
Image ToolsRegistration
Enhancement
Segmentation
Codicological measurements
Binarization
Palimpsests
Handwriting matching
Image Tools (II)Word spotting
Letter spotting
Paleographic analysis
Cluster letters
Texture analysis
Reconstruction
Image-Text ToolsRead text (OCR)
Text identification
Transcript alignment
Word spotting
Reconstruction
3D modeling
Texts
Alignment)לונ {ה} אמ' ר' שמע' בן יוחי למלך שהיה לו בן יחידי וטי {ה} אמ' ר' שמעון בן יוחיי למלך שהיה לו בן יחידי מינ {ה} א"ר שמעו' בן יוחי למלך שהיה לו בן יחידי פריז {ה} א"ר שמע' בן יוחי למלך שהיה לו בן יחידי דפוס {ה} אמ' ר' שמעון בן יוחאי משל למלך שהיה לו בן יחידי
ג11 {ה} <...> ג31 {ה} <... ..>חאי למלך ש<..>
ירו1 {ה} ארשב"י למלך שהיה לו בן יחידי או3 {ה} ארשב"י למלך שהיה לו בן יחידי או51 {ה} ארשב"י למלך שהיה לו בן יחידי ששון {ה} ארשב"י למלך שהיה לו בן יחידי
--------------------------------------------------------------------לונ בכל יום ויום היה מצוה את בן ביתו ואמ' לו
וטי בכל יום ויום היה המלך מצוה את בן ביתו מינ בכל יום ויום היה מצוה את בן ביתו ואמ' לו
פריז בכל יום ויום היה מצוה את בן ביתו דפוס בכל יום ויום היה מצוה את בן בתו
ג11 ג31 מצוה את בן ביתו ואמ?ר? לו
ירו1 בכל יום ויום היה המלך מצוה את בני ביתו או3 בכל יום ויום היה המלך מצוה את בן ביתו
או51 <...> שתה ששון בכל יום ויום היה המלך אומ' את בן ביתו
Approximate Search
Fig. 3. A screenshot of the user interface, with the two matching texts are displayed side by side. The text regions for whichmatching texts exist are emboldened. The first out of two texts that match the blue text are shown in red. This match hasa score of 343 and is ranked 19th out of all matches. The panel at the bottom of the screen displays the two texts alignedcharacter by character.
9
Fig. 3. A screenshot of the user interface, with the two matching texts are displayed side by side. The text regions for whichmatching texts exist are emboldened. The first out of two texts that match the blue text are shown in red. This match hasa score of 343 and is ranked 19th out of all matches. The panel at the bottom of the screen displays the two texts alignedcharacter by character.
9
Fig. 3. A screenshot of the user interface, with the two matching texts are displayed side by side. The text regions for whichmatching texts exist are emboldened. The first out of two texts that match the blue text are shown in red. This match hasa score of 343 and is ranked 19th out of all matches. The panel at the bottom of the screen displays the two texts alignedcharacter by character.
9
Approximate Matching
Fig. 3. A screenshot of the user interface, with the two matching texts are displayed side by side. The text regions for whichmatching texts exist are emboldened. The first out of two texts that match the blue text are shown in red. This match hasa score of 343 and is ranked 19th out of all matches. The panel at the bottom of the screen displays the two texts alignedcharacter by character.
9
Fig. 3. A screenshot of the user interface, with the two matching texts are displayed side by side. The text regions for whichmatching texts exist are emboldened. The first out of two texts that match the blue text are shown in red. This match hasa score of 343 and is ranked 19th out of all matches. The panel at the bottom of the screen displays the two texts alignedcharacter by character.
9
Fig. 3. A screenshot of the user interface, with the two matching texts are displayed side by side. The text regions for whichmatching texts exist are emboldened. The first out of two texts that match the blue text are shown in red. This match hasa score of 343 and is ranked 19th out of all matches. The panel at the bottom of the screen displays the two texts alignedcharacter by character.
9
Length'vs.'Frequency
Images
Processing
Register: Old & New
Old New
Binarize:)4Q249
Binarization
Segmentation
Red)is)background,)blue)is)stroke)and)unchanged)color)is)the)texture)of)papyrus)
Original Segmented
Segmentation
Measure
Count Lines
Bible in Greek (Aquila; palimpsest; 6th c.)
Paleography
When?
Where?
Who?
Classifying
Hebrew
ArabicSquare
Semi-cursive
Cursive
Provenance
North African Spanish
Cluster:)Letters
1. Identify)lines)2. Estimate)letter)size)3. Locate)contiguous)ink)4. Form)clusters
Spotting:)4Q1
Classify:)Style
Spotting:)Similar)Letters
4Q1 4Q365
Joining
Cambridge Oxford
Puzzling
Texture
Papyrus Fibers
Ridge)Detection
Position)Fragments
Texts & Images
• Find similar letters
• (Don’t try to read)
Letter Spotting
)Spotting
• Find same word
• (Don’t try to read)
Word Spotting
Transcription Alignment
Image:
Transcription:
ויתרוממו למעלה לכול. אתה הוא יהוה בחרתה באבותינו למקדם. תעמידנו לשארית
להם לתת לנו הקימות לאברהם לישראל ולהוריש לפניהם גוים גדולים גבורים החיל
ועצומי כח לתת לנו בתים מלאים כול טוב בורות חצובות ומקוי מים כרמים וזיתים
נחלת עם -- -- ם °צ°° ° ק -- .
Black & white image
Manual transcription
Transcription
Image line
Morphed text
Isolated letters
Genizah
Dead Sea Scrolls
Codex Sinaiticus
58
Identification (Poor OCR) אהבתי כי ישמע יהוה את
קולי תחנוני כי הטה אוזנו לי ובימי אקרא אפפוני חבלי מות
ומצרי שאול מצאוני צרה ויגון אמצא ובשם יהוה אקרא אנה יהוה מלטה
נפשי חנון יהוה וצדיק ואלוהינו מרחם שומר פתאים יהוה
דלותי ולי יהושיע שובי נפשי למנוחיכי כי יהוה גמל עליכי
כי חלצת נפשי ממות את עיני מדמעה את רגלי מדחי
אתהלך לפני יהוה בארצותהחיים האמנתי כי אדבר אני
אדזבעיכישעידודארוליובי י ו נ ניכידסראז ו עחנניחבלישתו סיארראאומצרישאולצאוניצדוגוןאמצאובשםידוארראאנאידודלטכשינוןידודוצדנוסרחסשוערת דואדי יאיסיזוזדלייייליידושיעשובינשילסנוחיכיכיידודגמלעיכיכיחלצתנשיממועאעעיניסדסעדאערגליאעדלךלניידודבארדחייפדאסנעיכיאדבראניגליאעדל
Reconstruction