26
Multiview CCA and regression CCA Jan Rupnik [Jožef Stefan Institute] presentation at SMART workshop 13 May 2009 Barcelona

Multi-view CCA and regression CCA

  • Upload
    others

  • View
    20

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Multi-view CCA and regression CCA

Multi‐view CCAand regression CCA

Jan Rupnik[Jožef Stefan Institute]

presentation at SMART workshop 13 May 2009Barcelona

Page 2: Multi-view CCA and regression CCA

Bag of words: Vocabulary: {wi | i = 1, …, N } Documents are represented with vectors (word space):

Example:

Document set:  d1 = “Canonical Correlation Analysis”  d2 = “Numerical Analysis”  d3 = “Numerical Linear Algebra”

Document set:  d1 = “Canonical Correlation Analysis”  d2 = “Numerical Analysis”  d3 = “Numerical Linear Algebra”

Document vector representation:  x1 = (1, 1, 1, 0, 0, 0)  x2 = (0, 0, 1, 1, 0, 0)  x3 = (0, 0, 0, 1, 1, 1,)

Document vector representation:  x1 = (1, 1, 1, 0, 0, 0)  x2 = (0, 0, 1, 1, 0, 0)  x3 = (0, 0, 0, 1, 1, 1,)

Vocabulary:{“Canonical ”, “Correlation ”, “Analysis”, “Numerical ”, “Linear ”, “Algebra”}Vocabulary:{“Canonical ”, “Correlation ”, “Analysis”, “Numerical ”, “Linear ”, “Algebra”}

Page 3: Multi-view CCA and regression CCA

similarity(di, dj) = <xi / ||xi||, xj / ||xj||> = cos(∢(xi, xj))

x1 = (1, 1, 1, 0, 0, 0)x2 = (0, 0, 1, 1, 0, 0)x3 = (0, 0, 0, 1, 1, 1,)

x1 = (1, 1, 1, 0, 0, 0)x2 = (0, 0, 1, 1, 0, 0)x3 = (0, 0, 0, 1, 1, 1,)

d1 = “Kanonična korelacijska analiza”d2 = “Numerična analiza”d3 = “Numerična linearna algebra”

d1 = “Kanonična korelacijska analiza”d2 = “Numerična analiza”d3 = “Numerična linearna algebra”

1.0 0.4 0.00.4 1.0 0.40.0 0.4 1.0

x1x1

x2 x3

x2x3

Page 4: Multi-view CCA and regression CCA

Input: aligned training set{(xi,yi) | xi∈ℝn, yi∈ℝm, i = 1, …,ℓ}

CCA is attacking the following problem:Find directions wx∈ℝn and wy∈ℝm, along which pairs (xi,yi)are maximally correlated:

Formulation (before regularization):

Kovariančna matrika je definirana z:

Page 5: Multi-view CCA and regression CCA

Can be transformed to generalized eigenvalue problem:

Page 6: Multi-view CCA and regression CCA

Aligned documents from English and Slovene Directions wx in wy calculated with CCA are vectors from the word

space They identify common subspace in English and Slovene word space.

wxwx

wywy

Page 7: Multi-view CCA and regression CCA

x1

wy

wx

y1

XX YY

Page 8: Multi-view CCA and regression CCA

Input: aligned training set of m views {(x1i, x2i, …,xmi) | i = 1, …,ℓ}

Need to generalize correlation to m directions Goal of multi‐view CCA:

Find directions w1, w2, ..., wm that will maximise the sum of pair‐wisecorrelation values  Σi≠j corr (wT

iXi, wTjXj).

Formulation (before regularization):

Page 9: Multi-view CCA and regression CCA

Horst algorithm Start with random vectors w1,..., wm Iterate:

Where▪ Ai,j = LiKiKj    if i≠j,   else Ai,i  = O▪ Li = (((1‐κ)Ki + κI)2)‐1

Local convergence

Page 10: Multi-view CCA and regression CCA

O(ℓ c m k2 )Where:ℓ number of documents in each languagecaverage number of nonzero elements in

document vectorsm  number of languageskdimensionality of the common space

Page 11: Multi-view CCA and regression CCA

Task: given a query in one language retrieverelevant documents from a multilingual collection

Solution:Using CCA and aligned training set identify a commonsubspace or the languages in the collection

Map the documents from the collection to the commonsubspace

Map query to the common subspace and identify relevantdocuments using cosine distance

Page 12: Multi-view CCA and regression CCA

XX YY

Common SubspaceCommon Subspace

QueryQuery

Word spaceLanguage AWord spaceLanguage A

Word spaceLanguage BWord spaceLanguage B

Page 13: Multi-view CCA and regression CCA
Page 14: Multi-view CCA and regression CCA
Page 15: Multi-view CCA and regression CCA

Cross‐lingual information retrievalMap the given query into the target languagespace and compute the similarities with the targetcorpus to get the ranking

Bilingual lexicon extractionUse each term in the source language (from thevector space) as a query in the algorithm.

Page 16: Multi-view CCA and regression CCA

 Trained on Acquis Communautaire parallelcorpus

 20 European languages 100,000 documents per languageMain components: rCCA and SearchPoint

Page 17: Multi-view CCA and regression CCA

Dynamic re‐ranking of searchresults visualizes several “nodes” each node relevant to some hits Nodes are used to create ranking space The position of the red focus point

determines the ranking Nodes can be Clusters Categories

Page 18: Multi-view CCA and regression CCA

Acquis communautaire Part used as aligned corpus for

RCCA Rest indexed for search

Categories for Search point EuroVoc annotations of

documents from Acquiscommunautair

Computer: ordenador, pocítac,datamat, Computer, arvuti,ηλεκτρονικός υπολογιστής,computer, ordinateur, calcolatoreelettronico, dators, kompiuteris,számítógép, computer, komputer,computador, pocítac, racunalnik,tietokone, dator, компютър ,calculator, racunalo

Query Search

Source language

Page 19: Multi-view CCA and regression CCA

Query,Source

rCCAQuery

1,Query

2,…

Monolingual search +snippets

SearchPoint

EuroVoc

Page 20: Multi-view CCA and regression CCA
Page 21: Multi-view CCA and regression CCA
Page 22: Multi-view CCA and regression CCA

Krompir

Page 23: Multi-view CCA and regression CCA

Krompir

Page 24: Multi-view CCA and regression CCA

Potato

Page 25: Multi-view CCA and regression CCA

Potato

Page 26: Multi-view CCA and regression CCA

Potato