(19) 대한민국특허청(KR) (12) 등록특허공보(B1)[0005] 시각적 질의응답(Visual Question Answering, VQA)을 위한 깊이 잔차 학습(Deep Residual Learning)을 확장하

(19) 민 특허청(KR)

(12) 등 특허공보(B1)

(45) 공고 2019 01월03

(11) 등 10-1934372

(24) 등 2018 12월26

(51) 특허 (Int. Cl.)

G06N 3/08 (2006.01) G06N 3/04 (2006.01)

(52) CPC특허

G06N 3/08 (2013.01)

G06N 3/04 (2013.01)(21) 원 10-2016-0138984

(22) 원 2016 10월25

심사청 2016 10월25

(65) 공개 10-2018-0045165

(43) 공개 2018 05월04

(56) 술 사문헌

Chen, Kan, et al. "ABC-CNN: An attentionbased convolutional neural network for visualquestion answering." arXiv preprintarXiv:1511.05960, 2015.

Antol, Stanislaw, et al. "Vqa: Visualquestion answering." Proceedings of the IEEEInternational Conference on Computer Vision.2015.

He, Kaiming, et al. "Deep Residual Learningfor Image Recognition." arXiv preprintarXiv:1512.03385. 2015.12.

(73) 특허

주식 사

경 도 남시 당 6, 그린 리 (동)

울 산 단

울특별시 악 악 1 (신림동)

(72)

우

경 도 남시 당 6( 동, 그린리)

경 도 남시 당 6( 동, 그린리)

(뒷 에 계 )

(74) 리

양 보

체 청 수 : 13 심사 : 훈

(54) 칭 시각 질 답 원 단 곱과 다 달 차 습 처리 시스

(57) 약

시각 질 답 원 단 곱과 다 달 차 습 처리 시스 개시 다.

처리 미지에 시각 특징 고, 질문에 질문

는 1 단계, 상 질문 에 차 습(Deep Residual Learning) 사 (linear mapping)

볼릭 탄 트 사 (Hyperbolic Tangent mapping) 여 1 결과값 계산 는 2 단계, 상 시

각 특징 에 상 사 상 볼릭 탄 트 사 여 2 결과값 계산 는 3 단계,

상 1 결과값과 상 2 결과값간 원 단 곱에 3 결과값 계산 는 4 단계 상 질문

에 상 사 결과값과 상 3 결과값간 원 단 에 4 결과값 계산 는 5 단계

포 수 다.

도 - 도2

등록특허 10-1934372

- 1 -

(72)

병탁

울특별시 악 악 1( 울 )

진


상우


곽동


허민


공지 :

등록특허 10-1934372

- 2 -

청

청 1

컴퓨 는 처리 시스 에 수 는 처리 에 어 ,

상 처리 시스 포 는 어도 나 가, 미지에 시각 특징

고, 질문에 질문 는 1 단계;

상 어도 나 가, 상 질문 에 차 습(Deep Residual Learning) 사

(linear mapping) 볼릭 탄 트 사 (Hyperbolic Tangent mapping) 여 1 결과값 계산 는

2 단계;

상 어도 나 가, 상 시각 특징 에 상 사 상 볼릭 탄 트 사

여 2 결과값 계산 는 3 단계;

상 어도 나 가, 상 1 결과값과 상 2 결과값간 원 단 곱에 3 결과값 계산

는 4 단계;

상 어도 나 가, 상 질문 에 상 사 결과값과 상 3 결과값간 원

단 에 4 결과값 계산 는 5 단계

포 는 것 특징 는 처리 .

청 2

1 에 어 ,

상 어도 나 가, 상 2 단계 내지 상 5 단계 m(상 m 연수) 복 수 는

6 단계 포 고,

상 2 단계는,

상 m 1 상 경우, 차에 계산 4 결과값에 상 사 상 볼릭 탄 트 사

여 차 1 결과값 계산 고,

상 5 단계는,

상 m 1 상 경우, 차에 계산 4 결과값에 사 결과값과 차에 계산

3 결과값간 원 단 통 차 4 결과값 계산 는 것 특징 는 처리

.

청 3

1 에 어 ,

상 어도 나 가, 상 2 단계 내지 상 5 단계 m(상 m 연수) 복 수 는

6 단계 포 고,

상 2 단계는,

상 m 1 상 경우, 차에 계산 4 결과값에 상 사 상 볼릭 탄 트 사

여 차 1 결과값 계산 고,

상 5 단계는,

상 m 1 상 경우, 상 질문 차에 계산 3 결과값간 원 단 통 차

4 결과값 계산 는 것 특징 는 처리 .

등록특허 10-1934372

- 3 -

청 4

1 에 어 ,

상 어도 나 가, 상 4 결과값과 상 시각 특징 에 사 결과값간

원 단 에 5 결과값 계산 는 단계


청 5

1 에 어 ,

상 3 단계는,

상 시각 특징 에 상 사 상 볼릭 탄 트 사 결과값에 상 사

상 볼릭 탄 트 사 여 2 결과값 계산 는 것 특징 는 처리

.

청 6

1 에 어 ,

상 2 단계는,

상 질문 에 상 사 상 볼릭 탄 트 사 결과값에 상 사 상

볼릭 탄 트 사 여 1 결과값 계산 는 것 특징 는 처리 .

청 7

1 에 어 ,

상 어도 나 가, 상 4 결과값에 사 고, 트맥스 수(softmax functio

n) 여 상 미지에 상 질문 답변 결 는 단계


청 8

1 내지 7 어느 컴퓨 에 실 시키 그 어 는 것 특징

는 컴퓨 에 독 가능 매체.

청 9

컴퓨 결 어 처리 컴퓨 에 실 시키 컴퓨 독 가능 매체에 컴퓨

그 에 어 ,

상 처리 ,

미지에 시각 특징 고, 질문에 질문 는 1 단계;

상 질문 에 차 습(Deep Residual Learning) 사 (linear mapping) 볼릭

탄 트 사 (Hyperbolic Tangent mapping) 여 1 결과값 계산 는 2 단계;

상 시각 특징 에 상 사 상 볼릭 탄 트 사 여 2 결과값 계산 는

3 단계;

상 1 결과값과 상 2 결과값간 원 단 곱에 3 결과값 계산 는 4 단계;

상 질문 에 상 사 결과값과 상 3 결과값간 원 단 에 4 결과값 계

산 는 5 단계

포 는 것 특징 는 컴퓨 그 .

등록특허 10-1934372

- 4 -

청 10

처리 실 컴퓨 는 처리 시스 에 어 ,

컴퓨 에 독 가능 는 리;

상 리에 실 도 는 어도 나

포 고,

상 어도 나 는,

미지에 시각 특징 고, 질문에 질문 는 1 스;

상 질문 에 차 습(Deep Residual Learning) 사 (linear mapping) 볼릭

탄 트 사 (Hyperbolic Tangent mapping) 여 1 결과값 계산 는 2 스;

상 시각 특징 에 상 사 상 볼릭 탄 트 사 여 2 결과값 계산 는

3 스;

상 1 결과값과 상 2 결과값간 원 단 곱에 3 결과값 계산 는 4 스;

상 질문 에 상 사 결과값과 상 3 결과값간 원 단 에 4 결과값 계

산 는 5 스

처리 는 것 특징 는 처리 시스 .

청 11

10 에 어 ,

상 어도 나 는,

상 2 스 내지 상 5 스 m(상 m 연수) 복 수 는 6 스 처리

고,

상 m 1 상 경우 상 2 스 복 수 , 차에 계산 4 결과값에 상

사 상 볼릭 탄 트 사 여 차 1 결과값 계산 고,

상 m 1 상 경우 상 5 스 복 수 , 차에 계산 4 결과값에 사

결과값과 차에 계산 3 결과값간 원 단 통 차 4 결과값 계

산 는 것 특징 는 처리 시스 .

청 12

10 에 어 ,

상 어도 나 는, 상 3 스 처리 ,

상 시각 특징 에 상 사 상 볼릭 탄 트 사 결과값에 상 사

상 볼릭 탄 트 사 여 2 결과값 계산 는 것 특징 는 처리

시스 .

청 13

10 에 어 ,

상 어도 나 는,

상 4 결과값에 사 고, 트맥스 수(softmax function) 여 상 미지

에 상 질문 답변 결 는 스

처리 는 것 특징 는 처리 시스 .

등록특허 10-1934372

- 5 -

술 야

아 시각 질 답 원 단 곱과 다 달 차 습 처리 시스[0001]

에 것 다.

경 술

상과 언어는 실 계 간 지능 심 다. 상과 언어는 또 공 지능에 도달 에[0002]

어 수 고 지난 10 간 컴퓨 상과 연 언어 처리에 엄청난 수 연 들 진 어

다. 근에는 러닝 술들(deep learning techniques) 극 상과 언어간 경계가

무 지고 , 상과 언어 차에 미가 가 고 다.

시각 질 답(Visual Question Answering, VQA) 사진과 같 미지 질문 통 공지능(Artificial[0003]

Intelligence, AI) 답변 얻는 과 , 그 동안 AI 야 연 상 어 시각 보 연어

보 통 문 다루고 다. , 참고문헌 1 러 시각 질 답 술에 개시 고

다.

<참고문헌 1: 문 "Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra, C[0004]

Lawrence Zitnick, and Devi Parikh. VQA: Visual Question Answering. In International Conference on

Computer Vision, 2015.">

내

결 는 과

시각 질 답(Visual Question Answering, VQA) 차 습(Deep Residual Learning) [0005]

여, 다 달(multimodal) 차 습 다 달 차 트워크(Multimodal Residual Networks, MRN)

공 수 는 처리 시스 공 다.

시 어 미 사 지 않고도, 어 내포 어 과 얻 수 는 [0006]

처리 시스 공 다.

과 결 수단

미지에 시각 특징 고, 질문에 질문 는 1 단계; 상[0007]

질문 에 차 습(Deep Residual Learning) 사 (linear mapping) 볼릭 탄

트 사 (Hyperbolic Tangent mapping) 여 1 결과값 계산 는 2 단계; 상 시각 특징 에

상 사 상 볼릭 탄 트 사 여 2 결과값 계산 는 3 단계; 상 1 결과값

과 상 2 결과값간 원 단 곱에 3 결과값 계산 는 4 단계; 상 질문 에 상

사 결과값과 상 3 결과값간 원 단 에 4 결과값 계산 는 5 단계 포 는

것 특징 는 처리 공 다.

측에 , 상 처리 , 상 2 단계 내지 상 5 단계 m(상 m 연수) 복 수[0008]

는 6 단계 포 고, 상 2 단계는, 상 m 1 상 경우, 차에 계산 4 결과값에

상 사 상 볼릭 탄 트 사 여 차 1 결과값 계산 고, 상

5 단계는, 상 m 1 상 경우, 차에 계산 4 결과값에 사 결과값과 차

에 계산 3 결과값간 원 단 통 차 4 결과값 계산 는 것 특징 수

다.

다 측 에 , 상 처리 , 상 2 단계 내지 상 5 단계 m(상 m 연수) [0009]

복 수 는 6 단계 포 고, 상 2 단계는, 상 m 1 상 경우, 차에 계산 4 결과

값에 상 사 상 볼릭 탄 트 사 여 차 1 결과값 계산 고, 상

5 단계는, 상 m 1 상 경우, 상 질문 차에 계산 3 결과값간 원 단

통 차 4 결과값 계산 는 것 특징 수 다.

등록특허 10-1934372

- 6 -

또 다 측 에 , 상 처리 , 상 4 결과값과 상 시각 특징 에 사 [0010]

결과값간 원 단 에 5 결과값 계산 는 단계 포 는 것 특징 수 다.

또 다 측 에 , 상 3 단계는, 상 시각 특징 에 상 사 상 볼릭 탄 트[0011]

사 결과값에 상 사 상 볼릭 탄 트 사 여 2 결과값 계

산 는 것 특징 수 다.

또 다 측 에 , 상 2 단계는, 상 질문 에 상 사 상 볼릭 탄 트 사[0012]

결과값에 상 사 상 볼릭 탄 트 사 여 1 결과값 계산 는

것 특징 수 다.

또 다 측 에 , 상 처리 , 상 4 결과값에 사 고, 트맥스 수[0013]

(softmax function) 여 상 미지에 상 질문 답변 결 는 단계 포

는 것 특징 수 다.

상 처리 컴퓨 에 실 시키 그 어 는 것 특징 는 컴퓨 에[0014]

독 가능 매체 공 다.

컴퓨 결 어 상술 처리 컴퓨 에 실 시키 컴퓨 독 가능 매체에 [0015]

컴퓨 그 공 다.

처리 실 컴퓨 는 처리 시스 에 어 , 컴퓨 에 독 가능[0016]

는 리; 상 리에 실 도 는 어도 나 포

고, 상 어도 나 는, 미지에 시각 특징 고, 질문에

질문 는 1 스; 상 질문 에 차 습(Deep Residual Learning)

사 (linear mapping) 볼릭 탄 트 사 (Hyperbolic Tangent mapping) 여 1 결과값

계산 는 2 스; 상 시각 특징 에 상 사 상 볼릭 탄 트 사 여

2 결과값 계산 는 3 스; 상 1 결과값과 상 2 결과값간 원 단 곱에 3 결과값

계산 는 4 스; 상 질문 에 상 사 결과값과 상 3 결과값간 원 단

에 4 결과값 계산 는 5 스 처리 는 것 특징 는 처리 시스

공 다.

과

시각 질 답(Visual Question Answering, VQA) 차 습(Deep Residual Learning) [0017]

여, 다 달(multimodal) 차 습 다 달 차 트워크(Multimodal Residual Networks, MRN)

공 여 시각 보 연어 보 통 문 결 는 도움 수 다. 또 , 시 어

미 사 지 않고도, 어 내포 어 과 얻 수 다. 뿐만 아니 , 시

어 미 사 지 않고도, 어 내포 어 과 얻 수 다.

도 간단

도 1 본 실시 에 어 , MRN 도시 도 다.[0018]

도 2는 본 실시 에 MRN 체 도식 도 다.

도 3 내지 도 6 본 실시 에 체 들 도시 도 들 다.

도 7 본 실시 에 어 , 처리 시스 내 블 도 다.

도 8 본 실시 에 어 , 처리 시스 가 포 수 는 도시

블 도 다.

도 9는 본 실시 에 처리 시스 수 수 는 처리 도시

도 다.

실시 체 내

, 실시 첨 도 참 여 상 다.[0019]

등록특허 10-1934372

- 7 -

공 신경망(Deep Neural Networks) 미지 식 야에 뛰어난 능 보여주고 지만, 다 달[0020]

(Multimodal) 습에 는 여 능 보 고 다. 본 실시 들에 다 달 차

트워크(Multimodal Residual Networks, MRN)는 다 달 포 시각 질 답(Visual Question-

Answering, VQA) 여 고안 었다. 러 MRN 차 습(deep residual learning)

다. 특 주어진 상 과 달리 시각 보 질 어에 결 (joint representation) 과

습 수 다. 또 , 다 달 과 습 차 습 결 차 사 (joint

residual mapping)에 원 단 곱(element-wise multiplication) 수 수 다. 게다가, 본 실시

들에 는, 심지어 공간 보 갖지 않는 시각 특징들 통 도, 각각 습 블 들 결 들

어 과 보 수 는 에 다.

1. 경(background)[0022]

1.1 차 습(Deep Residual Learning)[0023]

신경망 다수 층들 게 수 능 아진다고 알 나 어질수 가 어 워 계[0024]

가 었다. 지만 차 습 통 신경망 100개 층 상 게 수 게 었 , 그

미지 검 등 야에 뛰어난 능 보여주었다. 차 습 지 연결 (shortcut

connection) 통 등 사 (Identity mapping) 가능 도 주었 비 매 통 지 사

(shortcut mapping)에 맞 게 층 수 게 었다. , 비 매 F(x)

지 사 x 고 , 습 블 다 수 식 1과 같 수 다.

수 식 1

[0025]

여 , x y는 각각 습 블 과 수 다.[0026]

2. 계층 어 트워크(Stacked Attention Networks, SAN)[0027]

계층 어 트워크는 질문에 시각 보 탕 시각 특징 가 치 습 수[0028]

다. 뿐만 아니 , 시각 보 여나가 여러 단계에 걸쳐 어 트워크 아나간다.

들어, 질문에 크색 가 찾는다 , 우 크색 물체 찾는 것 시 게 고, 후 가 여

별 게 다. 체 , 질문 시각 특징 습 수 , 습 가 치들

다수 시각 특징 에 사 수 다. 런 SAN 공 시각 특징 택

수 게 다. 마지막 다 습 블 질문 값 시각 특징 질문

얻어질 수 다. , l 째 습 블 질문 ql

가 , SAN에 질문 는 다 수

식 2 같 얻어질 수 다.

수 식 2

[0029]

여 , V는 컬럼들 특 공간 스 지시 는 시각 특징 , 는 SAN 어 트워크[0030]

나타낼 수 다.

3. 원 단 곱 [0031]

지안 루(Jiasen Lu) 등에 개 결 사 에 (embedding) 후에 질문 시각[0032]

특징 간 원 단 곱 는 다. 러 시각 보 질 어 같 다 달 경에

과 습 본 실시 들에 통 수 다. 근 연 결과들 뛰어 는

능 시 시 다.

등록특허 10-1934372

- 8 -

[0033]

2. 다 달 차 트워크(Multimodal Residual Networks, MRN)[0034]

질문 는 어 트워크 연 층들 통 직 다. SAN에 , 지 사 질문 [0035]

, 비 사 (non-linear mapping) 어 트워크가 다. 어 트워크에 는 답변

질문 에 시각 특징 탕 가 치 업 트 결 습 수

다. 그러나 질문 보는 결 습 병 상 키는 계수 p 만 통 결 에 여

게 다.

수 식 3

[0036]

여 , 계수 p는 질문 q 시각 특징 V 비 수 결과물 나타낼 수 다. 또 , Vi는[0037]

14 × 14 그리드에 i 째 시각 특징 나타낼 수 다.

시각 질 답에 사 간단 능 결 에 후 질문 시각 특[0038]

징 간 원 단 곱 수 는 다. SAN 어 커니 (attention mechanis

m) 다 시각 특징 근 신에 역 시각 특징 보 근 사 수 다. 다시 말 , 본

실시 들에 는 역 시각 특징 보 근 에 , SAN 층 는 아키 처 지 사

처리 수 다. 러 원 단 곱 사 에 개 SAN 어 트워크에 병 상 결

주어진 시각 보 질 어 결 과 습 게 수 다.

본 실시 에 MRN 차 습 다수 습 블 수 다. , H(q, v)에 [0039]

사 아 수 식 4 같 나타낼 수 다.

수 식 4

[0040]

여 , 지 사 첫 째 근사 , 첫 째 결 차 수는 주어진다.[0041]

사 (linear mapping) 는 특징 차원 맞 는 사 다. 결 차 수는 아 수 식 5

수 다.

수 식 5

[0042]

여 σ는 볼릭 탄 트 'tanh' , ⊙는 원 단 곱 나타낼 수 다. 질문 시각 특징 [0043]

는 결 에 직 여 수 다. 차 습 , 다 층에 는 q H(q, v) 체 다. 보다

에 수 식 4 수 식 5는 아 수 식 6과 같 다시 수 다.

등록특허 10-1934372

- 9 -

수 식 6

[0044]

여 , L 습 블 개수 나타낼 수 다. 수 식 6 후 도 2 같 직 [0045]

수 다. 시각 지 들(shortcurts) 도 2에 살 같 각각 층에 시각 특징

달 는 등 사 들 수 다. 각각 블 들 마지막에 , Hl l 째 습 블 수

고, 원 단 나타낼 수 다.

3. 체 실시 [0047]

본 실시 들에 게 여, 체 실시 개 다.[0048]

도 1 본 실시 에 어 , MRN 도시 도 다. 도 1에 'Q'는 연어 질[0049]

, 'V'는 질 가 루어지고 는 시각 상 또는 질 상 는 미지 나타낸다. 'Q'는 워드

(word embedding, 110)과 순 공 신경망(Recurrent Neural Network, RNN, 120) 여 특징

(질문 ) 변 고, 'V'는 1 스(130)에 나타난 볼루 공 신경망(Convolutional Neural

Network, CNN) 통 특징 (시각 특징 ) 변 다. 달 특징 들 2 스

(140)에 나타난 본 실시 들에 다 달 차 트워크(Multimodal Residual

Networks, MRN)에 들어가 답 'A' 도 낼 수 다. 도1 2 스에 는 개 블

층 갖는 MRN 나타내고 다. 또 , 도 1 3 스(150)에 나타난 연어 질 "동물

는 무엇 니 (What kind of animals are these?)"에 , 4 스(160)에 나타난 답 "양(sheep)"

는 나타내고 다. 여 , 미지들(170, 180, 190) 미지에 각각 습 블 들

어 과 울 들 나타내고 다. 각각 컬러 채 들 울 들 러

울 들 값 후에 쳐질 수 다. 그 , 쳐진 값들 울 값들 평균과 편차

보다 크 , 미지들(170, 180, 190)에 어 과 시각 수 다.

사 에 빈도 수가 각각 1000개, 2000개, 3000개 후보 답들 포 는 들 원 [0050]

각각 87%, 90%, 92% 도 질 답 포 게 다. 실험 통 빈도 수가 2000 개 후보

답들 포 는 여 실험 다.

도 2는 본 실시 에 MRN 체 도식 도 다. 도 2에 도시 각 [0051]

상 는 러닝 듈 나타내 , 'Linear'는 사 듈 , 'Tanh'는 볼릭 탄 트 사 (Hyperbolic

Tangent mapping) 듈 각각 나타낼 수 다. 또 , '⊙'는 원 단 곱 , 원 단 각각 나타낼

수 다. 도 2는 개 블 층 갖는 MRN 도시 고 , 각 블 끝에 Hl l 째 습 블

결과물 나타낼 수 다. 또 , 미 같 도 2 살 는 각각 층에 등 사

시각 특징 들 달 나타낼 수 다. 마지막 'Softmax'는 트맥스 수가 는 듈

나타낼 수 다. 트맥스 수는 공 신경망에 술 통 당업 가 게 수

다.

안 는 량 평가 시각 질 답 VQA 여 평가 다.[0052]

러 VQA 상생 미지에 사 직 고 검 질 답 다. 약 61만

건 질 답 가 20만 건 미지에 수집 었다. 아 1에 나타난 같 안 는

다 들에 비 탁월 능 보 다.

등록특허 10-1934372

- 10 -

1

[0053]

1에 나타난 다 들 시각 질 답 야에 미 알 진 술들 당업 가 쉽게 수 [0054]

것 , 'Human' 사 직 답 경우 나타낸다.

또 , 시 어 미 들 는 다 들( , SAN, DMN+)과 달리 MRN 어 시[0055]

어 커니 지 않는다. 그러나 보 마스킹 원 단 곱 상 능

(interpretability) 어 과 가시 새 운 끌어냄 수 다. 처럼 MRN

어 미 들( , 14 × 14)에 지 않 문에 다 들보다 상도 미

지들 시각 는 것 가능 진다. 처럼 MRN 시 어 커니 없는 암시 어

수 다.

도 3 내지 도 6 본 실시 에 체 들 도시 도 들 다.[0056]

도 2 블 들 시각 특징 에 사 듈과 볼릭 탄 트 사 듈 각각 씩 [0057]

실시 도시 고 는 , 도 3 체 블 시각 특징 에 사 듈과

볼릭 탄 트 사 듈 씩만 실시 도시 고 다.

도 4 체 시각 특징 에 뿐만 아니 질문 에 도 사 듈과 볼릭[0058]

탄 트 사 듈 각각 씩 실시 도시 고 다.

또 , 도 5 체 원 단 연산 첫 째 블 에 만 질문 에 사 듈 [0059]

결과값 고 째 블 는 질문 그 원 단 연산 는 실시 도

시 고 다.

또 , 도 6 체 원 단 연산 시각 특징 는 실시 도시 고[0060]

다. , 첫 째 블 에 만 시각 특징 에 사 듈 결과값 원 단 연산

수 다. 째 블 는 시각 특징 가 원 단 연산 지 않 수

다.

처럼, 도 2 블 가 본 직 실시 나, 본 실시 들 차 습 여[0061]

시각 질 답 원 단 곱과 다 달 차 습 다 달 차 트워크(Multimodal

Residual Networks, MRN) 공 는 것 특징 고 문에 상술 도 3 내지 도 6 실시 들과 같

다양 변 가능 수 다.

상에 같 , 본 실시 들 원 단 곱 여 시각 질 답(Visual Question Answering,[0062]

VQA) 차 습(Deep Residual Learning) 다 달(multimodal) 차 습

다 달 차 트워크(Multimodal Residual Networks, MRN) 공 수 다. 또 , 원 단 곱 사

시 어 미 들에 지 않고도 어 과 시각 수 고 다.

에 는 상술 다 달 차 트워크 여 질 같 스트, 그리고 미지 께 처리 는 [0063]

처리 시스 에 다.

등록특허 10-1934372

- 11 -

도 7 본 실시 에 어 , 처리 시스 내 블 도 다. 도 7에[0064]

는 처리 시스 (700) 나 물리 치처럼 고 나, 실시 에 처리 시스

(700) 복수 치들 연동 태 수도 다.

러 처리 시스 (700) 도 7에 도시 같 리(710), (720), 통신 듈(730) 그리[0065]

고 스(740) 포 수 다. 리(710)는 컴퓨 에 독 가능 매체 ,

RAM(random access memory), ROM(read only memory) 스크 드 브 같 비 량 치

(permanent mass storage device) 포 수 다. 여 ROM과 비 량 치는 리(710)

리 어 별도 치 포 수도 다. 또 , 리(710)에는 운 체 어도 나

그 드( 본 실시 들에 처리 수 도 처리 시스 (700)

포 는 매체에 어 처리 시스 (700) 어 컴퓨 그 )가 수 다.

러 트웨어 들 리(710) 는 별도 컴퓨 에 독 가능 매체 수

다. 러 별도 컴퓨 에 독 가능 매체는 드 브, 스크, , DVD/CD-ROM 드

브, 리 카드 등 컴퓨 에 독 가능 매체 포 수 다. 다 실시 에 트웨어

들 컴퓨 에 독 가능 매체가 아닌 통신 듈(730) 통 리(710)에 수도 다.

(720)는 본 산술, 직 연산 수 , 컴퓨 그 처리 도[0066]

수 다. 리(710) 또는 통신 듈(730)에 (720) 공 수 다. 들어

(720)는 리(710)에 그 드에 수신 는 실 도 수 다. 보

다 체 , (720)는 리(710)에 컴퓨 그 드에 순차

실 여 본 실시 에 처리 수 수 다.

통신 듈(730) 실 컴퓨 트워크 통 다 물리 들과 통신 능 공 수[0067]

다. , 처리 시스 (700) (720)가 처리 미지들과 질문 스트들

트워크 다 물리 컴퓨 트워크 통신 듈(730) 통 처리 시스 (700)

수신 어 리(710)나 (720) 달 수 다. 역 , 처리 시스 (700) 수신 미

지들과 스트들에 연산 처리 처리 결과가 통신 듈(730)과 컴퓨 트워크 통 다 물리

수도 다.

스(740)는 치(750) 스 수단 수 다. 들어, 치[0068]

(750)에 치는 키보드 또는 마우스 등 치 , 그리고 치는 스 나 스 커 같 치

포 수 다. 도 7에 치(750)는 처리 시스 (700)과 별도 치 었 나, 실

시 에 치(750)가 처리 시스 (700)에 포 도 처리 시스 (700) 수

도 다.

또 , 다 실시 들에 처리 시스 (700) 도 7 들보다 많 들 포 수도[0069]

다. 그러나, 술 들 게 도시 없다. 들어, 처리

시스 (700) 각 물리 튼 나 치 , 또는 치 등 다양 들 포 도

수 알 수 다.

도 8 본 실시 에 어 , 처리 시스 가 포 수 는 도시[0070]

블 도 고, 도 9는 본 실시 에 처리 시스 수 수 는 처리

도시 도 다. 도 8 앞 처리 시스 (700) (720)가 포 수 는

들 특징 (810), 사 (820), 원 단 곱 계산 (830), 원 단 계산 (840),

복 어 (850) 답변 결 (860) 나타내고 다. 러 (720) (720) 들

도 9 처리 포 는 단계들(910 내지 970) 수 수 다. , (720)

(720) 들 리(710)가 포 는 운 체 드 /또는 어도 나 컴퓨 그

드에 (instruction) 실 도 수 다. 여 , (720) 들

처리 시스 (700)에 컴퓨 그 드가 공 는 어 에 (720)에 수

는 (720) 다 능들(different functions) 들 수 다. , (720)는

처리 시스 (700) 어 리(710) 어 어드릴 수

, 어들 어 에 후 단계들(910 내지 970) 수 도 처리 시스 (700)

어 수 다.

단계(910)에 특징 (10)는 미지에 시각 특징 고, 질문에 [0071]

등록특허 10-1934372

- 12 -

질문 수 다. 미 같 시각 특징 는 CNN 여, 질문 는 워

드 과 RNN 여 수 다. CNN과 워드 , RNN 등 미 알 진 술 러

술들 통 시각 특징 질문 는 술 당업 가 게 수 다.

단계(920)에 사 (820)는 질문 에 차 습(Deep Residual Learning) 사[0072]

(linear mapping) 볼릭 탄 트 사 (Hyperbolic Tangent mapping) 여 1 결과값 계산

수 다. 여 1 결과값 계산 는 것 앞 수 식 5에 첫 째 계산 는

것에 수 다. 또 , 도 4 실시 에 는 질문 에 사 듈과 볼릭 탄 트 사 듈

씩 다. 러 실시 , 사 (820)는 질문 에 사

볼릭 탄 트 사 결과값에 사 볼릭 탄 트 사 여 1 결

과값 계산 수도 다.

단계(930)에 사 (820)는 시각 특징 에 사 볼릭 탄 트 사 여 2[0073]

결과값 계산 수 다. , 2 결과값 계산 는 것 수 식 5에 째 계산

는 것에 수 다. 들어, 러 계산 식 도 3 실시 에 같 , 사 듈과

볼릭 탄 트 사 듈 시각 특징 에 씩만 는 경우에 수 다. 편, 실시 에

사 (820)는 시각 특징 에 사 볼릭 탄 트 사 결과값에 사

볼릭 탄 트 사 여 2 결과값 계산 수도 다. 도 2 도 4 내지 도 6에 는

시각 특징 에 각각 사 듈과 볼릭 탄 트 사 듈 씩 는 실시

다.

단계(940)에 원 단 곱 계산 (830)는 1 결과값과 2 결과값간 원 단 곱에 3 결과값 계산[0074]

수 다. , 3 결과값 계산 는 것 수 식 5에 계산 는 것에 수 다.

단계(950)에 원 단 계산 (840)는 질문 에 사 결과값과 3 결과값간 원 단[0075]

에 4 결과값 계산 수 다. 여 , 4 결과값 계산 는 것 수 식 6에 여 첫 째 블

값 H1 계산 는 것에 수 다.

미 같 실시 들에 복수 블 들 수 다. 단계(960)에 복 [0076]

어 (850)는 단계(920) 내지 단계(950) m(m 연수) 복 수 수 다.

, 도 2 실시 에 같 째 블 는 질문 가 블 값 체 수 다. [0077]

러 실시 사 (820)는 m 1 상 경우, 차에 계산 4 결과값에 사

볼릭 탄 트 사 여 차 1 결과값 계산 수도 다.

또 , 도 2 실시 에 같 째 블 는 질문 사 에 결과가 아닌 4 결과값[0078]

에 사 결과값 원 단 연산 수 다. 러 실시 원 단

계산 (840)는 m 1 상 경우, 차에 계산 4 결과값에 사 결과값과 차에

계산 3 결과값간 원 단 통 차 4 결과값 계산 수 다.

또 , 도 5 실시 에 는 원 단 연산 첫 째 블 에 는 질문 사 에 결과[0079]

값 , 째 블 는 등 사 , 다시 말 질문 그 원 단 연산

다. 러 실시 원 단 계산 (840)는 m 1 상 경우, 질문 차에

계산 3 결과값간 원 단 통 차 4 결과값 계산 수도 다.

또 , 도 6 실시 에 는 시각 특징 에 사 결과값 원 단 에 연산 [0080]

다. , 원 단 계산 (840)는 4 결과값과 시각 특징 에 사

결과값간 원 단 에 5 결과값 계산 수도 다. 복수 블 들 재 는 경우에는

5 결과값 4 결과값 신 다 블 질문 수 다. 러 5 결과값

첫 째 블 에 만 계산 수 고, 째 블 는 4 결과값 생 수 다. 다시

말 첫 째 블 에 만 시각 특징 에 사 결과값 원 단 에 연산

수 다.

단계(970)에 답변 결 (860)는 4 결과값에 사 고, 트맥스 수(softmax function)[0081]

등록특허 10-1934372

- 13 -

여 미지에 질문 답변 결 수 다. 사 에 트맥스 수

여 답변 결 는 것 1 통 에 알 진 다 통 당업 가 게

수 것 다.

처럼 본 실시 들에 , 시각 질 답(Visual Question Answering, VQA) 차 [0082]

습(Deep Residual Learning) 여, 다 달(multimodal) 차 습 다 달 차 트워크

(Multimodal Residual Networks, MRN) 공 여 시각 보 연어 보 통 문 결 는

도움 수 다. 또 , 시 어 미 사 지 않고도, 어 내포 어

과 얻 수 다. 게다가, 시 어 미 사 지 않고도, 어 내포 어

과 얻 수 다.

상에 시스 또는 치는 드웨어 , 트웨어 또는 드웨어 [0083]

트웨어 수 다. 들어, 실시 들에 치 는,

들어, , 트 러, ALU(arithmetic logic unit), 지 신 (digital signal processor),

마 크 컴퓨 , FPGA(field programmable gate array), PLU(programmable logic unit), 마 크 , 또

는 (instruction) 실 고 답 수 는 다 어 치 같 , 나 상 컴퓨 또는 특

수 컴퓨 여 수 다. 처리 치는 운 체 (OS) 상 운 체 상에 수 는

나 상 트웨어 어 리 수 수 다. 또 , 처리 치는 트웨어 실 에 답 여,

근, , , 처리 생 수도 다. 편 여, 처리 치는 나가 사 는

것 경우도 지만, 당 술 야에 통상 지식 가진 는, 처리 치가 복수 개 처리

(processing element) /또는 복수 처리 포 수 알 수 다. 들어, 처리 치

는 복수 개 또는 나 나 트 러 포 수 다. 또 , 병

(parallel processor) 같 , 다 처리 (processing configuration)도 가능 다.

트웨어는 컴퓨 그 (computer program), 드(code), (instruction), 또는 들 나 상[0084]

포 수 , 원 는 동 도 처리 치 거나 독립 또는 결

(collectively) 처리 치 수 다. 트웨어 /또는 는, 처리 치에 여 거나

처리 치에 또는 공 여, 어 계, (component), 물리 치, 가상

치(virtual equipment), 컴퓨 매체 또는 치에 , 또는 시 체 (embody) 수

다. 트웨어는 트워크 연결 컴퓨 시스 상에 산 어 , 산 거나 실 수

도 다. 트웨어 는 나 상 컴퓨 독 가능 매체에 수 다.

실시 에 다양 컴퓨 수단 통 여 수 수 는 그 태 어 컴퓨 [0085]

독 가능 매체에 수 다. 상 컴퓨 독 가능 매체는 그 , , 등

단독 또는 여 포 수 다. 상 매체에 는 그 실시 여 특별

계 고 것들 거나 컴퓨 트웨어 당업 에게 공지 어 사 가능 것 수도 다. 컴퓨

독 가능 매체 에는 드 스크, 스크 같 매체(magnetic media),

CD-ROM, DVD 같 매체(optical media), 티컬 스크(floptical disk) 같 - 매체

(magneto-optical media), (ROM), (RAM), 시 리 등과 같 그 고 수 도

특별 드웨어 치가 포 다. 그 에는 컴 러에 만들어지는 것과 같

계어 드뿐만 아니 리 등 사 컴퓨 에 실 수 는 고 언어 드

포 다.

상과 같 실시 들 비 실시 도 에 었 나, 당 술 야에 통상 지식 가[0086]

진 상 재 다양 수 변 가능 다. 들어, 술들 과 다

순 수 거나, /또는 시스 , , 치, 등 들 과 다 태

결 또는 거나, 다 또는 균등물에 여 치 거나 치 도 결과가 달

수 다.

그러므 , 다 들, 다 실시 들 특허청 균등 것들도 후술 는 특허청 에 [0087]

다.

등록특허 10-1934372

- 14 -

도

도 1

등록특허 10-1934372

- 15 -

도 2

도 3

등록특허 10-1934372

- 16 -

도 4

도 5

도 6

등록특허 10-1934372

- 17 -

도 7

도 8

등록특허 10-1934372

- 18 -

도 9

등록특허 10-1934372

- 19 -

Documents

(19) 대한민국특허청(KR) (12) 등록특허공보(B1)[0005] 시각적 질의응답(Visual Question Answering, VQA)을 위한 깊이 잔차 학습(Deep Residual Learning)을 확장하