19
(19) 대한민국특허청(KR) (12) 등록특허공보(B1) (45) 공고일자 2019년01월03일 (11) 등록번호 10-1934372 (24) 등록일자 2018년12월26일 (51) 국제특허분류(Int. Cl.) G06N 3/08 (2006.01) G06N 3/04 (2006.01) (52) CPC특허분류 G06N 3/08 (2013.01) G06N 3/04 (2013.01) (21) 출원번호 10-2016-0138984 (22) 출원일자 2016년10월25일 심사청구일자 2016년10월25일 (65) 공개번호 10-2018-0045165 (43) 공개일자 2018년05월04일 (56) 선행기술조사문헌 Chen, Kan, et al. "ABC-CNN: An attention based convolutional neural network for visual question answering." arXiv preprint arXiv:1511.05960, 2015. Antol, Stanislaw, et al. "Vqa: Visual question answering." Proceedings of the IEEE International Conference on Computer Vision. 2015. He, Kaiming, et al. "Deep Residual Learning for Image Recognition." arXiv preprint arXiv:1512.03385. 2015.12. (73) 특허권자 네이버 주식회사 경기도 성남시 분당구 불정로 6, 그린팩토리 (정 자동) 서울대학교산학협력단 서울특별시 관악구 관악로 1 (신림동) (72) 발명자 하정우 경기도 성남시 분당구 불정로 6(정자동, 그린팩토 리) 김정희 경기도 성남시 분당구 불정로 6(정자동, 그린팩토 리) (뒷면에 계속) (74) 대리인 양성보 전체 청구항 수 : 총 13 항 심사관 : 서광훈 (54) 발명의 명칭 시각적 질의응답을 위해 원소단위곱과 다중모달 잔차 학습을 이용한 데이터 처리 방법 및 시 스템 (57) 요 약 시각적 질의응답을 위해 원소단위곱과 다중모달 잔차 학습을 이용한 데이터 처리 방법 및 시스템이 개시된다. 데이터 처리 방법은 입력된 이미지에 대한 시각적 특징 벡터를 추출하고, 입력된 질문에 대한 질문 벡터를 추출 하는 제1 단계, 상기 질문 벡터에 깊은 잔차 학습(Deep Residual Learning)을 위한 선형 사영(linear mapping) 및 하이퍼볼릭 탄젠트 사영(Hyperbolic Tangent mapping)을 반영하여 제1 결과값을 계산하는 제2 단계, 상기 시 각적 특징 벡터에 상기 선형 사영 및 상기 하이퍼볼릭 탄젠트 사영을 반영하여 제2 결과값을 계산하는 제3 단계, 상기 제1 결과값과 상기 제2 결과값간의 원소단위곱에 대한 제3 결과값을 계산하는 제4 단계 및 상기 질문 벡터 에 상기 선형 사영을 반영한 결과값과 상기 제3 결과값간의 원소단위합에 대한 제4 결과값을 계산하는 제5 단계 를 포함할 수 있다. 대 표 도 - 도2 등록특허 10-1934372 -1-

(19) 대한민국특허청(KR) (12) 등록특허공보(B1)[0005] 시각적 질의응답(Visual Question Answering, VQA)을 위한 깊이 잔차 학습(Deep Residual Learning)을 확장하

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: (19) 대한민국특허청(KR) (12) 등록특허공보(B1)[0005] 시각적 질의응답(Visual Question Answering, VQA)을 위한 깊이 잔차 학습(Deep Residual Learning)을 확장하

(19) 민 특허청(KR)

(12) 등 특허공보(B1)

(45) 공고 2019 01월03

(11) 등 10-1934372

(24) 등 2018 12월26

(51) 특허 (Int. Cl.)

G06N 3/08 (2006.01) G06N 3/04 (2006.01)

(52) CPC특허

G06N 3/08 (2013.01)

G06N 3/04 (2013.01)(21) 원 10-2016-0138984

(22) 원 2016 10월25

심사청 2016 10월25

(65) 공개 10-2018-0045165

(43) 공개 2018 05월04

(56) 술 사문헌

Chen, Kan, et al. "ABC-CNN: An attentionbased convolutional neural network for visualquestion answering." arXiv preprintarXiv:1511.05960, 2015.

Antol, Stanislaw, et al. "Vqa: Visualquestion answering." Proceedings of the IEEEInternational Conference on Computer Vision.2015.

He, Kaiming, et al. "Deep Residual Learningfor Image Recognition." arXiv preprintarXiv:1512.03385. 2015.12.

(73) 특허

주식 사

경 도 남시 당 6, 그린 리 (동)

울 산 단

울특별시 악 악 1 (신림동)

(72)

경 도 남시 당 6( 동, 그린리)

경 도 남시 당 6( 동, 그린리)

(뒷 에 계 )

(74) 리

양 보

체 청 수 : 13 심사 : 훈

(54) 칭 시각 질 답 원 단 곱과 다 달 차 습 처리 시스

(57) 약

시각 질 답 원 단 곱과 다 달 차 습 처리 시스 개시 다.

처리 미지에 시각 특징 고, 질문에 질문

는 1 단계, 상 질문 에 차 습(Deep Residual Learning) 사 (linear mapping)

볼릭 탄 트 사 (Hyperbolic Tangent mapping) 여 1 결과값 계산 는 2 단계, 상 시

각 특징 에 상 사 상 볼릭 탄 트 사 여 2 결과값 계산 는 3 단계,

상 1 결과값과 상 2 결과값간 원 단 곱에 3 결과값 계산 는 4 단계 상 질문

에 상 사 결과값과 상 3 결과값간 원 단 에 4 결과값 계산 는 5 단계

포 수 다.

도 - 도2

등록특허 10-1934372

- 1 -

Page 2: (19) 대한민국특허청(KR) (12) 등록특허공보(B1)[0005] 시각적 질의응답(Visual Question Answering, VQA)을 위한 깊이 잔차 학습(Deep Residual Learning)을 확장하

(72)

병탁

울특별시 악 악 1( 울 )

울특별시 악 악 1( 울 )

상우

울특별시 악 악 1( 울 )

곽동

울특별시 악 악 1( 울 )

허민

울특별시 악 악 1( 울 )

공지 :

등록특허 10-1934372

- 2 -

Page 3: (19) 대한민국특허청(KR) (12) 등록특허공보(B1)[0005] 시각적 질의응답(Visual Question Answering, VQA)을 위한 깊이 잔차 학습(Deep Residual Learning)을 확장하

청 1

컴퓨 는 처리 시스 에 수 는 처리 에 어 ,

상 처리 시스 포 는 어도 나 가, 미지에 시각 특징

고, 질문에 질문 는 1 단계;

상 어도 나 가, 상 질문 에 차 습(Deep Residual Learning) 사

(linear mapping) 볼릭 탄 트 사 (Hyperbolic Tangent mapping) 여 1 결과값 계산 는

2 단계;

상 어도 나 가, 상 시각 특징 에 상 사 상 볼릭 탄 트 사

여 2 결과값 계산 는 3 단계;

상 어도 나 가, 상 1 결과값과 상 2 결과값간 원 단 곱에 3 결과값 계산

는 4 단계;

상 어도 나 가, 상 질문 에 상 사 결과값과 상 3 결과값간 원

단 에 4 결과값 계산 는 5 단계

포 는 것 특징 는 처리 .

청 2

1 에 어 ,

상 어도 나 가, 상 2 단계 내지 상 5 단계 m(상 m 연수) 복 수 는

6 단계 포 고,

상 2 단계는,

상 m 1 상 경우, 차에 계산 4 결과값에 상 사 상 볼릭 탄 트 사

여 차 1 결과값 계산 고,

상 5 단계는,

상 m 1 상 경우, 차에 계산 4 결과값에 사 결과값과 차에 계산

3 결과값간 원 단 통 차 4 결과값 계산 는 것 특징 는 처리

.

청 3

1 에 어 ,

상 어도 나 가, 상 2 단계 내지 상 5 단계 m(상 m 연수) 복 수 는

6 단계 포 고,

상 2 단계는,

상 m 1 상 경우, 차에 계산 4 결과값에 상 사 상 볼릭 탄 트 사

여 차 1 결과값 계산 고,

상 5 단계는,

상 m 1 상 경우, 상 질문 차에 계산 3 결과값간 원 단 통 차

4 결과값 계산 는 것 특징 는 처리 .

등록특허 10-1934372

- 3 -

Page 4: (19) 대한민국특허청(KR) (12) 등록특허공보(B1)[0005] 시각적 질의응답(Visual Question Answering, VQA)을 위한 깊이 잔차 학습(Deep Residual Learning)을 확장하

청 4

1 에 어 ,

상 어도 나 가, 상 4 결과값과 상 시각 특징 에 사 결과값간

원 단 에 5 결과값 계산 는 단계

포 는 것 특징 는 처리 .

청 5

1 에 어 ,

상 3 단계는,

상 시각 특징 에 상 사 상 볼릭 탄 트 사 결과값에 상 사

상 볼릭 탄 트 사 여 2 결과값 계산 는 것 특징 는 처리

.

청 6

1 에 어 ,

상 2 단계는,

상 질문 에 상 사 상 볼릭 탄 트 사 결과값에 상 사 상

볼릭 탄 트 사 여 1 결과값 계산 는 것 특징 는 처리 .

청 7

1 에 어 ,

상 어도 나 가, 상 4 결과값에 사 고, 트맥스 수(softmax functio

n) 여 상 미지에 상 질문 답변 결 는 단계

포 는 것 특징 는 처리 .

청 8

1 내지 7 어느 컴퓨 에 실 시키 그 어 는 것 특징

는 컴퓨 에 독 가능 매체.

청 9

컴퓨 결 어 처리 컴퓨 에 실 시키 컴퓨 독 가능 매체에 컴퓨

그 에 어 ,

상 처리 ,

미지에 시각 특징 고, 질문에 질문 는 1 단계;

상 질문 에 차 습(Deep Residual Learning) 사 (linear mapping) 볼릭

탄 트 사 (Hyperbolic Tangent mapping) 여 1 결과값 계산 는 2 단계;

상 시각 특징 에 상 사 상 볼릭 탄 트 사 여 2 결과값 계산 는

3 단계;

상 1 결과값과 상 2 결과값간 원 단 곱에 3 결과값 계산 는 4 단계;

상 질문 에 상 사 결과값과 상 3 결과값간 원 단 에 4 결과값 계

산 는 5 단계

포 는 것 특징 는 컴퓨 그 .

등록특허 10-1934372

- 4 -

Page 5: (19) 대한민국특허청(KR) (12) 등록특허공보(B1)[0005] 시각적 질의응답(Visual Question Answering, VQA)을 위한 깊이 잔차 학습(Deep Residual Learning)을 확장하

청 10

처리 실 컴퓨 는 처리 시스 에 어 ,

컴퓨 에 독 가능 는 리;

상 리에 실 도 는 어도 나

포 고,

상 어도 나 는,

미지에 시각 특징 고, 질문에 질문 는 1 스;

상 질문 에 차 습(Deep Residual Learning) 사 (linear mapping) 볼릭

탄 트 사 (Hyperbolic Tangent mapping) 여 1 결과값 계산 는 2 스;

상 시각 특징 에 상 사 상 볼릭 탄 트 사 여 2 결과값 계산 는

3 스;

상 1 결과값과 상 2 결과값간 원 단 곱에 3 결과값 계산 는 4 스;

상 질문 에 상 사 결과값과 상 3 결과값간 원 단 에 4 결과값 계

산 는 5 스

처리 는 것 특징 는 처리 시스 .

청 11

10 에 어 ,

상 어도 나 는,

상 2 스 내지 상 5 스 m(상 m 연수) 복 수 는 6 스 처리

고,

상 m 1 상 경우 상 2 스 복 수 , 차에 계산 4 결과값에 상

사 상 볼릭 탄 트 사 여 차 1 결과값 계산 고,

상 m 1 상 경우 상 5 스 복 수 , 차에 계산 4 결과값에 사

결과값과 차에 계산 3 결과값간 원 단 통 차 4 결과값 계

산 는 것 특징 는 처리 시스 .

청 12

10 에 어 ,

상 어도 나 는, 상 3 스 처리 ,

상 시각 특징 에 상 사 상 볼릭 탄 트 사 결과값에 상 사

상 볼릭 탄 트 사 여 2 결과값 계산 는 것 특징 는 처리

시스 .

청 13

10 에 어 ,

상 어도 나 는,

상 4 결과값에 사 고, 트맥스 수(softmax function) 여 상 미지

에 상 질문 답변 결 는 스

처리 는 것 특징 는 처리 시스 .

등록특허 10-1934372

- 5 -

Page 6: (19) 대한민국특허청(KR) (12) 등록특허공보(B1)[0005] 시각적 질의응답(Visual Question Answering, VQA)을 위한 깊이 잔차 학습(Deep Residual Learning)을 확장하

술 야

아 시각 질 답 원 단 곱과 다 달 차 습 처리 시스[0001]

에 것 다.

경 술

상과 언어는 실 계 간 지능 심 다. 상과 언어는 또 공 지능에 도달 에[0002]

어 수 고 지난 10 간 컴퓨 상과 연 언어 처리에 엄청난 수 연 들 진 어

다. 근에는 러닝 술들(deep learning techniques) 극 상과 언어간 경계가

무 지고 , 상과 언어 차에 미가 가 고 다.

시각 질 답(Visual Question Answering, VQA) 사진과 같 미지 질문 통 공지능(Artificial[0003]

Intelligence, AI) 답변 얻는 과 , 그 동안 AI 야 연 상 어 시각 보 연어

보 통 문 다루고 다. , 참고문헌 1 러 시각 질 답 술에 개시 고

다.

<참고문헌 1: 문 "Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra, C[0004]

Lawrence Zitnick, and Devi Parikh. VQA: Visual Question Answering. In International Conference on

Computer Vision, 2015.">

결 는 과

시각 질 답(Visual Question Answering, VQA) 차 습(Deep Residual Learning) [0005]

여, 다 달(multimodal) 차 습 다 달 차 트워크(Multimodal Residual Networks, MRN)

공 수 는 처리 시스 공 다.

시 어 미 사 지 않고도, 어 내포 어 과 얻 수 는 [0006]

처리 시스 공 다.

과 결 수단

미지에 시각 특징 고, 질문에 질문 는 1 단계; 상[0007]

질문 에 차 습(Deep Residual Learning) 사 (linear mapping) 볼릭 탄

트 사 (Hyperbolic Tangent mapping) 여 1 결과값 계산 는 2 단계; 상 시각 특징 에

상 사 상 볼릭 탄 트 사 여 2 결과값 계산 는 3 단계; 상 1 결과값

과 상 2 결과값간 원 단 곱에 3 결과값 계산 는 4 단계; 상 질문 에 상

사 결과값과 상 3 결과값간 원 단 에 4 결과값 계산 는 5 단계 포 는

것 특징 는 처리 공 다.

측에 , 상 처리 , 상 2 단계 내지 상 5 단계 m(상 m 연수) 복 수[0008]

는 6 단계 포 고, 상 2 단계는, 상 m 1 상 경우, 차에 계산 4 결과값에

상 사 상 볼릭 탄 트 사 여 차 1 결과값 계산 고, 상

5 단계는, 상 m 1 상 경우, 차에 계산 4 결과값에 사 결과값과 차

에 계산 3 결과값간 원 단 통 차 4 결과값 계산 는 것 특징 수

다.

다 측 에 , 상 처리 , 상 2 단계 내지 상 5 단계 m(상 m 연수) [0009]

복 수 는 6 단계 포 고, 상 2 단계는, 상 m 1 상 경우, 차에 계산 4 결과

값에 상 사 상 볼릭 탄 트 사 여 차 1 결과값 계산 고, 상

5 단계는, 상 m 1 상 경우, 상 질문 차에 계산 3 결과값간 원 단

통 차 4 결과값 계산 는 것 특징 수 다.

등록특허 10-1934372

- 6 -

Page 7: (19) 대한민국특허청(KR) (12) 등록특허공보(B1)[0005] 시각적 질의응답(Visual Question Answering, VQA)을 위한 깊이 잔차 학습(Deep Residual Learning)을 확장하

또 다 측 에 , 상 처리 , 상 4 결과값과 상 시각 특징 에 사 [0010]

결과값간 원 단 에 5 결과값 계산 는 단계 포 는 것 특징 수 다.

또 다 측 에 , 상 3 단계는, 상 시각 특징 에 상 사 상 볼릭 탄 트[0011]

사 결과값에 상 사 상 볼릭 탄 트 사 여 2 결과값 계

산 는 것 특징 수 다.

또 다 측 에 , 상 2 단계는, 상 질문 에 상 사 상 볼릭 탄 트 사[0012]

결과값에 상 사 상 볼릭 탄 트 사 여 1 결과값 계산 는

것 특징 수 다.

또 다 측 에 , 상 처리 , 상 4 결과값에 사 고, 트맥스 수[0013]

(softmax function) 여 상 미지에 상 질문 답변 결 는 단계 포

는 것 특징 수 다.

상 처리 컴퓨 에 실 시키 그 어 는 것 특징 는 컴퓨 에[0014]

독 가능 매체 공 다.

컴퓨 결 어 상술 처리 컴퓨 에 실 시키 컴퓨 독 가능 매체에 [0015]

컴퓨 그 공 다.

처리 실 컴퓨 는 처리 시스 에 어 , 컴퓨 에 독 가능[0016]

는 리; 상 리에 실 도 는 어도 나 포

고, 상 어도 나 는, 미지에 시각 특징 고, 질문에

질문 는 1 스; 상 질문 에 차 습(Deep Residual Learning)

사 (linear mapping) 볼릭 탄 트 사 (Hyperbolic Tangent mapping) 여 1 결과값

계산 는 2 스; 상 시각 특징 에 상 사 상 볼릭 탄 트 사 여

2 결과값 계산 는 3 스; 상 1 결과값과 상 2 결과값간 원 단 곱에 3 결과값

계산 는 4 스; 상 질문 에 상 사 결과값과 상 3 결과값간 원 단

에 4 결과값 계산 는 5 스 처리 는 것 특징 는 처리 시스

공 다.

시각 질 답(Visual Question Answering, VQA) 차 습(Deep Residual Learning) [0017]

여, 다 달(multimodal) 차 습 다 달 차 트워크(Multimodal Residual Networks, MRN)

공 여 시각 보 연어 보 통 문 결 는 도움 수 다. 또 , 시 어

미 사 지 않고도, 어 내포 어 과 얻 수 다. 뿐만 아니 , 시

어 미 사 지 않고도, 어 내포 어 과 얻 수 다.

도 간단

도 1 본 실시 에 어 , MRN 도시 도 다.[0018]

도 2는 본 실시 에 MRN 체 도식 도 다.

도 3 내지 도 6 본 실시 에 체 들 도시 도 들 다.

도 7 본 실시 에 어 , 처리 시스 내 블 도 다.

도 8 본 실시 에 어 , 처리 시스 가 포 수 는 도시

블 도 다.

도 9는 본 실시 에 처리 시스 수 수 는 처리 도시

도 다.

실시 체 내

, 실시 첨 도 참 여 상 다.[0019]

등록특허 10-1934372

- 7 -

Page 8: (19) 대한민국특허청(KR) (12) 등록특허공보(B1)[0005] 시각적 질의응답(Visual Question Answering, VQA)을 위한 깊이 잔차 학습(Deep Residual Learning)을 확장하

공 신경망(Deep Neural Networks) 미지 식 야에 뛰어난 능 보여주고 지만, 다 달[0020]

(Multimodal) 습에 는 여 능 보 고 다. 본 실시 들에 다 달 차

트워크(Multimodal Residual Networks, MRN)는 다 달 포 시각 질 답(Visual Question-

Answering, VQA) 여 고안 었다. 러 MRN 차 습(deep residual learning)

다. 특 주어진 상 과 달리 시각 보 질 어에 결 (joint representation) 과

습 수 다. 또 , 다 달 과 습 차 습 결 차 사 (joint

residual mapping)에 원 단 곱(element-wise multiplication) 수 수 다. 게다가, 본 실시

들에 는, 심지어 공간 보 갖지 않는 시각 특징들 통 도, 각각 습 블 들 결 들

어 과 보 수 는 에 다.

1. 경(background)[0022]

1.1 차 습(Deep Residual Learning)[0023]

신경망 다수 층들 게 수 능 아진다고 알 나 어질수 가 어 워 계[0024]

가 었다. 지만 차 습 통 신경망 100개 층 상 게 수 게 었 , 그

미지 검 등 야에 뛰어난 능 보여주었다. 차 습 지 연결 (shortcut

connection) 통 등 사 (Identity mapping) 가능 도 주었 비 매 통 지 사

(shortcut mapping)에 맞 게 층 수 게 었다. , 비 매 F(x)

지 사 x 고 , 습 블 다 수 식 1과 같 수 다.

수 식 1

[0025]

여 , x y는 각각 습 블 과 수 다.[0026]

2. 계층 어 트워크(Stacked Attention Networks, SAN)[0027]

계층 어 트워크는 질문에 시각 보 탕 시각 특징 가 치 습 수[0028]

다. 뿐만 아니 , 시각 보 여나가 여러 단계에 걸쳐 어 트워크 아나간다.

들어, 질문에 크색 가 찾는다 , 우 크색 물체 찾는 것 시 게 고, 후 가 여

별 게 다. 체 , 질문 시각 특징 습 수 , 습 가 치들

다수 시각 특징 에 사 수 다. 런 SAN 공 시각 특징 택

수 게 다. 마지막 다 습 블 질문 값 시각 특징 질문

얻어질 수 다. , l 째 습 블 질문 ql

가 , SAN에 질문 는 다 수

식 2 같 얻어질 수 다.

수 식 2

[0029]

여 , V는 컬럼들 특 공간 스 지시 는 시각 특징 , 는 SAN 어 트워크[0030]

나타낼 수 다.

3. 원 단 곱 [0031]

지안 루(Jiasen Lu) 등에 개 결 사 에 (embedding) 후에 질문 시각[0032]

특징 간 원 단 곱 는 다. 러 시각 보 질 어 같 다 달 경에

과 습 본 실시 들에 통 수 다. 근 연 결과들 뛰어 는

능 시 시 다.

등록특허 10-1934372

- 8 -

Page 9: (19) 대한민국특허청(KR) (12) 등록특허공보(B1)[0005] 시각적 질의응답(Visual Question Answering, VQA)을 위한 깊이 잔차 학습(Deep Residual Learning)을 확장하

[0033]

2. 다 달 차 트워크(Multimodal Residual Networks, MRN)[0034]

질문 는 어 트워크 연 층들 통 직 다. SAN에 , 지 사 질문 [0035]

, 비 사 (non-linear mapping) 어 트워크가 다. 어 트워크에 는 답변

질문 에 시각 특징 탕 가 치 업 트 결 습 수

다. 그러나 질문 보는 결 습 병 상 키는 계수 p 만 통 결 에 여

게 다.

수 식 3

[0036]

여 , 계수 p는 질문 q 시각 특징 V 비 수 결과물 나타낼 수 다. 또 , Vi는[0037]

14 × 14 그리드에 i 째 시각 특징 나타낼 수 다.

시각 질 답에 사 간단 능 결 에 후 질문 시각 특[0038]

징 간 원 단 곱 수 는 다. SAN 어 커니 (attention mechanis

m) 다 시각 특징 근 신에 역 시각 특징 보 근 사 수 다. 다시 말 , 본

실시 들에 는 역 시각 특징 보 근 에 , SAN 층 는 아키 처 지 사

처리 수 다. 러 원 단 곱 사 에 개 SAN 어 트워크에 병 상 결

주어진 시각 보 질 어 결 과 습 게 수 다.

본 실시 에 MRN 차 습 다수 습 블 수 다. , H(q, v)에 [0039]

사 아 수 식 4 같 나타낼 수 다.

수 식 4

[0040]

여 , 지 사 첫 째 근사 , 첫 째 결 차 수는 주어진다.[0041]

사 (linear mapping) 는 특징 차원 맞 는 사 다. 결 차 수는 아 수 식 5

수 다.

수 식 5

[0042]

여 σ는 볼릭 탄 트 'tanh' , ⊙는 원 단 곱 나타낼 수 다. 질문 시각 특징 [0043]

는 결 에 직 여 수 다. 차 습 , 다 층에 는 q H(q, v) 체 다. 보다

에 수 식 4 수 식 5는 아 수 식 6과 같 다시 수 다.

등록특허 10-1934372

- 9 -

Page 10: (19) 대한민국특허청(KR) (12) 등록특허공보(B1)[0005] 시각적 질의응답(Visual Question Answering, VQA)을 위한 깊이 잔차 학습(Deep Residual Learning)을 확장하

수 식 6

[0044]

여 , L 습 블 개수 나타낼 수 다. 수 식 6 후 도 2 같 직 [0045]

수 다. 시각 지 들(shortcurts) 도 2에 살 같 각각 층에 시각 특징

달 는 등 사 들 수 다. 각각 블 들 마지막에 , Hl l 째 습 블 수

고, 원 단 나타낼 수 다.

3. 체 실시 [0047]

본 실시 들에 게 여, 체 실시 개 다.[0048]

도 1 본 실시 에 어 , MRN 도시 도 다. 도 1에 'Q'는 연어 질[0049]

, 'V'는 질 가 루어지고 는 시각 상 또는 질 상 는 미지 나타낸다. 'Q'는 워드

(word embedding, 110)과 순 공 신경망(Recurrent Neural Network, RNN, 120) 여 특징

(질문 ) 변 고, 'V'는 1 스(130)에 나타난 볼루 공 신경망(Convolutional Neural

Network, CNN) 통 특징 (시각 특징 ) 변 다. 달 특징 들 2 스

(140)에 나타난 본 실시 들에 다 달 차 트워크(Multimodal Residual

Networks, MRN)에 들어가 답 'A' 도 낼 수 다. 도1 2 스에 는 개 블

층 갖는 MRN 나타내고 다. 또 , 도 1 3 스(150)에 나타난 연어 질 "동물

는 무엇 니 (What kind of animals are these?)"에 , 4 스(160)에 나타난 답 "양(sheep)"

는 나타내고 다. 여 , 미지들(170, 180, 190) 미지에 각각 습 블 들

어 과 울 들 나타내고 다. 각각 컬러 채 들 울 들 러

울 들 값 후에 쳐질 수 다. 그 , 쳐진 값들 울 값들 평균과 편차

보다 크 , 미지들(170, 180, 190)에 어 과 시각 수 다.

사 에 빈도 수가 각각 1000개, 2000개, 3000개 후보 답들 포 는 들 원 [0050]

각각 87%, 90%, 92% 도 질 답 포 게 다. 실험 통 빈도 수가 2000 개 후보

답들 포 는 여 실험 다.

도 2는 본 실시 에 MRN 체 도식 도 다. 도 2에 도시 각 [0051]

상 는 러닝 듈 나타내 , 'Linear'는 사 듈 , 'Tanh'는 볼릭 탄 트 사 (Hyperbolic

Tangent mapping) 듈 각각 나타낼 수 다. 또 , '⊙'는 원 단 곱 , 원 단 각각 나타낼

수 다. 도 2는 개 블 층 갖는 MRN 도시 고 , 각 블 끝에 Hl l 째 습 블

결과물 나타낼 수 다. 또 , 미 같 도 2 살 는 각각 층에 등 사

시각 특징 들 달 나타낼 수 다. 마지막 'Softmax'는 트맥스 수가 는 듈

나타낼 수 다. 트맥스 수는 공 신경망에 술 통 당업 가 게 수

다.

안 는 량 평가 시각 질 답 VQA 여 평가 다.[0052]

러 VQA 상생 미지에 사 직 고 검 질 답 다. 약 61만

건 질 답 가 20만 건 미지에 수집 었다. 아 1에 나타난 같 안 는

다 들에 비 탁월 능 보 다.

등록특허 10-1934372

- 10 -

Page 11: (19) 대한민국특허청(KR) (12) 등록특허공보(B1)[0005] 시각적 질의응답(Visual Question Answering, VQA)을 위한 깊이 잔차 학습(Deep Residual Learning)을 확장하

1

[0053]

1에 나타난 다 들 시각 질 답 야에 미 알 진 술들 당업 가 쉽게 수 [0054]

것 , 'Human' 사 직 답 경우 나타낸다.

또 , 시 어 미 들 는 다 들( , SAN, DMN+)과 달리 MRN 어 시[0055]

어 커니 지 않는다. 그러나 보 마스킹 원 단 곱 상 능

(interpretability) 어 과 가시 새 운 끌어냄 수 다. 처럼 MRN

어 미 들( , 14 × 14)에 지 않 문에 다 들보다 상도 미

지들 시각 는 것 가능 진다. 처럼 MRN 시 어 커니 없는 암시 어

수 다.

도 3 내지 도 6 본 실시 에 체 들 도시 도 들 다.[0056]

도 2 블 들 시각 특징 에 사 듈과 볼릭 탄 트 사 듈 각각 씩 [0057]

실시 도시 고 는 , 도 3 체 블 시각 특징 에 사 듈과

볼릭 탄 트 사 듈 씩만 실시 도시 고 다.

도 4 체 시각 특징 에 뿐만 아니 질문 에 도 사 듈과 볼릭[0058]

탄 트 사 듈 각각 씩 실시 도시 고 다.

또 , 도 5 체 원 단 연산 첫 째 블 에 만 질문 에 사 듈 [0059]

결과값 고 째 블 는 질문 그 원 단 연산 는 실시 도

시 고 다.

또 , 도 6 체 원 단 연산 시각 특징 는 실시 도시 고[0060]

다. , 첫 째 블 에 만 시각 특징 에 사 듈 결과값 원 단 연산

수 다. 째 블 는 시각 특징 가 원 단 연산 지 않 수

다.

처럼, 도 2 블 가 본 직 실시 나, 본 실시 들 차 습 여[0061]

시각 질 답 원 단 곱과 다 달 차 습 다 달 차 트워크(Multimodal

Residual Networks, MRN) 공 는 것 특징 고 문에 상술 도 3 내지 도 6 실시 들과 같

다양 변 가능 수 다.

상에 같 , 본 실시 들 원 단 곱 여 시각 질 답(Visual Question Answering,[0062]

VQA) 차 습(Deep Residual Learning) 다 달(multimodal) 차 습

다 달 차 트워크(Multimodal Residual Networks, MRN) 공 수 다. 또 , 원 단 곱 사

시 어 미 들에 지 않고도 어 과 시각 수 고 다.

에 는 상술 다 달 차 트워크 여 질 같 스트, 그리고 미지 께 처리 는 [0063]

처리 시스 에 다.

등록특허 10-1934372

- 11 -

Page 12: (19) 대한민국특허청(KR) (12) 등록특허공보(B1)[0005] 시각적 질의응답(Visual Question Answering, VQA)을 위한 깊이 잔차 학습(Deep Residual Learning)을 확장하

도 7 본 실시 에 어 , 처리 시스 내 블 도 다. 도 7에[0064]

는 처리 시스 (700) 나 물리 치처럼 고 나, 실시 에 처리 시스

(700) 복수 치들 연동 태 수도 다.

러 처리 시스 (700) 도 7에 도시 같 리(710), (720), 통신 듈(730) 그리[0065]

고 스(740) 포 수 다. 리(710)는 컴퓨 에 독 가능 매체 ,

RAM(random access memory), ROM(read only memory) 스크 드 브 같 비 량 치

(permanent mass storage device) 포 수 다. 여 ROM과 비 량 치는 리(710)

리 어 별도 치 포 수도 다. 또 , 리(710)에는 운 체 어도 나

그 드( 본 실시 들에 처리 수 도 처리 시스 (700)

포 는 매체에 어 처리 시스 (700) 어 컴퓨 그 )가 수 다.

러 트웨어 들 리(710) 는 별도 컴퓨 에 독 가능 매체 수

다. 러 별도 컴퓨 에 독 가능 매체는 드 브, 스크, , DVD/CD-ROM 드

브, 리 카드 등 컴퓨 에 독 가능 매체 포 수 다. 다 실시 에 트웨어

들 컴퓨 에 독 가능 매체가 아닌 통신 듈(730) 통 리(710)에 수도 다.

(720)는 본 산술, 직 연산 수 , 컴퓨 그 처리 도[0066]

수 다. 리(710) 또는 통신 듈(730)에 (720) 공 수 다. 들어

(720)는 리(710)에 그 드에 수신 는 실 도 수 다. 보

다 체 , (720)는 리(710)에 컴퓨 그 드에 순차

실 여 본 실시 에 처리 수 수 다.

통신 듈(730) 실 컴퓨 트워크 통 다 물리 들과 통신 능 공 수[0067]

다. , 처리 시스 (700) (720)가 처리 미지들과 질문 스트들

트워크 다 물리 컴퓨 트워크 통신 듈(730) 통 처리 시스 (700)

수신 어 리(710)나 (720) 달 수 다. 역 , 처리 시스 (700) 수신 미

지들과 스트들에 연산 처리 처리 결과가 통신 듈(730)과 컴퓨 트워크 통 다 물리

수도 다.

스(740)는 치(750) 스 수단 수 다. 들어, 치[0068]

(750)에 치는 키보드 또는 마우스 등 치 , 그리고 치는 스 나 스 커 같 치

포 수 다. 도 7에 치(750)는 처리 시스 (700)과 별도 치 었 나, 실

시 에 치(750)가 처리 시스 (700)에 포 도 처리 시스 (700) 수

도 다.

또 , 다 실시 들에 처리 시스 (700) 도 7 들보다 많 들 포 수도[0069]

다. 그러나, 술 들 게 도시 없다. 들어, 처리

시스 (700) 각 물리 튼 나 치 , 또는 치 등 다양 들 포 도

수 알 수 다.

도 8 본 실시 에 어 , 처리 시스 가 포 수 는 도시[0070]

블 도 고, 도 9는 본 실시 에 처리 시스 수 수 는 처리

도시 도 다. 도 8 앞 처리 시스 (700) (720)가 포 수 는

들 특징 (810), 사 (820), 원 단 곱 계산 (830), 원 단 계산 (840),

복 어 (850) 답변 결 (860) 나타내고 다. 러 (720) (720) 들

도 9 처리 포 는 단계들(910 내지 970) 수 수 다. , (720)

(720) 들 리(710)가 포 는 운 체 드 /또는 어도 나 컴퓨 그

드에 (instruction) 실 도 수 다. 여 , (720) 들

처리 시스 (700)에 컴퓨 그 드가 공 는 어 에 (720)에 수

는 (720) 다 능들(different functions) 들 수 다. , (720)는

처리 시스 (700) 어 리(710) 어 어드릴 수

, 어들 어 에 후 단계들(910 내지 970) 수 도 처리 시스 (700)

어 수 다.

단계(910)에 특징 (10)는 미지에 시각 특징 고, 질문에 [0071]

등록특허 10-1934372

- 12 -

Page 13: (19) 대한민국특허청(KR) (12) 등록특허공보(B1)[0005] 시각적 질의응답(Visual Question Answering, VQA)을 위한 깊이 잔차 학습(Deep Residual Learning)을 확장하

질문 수 다. 미 같 시각 특징 는 CNN 여, 질문 는 워

드 과 RNN 여 수 다. CNN과 워드 , RNN 등 미 알 진 술 러

술들 통 시각 특징 질문 는 술 당업 가 게 수 다.

단계(920)에 사 (820)는 질문 에 차 습(Deep Residual Learning) 사[0072]

(linear mapping) 볼릭 탄 트 사 (Hyperbolic Tangent mapping) 여 1 결과값 계산

수 다. 여 1 결과값 계산 는 것 앞 수 식 5에 첫 째 계산 는

것에 수 다. 또 , 도 4 실시 에 는 질문 에 사 듈과 볼릭 탄 트 사 듈

씩 다. 러 실시 , 사 (820)는 질문 에 사

볼릭 탄 트 사 결과값에 사 볼릭 탄 트 사 여 1 결

과값 계산 수도 다.

단계(930)에 사 (820)는 시각 특징 에 사 볼릭 탄 트 사 여 2[0073]

결과값 계산 수 다. , 2 결과값 계산 는 것 수 식 5에 째 계산

는 것에 수 다. 들어, 러 계산 식 도 3 실시 에 같 , 사 듈과

볼릭 탄 트 사 듈 시각 특징 에 씩만 는 경우에 수 다. 편, 실시 에

사 (820)는 시각 특징 에 사 볼릭 탄 트 사 결과값에 사

볼릭 탄 트 사 여 2 결과값 계산 수도 다. 도 2 도 4 내지 도 6에 는

시각 특징 에 각각 사 듈과 볼릭 탄 트 사 듈 씩 는 실시

다.

단계(940)에 원 단 곱 계산 (830)는 1 결과값과 2 결과값간 원 단 곱에 3 결과값 계산[0074]

수 다. , 3 결과값 계산 는 것 수 식 5에 계산 는 것에 수 다.

단계(950)에 원 단 계산 (840)는 질문 에 사 결과값과 3 결과값간 원 단[0075]

에 4 결과값 계산 수 다. 여 , 4 결과값 계산 는 것 수 식 6에 여 첫 째 블

값 H1 계산 는 것에 수 다.

미 같 실시 들에 복수 블 들 수 다. 단계(960)에 복 [0076]

어 (850)는 단계(920) 내지 단계(950) m(m 연수) 복 수 수 다.

, 도 2 실시 에 같 째 블 는 질문 가 블 값 체 수 다. [0077]

러 실시 사 (820)는 m 1 상 경우, 차에 계산 4 결과값에 사

볼릭 탄 트 사 여 차 1 결과값 계산 수도 다.

또 , 도 2 실시 에 같 째 블 는 질문 사 에 결과가 아닌 4 결과값[0078]

에 사 결과값 원 단 연산 수 다. 러 실시 원 단

계산 (840)는 m 1 상 경우, 차에 계산 4 결과값에 사 결과값과 차에

계산 3 결과값간 원 단 통 차 4 결과값 계산 수 다.

또 , 도 5 실시 에 는 원 단 연산 첫 째 블 에 는 질문 사 에 결과[0079]

값 , 째 블 는 등 사 , 다시 말 질문 그 원 단 연산

다. 러 실시 원 단 계산 (840)는 m 1 상 경우, 질문 차에

계산 3 결과값간 원 단 통 차 4 결과값 계산 수도 다.

또 , 도 6 실시 에 는 시각 특징 에 사 결과값 원 단 에 연산 [0080]

다. , 원 단 계산 (840)는 4 결과값과 시각 특징 에 사

결과값간 원 단 에 5 결과값 계산 수도 다. 복수 블 들 재 는 경우에는

5 결과값 4 결과값 신 다 블 질문 수 다. 러 5 결과값

첫 째 블 에 만 계산 수 고, 째 블 는 4 결과값 생 수 다. 다시

말 첫 째 블 에 만 시각 특징 에 사 결과값 원 단 에 연산

수 다.

단계(970)에 답변 결 (860)는 4 결과값에 사 고, 트맥스 수(softmax function)[0081]

등록특허 10-1934372

- 13 -

Page 14: (19) 대한민국특허청(KR) (12) 등록특허공보(B1)[0005] 시각적 질의응답(Visual Question Answering, VQA)을 위한 깊이 잔차 학습(Deep Residual Learning)을 확장하

여 미지에 질문 답변 결 수 다. 사 에 트맥스 수

여 답변 결 는 것 1 통 에 알 진 다 통 당업 가 게

수 것 다.

처럼 본 실시 들에 , 시각 질 답(Visual Question Answering, VQA) 차 [0082]

습(Deep Residual Learning) 여, 다 달(multimodal) 차 습 다 달 차 트워크

(Multimodal Residual Networks, MRN) 공 여 시각 보 연어 보 통 문 결 는

도움 수 다. 또 , 시 어 미 사 지 않고도, 어 내포 어

과 얻 수 다. 게다가, 시 어 미 사 지 않고도, 어 내포 어

과 얻 수 다.

상에 시스 또는 치는 드웨어 , 트웨어 또는 드웨어 [0083]

트웨어 수 다. 들어, 실시 들에 치 는,

들어, , 트 러, ALU(arithmetic logic unit), 지 신 (digital signal processor),

마 크 컴퓨 , FPGA(field programmable gate array), PLU(programmable logic unit), 마 크 , 또

는 (instruction) 실 고 답 수 는 다 어 치 같 , 나 상 컴퓨 또는 특

수 컴퓨 여 수 다. 처리 치는 운 체 (OS) 상 운 체 상에 수 는

나 상 트웨어 어 리 수 수 다. 또 , 처리 치는 트웨어 실 에 답 여,

근, , , 처리 생 수도 다. 편 여, 처리 치는 나가 사 는

것 경우도 지만, 당 술 야에 통상 지식 가진 는, 처리 치가 복수 개 처리

(processing element) /또는 복수 처리 포 수 알 수 다. 들어, 처리 치

는 복수 개 또는 나 나 트 러 포 수 다. 또 , 병

(parallel processor) 같 , 다 처리 (processing configuration)도 가능 다.

트웨어는 컴퓨 그 (computer program), 드(code), (instruction), 또는 들 나 상[0084]

포 수 , 원 는 동 도 처리 치 거나 독립 또는 결

(collectively) 처리 치 수 다. 트웨어 /또는 는, 처리 치에 여 거나

처리 치에 또는 공 여, 어 계, (component), 물리 치, 가상

치(virtual equipment), 컴퓨 매체 또는 치에 , 또는 시 체 (embody) 수

다. 트웨어는 트워크 연결 컴퓨 시스 상에 산 어 , 산 거나 실 수

도 다. 트웨어 는 나 상 컴퓨 독 가능 매체에 수 다.

실시 에 다양 컴퓨 수단 통 여 수 수 는 그 태 어 컴퓨 [0085]

독 가능 매체에 수 다. 상 컴퓨 독 가능 매체는 그 , , 등

단독 또는 여 포 수 다. 상 매체에 는 그 실시 여 특별

계 고 것들 거나 컴퓨 트웨어 당업 에게 공지 어 사 가능 것 수도 다. 컴퓨

독 가능 매체 에는 드 스크, 스크 같 매체(magnetic media),

CD-ROM, DVD 같 매체(optical media), 티컬 스크(floptical disk) 같 - 매체

(magneto-optical media), (ROM), (RAM), 시 리 등과 같 그 고 수 도

특별 드웨어 치가 포 다. 그 에는 컴 러에 만들어지는 것과 같

계어 드뿐만 아니 리 등 사 컴퓨 에 실 수 는 고 언어 드

포 다.

상과 같 실시 들 비 실시 도 에 었 나, 당 술 야에 통상 지식 가[0086]

진 상 재 다양 수 변 가능 다. 들어, 술들 과 다

순 수 거나, /또는 시스 , , 치, 등 들 과 다 태

결 또는 거나, 다 또는 균등물에 여 치 거나 치 도 결과가 달

수 다.

그러므 , 다 들, 다 실시 들 특허청 균등 것들도 후술 는 특허청 에 [0087]

다.

등록특허 10-1934372

- 14 -

Page 15: (19) 대한민국특허청(KR) (12) 등록특허공보(B1)[0005] 시각적 질의응답(Visual Question Answering, VQA)을 위한 깊이 잔차 학습(Deep Residual Learning)을 확장하

도 1

등록특허 10-1934372

- 15 -

Page 16: (19) 대한민국특허청(KR) (12) 등록특허공보(B1)[0005] 시각적 질의응답(Visual Question Answering, VQA)을 위한 깊이 잔차 학습(Deep Residual Learning)을 확장하

도 2

도 3

등록특허 10-1934372

- 16 -

Page 17: (19) 대한민국특허청(KR) (12) 등록특허공보(B1)[0005] 시각적 질의응답(Visual Question Answering, VQA)을 위한 깊이 잔차 학습(Deep Residual Learning)을 확장하

도 4

도 5

도 6

등록특허 10-1934372

- 17 -

Page 18: (19) 대한민국특허청(KR) (12) 등록특허공보(B1)[0005] 시각적 질의응답(Visual Question Answering, VQA)을 위한 깊이 잔차 학습(Deep Residual Learning)을 확장하

도 7

도 8

등록특허 10-1934372

- 18 -

Page 19: (19) 대한민국특허청(KR) (12) 등록특허공보(B1)[0005] 시각적 질의응답(Visual Question Answering, VQA)을 위한 깊이 잔차 학습(Deep Residual Learning)을 확장하

도 9

등록특허 10-1934372

- 19 -