NLP_Project_961webpages.iust.ac.ir/.../Project/NLP_project_p3_draft01.docx · Web viewیادگیری ژرف شاخه ای نسبتا جدید از یادگیری ماشین است

دانشکده مهندسی کامپیوتر

بررسی مقاله یادگیری توالی به توالی با شبکه های عصبی گزارش پروژه درس پردازش زبان های طبیعی

فاز سوم )نهایی(

دانشجو: نصرآبادیمرتضی ذاکری

استاد:دکتر بهروز مینایی

1396بهمن

چکیده یادگیری ژرف شاخه ای نسبتا جدید از یادگیری ماشین اس��ت ک��ه در آن تواب��ع محاس��باتی ب��ه شکل گراف های چند سطحی یا ژرف برای شناسایی و تخمین قانون حاکم بر حل ی��ک مس��ئله پیچیده به کار بسته می شوند. شبکه های عصبی ژرف ابزاری برای طراحی و پیاده سازی این مدل یادگیری هستند. این شبکه ها در بسیاری از وظ��ایف ی��ادگیری ماش��ینی س��خت، موف��ق ظ��اهر شده اند. به منظور استفاده از شبکه های ژرف در وظایفی که ترتیب ورودی داده در انجام آن مؤثر است مانند اکثر وظایف حوزه پردازش زبان طبیعی، شبکه های عصبی مک��رر اب��داع گش��تند ک��ه بازنمایی مناسبی از مدل های زب��انی ارای��ه می دهن��د. این م��دل ها در ح��الت س��اده ب��رای هم��ه وظیفه های یک مدل زبانی مناسب نیستند. در این گزارش مدل خاصی از شبکه های مکرر تحت عنوان مدل توالی به توالی یا کدگ��ذار-گدگش��ا بررس��ی می ش��ود ک��ه ب��رای وظ��ایفی ک��ه ش��امل توالی های ورودی و خروجی با طول متفاوت هستند؛ نظیر ترجمه ماشینی، توس��عه داده ش��ده و

توانسته است نتایج قابل قبولی را در این زمینه تولید کند.

مدل توالی به توالی، شبکه عصبی مکرر، یادگیری ژرف، ترجمه ماشینی.کلیدواژه ها:

فهرست مـطالب صـفحه عنوان

جفهرست شـکل ها خفهرست جـدول ها

دجدول واژگان و نمادهای اختصـاری1 مقدمه1

2....................................................................................................- شرح مسئله و اهمیت موضوع1-13.........................................................................................................................- اهداف و راهکارها2-14...............................................................................................................................- داده ها و نتایج3-1

5 مفاهیم اولیه25......................................................................................................................................- مدل زبانی1-26................................................................................................................- شبکه های عصبی مکرر2-28................................................................................................................- ترجمه ماشینی عصبی3-2

8 کارهای مرتبط310 مدل توالی به توالی4

11.............................................................................................................................- آموزش شبکه1-414................................................................................................................................- جزئیات آموزش شبکه2-1-4

15 آزمایش ها516.........................................................................................................................- پیاده سازی مدل1-516...............................................................................................................- جزئیات مجموعه داده2-517.................................................................................................- کدگشایی و امتیازدهی مجدد3-518.........................................................................................................- وارون سازی جمالت مبدأ4-520...............................................................................................................................- ارزیابی نتایج5-521...............................................................................................- کارآمدی روی جمالت طوالنی6-521................................................................................................................................- تحلیل مدل7-5

23 نتیجه گیری و کارهای آتی626مراجع

28واژه نامه

هافهرست شکل صـفحه عنوان

راABC. این م�دل ت�والی RNN یک ط�رح واره از م�دل توالی به ت�والی متش�کل از دو (1شکل ) را به عنوان خروجی تولید می کند. م��دل پس از تولی��دWXYZبه عنوان ورودی خوانده و توالی

4...................................................................< روند پیش بینی خود را متوقف می کند.EOS>نشانه

را به یکx که یک توالی ورودی از مقادیر RNN گراف محاسباتی مربوط به یک نوع (2شکل ) احتم��االت نرم��الo نگاشت می کند. فرض شده اس��ت ک��ه خ��روجی oتوالی خروجی از مقادیر

حاص��لo از اعمال تابع بیش��ینه هم�وار روی ŷنشده است، بنابراین خروجی واقعی شبکه یعنی همان شبکه به صورت باز ش��ده در زم��ان،راست: به صورت یال بازگشتی. RNNچپ: می شود.

7...........................................................به نحوی که هر گره با یک برچسب زمانی مشخص شده است.

شبکه)ب(: شبکه عصبی استاندارد، )الف(:. RNN طرح واره ای از حالت های مختلف (3شکل )7................................ شبکه های چند به چند.)ث(: و )ت( شبکه چند به یک، )پ(:یک به چند،

کدگذار-کدگشا، که برای یادگ�یری تولید توالی خ��روجی )زبان مقص��د(RNN مدل (4شکل )¿ y (1 ) , …, y (n y ¿ از روی توالی ورودی )زبان مبدأ( ¿<( x (1 ) ,…, x( nx)>¿.10.............. به کار می رود

NMT..........................................13 نمایش نحوه آموزش مدل توالی به توالی روی وظیفه (5شکل )

را نشان می دهد ک��هLSTM دوبعدی از حالت های پنهان PCA این شکل یک تصویر (6شکل ) پس از پردازش جمله های نشان داده شده در شکل، گرفت��ه ش��ده اس��ت. عب��ارات ب��ا توج��ه ب��ه معنایشان خوشه بندی شده اند که معنا در این مثال به طور عمده تابعی از ت��رتیب ظ��اهر ش��دن واژه ها در عبارت است. رسیدن به چنین خوشه بندی با روش های سنتی موج��ود، س��خت اس��ت. توجه شود که در همه جمالت واژه های یکسانی استفاده شده است و تنها ترتیب، موجب تفاوت

22............................................................................................................................................آنها شده است. نمودار سمت چپ کارآمدی سیستم را به عنوان تابعی از طول جمله ها نش��ان می ده��د(7شکل )

که محور افقی در آن طول واقعی جمله ها بر حسب تعداد واژه های آنها است. کاهش امتیازی در واژه وج��ود ن��دارد. تنه��ا ی��ک ک��اهش ج��زئی در جمله ه��ای خیلی35جمالتی با طول کمتر از

را روی جمله هایی ب��ا واژه ه��ایLSTMطوالنی مشاهده می شود. نمودار سمت راست کارآمدی کمتر به کار رفته نشان می دهد که محور افقی در آن جمله های آزمایش شده برحسب می��انگین

23.............................................................................................................................تکرار واژه هایشان است.

فهرست جدول ها صـفحه عـنوان

WMT’14 روی مجموعه آزم��ون ترجم��ه انگلیس��ی ب��ه فرانس��وی LSTM کارآمدی (1جدول )(ntst14) 5. توجه شود که یک مجموعه متشکل از LSTM ارزان تر )س��بک تر(2 با اندازه پرتو ،

19...................................................................................... است.12 تک با اندازه پرتوی LSTMاز یک روش ه�ای مش�ابه ک�ه ش�بکه های عص�بی را در کن�ار ترجم�ه ماش�ینی س�نتی روی(2جدول )

20................................ در ترجمه انگلیسی به فرانسوی استفاده کرده اند.WMT’14مجموعه داده تعدادی مثال از ترجمه های طوالنی تولید شده توسط مدل توالی به توالی در مقایس��ه(3جدول )

با ترجمه صحیح. خواننده می تواند صحت نتایج را با استفاده از مترجم گوگل تا حد خوبی درک22..............................................................................................................................................................کند.

هافهرست جدول

جدول واژگان و نمادهای اخـتصاریکوته نوشتمفهوم کوته نوشت

Convolutional Neural NetworksCNNDeep Neural NetworkDNN

Language ModelLMLong-short term memoryLSTM

Natural Language ProcessingNLPNeural Language ModelsNLM

Neural Machine TranslationNMTRectified Linear UnitReLU

Recurrent Neural NetworkRNNStatistical Machine TranslationSMT

مقدمه1

اخیرا، با افزایش ق��درت1(DNNsمدل ها و روش های یادگیری به کمک شبکه های عصبی ژرف ) محاسباتی سخت افزارها و نیز حل ب�رخی از چالش ه��ای اساس�ی موج�ود ب�ر س�ر راه آم�وزش و

ها در انجام وظایف سخت یادگیریDNNیادگیری این شبکه ها، بسیار مورد توجه واقع شده اند. ماشین مانند تشخیص گفتار، تشخیص اشیاء و غیره، فوق العاده قدرت من��د ظ��اهر ش��ده اند و در

ها به این دلی��ل اس��تDNNمواردی روش های سنتی را کامال کنار زده اند. قدرت بازنمایی زیاد که قادر هستند محاسبات زیادی را به صورت موازی در چندین الیه انجام داده، با تعداد زی��ادی پارامتر پاسخ مسئله داده شده را تخمین زده و مدل مناسبی از آن ارایه دهن��د. درح��ال حاض��ر

DNNروی ی�ک3 به ص�ورت بانظ�ارت2های بزرگ می توانند ب�ا اس�تفاده از الگ�وریتم پس انتش�ار مجموعه آموزش برچسب زده و به قدر کافی بزرگ آموزش ببینند. بنابراین در مواردی که ضابطه حاکم بر یک مسئله دارای پارامترهای بسیار زیادی است و ی��ک مق��دار بهین��ه از این پارامتره��ا وجود دارد )صرفا با استناد به این که مغز انس�ان همین مس�ئله را خیلی س��ریع ح�ل می کن�د(، روش یادگیری پس انتشار این تنظیم از پارامترها ) مقدارهای بهین�ه( را یافت�ه و مس�ئله را ح�ل

.[1]می کند

مربوط می ش��وند؛4(NLPبسیاری از وظایف یادگیری ماشین به حوزه پردازش زبان طبیعی ) جایی که در آن معموال ترتیب ورودی ها و خروجی های یک مس��ئله مهم اس��ت. ب��رای مث��ال در ترجمه ماشینی دو جمله با واژه های یکسان ولی ترتیب متفاوت، معانی )خروجی ه��ای( مختلفی

هستند. در واقع ورودی آنها به ص��ورت ی��ک ت��والی5دارند. این وظایف اصطالحا مبتنی بر توالی برای این دسته از وظایف خوب عم��ل نمی کنن��د؛ چ��را6است. شبکه های عصبی رو به جلو ژرف

که قابلیتی برای به خاطر سپاری و مدل سازی ترتیب در آنها تعبیه نشده است.

1 deep neural networks2 backpropagation3 supervised4 natural language processing5 sequence6 deep feed-forward neural networks

1

ما ممکن است امیدوار باش��یم ک��ه ماش��ین ها در نه��ایت در همه زمینه های هوشمند با انسان رقابت خواهن��د ک��رد. ام��ا

بهترین زمینه برای شروع کدام است؟!آلِن تورینگ

یادگیری توالی به توالی با شبکه های عصبی

خ�انواده ای از ش�بکه های عص�بی ب�رای پ��ردازش وظ��ایف7(RNNsشبکه های عصبی مکرر ) ، وی�ژه پ�ردازش ی�ک8(CNNsمبتنی بر توالی هستند. همانطور که شبکه های عصبی پیچش�ی )

ن�یز همس�و ب�ا پ�ردازش ی�کRNN از مقادیر، برای مثال یک تصویر، طراحی شده اند؛ یک 9تور¿=xتوالی از مقادیر ورودی x (1 ) , x (2) ,…, x ( n)>¿ خروجی [2]ساخته شده است .RNNه��ا ن��یز

مانند ورودی آنها در اغلب وظایف یک توالی است. این قابلیت پردازش توالی توس��ط ش��بکه های، بسیار درخور ساخته است.NLPعصبی، آنها را برای استفاده در وظایف

شرح مسئله و اهمیت موضوع- 1-1

ها، در حالت ساده این شبکه ها یک توالی ورودی باRNNبرخالف انعطاف پذیری و قدرت باالی طول ثابت را به یک ت�والی خ��روجی ب��ا هم��ان ط��ول نگاش��ت می کنن��د. این موض��وع ام��ا ی��ک محدودیت جدی است؛ زیرا، بسیاری از مسائل مهم، در ق�الب توالی ه��ایی ک��ه طولش��ان از قب��ل مشخص نیست، به بهترین شکل قابل بیان هستند و در نظ��ر گ��رفتن ی��ک ط��ول ث�ابت از پیش تعیین شده برای ورودی و خروجی به خوبی مسئله را مدل نمی کند. برای مثال ترجمه ماشینی

(MT)10مسائلی از این دست هستند. همچنین سیس�تم پرس�ش و پاس�خ را11 و تشخیص گفتار نیز می توان به صورت نگاشت یک توالی از واژه ها به عنوان پرسش، به یک توالی دیگ��ر از واژه ه��ا به عنوان پاسخ، در نظر گرفت. بنابراین پُر واضح است که ایجاد یک روش مستقل از دامنه برای

.[1]یادگ�یری نگاشت توالی به تولی مفید و قابل توجیه خواهد بود

اهداف و راهکارها- 2-1

مبتنی بر نگاشت توالی های با طول نامشخصNLPهمانطور که دیدیم طیف وسیعی از وظایف دارای مح��دودیت های خ��اصn-garmو متغیر به یکدیگر است. همچنین روش های سنتی مثل

خود در حل این دسته مسائل هستند و اس�تفاده از روش ه�ای ی�ادگیری ژرف ب�ه وض�وح امی�د ه��ا جهت نگاش��ت توالی به ت��والیRNNبخش بوده است. بنابراین هدف ارایه یک مدل مبتنی بر

و نتایج آن به تفصیل شرح داده می شود.[1]است. در این گ�زارش راهکار مطرح شده در

Sutskever نشان دادند که چگونه یک ک��اربرد س��اده از ش��بکه ب��ا معم��اری[1] و همکاران می تواند مسائل نگاشت توالی به توالی را حل کند. ایده اص��لی12(LSTMحافظه کوتاه مدت بلند )

برای خواندن توالی ورودی، به صورت یک نمون��ه در ه��ر مرحل��ه زم��انی،LSTMاستفاده از یک

7 recurrent neural networks8 convolutional neural networks9 grid

10 machine translation11 speech recognition12 long-short term memory


دیگ��ر ب��رای اس��تخراجLSTMجهت اقتباس برداری بزرگ با بعد ثابت و سپس استفاده از یک است ب��ا اینRNN دوم دقیقا یک مدل زبانی مبتنی بر LSTMتوالی خروجی از آن بردار است.

در ی��ادگیریLSTMتفاوت که حاوی احتمال شرطی نسبت به توالی ورودی نیز هست. قابلیت موفق وابستگی های مکانی طوالنی م��دت نهفت��ه درون توالی ه��ا، آن را ب��رای اس��تفاده در م��دل

)پیشنهادی مناسب ساخته است. یک طرح واره از این م�دل را ب�ه ص�ورت ع�ام نش�ان(1شکل می دهد.

را به عن�وان ورودی خوان�ده وABC. این م�دل ت�والی RNNیک طرح واره از مدل توالی به ت�والی متش�کل از دو ( 1شکل )

< روند پیش بی��نی خ��ود راEOS> را به عنوان خروجی تولید می کند. مدل پس از تولید نشانه WXYZتوالی .[1]متوقف می کند

داده ها و نتایج- 3-1

م��ورد آزم��ایش13(NMTمدل پیشنهادی در بخش قبل، برروی وظیفه ترجمه ماشینی عصبی ) WMT’14قرار گرفته است. برای انجام آزمایش ها از مجموعه داده ترجمه انگلیسی به فرانسوی

وجود دارد که برای آم��وزش[4]. همچنین مجموعه داده کوچکتری در [3]استفاده شده است مدل های کوچکتر مناسب است. این مجموعه شامل ترجمه های انگلیسی به فارسی نیز هست.

ب��ا اس��تخراجWMT’14نتایج حاصل شده از این کار بدین قرار است. بر روی مجموعه داده مع��ادلBLEU میلیون پ��ارامتر، در نه��ایت امتی��از 380 ژرف با LSTMمستقیم ترجمه از پنج

کسب گردیده است. این امتیاز باالترین امتیازی اس�ت ک��ه ت�ا زم��ان ارای�ه این مقال��ه از34.81 برای ترجمه ماش��ینی آم��اری )BLEU حاصل شده است. به عنوان مقایسه امتیاز NMTطریق SMT)14 ب��ا34.81 است. این درحالی است که امتی��از 33.30 برروی همین مجموعه داده برابر

هزار کلمه به دست آمده و هرج��ا ک��ه کلم��ه ظ��اهر ش��ده در ترجم��ه80احتساب اندازه واژه نامه مرجع در واژه نامه نبوده این امتیاز جریمه شده است. بن��ابراین نت��ایج نش��ان می ده��د ک��ه ی��ک معماری مبتنی بر شبکه عصبی تقریبا غیر بهینه، که نقاط زیادی برای بهبود دارد، قادر است ت�ا

.[1] را شکست دهد SMTروش های سنتی مبتنی بر عبارِت سیستم

13 neural machine translation14 statistical machine translation


مفاهیم اولیه2

، ش�بکه های15(LMدر این قسمت پیرامون سه مفهوم اصلی گزارش پیشرو، یعنی م�دل زب�انی )عصبی مکرر و ترجمه ماشینی عصبی، به صورت مختصر توضیحاتی ارایه می گردد.

مدل زبانی- 1-2

LM یک مفهوم پایه در NLPاست که امکان پیش بینی نش�انه بع�دی در ی�ک ت�والی را ف�راهم عبارت است از یک توزیع احتمالی روی یک توالی از نشانه ها )اغلبLMمی کند. به بیان دقیق تر

واژه ها( که احتمال وقوع یک توالی داده شده را مشخص می کند. در نتیجه می توان بین چندین ب��رایLM.�� [5]توالی داده شده برای مثال چند جمله، آن را که محتمل تر است، انتخاب ک��رد

¿=xتوالی x (1 ) , x (2) ,…,x ( n)>¿:عبارت است از

)1(p ( x )=∏t=1

n

p( x( t )∨x (¿t ))

برای غلبه بر چالش های محاسباتی، با اس��تفاده از ف��رض م��ارکوفn-gramمدل های سنتی نش�انه قبلی مح�دود می کنن�د. به همین دلی�ل ب�رایn-1 را ب�ه درنظ�ر گ�رفتن تنه�ا (1)رابطه

نشانه( و دیده نشده مناسب نیستند. مدل های زبانی عص��بی5 یا 4توالی های طوالنی )بیشتر از (NLMs)16که بر مبنای شبکه های عصبی عمل پیش بینی واژه بعدی را انجام می دهند، در ابتدا

ها با آنها ترکیب شدند که منجر به ایجاد پیچیدگی های زی��ادی ش��د؛ درn-gramبرای کمک به . اخیرا اما، معماری ه��ای جدی��دی[5]حالی که مشکل توالی های طوالنی همچنان وجود داشت

ها است، ایجاد شده اند. سنگ بنای این مجموع��ه معماری ه��اDNN که کامال بر اساس LMبرای RNN.ها بوده که در بخش بعدی معرفی می شوند

شبکه های عصبی مکرر- 2-2

RNN بی��انگراف جهت دار دوریها کالس�ی از شبکه های عصبی هستند که به ص��ورت ی��ک می شوند. به عبارت دیگر ورودی هریک از الیه)های( پنهان یا خ��روجی عالوه ب��ر خ��روجی الی��ه

را نش��انRNN( ی��ک 2قبل، شامل ورودی از مرحله قبل به صورت بازخورد نیز می شود. شکل ) می ده��د. هم��انطور ک��ه پیداس��ت، الی��ه پنه��ان از مراح��ل قبلی هم ب��ازخورد می گ��یرد. در ه��ر

x(t( ی��ک ب��ردار t=n ت��ا t=1 از )tمرحله زم��انی ¿=x از ت��والی ورودی ( x (1 ) , x (2) ,…, x ( n)>¿

15 language model16 neural language models


عبارتن�د ازt در RNN( ی�ک 17پردازش می شود. در حالت کلی معادله های بروزرسانی )گ�ذرجلو[2]:

)1(a (t )=U x (t )+W h(t−1)+b,

)2(h(t)=Φ(a(t )),

)3(o (t )=V h( t )+c ,

)4(ŷ (t )=softmax ( o(t ) ) ,

،U بایاس و ماتریس های c و bکه در آن بردارهای V و Wبه ترتیب وزن یال های الی��ه ورودی به پنهان، پنهان به خروجی و پنهان به پنهان، تشکیل دهنده مجموعه پارامترهای شبکه هستند.

Φ تابع انگیزش است که معموال یکی از توابع ReLU18انتخ�اب می شود. الیه آخ�ر19 یا سیگموید وق�وع ه�ر نش�انه خ�روجی را مش�خص تشکیل می دهد ک�ه احتم�ال20را نیز تابع بیشینه هموار

می کند.

o را به یک توالی خروجی از مقادیر x که یک توالی ورودی از مقادیر RNNگراف محاسباتی مربوط به یک نوع ( 1شکل ) احتماالت نرمال نشده است، بنابراین خروجی واقعی شبکه یعنیoنگاشت می کند. فرض شده است که خروجی

ŷ از اعمال تابع بیشینه هموار روی o .چپ: حاص��ل می ش��ودRNN .هم��انراست: به ص��ورت ی��ال بازگش��تی .[2] شبکه به صورت باز شده در زمان، به نحوی که هر گره با یک برچسب زمانی مشخص شده است

)در ژرف ب�اRNN با یک الیه پنهان نش�ان داده ش�ده اس�ت. ام�ا می ت�وان RNN، (1شکل چندین الیه پنهان نیز داشت. همچنین طول توالی ه��ای ورودی و خ��روجی می توان��د بس��ته ب��ه

karpathyمسئله مورد نظر متفاوت باشد. [6] RNNها را از منظر طول توالی ورودی و ط��ول )توالی خروجی ب�ه چن�د دس�ته تقس�یم بندی ک�رده اس�ت. این دس�ته بندی را نش�ان(2شکل

می دهد.

17 forward pass18 rectified linear unit19 sigmoid20 softmax function


شبکه)پ(:شبکه یک به چند، )ب(: شبکه عصبی استاندارد، )الف(:. RNNطرح واره ای از حالت های مختلف ( 2شکل ).[6] شبکه های چند به چند )ث(: و )ت(چند به یک،

بع��د از انتش��ار مقال��ه منتخب در این گ��زارشRNN از حالت های مختلف karpathyتصویر خواهیم دید که چگونه می توان از ترکیب این طرح ها نیز ب��رای4می باشد؛ با این حال در بخش

ایده معماری توالی به تولی الهام گرفت.

ترجمه ماشینی عصبی- 3-2

که به جمله زبان مبدأ مشروط شده اس��ت، مدل س��ازیLM را می توان با یک MTبه طور کلی را می توان یک مدل زبانی مکرر در نظر گرفت که مستقیما احتمالNMTکرد. بر همین اساس

)pشرطی y∨x) را در ترجمه جمله زبان مبدأ x=¿ x (1 ) , x (2) , …, x ( n)>¿به جمله زبان مقص��د y=¿ y (1) , y (2) , …, y ( m)>¿ مدل می کند. دقت شود که طول جمله مبدأ یعنی nو جمله مقصد

هدف محاسبه این احتمال و سپس استفاده از آنNMT الزاما برابر نیست. بنابراین در mیعنی .[5]ها است DNNدر تولید جمله به زبان مقصد، هر دو به کمک

کارهای مرتبط3

انجام شده اس��ت. در بیش��تر این کاره��ا از ش��بکه های عص��بیNLMsکارهای زیادی در زمینه n ب��ا امتی��ازدهی مج��دد MTروبه جلو یا مکرر استفاده شده و کاربرد آن معموال در یک وظیف��ه

. [1]، اعمال شده و نتایج آن معموال نشان از بهبود امتیازهای قبلی داشته است 21فهرست بهتر

انجام شده است. ب��رای نمون��هNLMاخیرا کارهایی در زمینه فشردن اطالعات زبان مبدأ در Auli [7] و همکاران NLMجمله ورودی ترکیب کرده اند ک�ه نت�ایج بهب�ود22 را با مدل عنوان

21 n-best list22 topic model


[8] بسیار نزدی��ک اس��ت. در مقال��ه [8] به کار [1]بخشی داشته است. کار انجام شده در مقاله نویسندگان برای اولین بار توالی ورودی را در یک بردار فشرده ک��رده و س��پس آن را ب��ه ت��والی

استفاده شده ک��هCNNsخروجی تبدیل کردند. البته در این کار، برای تبدیل توالی به بردار، از را برای نگاش��تLSTM یک معماری شبِه [9]ترتیب واژه ها را حفظ نمی کند. چ��و و همکاران

اس��تفادهSMTتوالی ورودی به بردار و سپس استخراج توالی خ��روجی و نهایت��ا ت��رکیب آن ب��ا RNN تش�کیل ش�ده ک�ه 24 و کدگشا23 با عنوان های کدگ�ذارRNNکرده اند. معماری آنها از دو

اول وظیفه تبدیل یک توالی با طول متغیر به یک بردار با ط��ول ث��ابت را در ق��الب ی��ک س��لول و نماد ش��روع جمل��هc دوم وظیفه تولید توالی خروجی را با لحاظ کردن RNN دارد و cزمینه

شکلکدگذار-کدگش��ا در RNNمقصد بر عهده دارد. معماری پیشنهادی آنها تحت عنوان کلی استفاده نکرده و بیشتر تالش خود را معطوف بهLSTM نشان داده شده است. چون آنها از (1)

کرده اند، برای توالی ه��ای ورودی و خ��روجی ط��والنیSMTترکیب این روش با مدل های قبلی به ص��ورت مختص��ر توض��یح[2]همچنان مشکل عدم حفظ حافظه وجود دارد. این معماری در

داده شده است.

Bahdanau روش ترجمه مستقیم با استفاده از شبکه عصبی پیش��نهاد یک[10] و همکاران روی جمالت طوالنی[9] برای غلبه بر کارآمدی ضعیف روش attentionداده اند که از سازوکار

برای نمونه با نتایج حاصل از کار[1]استفاده می کند و به نتایج مطلوبی هم دست یافتند. نتایج آنها مقایسه شده است.

23 encoder24 decoder


¿ ک�دگذار-ک�دگشا، که برای یادگ�یری ت�ولید توالی خ��روجی RNNمدل ( 1شکل ) y (1 ) , …, y (n y از روی ت��والی¿<(¿ورودی x (1 ) , …, x( nx)>¿ [2]می رود به کار.

مدل توالی به توالی4

درLSTM اس��تفاده ش��ده اس��ت. ه��دف LSTM با واحدهای RNNدر مدل توالی به توالی از دو اینLSTM(.�� 3-2 اس��ت ک��ه قبال هم دی��ده ب��ودیم )بخش ¿pاینجا تخمین احتمال ش��رطی

¿ برای ت��والی ورودی vاحتمال شرطی را ابتدا با اقتباس بازنمایی بعد ثابت x (1 ) , x (2) ,…,x ( n)>¿ ¿از آخرین مقدار حالت پنهان و در ادام��ه ب��ا محاس��به احتم��ال y (1 ) , y (2 ) ,…, y (m از رابط��ه¿<(

برای حالت پنهان آغازین به صورت دادهv(( و درنظر گرفتن 1 )رابطه )LMاستاندارد مطرح در شده در رابطه زیر، حساب می کند:

)1(p¿

)p هر توزیع احتمالی (1)در رابطه y ( t )∨v , y (1) , …, y (t−1 به وسیله یک تابع بیشینه هموار(( اس��تفاده ش��ده[11] از روابط LSTMروی همه واژه های داخل واژه نامه بازنمایی می شود. برای

خاتمه یابد. این امر<� EOS>است. هر جمله در این مدل نیاز است تا با یک عالمت خاص مثل مدل را قادر می سازد تا بتواند توزیع احتمالی را روی توالی با هر ط��ول دلخ��واهی تعری��ف کن��د.

بازنم��ایی ت��والیLSTM( نش��ان داده ش��ده اس��ت. در این ش��کل 1شمای کلی مدل در شکل )'¿ورودی A ' ,' B ' ,' C ' ,< EOS≫را حس�اب و س�پس از این بازنم�ایی ب�رای محاس�به احتم�ال

'¿ت��والی خ��روجی W ' ,' X ' ,' Y ' ,' Z ' ,<EOS>¿ اس��تفاده می کن��د. در عین ح��ال این م��دل را ( دانست.3می توان ترکیبی از قسمت های پ و ت شکل )

مدل پیاده سازی شده در عمل از سه جنبه با مدل معرفی شده در باال تفاوت دارد. اول، از دوLSTM،جداگانه استفاده شده است: یکی برای توالی ورودی و دیگری برای توالی خروجی؛ زیرا

انجام این کار پارامترهای مدل را با هزینه محاسباتی ان�دکی، ب�ه تع��داد بس�یار زی�ادی اف�زایش ه��ای س��طحی را شکس��تLSTMهای ژرف به ش��کل قاب��ل ت��وجهی LSTM دوم اینکه می دهد.

با ژرفای چه��ار الی��ه به ک��ار گرفت��ه ش��ده اس��ت. س��وم اینک��هLSTMمی دهند، به همین دلیل نویسندگان در این مقاله یافته اند که وارون کردن ت��والی ورودی در س��رعِت همگ��رایی آم��وزش شبکه و نیز دقت پیش بینی آن تأثیر شگرفی ایفا می کند. بنابراین به جای نگاشت مستقیم توالی

¿a ,b , c>¿به توالی ¿α ,β , γ>¿ ،LSTM برای نگاشت ¿c ,b , a>¿ به ¿α ,β , γ>¿آم��وزش αداده می شود که در آن β γ ترجمه متناظر با ab cاست. توجیه اثر این پدیده آن است که در

نگاشت به روش وارون ابتدای عبارت ها که متناظر با یکدیگر هس��تند به هم نزدی��ک ش��ده و این.[1] و نزدیک شدن به مقادیر بهینه می شود SGDامر سبب زودتر همگرا شدن الگوریتم


آموزش شبکه- 2-4

، بارها و باره��ا ت��ا ب��ه ام��روز[1] و همکاران Sutskeverمدل توالی به توالی پس از معرفی توسط ش��ده اس�ت. این م��دل درNMTمورد ارجاع دیگران قرار گرفته و تبدیل به یک مدل مرجع در

به تفصیل و همراه با برخی اصالحات توضیح داده شده است. درLuong [5]رساله دکتری آقای این بخش به برخی جزئیات آموزش شبکه مدل توالی به ت��والی می پ��ردازیم. ب��رای این منظ��ور از

نیز کمک می گیریم.[5]توضیحات

( را نشان می دهد. آموزش شبکه1 یک نمایش دقیق تر از مدل ذکر شده در شکل )(1شکل ) بدین نحو است: ابتدا جمله زبان مقصد، سمت راست جمله متناظر خود در زبان مبدأ ق��رار داده

< را دارد که البته می تواند پایان جمله مب��دأ ی��ا آغ��از جمل��هEOS>می شود. نشان ‘-‘ نقش س��مت چپ ی��اLSTMمقصد را مشخص کند. بنابراین به هر کدام از دو گروه قابل تعلق است.

همان شبکه کدگذار، در هر مرحله زمانی یک واژه از جمله زبان مبدأ را خوانده پس از تبدیل ب��ه نمایش مناسب حالت داخلی الیه پنهان را بروزرسانی می کند. در مرحل��ه پ��ردازش آخ��رین واژه

که اکنون نماینده کل جمله ورودی زبان مبدأ است )موسومvمقادیر الیه های پنهان بردار ثابت دوم یا شبکه کدگشا اولین واژه زبان مقص��دLSTM( را تشکیل می دهد. سپس 25به بردار محتوا

، به عنوان ورودی دریافت می کند و پیش بینی خود را انجام می دهد. برچسبvرا به همراه بردار واقعی این داده در واقع واژه بعدی در جمله زبان مقصد است. پس از مقایس�ه و محاس��به خط�ا، الگوریتم پس انتشار روی هر دو شبکه با شروع از شبکه کدگشا اج��را می ش��ود و پارامتره��ا را در خالف جهت گرادیان تنظیم می کند. این روند تا پای��ان ی��افتن جمل��ه زب��ان مقص��د ادام��ه پی��دا

ب�ه ش��بکه داده و گرادی��ان روی26دستهمی کند. البته در عمل ممکن است ورودی در قالب یک کل آن دسته حساب شود. به بیان دیگر در مجموع، شبکه کدگشا آموزش داده می شود تا جمله زبان مقصد را به همان جمله زبان مقصدی تبدیل کند که فقط واژه های آن یک واحد نسبت به

teacherجمله ورودی به س��مت جل��و جابه ج��ا ش��ده اند. این روش اص��طالحا forcingنامی��ده و زمانی مناسب است که جمله زبان مقصد )توالی خروجی( کامال مش��خص باش��د.[2]می شود

در واقع واژه بعدی به عنوان برچسب در فرایند آموزش بانظارت مورد اس��تفاده ق��رار می گ��یرد ووزن ها بر اساس آن تنظیم می گردند.

25 context vector26 batch


.NMT [5]نمایش نحوه آموزش مدل توالی به توالی روی وظیفه ( 1شکل )

یعنی هنگ�امی ک�ه می خ�واهیم جمل�ه ناش�ناخته زب�ان مقص�د )ت�والی27در مرحله استنتاج خروجی( را کدگشایی نماییم، فرایند شرح داده شده در باال، با اندکی تفاوت و در قالب گام های

زیر انجام می پذیرد:

توالی ورودی با استفاده از شبکه کدگذار به بردار محتوا بدل می گ��ردد. در ص��ورتی ک��ه از-1 استفاده شود بردار محتوا برای ه��ر الی��ه از ش��بکه ح��اوی دو متغ�یر ح��التLSTMسلول

بردار محتوا برای ه��ر الی��ه از ش��بکه دارایGRUخواهد بود و در صورت استفاده از سلول یک متغیر است.

در ورودی که ابتدا حاوی نشانه شروع جمله زبان مقص��د است1یک توالی با اندازه ورودی -2شبکه کدگشا قرار داده می شود.

ب��ه ش��بکه کدگش��ا داده2 به هم��راه ت��والی مرحل��ه 1بردار محتوای حاصل شده از مرحله -3می شوند تا نشانه )در اینجا واژه( بعدی جمله زبان مقصد پیش بینی شود.

نمونه برداری شده )به یکی از روش های حریص��انه ی��ا جس��ت وجوی4از پیش بینی مرحله -4پرتوی محلی که در ادامه توضیح داده خواهد شد( و واژه بعدی انتخاب می شود.

به جمله زبان مقصد )توالی خروجی( الحاق می شود. 4واژه انتخاب شده در مرحله -5 به جای نشانه شروع جمله به شبکه کدگش��ا داده می ش��ود و4واژه انتخاب شده در مرحله -6

تکرار می شوند تا زمانی که نشانه پایان جمله تولید شود یا اینک��ه ط��ول6 و 4 و 3مراحل جمله تولید شده از یک حد از پیش تعیین شده بیشتر شود.

27 inference


نکته الزم به ذکر دیگر آن است ک��ه ت��والی ورودی انتخ��اب ش��ده در این مرحل��ه از مجوع��ه آزمون انتخاب می شود. در واقع مرحله استنتاج روی داده های آزمون و برای ارزیابی مدل انج��ام

می پذیرد.

جزئیات آموزش شبکه- 2-2-4

س��لول حافظ��ه در ه��ر الی��ه اس��تفاده ش��ده اس��ت.1000ژرف با چهار الیه و LSTM از [1]در هزار کلمه است. حاصل کار80هزار و اندازه واژگان خروجی 160همچنین اندازه واژگان ورودی

میلی��ون آن اتص��االت برگش�تی64میلیون پ��ارامتر ب��وده ک��ه 380 با مجموع LSTMیک شبکه هستند. دیگر جزئیات پارامترها و آموزش شبکه عبارتند از:

[ مق��داردهی اولی��ه0.08+ و 0.08پارامترها با مقادیر تصادفی از توزیع یکنواخت در بازه ]- شده اند.

برای آموزش ازSGD استفاده شده است. بعد از گذشت پنج0.7 استاندارد با نرخ یادگیری 7.5، نرخ یادگیری در هر نیم دور، نصف می شود. تعداد کل دوره ه�ای آم�وزش براب�ر 28دوره

بوده است.

128تایی از توالی ها محاسبه شده و بر اندازه دسته، یعنی 128گرادیان بر روی دسته های، تقسیم می شود.

هرچندLSTMرنج نمی برند، اما ممکن است مشکل انفج��ار29ها از معضل میرایی گرادیان را داشته باشند. بنابراین محدودیت سختی بر مقدار نورم گرادیان اعمال می شود30گرادیان

به این نحو که هنگامی که نورم از مقدار آستانه ای بیشتر شد، مجددا تنظیم شود. برای ه��ر مق��دارg محاس�به می ش��ود ک��ه در آن s=¿∨g∨¿2دس��ته در مجموع��ه آم��وزش مق��دار

g=5 شد آنگاه قرار داده می شود: s>5 است. اگر 128گرادیان پس از تقسیم بر gs

. 30 ت��ا 20جمالت مختلف طول های مختلفی دارند. بیشتر آنها کوتاه هس��تند )ط��ولی بین

دارن�د(؛ بن�ابراین دس��ته های100دارند( اما برخی از آنها طوالنی هستند )طولی بیش�تر از تایی از جمالت که تصادفی انتخاب می شوند تعداد کمی جمله طوالنی داشته و تعداد128

زیادی جمله کوتاه و در نتیجه سبب می شود تا بیشتر محاسبات داخل هر دسته هدر روند. برای غلبه بر این موضوع سعی شده اس��ت هم�ه جمالت داخ��ل ی�ک دس��ته ط��ول تقریب��ا

برابر تسریع کرده است.2مساوی داشته باشند. این امر انجام محاسبات را تا

28 epoch29 vanishing gradient30 exploding gradient


آزمایش ها5 روش یادگیری توالی به توالی معرفی شده روی وظیفه ترجمه ماشینی انگلیسی ب��ه فرانس��وی در دو حالت مختلف آزمایش گردیده اس��ت. در ح��الت اول م��دل، ب��رای ترجم��ه مس��تقیم جمالت

فهرست به��ترnانگلیسی به فرانسوی به کار گرفته شده و در حالت دوم برای امتیاز دهی مجدد اس�تفاده ش��ده اس�ت. در این قس�مت پیاده س�ازی م�دل، جزئی�اتSMTاز جمالت در وظیف�ه

مجموعه داده، آزمایش های انجام گرفته و نتایج آنها در ق�الب امتیازه��ای ترجم��ه کس��ب ش��ده، نمونه جمالت ترجمه شده و بألخره یک نمونه مصورسازی بازنمایی جمالت ورودی، بی��ان ش��ده

است.

پیاده سازی مدل- 1-5

ژرف با پیکربندی شرحLSTM++ انجام شده است. این پیاده سازی از Cپیاده سازی مدل اولیه با واژه بر ثانیه را پردازش می کن��د. این1700، تقریبا GPU روی یک 2-1-4داده شده در بخش

اج��راGPU ع��دد 8سرعت بسیار پایین است. برای این منظور مدل به صورت موازی شده روی اجرا شده و فعالیت های خود را ب��ه محض محاس��بهGPU روی یک LSTMمی شود. هر الیه از

دیگر ب��رای موازی س��ازیGPU یا الیه بعدی می دهد. چون مدل چهار الیه دارد، چهار GPUبه مسئول محاسبه یک ضرب ماتریسی )م��اتریسGPUبیشینه هموار استفاده شده اند بنابراین هر

×�� 2000با اندازه ، رس�یدن ب�هGPU( است. نتیجه حاصل از این موازی سازی در سطح 1000 روز ب��ه10 واژه بر ثانیه است. فرایند آموزش در این ش��یوه پیاده س��ازی، 6300سرعت پردازش

.[1]طول انجامید

عالوه بر پیاده سازی اولیه، پیاده سازی های دیگری نیز از این مدل در زبان ها و چارچوب های مختلف ارایه شده است؛ از جمله دو پیاده سازی خوب با زبان پایتون و روی چارچوب های کاری

Tensorflow و Keras پیاده سازی .Tensorflow سازوکارهای جدیدتر مثل سازوکار attention هم به جای واژه، در سطح کاراکتر انج��ام ش��دهKeras. پیاده سازی [12]را نیز اضافه کرده است

.[13]است

جزئیات مجموعه داده- 2-5

( از مجموع��ه داده ترجم��ه انگلیس��ی ب��ه فرانس�وی-1-3هم��انطور ک��ه قبال گفت��ه ش��د )بخش WMT’14 م��دل توص��یف ش��ده روی ی��ک زیرمجموع��ه[3] در آزمایش ها استفاده شده اس��ت .

میلیون واژه انگلیسی، آموزش داده340میلیون واژه فرانسوی و 348میلیون جمله ای، شامل 12 شده است. وظیفه ترجمه ماشینی و همچنین این مجموعه داده خ��اص، ب��ه خ��اطر دردس��ترس


جهت اه�داف31بودن عمومی یک مجموعه آموزش و ی�ک مجموع�ه آزم�ون نش�انه گذاری ش�دهآموزش و ارزیابی مدل انتخاب شده است و مدل توالی به تولی مستقل از یک وظیفه خاص است.

همچنان که مدل های زبانی عصبی معمولی روی یک بازنمایی برداری در نم��ایش ه��ر کلم��ه تکیه می کنند، در اینجا نیز یک واژه نامه با اندازه ثابت، برای هر دو زبان به کار گرفته شده است.

ه��زار80هزار واژه از پر استفاده ترین واژه های زبان مبدأ )انگلیسی( و ن��یز 160برای این منظور، واژه از پر استفاده ترین واژه های زبان مقصد )فرانسوی( برگزی�ده ش�ده اند. ه�ر واژه خ�ارج از این

” جایگزین شده است.UNKواژه نامه ها که در جمله ها ظاهر شده باشد، با نشانه خاص “

WMT’16 از مجموعه داده ترجمه آلمانی-انگلیس��ی [12]برای پیاده سازی اس��تفاده[14] از مجموعه داده کوچکتر موجود در[13]شده است و همچنین مدل نمونه پیاده سازی شده در

استفاده کرده است که قابل جایگزین کردن با مجموعه های ذکر ش��ده در ب��اال ن��یز هس��ت.[4] این است که معموال در ترجمه ماش��ینی واژه ه��ا[13]ایراد اساسی پیاده سازی در سطح کاراکتر

به یکدیگر متناظر می شوند نه کاراکترها لذا این مدل از دقت مدل های در سطح واژه برخ��وردار نیست اما ایده خوبی در مورد استفاده در سایر وظایف مبتنی بر نگاشت توالی به توالی نظیر تولید

متن به دست می دهد.

کدگشایی و امتیازدهی مجدد- 3-5

ژرف بزرگ روی تعداد زیادیLSTM، آموزش یک [1]هسته اصلی آزمایش های انجام شده در جفت از جمله های زبان مبدأ و زبان مقصد است. آموزش با بیشینه کردن احتمال لگاریتمی یک

انجام می ش��ود. بن��ابراین ه��دف آم��وزش عب��ارتS برای جمله مبدأ داده شده Tترجمه صحیح است از:

)1(1/|S| ∑(T , S)∈S

log p (T∨S )

مجموعه آموزش است. وقتی آموزش کامل شد، ترجمه ها با ی��افتن درس��ت ترینSکه در آن تولید می شوند:LSTMترجمه از روی

)2(T̂=argmaxT

p(T∨S)

چپ به32برای یافتن درست ترین ترجمه از یک کدگشای ساده با جست وجوی پرتوی محلی را نگه داری می کن�د. ه�ر فرض�یه ج�زئی33 فرض�یه ج�زئیBراست استفاده شده است که تعداد

پیشوندی از تعدادی ترجمه است. در هر مرحله زمانی، هر فرضیه جزئی با واژه ه��ای محتم��ل از داخل واژه نامه گسترش داده می شود. این روند تعداد فرایض جزئی را به سرعت افزایش می دهد.

31 tokenized32 beam search33 partial hypothesis


فرض��یه محتم��ل اول کن��ارBبا توجه به مدل احتمال لگاریتمی، تمام این فرضیه ها ب��ه غ��یر از ” به یک فرضیه الصاق شد، از جست وجوی پرت��ویEOSگذاشته می شوند. به مجرد اینکه نشانه “

محلی حذف و به مجموعه فرایض کامل افزوده می گردد. هرچن��د این روش کدگش��ایی تقری��بی و ن��یز1است؛ اما، برای پیاده سازی راحت خواهد بود. سیستم پیشنهادی حتی با اندازه پرت��وی

BLEU بیش�ترین مزای��ای این روش جس�ت وجو را ف��راهم می آورد. امتیازه��ای 2اندازه پرت��وی ( ذکر شده است.1حاصله از آزمایش های انجام شده روی مدل، در جدول )

وارون سازی جمالت مبدأ- 4-5

ق��ابلیت ح��ل مس��ائل ب��ا وابس��تگی های ط��والنی م��دت را دارد، در ط��ولLSTMدرحالی ک��ه پژوهشگران یافته اند که وق��تی جمله ه��ای مب��دأ وارون ش��ده و[�� 1آزمایش های انجام شده در ]

بهتر آموزش می بیند. توجه ش��ود ک��هLSTMبه عنوان ورودی به شبکه کدگذار داده می شوند، 4.7 ب��ه 5.8 مدل از 34جمالت مقصد وارون نمی شوند. با انجام این عمل ساده، مقدار سرگشتگی

کسب شده از ترجمه های کدگشایی شده م��دل ن��یز ازBLEUکاهش یافته است و مقدار امتیاز افزایش داشته است.30.6 به 25.9

توضیح کاملی برای توجیه اثر این پدیده نداشته اند. توجیه اولیه آنه��ا ب��دین[1]نویسندگان ترتیب است که عمل وارون سازی جمالت زبان مبدأ باعث معرفی بسیاری از وابستگی های کوتاه

جمله های زبان مبدأ را با جمله ه��ای زب��ان مقص��د الح��اقمدت به مجموعه داده می شود. وقتی می کنیم، هر واژه در جمله مبدأ از واژه نظیرش در جمله مقصد دور می افتد. در نتیج��ه، مس��ئله

. با وارون س�ازی واژه ه�ا در جمل�ه[1] خیلی بزرگ می شود 35تأخیر زمانی کمینهیک دارای یک مبدأ فاصله میانگین بین واژه های نظیر به نظیر در جمله مبدأ با جمله مقص��د تغی��یر نمی کن��د. هرچند تعداد کمی از واژه های آغازین جمله مبدأ در این حالت به واژه های آغازین جمله مقصد بسیار نزدیک می شوند؛ بنابراین تأخیر زمانی کمین�ه مس�ئله ت�ا ح�د زی�ادی ک��اهش می یاب�د و الگوریتم پس انتشار زمان کمتری را ب��رای اس��تقرار ارتب��اط می��ان واژه ه��ای جمله ه��ای مب��دأ و جمله های مقصد سپری خواهد نمود. این امر درنهایت منجربه بهبود قابل توج��ه کارآم��دی کلی

مدل می گردد.

. توجه شود که یکWMT’14 (ntst14) روی مجموعه آزمون ترجمه انگلیسی به فرانسوی LSTMکارآمدی ( 1جدول ) است12 تک با اندازه پرتوی LSTM، ارزان تر )سبک تر( از یک 2 با اندازه پرتو LSTM 5مجموعه متشکل از

[1.]

BLEU (ntst14)امتیاز روش

Bahdanau 28.45[10] و همکاران1226.17 روبه جلو، اندازه پرتوی LSTMیک

34 perplexity35 minimal time lag


1230.59 با ورودی وارون، اندازه پرتوی LSTMیک 133.00 با ورودی وارون، اندازه پرتوی LSTM پنج

1233.27 با ورودی وارون، اندازه پرتوی LSTMدو 2134.50 با ورودی وارون، اندازه پرتوی LSTMپنج 1234.81 با ورودی وارون، اندازه پرتوی LSTMپنج


درWMT’14روش های مشابه که شبکه های عصبی را در کن��ار ترجم��ه ماش��ینی س��نتی روی مجموع��ه داده ( 2جدول )[.1ترجمه انگلیسی به فرانسوی استفاده کرده اند ]

BLEU (ntst14)امتیاز روش37.00[15] ل�به پژوهش

34.54[9]چ��و و همکاران 35.61 روبه جلوLSTMفهرست بهتر با یک 1000امتیازدهی مجدد

35.85 وارونLSTMفهرست بهتر با یک 1000امتیازدهی مجدد 36.50 وارونLSTMفهرست بهتر با پنج 1000امتیازدهی مجدد

~45فهرست بهتر1000پیش گویی امتیازدهی مجدد

ایده وارون سازی جمله های ورودی از این مهم نشئت گرفته است ک��ه در ابت��دا تص��ور ش��ده وارون سازی فقط به پیش بینی با اطمینان تر واژه های آغازین در زب��ان مقص��د کم��ک می کن��د و

ای ک��ه روی جمالتLSTMمنجربه پیش بینی کم اطمینان تر واژه های پایانی می شود. هرچن��د معمولی، روی جمله های ط��والنی عملک��ردLSTMمبدأ وارون شده آموزش دیده، در مقایسه با

(. -5-6بهتری از خود نشان داده است )رجوع شود به بخش

ارزیابی نتایج- 5-5

اس��تفادهBLEU [16]به منظور ارزیابی کیفیت ترجمه های صورت گرفته توسط مدل از امتی��از به کار رفته اس�ت. اینmulti-bleu.pl36، اسکریپت آماده BLEUشده است. برای محاسبه امتیاز

، بنابراین قابل اطمینان خواه��د[10] و [9]امتیاز دهی در کارهای قبلی نیز استفاده شده است را تولی��د ک��رده اس��ت. نت��ایج در28.45 امتی��از [10]بود. به عنوان نمونه، این اس��کریپت ب��رای

ه�ایی ک��ه در مق�داردهیLSTM( ارایه شده اند. بهترین نتیجه از مجموع��ه 2( و )1جدول های ) اولیه تصادفی و ترتیب تصادفی ریزدسته ها تفاوت داشته اند، حاصل شده است. هرچند س��ازوکار کدگشایی ترجمه به کار ب��رده ش��ده در اینج��ا )جس��ت وجوی پرت��وی محلی(، س��ازوکار س��اده و ضعیفی است؛ با این حال نخستین بار است که یک سیس��تم ترجم��ه ماش��ینی عص��بی خ��الص، سیستم ترجمه ماشینی مبتنی ب��ر عب��ارات را ب��ا اختالف قاب��ل ت��وجهی شکس��ت می ده��د. این سیستم همچنین فاقد قابلیت کنترل واژه های خارج از واژه نامه اس��ت و هم��ان طور ک��ه قبال هم

” جایگزین شده اند. بن��ابراین در ص��ورتیUNKبیان شد کلیه واژه های بیرون از واژه نامه با واژه “ که سازوکاری برای کنترل این واژه ها نیز به مدل اضافه شود ی��ا ان��دازه واژه نام��ه اف��زایش یاب��د،

عملکرد این سیستم باز هم جای بهبود خواهد داشت.

تعریف شده است.perl وجود دارد ک��ه هر نوع با یک اسکریپت زبان BLEUچندین نوع محاسبه از امتیاز 36


کارآمدی روی جمالت طوالنی- 6-5

را درLSTMخروجی مدل روی جمله های طوالنی )از منظر تعداد واژه( کارآمدی بسیار خ��وب ( نش��ان داده ش��ده7این زمینه تأیید می کند. یک مقایسه کمی از نتایج حاصل شده در ش��کل )

( چندین جمله طوالنی و ترجمه های تولید شده توسط مدل برای آنها3است. همچنین جدول )را ارایه می کند.

تحلیل مدل- 7-5

ی��ک ت�والی از، توان��ایی تب��دیل [1]یکی از ویژگی های جذاب مدل توالی به توالی ارای��ه ش��ده در ( تعدادی از بازنمایی های یادگرفته شده در رون��د6واژه ها به یک بردار با ابعاد ثابت است. شکل )

آموزش را مصورسازی کرده است. این تصویر به وضوح نشان می ده��د ک��ه بازنمایی ه��ای ایج��اد شده به ترتیب واژه ها حساس هستند؛ زیرا از جمله هایی با واژه های یکسان و ترتیب متف��اوت در تصویر استفاده شده است. بازنمایی واقعی مدل در ابعاد باالتری بود و برای نگاشت روی دو بع��د

به کار برده شده است.PCAروش

را نشان می دهد که پس از پردازش جمله هایLSTM دوبعدی از حالت های پنهان PCAاین شکل یک تصویر ( 1شکل ) نشان داده شده در شکل، گرفته شده است. عبارات با توجه به معنایشان خوشه بندی ش��ده اند ک��ه معن��ا در این مثال به طور عمده تابعی از ترتیب ظاهر شدن واژه ها در عبارت است. رسیدن به چنین خوشه بندی با روش های سنتی موجود، سخت است. توجه شود که در همه جمالت واژه های یکسانی استفاده شده است و تنه��ا ت��رتیب،

[.1موجب تفاوت آنها شده است ]

تعدادی مثال از ترجمه های طوالنی تولید شده توسط مدل توالی به توالی در مقایسه با ترجم�ه ص�حیح. خوانن�ده( 2جدول )[.1می تواند صحت نتایج را با استفاده از مترجم گوگل تا حد خوبی درک کند ]


نمودار سمت چپ کارآمدی سیستم را به عنوان تابعی از طول جمله ها نشان می دهد که محور افقی در آن ط��ول( 1شکل ) واژه وج��ود35واقعی جمله ها بر حسب تعداد واژه های آنها است. کاهش امتیازی در جمالتی با ط��ول کم��تر از

ندارد. تنها یک کاهش جزئی در جمله های خیلی ط��والنی مش��اهده می ش��ود. نم��ودار س��مت راس��ت کارآم��دیLSTMرا روی جمله هایی با واژه های کمتر به کار رفته نشان می دهد که محور افقی در آن جمله های آزم��ایش

[.1شده برحسب میانگین تکرار واژه هایشان است ]

نتیجه گیری و کارهای آتی6 در این گزارش یک مدل یادگیری ژرف جدید برای ی��ادگیری و نگاش��ت ت��والی از ورودی ه��ا ب��ه

ژرف ب��ا واژگ��انLSTMتوالی از خروجی ها مطرح و بحث گردید. نشان داده شد که یک شبکه


محدود روی وظیفه ترجمه ماشینی، قادر به شکس��ت سیس��تم های ترجم��ه ماش��ینی اس��تاندارد مبتنی بر عبارات با واژگان نامحدود است. موفقیت این رویکرد نسبتا ساده روی وظیف��ه ترجم��ه ماشینی نشان دهنده این است که این مدل باید روی دیگر وظیفه های مبتنی بر ت��والی ن��یز در

صورت فراهم بودن مجموعه داده های آموزش کافی، بسیار خوب عمل کند.

در طی فرایند آموزش این اصل نیز کشف شده که وارون سازی ت�والی مب��دأ س�بب اف��زایش دقت و بهبود کارآمدی مدل می شود. می توان نتیجه گرفت پیدا کردن روشی ک��ه وابس�تگی های کوتاه مدت را زودتر معرفی کند در هر صورت آموزش مدل را خیلی ساده تر می کند. لذا به نظ��ر

استاندارد )مدل غیر توالی به ت��والی( ن��یز ب��ا این روش به��ترRNNمی رسد که حتی آموزش یک باشد. البته این مورد در عمل مورد آزمایش قرار نگرفته است و بنابراین به ص��ورت ی��ک فرض��یه

باقی است.

در یادگیری صحیح ترجمه توالی های ط��والنی اس��ت.LSTMنتیجه قابل ذکر دیگر، قابلیت به دلیل حافظه محدود خود در ی��ادگیری جمله ه��ای ط��والنیLSTMدر ابتدا تصور می شد که

LSTMشکست بخورد؛ همچنان که پژوهشگران دیگر در کارهای مشابه عملکرد ضعیفی را برای گزارش کرده بودند. با این ح��ال ام��ا روی جمله ه��ای خیلی ط��والنی در ح��الت وارون همچن��ان

مشکل تضعیف حافظه پابرجاست و احتماال قابلیت بهبود داشته باشد.

در نهایت نتایج رضایت بخش این مدل یادگیری نشان دهنده این است که یک مدل ساده از شبکه های عصبی ژرف، که هنوز جای بهبود و بهینه س��ازی های زی��ادی در خ��ود دارد، ق��ادر ب��ه شکست بالغ ترین سیستم های ترجمه ماشینی سنتی است. کارهای آتی می تواند بر روی افزایش دقت مدل توالی به توالی و پیچیده تر کردن آن در راستای یادگیری بهتر توالی های طوالنی باشد. در آینده نزدیک این مدل ها روش های سنتی را کامال منسوخ می کنند. نت��ایج همچ��نین نش��ان می دهد این رویکرد روی دیگر وظیفه های مبتنی بر نگاشت توالی به توالی می تواند موفقیت آم��یزظاهر شود. این مهم، زمینه را برای حل مسائل مختلفی در دیگر حوزه های علوم آماده می سازد.

می توان از این مدل برای ترجمه ماش��ینی مت��ون ط��والنی انگلیس��ی ب��ه فارس��ی و ب��العکس استفاده کرد در این وظیفه اثر وارون سازی جمله زبان مقصد باید بررسی ش��ود؛ زی��را، ب��ه نظ��ر می رسد در زبان های از راست به چپ با این کار تأخیر زمانی کمینه افزایش پیدا کن��د و نتیج��ه

بدتری حاصل شود.

در وظایف دیگر مثل سیستم پرسش و پاسخ نیز می توان از این مدل استفاده کرد. در تولی��د محتوا و برای کامل کردن متون تاریخی و اشعاری که بخش هایی از آنها وج�ود ن��دارد ی�ا از بین

رفته است استفاده از این مدل جالب و ارزشمند به نظر می رسد.

عالوه بر استفاده در وظایف جدید، تغییر معماری خود مدل نیز، جهت افزایش دقت وظ��ایف دوسویه، ترکیبی و ن��یز دارای ح��الت درRNNنام برده پیشنهاد می شود. برای مثال استفاده از

شبکه کدگذار و کدگشا، استفاده از ژرفای بیشتر الیه ها، تغییر دیگر ابرپارامترهای ش��بکه نظ��یر نرخ آموزش و افزودن س��ازوکار توج��ه می توان��د از جمل��ه پیش��نهادهایی باش��د ک��ه در س��اختن مدل های با دقت بیشتر قابل استفاده هستند. همچنین برای مواردی که داده های برچسب دار به


اندازه کافی موجود نیستند یا تمامی توالی خروجی یکج��ا دردس��ترس نیس��ت )مث��ل ی��ادگیری برخط یا یادگیری تقویتی(، استفاده از روش بیان شده در مرحله استنتاج به هنگام آموزش، ب��ه

راهکار مناسبی به نظر می رسد. teacher forcingجای


مراجع

[1] Q. V. Le Ilya Sutskever, Oriol Vinyals, I. Sutskever, O. Vinyals, and Q. V. Le, “Sequence to sequence learning with neural networks,” Nips, pp. 1–9, 2014.

[2] I. Goodfellow, Y. Bengio, and A. Courville, Deep learning. MIT Press, 2016.

[3] “ACL 2014 ninth workshop on statistical machine translation.” [Online]. Available: http://www.statmt.org/wmt14/medical-task/index.html. [Accessed: 13-Nov-2017].

[4] “Tab-delimited bilingual sentence pairs from the Tatoeba project (Good for anki and similar flashcard applications).” [Online]. Available: http://www.manythings.org/anki/. [Accessed: 13-Nov-2017].

[5] M. T. Luong, “Neural machine translation,” Stanford university, 2016.[6] A. Karpathy, “Connecting images and natural language,” Stanford

University, 2016.[7] M. Auli, M. Galley, C. Quirk, and G. Zweig, “Joint language and

translation modeling with recurrent neural networks.,” Emnlp, no. October, pp. 1044–1054, 2013.

[8] N. Kalchbrenner and P. Blunsom, “Recurrent continuous translation models,” Emnlp, no. October, pp. 1700–1709, 2013.

[9] K. Cho et al., “Learning phrase representations using RNN encoder-decoder for statistical machine translation,” 2014.

[10] D. Bahdanau, K. Cho, and Y. Bengio, “Neural machine translation by jointly learning to align and translate,” pp. 1–15, 2014.

[11] A. Graves, “Generating sequences with recurrent neural networks,” pp. 1–43, 2013.

[12] M.-T. Luong, E. Brevdo, and R. Zhao, “Neural machine translation (seq2seq) tutorial,” https://github.com/tensorflow/nmt, 2017.

[13] “Sequence to sequence example in Keras (character-level),” 2017. [Online]. Available: https://github.com/fchollet/keras/blob/master/examples/lstm_seq2seq.py. [Accessed: 13-Nov-2017].

[14] “Index of /wmt16/translation-task.” [Online]. Available: http://data.statmt.org/wmt16/translation-task/. [Accessed: 04-Dec-2017].

[15] N. Durrani, B. Haddow, P. Koehn, and K. Heafield, “Edinburgh’s phrase-based machine translation systems for WMT-14,” Proc. Ninth Work. Stat. Mach. Transl., pp. 97–104, 2014.

[16] K. Papineni, S. Roukos, T. Ward, and W. Zhu, “BLEU: A method for

21


automatic evaluation of machine translation,” … 40Th Annu. Meet. …, no. July, pp. 311–318, 2002.


واژه نامه

واژه نامه فارسی به انگلیسی معادل انگلیسی واژه ی فارسیExploding Gradientانفجار گرادیان

SupervisedبانظارتNatural Language Processingپردازش زبان طبیعی

Backpropagationپس انتشارSoftmax Functionتابع بیشینه هموار

Minimal Time Lagتأخیر زمانی کمینهMachine Translationترجمه ماشینی

Statistical Machine Translationترجمه ماشینی آماریNeural Machine Translationترجمه ماشینی عصبی

Speech Recognitionتشخیص گفتارSequenceتوالی

Beam Searchجست وجوی پرتوی محلیLong-Short Term Memoryحافظه کوتاه مدت بلند

BatchدستهEpochدوره

PerplexityسرگشتگیConvolutional Neural Networkشبکه عصبی پیچشی

Deep Feed-forward Neural Networkشبکه عصبی رو به جلو ژرفDeep Neural Networkشبکه عصبی ژرفRecurrent Neural Networkشبکه عصبی مکرر

Partial Hypothesisفرضیه جزئیEncoderکدگذارDecoderکدگشا

Forward Passگذر جلوLanguage Modelمدل زبانی

Neural Language Modelمدل زبانی عصبیVanishing Gradientمیرایی گرادیان

Tokenizedنشانه گذاری شده


واژه نامه انگلیسی به فارسی واژه ی انگلیسی معادل فارسی

Backpropagationپس انتشارBatchدسته

Beam Searchجست وجوی پرتوی محلیConvolutional Neural Networkشبکه عصبی پیچشی

DecoderکدگشاDeep Feed-forward Neural Networkشبکه عصبی رو به جلو ژرف

Deep Neural Networkشبکه عصبی ژرفEncoderکدگذار

EpochدورهExploding Gradientانفجار گرادیان

Forward Passگذر جلوLanguage Modelمدل زبانی

Long-Short Term Memoryحافظه کوتاه مدت بلندMachine Translationترجمه ماشینی

Minimal Time Lagتأخیر زمانی کمینهNatural Language Processingپردازش زبان طبیعی

Neural Language Modelمدل زبانی عصبیNeural Machine Translationترجمه ماشینی عصبی

Partial Hypothesisفرضیه جزئی Perplexityسرگشتگی

Recurrent Neural Networkشبکه عصبی مکررSequenceتوالی

Softmax Functionتابع بیشینه هموارSpeech Recognitionتشخیص گفتار

Statistical Machine Translationترجمه ماشینی آماریSupervisedبانظارت

Tokenizedنشانه گذاری شدهVanishing Gradientمیرایی گرادیان

***

Iran University of Science and TechnologySchool of Computer Engineering

A Survey of Sequence-to-Sequence Architectures with Neural Networks

A Project Submitted in IUST NLP Course Phase 3 (final phase)

By:Morteza Zakeri Nasrabadi

Instructor:Dr. Behrouz Minaei

February 2018

Documents

NLP_Project_961webpages.iust.ac.ir/.../Project/NLP_project_p3_draft01.docx · Web viewیادگیری ژرف شاخه ای نسبتا جدید از یادگیری ماشین است