به کارگیری توجه در شبکه های عصبی

اخبار

چکیده

از مکانیزم توجه با تمرکز بر بخش‌هایی از جمله مبدأ، در بهبود ترجمه ماشینی با استفاده از شبکه‌های عصبی (NMT) استفاده شده‌است. در این پست می‌خواهیم با کمک این مقاله دو کلاس ساده و مؤثر از مکانیزم توجه یعنی رویکرد سراسری و محلی را توضیح دهیم. در رویکرد توجه سراسری، به همه کلمات مبدأ توجه می‌شود اما در رویکرد محلی، مدل در هر زمان تنها به زیرمجموعه‌ای از کلمات مبدأ توجه می‌کند. در این مقاله یک مدل ترکیبی با استفاده از معماری‌های مختلف مکانیزم توجه ارائه شده، که در ادامه با جزئیات بیشتری به آن می‌پردازیم.

مقدمه

ترجمه ماشینی با استفاده از شبکه‌های عصبی( NMT) یک روش ترجمه ماشینی است که با استفاده از شبکه‌های عصبی متون را بین زبان‌های مختلف ترجمه می‌کند. از آنجایی‌که NMT، نسبت به سایر وظایف پردازش زبان طبیعی(NLP) از نظر مفهومی ساده‌تر است، برای ارزیابی مدل‌های مختلف مورد استقبال پژوهشگران قرار می‌گیرد. از این رو، NMT در وظایف ترجمه در مقیاس بزرگ مانند ترجمه از انگلیسی به فرانسوی و انگلیسی به آلمانی به پیشرفت‌های خوبی دست یافته است. مدل NMT، در هر زمان یک کلمه‌ از دنباله‌ی مبدأ را خوانده و کلمه‌ی هدف متناظر با آن را تولید می‌کند؛ و این کار را تا زمانی‌ که به نماد پایان جمله برسد، ادامه می‌دهد.

شکل 1. NMT با معماری بازگشتی انباشته به‌صورت شماتیک. NMT دنباله مبدأ A B C D به دنباله هدف X Y Z ترجمه می‌کند. در اینجا، <eos> پایان یک جمله را نشان میدهد. — شکل 1. NMT با معماری بازگشتی انباشته به‌صورت شماتیک. NMT دنباله مبدأ A B C D به دنباله هدف X Y Z ترجمه می‌کند. در اینجا، پایان یک جمله را نشان میدهد.

NMT یک شبکه عصبی بزرگ است که اغلب به‌صورت سرتاسر آموزش داده شده و در ترجمه‌ی دنباله‌های طولانی نتایج خوبی به‌دست آورده است. از آنجایی‌که در NMT، مدل لازم نیست جداول عظیم عبارات و مدل‌های زبانی را ذخیره کند، به فضای حافظه کوچکی نیاز دارد. از طرف دیگر، برخلاف کدگذارهای بسیار پیچیده‌ در ترجمه ماشینی استاندارد، پیاده‌سازی کدگشاهای NMT به‌راحتی قابل انجام است.

به موازات NMT، مفهوم «توجه» در آموزش شبکه‌های عصبی محبوبیت پیدا کرد؛ زیرا مکانیزم توجه به مدل‌ها اجازه می‌دهد تا هم‌ترازی بین انواع مختلف داده‌ها را بیاموزند. به‌عنوان مثال، بین فریم‌های گفتار و متن در وظیفه تشخیص گفتار یا بین ویژگی‌های تصویر و توضیح متنی آن در وظیفه تولید عنوان تصویر. در زمینه NMT، باهدانا با موفقیت از مکانیزم توجه، به صورت مشترک، در ترجمه و هم‌تراز کردن کلمات استفاده کرده‌ است.

این مقاله، دو مدل جدید برای مکانیزم توجه را معرفی می‌کند؛ اولین مدل، رویکرد سراسری است که در آن به همه کلمات مبدأ توجه می‌شود و دیگری رویکرد محلی است که تنها زیرمجموعه‌ای از کلمات مبدأ را در نظر می‌گیرد. به‌طور تجربی، هر دو رویکرد این مقاله در وظایف ترجمه WMTبین انگلیسی و آلمانی، در هر دوجهت نتایج مؤثری بدست آورده‌اند. در ادامه با این دو رویکرد با جزئیات بیشتر آشنا می‌شویم.

ترجمه ماشینی با استفاده از شبکه‌ عصبی (NMT)

NMT یک شبکه‌ی عصبی است که احتمال شرطی p(y|x) را، که در آن ترجمه جمله مبدأ و جمله هدف می‌باشد، مستقیما مدل می‌کند. معماری اصلی NMT از دو جزء تشکیل شده‌است:

(الف) یک کدگذار که هر جمله مبدأ را با یک بردار s بازنمایی می‌کند.

(ب) یک کدگشا که یک کلمه هدف را در هر مرحله زمانی تولید می‌کند.

بنابراین احتمال شرطی در کدگشا به صورت زیر تجزیه می‌شود:

(1)

یک انتخاب طبیعی برای مدل‌سازی چنین تجزیه‌ای در کدگشا، استفاده از شبکه عصبی بازگشتی (RNN) است. بیشتر مطالعات NMT در انتخاب RNN در معماری کدگشا مشترک هستند اما در انتخاب نوع معماری آن، و نیز شیوه بازنمایی جمله مبدأ در کدگذار با یکدیگر تفاوت دارند.

برای بررسی جزئیات بیشتر عملکرد کدگشا، می‌توان احتمال کدگشایی هر کلمه y_i را به‌صورت زیر پارامتربندی کرد:

(2)

در اینجا g به‌عنوان تابع تبدیل، یک بردار خروجی با اندازه مجموعه‌ی واژگان می‌سازد. h_j واحد پنهان RNN است که به‌صورت زیر محاسبه می‌شود:

(3)

در معادله بالا، f حالت پنهان فعلی را با توجه به حالت پنهان قبلی محاسبه می‌کند. تفاوت دیگر در معماری NTMها، در روش استفاده شبکه از بردار بازنمایی s می‌باشد. در بعضی NMTها، بازنمایی جمله مبدأ s تنها یک‌بار برای مقداردهی اولیه حالت پنهان در کدگشا استفاده می‌شود. اما در بعضی دیگر، بردار s مجموعه‌ای از حالت‌های پنهان مبدأ است که در کل فرآیند ترجمه استفاده می‌شود. از چنین رویکردی به‌عنوان مکانیزم توجه یاد می‌شود که در ادامه به آن می‌پردازیم.

در این پژوهش از معماری LSTM انباشته برای سیستم‌های NMT استفاده شده‌است (مطابق شکل 1). هدف آموزشی مدل انباشته به شکل زیر تعریف می‌شود:

(4)

در این فرمول همان پیکره آموزش موازی مورداستفاده در پژوهش می‌باشد.

مدل‌های مبتنی‌بر توجه

مدل‌های مبتنی‌بر توجه به دو دسته سراسری و محلی طبقه‌‌بندی می‌شوند. این دوکلاس از نظر اینکه «توجه» روی همه موقعیت‌های مکانی جمله مبدأ قرار بگیرد یا فقط روی چند موقعیت مبدأ، متفاوت هستند که جزئیات آن‌ها به‌ترتیب در شکل‌های 2 و 3 نشان داده شده‌ است. نقطه اشتراک این دو نوع مدل این است که در هر مرحله زمانیt، در مرحله‌ی کدگشایی، از حالت پنهان h_t به‌عنوان یکی از ورودی‌های لایه بالایی LSTM استفاده می‌شود. هدف این مدل‌ها استخراج یک بردار متنی c_t است که اطلاعات موجود در مبدأ را برای کمک به پیش‌بینی کلمه هدف y_t جمع‌آوری ‌کند. در حالی‌که این مدل‌ها در نحوه استخراج بردار متن c_t متفاوت هستند، اما مراحل بعدی مشابهی دارند. در مرحله‌ی بعد حالت پنهان هدف h_t و بردار متنی سمت-مبدأ c_t ، با استفاده از یک لایه الحاقی ساده با یکدیگر ترکیب شده و حالت پنهان توجه را می‌سازند:

(5)

سپس بردار توجه به یک لایه softmax داده شده و توزیع پیش‌بینی طبق فرمول 6 ایجاد می‌شود:

(6)

در ادامه با جزئیات به نحوه محاسبه بردار متنی سمت-مبدأ c_t برای هر مدل می‌پردازیم.

توجه سراسری

ایده اصلی مدل توجه سراسری این است که بردار متن c_t را از تمام حالت‌های پنهان کدگذار استخراج کند. در این نوع مدل، بردار هم‌ترازی a_t با طول متغیر، که اندازه آن برابر با تعداد مراحل زمانی در سمت مبدأ است، با مقایسه حالت پنهان هدف h_t با همه‌ی حالت پنهان مبدأ به‌دست می ‌آید:

(7)

در معادله 7، یک تابع مبتنی‌‌برمحتوا نامیده می‌شود که به سه روش جایگزین محاسبه می شود:

(8)

(9)

بردار متن c_t با استفاده از بردار هم‌ترازی a_t به‌عنوان وزن‌ها، به صورت یک میانگین وزن‌دار بر روی تمام حالت‌های پنهان مبدأ محاسبه ‌می‌شود.

شکل 2. مدل توجه سراسری. در این مدل، در هر مرحله زمانی t، یک بردار وزن هم‌ترازی a<sub>t</sub> با طول متغیر، با توجه به همه‌ی حالت‌ مبدأ و حالت هدف فعلی h<sub>t</sub>، استنباط می‌شود. سپس یک بردار متن کلی c<sub>t</sub> به شکل یک میانگین وزن‌دار براساس همه حالت‌های مبدأ و بردار هم‌ترازی a<sub>t</sub>، محاسبه می‌شود. — شکل 2. مدل توجه سراسری. در این مدل، در هر مرحله زمانی t، یک بردار وزن هم‌ترازی a_t با طول متغیر، با توجه به همه‌ی حالت‌ مبدأ و حالت هدف فعلی h_t، استنباط می‌شود. سپس یک بردار متن کلی c_t به شکل یک میانگین وزن‌دار براساس همه حالت‌های مبدأ و بردار هم‌ترازی a_t، محاسبه می‌شود.

شکل 2. مدل توجه سراسری. در این مدل، در هر مرحله زمانی t، یک بردار وزن هم‌ترازی a_t با طول متغیر، با توجه به همه‌ی حالت‌ مبدأ و حالت هدف فعلی h_t، استنباط می‌شود. سپس یک بردار متن کلی c_t به شکل یک میانگین وزن‌دار براساس همه حالت‌های مبدأ و بردار هم‌ترازی a_t، محاسبه می‌شود.

در اینجا به چند تفاوت کلیدی که پژوهشگران این مقاله برای ساده‌سازی و عمومی‌سازی مدل اصلی ایجاد کرده‌اند، می‌پردازیم:

اول، در این مدل به‌سادگی از حالت‌های پنهان در بالای لایه‌های LSTM هم در کدگذار و هم در کدگشا استفاده شده‌ که در شکل 2 قابل مشاهده‌است.
دوم، مسیر محاسباتی ساده‌تر است. در این مقاله مسیر طی شده و ‌پیش‌بینی براساس معادله 5 و 6 صورت می‌گیرد.
سوم، در این مقاله از سه تابع مختلف دیگر علاوه بر تابع الحاق برای محاسبه‌ی امتیاز هم‌ترازی استفاده شده است.

توجه محلی

یک مشکل اساسی در مدل توجه سراسری این است که برای ایجاد هر کلمه هدف، به تمام کلماتِ سمت مبدأ توجه می‌شود. این روند بسیار گران است و ترجمه دنباله‌های طولانی‌تر، مانند پاراگراف‌ها یا اسناد را غیرممکن می‌سازد. برای حل این چالش، یک مکانیزم توجه محلی پیشنهاد شد که در ایجاد هر کلمه هدف، تنها بر روی یک زیرمجموعه کوچک از موقعیت‌های مکانی مبدأ تمرکز ‌کند.

مکانیزم توجه محلی این مقاله به‌طور انتخابی روی یک پنجره کوچک از متن تمرکز می‌کند و رویکردی مشتق‌پذیر دارد. به صورت دقیق‌تر، مدل ابتدا یک موقعیت مکانی هم‌ترازی P_t، برای هر کلمه هدف، در زمان t ایجاد می‌کند. سپس، بردار متنی c_t با محاسبه‌ی میانگین وزن‌دار، بر روی حالت‌های پنهان مبدأ، در یک پنجره مشخص مشتق می‌شود. پارامتر D به‌صورت تجربی انتخاب شده است. بر خلاف رویکرد توجه سراسری، بردار هم‌ترازی محلی a_t دارای ابعاد ثابت R^2D+1 است.

شکل 3. مدل توجه محلی – مدل ابتدا یک موقعیت مکانی هم‌ترازی P<sub>t</sub> برای کلمه هدف فعلی پیش بینی می‌کند. سپس یک پنجره به مرکزیت موقعیت مکانی P<sub>t</sub> بر روی ورودی قرار داده شده و بردار متن c<sub>t</sub> به صورت یک میانگین وزن‌دار از حالت‌های پنهان مبدأ محاسبه می‌شود. وزن‌های a<sub>t</sub> از حالت هدف فعلی h<sub>t</sub> و حالت های مبدا استنتاج می‌شوند. — شکل 3. مدل توجه محلی – مدل ابتدا یک موقعیت مکانی هم‌ترازی P_t برای کلمه هدف فعلی پیش بینی می‌کند. سپس یک پنجره به مرکزیت موقعیت مکانی P_t بر روی ورودی قرار داده شده و بردار متن c_t به صورت یک میانگین وزن‌دار از حالت‌های پنهان مبدأ محاسبه می‌شود. وزن‌های a_t از حالت هدف فعلی h_t و حالت های مبدا استنتاج می‌شوند.

شکل 3. مدل توجه محلی – مدل ابتدا یک موقعیت مکانی هم‌ترازی P_t برای کلمه هدف فعلی پیش بینی می‌کند. سپس یک پنجره به مرکزیت موقعیت مکانی P_t بر روی ورودی قرار داده شده و بردار متن c_t به صورت یک میانگین وزن‌دار از حالت‌های پنهان مبدأ محاسبه می‌شود. وزن‌های a_t از حالت هدف فعلی h_t و حالت های مبدا استنتاج می‌شوند.

هم‌ترازی یکنواخت: (local-m) در این روش P_t=t قرار داده شده و فرض می‌شود که دنباله‌های مبدأ و هدف به‌صورت یکنواخت هم‌پوشانی دارند. در این روش، بردار هم‌ترازی a_t با استفاده از معادله 7 محاسبه می‌شود.
هم‌ترازی پیشگویانه (local-p): به‌جای فرض هم‌ترازی یکنواخت، موقعیت هم‌ترازی به شکل زیر محاسبه می‌شود:

(9)

در این معادله W_P و V_P پارامترهای مدل هستند که در طول آموزش یاد گرفته می‌شوند تا بتوانند موقعیت‌ها را پیش‌بینی کنند. S طول جمله مبدأ را نشان می‌دهد. استفاده از تابع سیگموئید ، مقدار پیش‌بینی شده P_t را در محدوده (در محدوده‌ی جمله) قرار خواهد داد. به نفع نقاط هم‌تراز نزدیک P_t، از یک توزیع گاوسی حول محور P_t استفاده شده است. به صورت جزئی‌تر، وزن‌های هم‌ترازی به‌صورت زیر تعریف می‌شوند:

(10)

در این معادله ازتابع هم‌ترازی معادله 7 استفاده شده و انحراف استاندارد به‌صورت تجربی تنظیم می‌شود. باید توجه داشت که P_t یک عدد واقعی است اما s یک عدد صحیح در پنجره‌ای با مرکزیت P_t است. رویکرد local-p مشابه رویکرد local-m است با این تفاوت که در رویکرد local-p مقدار P_t به صورت پیوسته محاسبه می‌شود. با استفاده از P_t برای استخراج بردار هم‌ترازی، می‌توان گرادیان پس‌انتشار را برای W_P و V_P محاسبه کرد. این مدل تقریبا در همه ی نقاط مشتق‌پذیر است.

رویکرد تغذیه ورودی

در توجه سراسری و محلی، تصمیمات توجه به‌طور مستقل از هم اتخاذ می‌شوند که رویکردی غیربهینه می‌باشد. در حالی‌که در MT استاندارد، یک مجموعه پوششی در طول فرآیند ترجمه نگهداری می‌شود تا به کمک آن بتوان مشخص کرد کدام کلمات مبدأ ترجمه شده‌اند. در مدل‌های NMT مبتنی بر‌ توجه نیز لازم است تصمیمات هم‌ترازی‌، با در نظر گرفتن اطلاعات قبلی هم‌ترازی اتخاذ شود. برای حل این مشکل، از یک روش تغذیه‌ ورودی استفاده می‌شود. در این روش مطابق شکل 10، بردارهای توجه با ورودی‌های مرحله‌بعدی ادغام می‌شوند. تأثیر چنین اتصالاتی بر روی مدل دوجهته است: (1) با ترکیب بردارهای توجه با ورودی‌ها، انتظار می‌رود مدل به‌طور کامل از تصمیمات هم‌ترازی گذشته آگاه شود؛ (2) شبکه به‌صورت عمودی و افقی عمیق شده و گسترش پیدا می‌کند. در واقع، روش پیشنهادی این مقاله شبکه‌ای عمیق‌تر و پیچیده‌تر از روش‌های قبلی ارائه کرده است.

آزمایشات

اثربخشی مدل‌های این مقاله بر وظایف ترجمه WMT بین انگلیسی و آلمانی در هر دو جهت ارزیابی شده‌است. مجموعه داده newstest2013 (3000 جمله) به‌عنوان مجموعه توسعه برای انتخاب هایپرپارامترها استفاده شده‌است. مجموعه توسعه، مجموعه‌ای از داده‌ها است که برای تنظیم و انتخاب پارامترهای مدل استفاده می‌شود. این مجموعه داده در فرآیند آموزش مدل استفاده نمی‌شوند، اما برای تنظیم بهینه پارامترهای مدل، انجام تست و آزمون‌های مختلف مورد استفاده قرار می‌گیرند. عملکرد ترجمه حساس به حروف بزرگ با معیار ارزیابی BLEU در newstest2014 (2737 جمله) و newstest2015 (2169 جمله) گزارش شد. این مقاله برای ارزیابی کیفیت ترجمه از دو مدل BLEU، (1) tokenized BLEU برای مقایسه با وظیفه NMT موجود و (2) NIST13 BLEU برای مقایسه با نتایج WMT استفاده کرده‌است که در ادامه با جزئیات ارائه می‌شود.

جزئیات آموزش مدل‌ها

همه مدل‌های این مقاله بر روی داده‌های آموزشی WMT14 متشکل از 4.5 میلیون جفت جمله (116 میلیون کلمه انگلیسی، 110 میلیون کلمه آلمانی) آموزش دیده‌اند. این مقاله مشابه پژوهش‌های دیگر واژگان خود را محدود کرده تا مجموعه واژگان شامل 50 هزار کلمه پرتکرار برای هر دو زبان باشد. کلماتی که در این مجموعه واژگان نهایی قرار نمی‌گیرند، به یک توکن جهانی تبدیل می‌شوند.

هنگام آموزش سیستم NMT جفت‌هایی که طول آن‌ها فراتر از 50 کلمه است، فیلتر شده و زیردسته‌ها بُر می‌خورند. از 4 لایه مدل LSTM انباشته استفاده شده که هر کدام از آن‌ها دارای 1000 سلول و بردارهای‌تعبیه‌ 1000 بُعدی هستند. پارامترها به‌طور یکنواخت در بازه [-0.1، 0.1] مقداردهی اولیه می‌شوند. مدل را برای 10 دوره با استفاده از SGD ساده آموزش داده می‌شود.

از حذف تصادفی با احتمال 0.2 برای LSTMها استفاده شده‌است.

نتایج ترجمه انگلیسی به آلمانی

نتایج این مدل با مدل‌های قبلی در جدول 11 آمده است.

جدول 11. نتایج WMT14 انگلیسی-آلمانی.

معکوس کردن جمله مبدأ و استفاده از حذف تصادفی، کمی بیشتر از یک امتیاز نتایج را بهبود دادند.
استفاده از رویکردهای توجه سراسری، تغذیه‌ی ورودی و توجه محلی امتیاز BLEU را به ترتیب 2.8، 1.3، و 0.9 افزایش دادند.
در مجموع، این مقاله به افزایش قابل توجه 5.0 امتیاز BLEU نسبت به مدل پایه بدون توجه که شامل تکنیک‌های شناخته شده‌ای مانند معکوس کردن جملات مبدأ و حذف تصادفی بوده، دست یافته ‌است.
تکنیک جایگزینی کلمه ناشناخته امتیاز BLEU را به بیش از 1.9 بهبود داده، که نشان می‌دهد مدل‌های توجه این مقاله هم‌تراز‌ی‌های مفیدی را برای کارهای ناشناخته یاد می‌گیرند.
در نهایت، با ترکیب 8 مدل مختلف، به‌عنوان مثال، استفاده از رویکردهای مختلف توجه، با و بدون حذف تصادفی، این مقاله به یک نتیجه پیشرفته (SOTA) جدید با امتیاز 23.0 BLEU دست یافت که از آخرین نتایج موجود در WMT15 بهتر بوده‌است.

مطابق جدول 12، بهترین سیستم این مقاله یک عملکرد پیشرفته جدید با امتیاز BLEU 25.9 ایجاد کرده‌، که از بهترین سیستم موجود با پشتیبانی NMT و یک رتبه‌بندی مجدد 5-تایی LM با اختلاف 1.0 یا بیشتر در امتیاز BLEU بهتر عمل کرده است.

جدول 12. نتایج WMT'15 انگلیسی-آلمانی – NIST BLEU امتیازات برنده در WMT'15 و بهترین امتیاز این مقاله در newstest2015

بررسی عملکرد رویکردهای توجه در بازدهی مدل

منحنی‌های یادگیری

مشاهده فاصله واضح بین مدل‌های بدون مکانیزم توجه و مدل‌های مبتنی‌بر مکانیزم توجه در شکل 14، نشان‌دهنده نقش مکانیزم توجه است. رویکرد تغذیه ورودی و مدل توجه محلی نیز توانایی‌های خود را در کاهش هزینه‌های تست نشان می‌دهند. یادگیری مدل بدون استفاده از مکانیزم توجه و با حذف تصادفی (منحنی آبی+) کندتر از سایر مدل‌های بدون حذف تصادفی است، اما با گذشت زمان، از منظر به‌حداقل رساندن خطاهای تست قوی‌تر می‌شود.

اثرات ترجمه جملات طولانی

هم‌راستا با پژوهش باهدانا، پژوهشگران جملاتی با طول‌های مشابه را با هم گروه‌بندی کرده و امتیاز BLEU را برای هر گروه محاسبه کردند. شکل 15 نشان می‌دهد که مدل‌های توجه این مقاله در دست‌وپنجه نرم کردن با جملات طولانی، تواناتر از مدل‌های بدون توجه هستند، یعنی کیفیت ترجمه آن‌ها با طولانی شدن جملات کاهش نمی‌یابد. بهترین مدل این مقاله (منحنی آبی +) از همه سیستم‌های دیگر در طول‌های مختلف عملکرد بهتری دارد.

شکل 15. تجزیه‌و‌تحلیل طول: مقایسه کیفیت ترجمه سیستم‌های مختلف با طولانی شدن جملات.

انتخاب‌ معماری‌های توجه

در این مقاله پژوهشگران ترکیب مدل‌های توجه (global, local-m, local-p ) با توابع هم‌ترازی (location, dot, general, concat) را بررسی کردند. با توجه به نتایج شکل 16:

تابع‌های مبتنی‌بر مکان هم‌ترازهای خوبی یاد نمی‌گیرند: مدل global(location) موفقیت کمتری نسبت به سایر توابع همترازی در جایگزینی کلمات ناشناخته به‌دست آورده است.
در توابع مبتنی‌بر محتوا، روش concat پیاده‌سازی شده این مقاله عملکرد خوبی نداشته است.
علاوه بر این، روشdot در مدل توجه سراسری و روش general در مدل توجه محلی عملکرد بهتری داشته‌اند.
در بین مدل‌های مختلف، مدل توجه محلی با استفاده از هم‌ترازی‌ پیشگویانه (local-p) بهترین نتایج را هم از نظر پیچیدگی و هم از نظر BLEU ارائه داده‌‌است.

شکل 16. معماری‌های توجه: مقایسه عملکرد مدل‌های مختلف توجه. در این پژوهش دو مدل local-m (dot) آموزش داده شده‌اند که هر دوppl کمتر از 7.0 دارند.

نمونه ترجمه‌ها

شکل 18، تعدادی از نمونه ترجمه‌ها در هر دوجهت را نشان می‌دهد. مشاهده تأثیر مدل‌های مبتنی بر توجه در ترجمه صحیح نام‌هایی مانند « Miranda Kerr» و « Roger Dow» بسیار جالب است. مدل‌های بدون مکانیزم توجه، با وجود این‌که نام‌های معقولی را از نظر مدل زبانی تولید می‌کنند، اما برای انجام ترجمه‌های صحیح، فاقد ارتباط مستقیم از سمت مبدأ هستند. یک مورد جالب در مثال دوم، ترجمه عبارت " not incompatible " با نفی مضاعف است. مدل مبتنی بر توجه به‌درستی "nicht . . . unvereinbar" را ارائه می‌دهد در حالی‌که مدل بدون مکانیزم توجه nicht" vereinbar" را به معنای "Incompatible" ترجمه می‌کند. علاوه بر این، مدل مبتنی بر توجه برتری خود را در ترجمه جملات طولانی مانند مثال آخر نیز نشان می‌دهد.

نتیجه‌گیری

دو مکانیزم توجه ساده و مؤثر برای NMT پیشنهاد معرفی شد: رویکرد سراسری که به همه کلمات مبدأ توجه می‌کند و رویکرد محلی که در هر زمان، تنها به زیرمجموعه‌ای از موقعیت‌های مکانی مبدأ توجه می‌کند. مدل معرفی شده اثربخشی مدل‌های خود را در وظایف ترجمه WMT بین انگلیسی و آلمانی در هر دوجهت آزمایش شد. براساس تجزیه‌وتحلیل این پژوهش، مدل‌های NMT مبتنی‌بر توجه در بسیاری از موارد، از جمله در ترجمه نام‌ها و مدیریت جملات طولانی، نسبت به مدل‌های بدون مکانیزم توجه عملکرد بهتری دارند.

منابع

https://towardsdatascience.com/attention-based-neural-machine-translation-b5d129742e2c

https://www.youtube.com/playlist?list=PLHVv_Q5Gh-7ik2yLt56F05c7ZoLtQiXCy

https://www.youtube.com/watch?v=Fbn2DWlHRt4

به این مطلب امتیاز دهید

نظرات

جهت ارسال نظر و دیدگاه خود باید ابتدا وارد سایت شوید