
الگوریتم برت BERT چیست؟ نگاهی تخصصی به برت و آیندهی ترجمه
یکی از بزرگترین آپدیتهای گوگل در حوزهی جستجوی اینترنتی در سال ۲۰۱۹ اتفاق افتاد و الگوریتم BERT پا به عرصه گذاشت. بدون تردید این الگوریتم از سالها قبل برنامهریزی شده بوده و در این سال نتیجهی کارهای بزرگ فنی تیم گوگل را مشاهده کردیم. البته مثل هر سازه یا برنامهی دیگری این الگوریتم هم روزبهروز پیشرفت خواهد کرد و از آنجا که بر پایهی هوش مصنوعی طراحی شده هرروز قدرت بیشتری پیدا میکنید.
الگوریتم برت BERT چیست؟
به گفتهی مهندسان گوگل، این تکنولوژی جدید به سیستم جستجوگرشان اضافه شده تا معنی واژهها و و تکتک کلمات را یافته و رابطهی آنها با همدیگر را بفهمد. در گذشته شاید برخی از جستجوها با نتایج دقیق مواجه نمیشد، اما با ظهور برت، بسیاری از خطاهای گذشته حل شده و از اینجا به بعد نیز همواره با دقت بیشتری به سوالات کاربران پاسخ داده میشود. تا پیش از این الگوریتمهایی مثل الگوریتم Rankbrain برای این منظور توسط گوگل راهاندازی شده بود و امروز برای تکمیل و یا بهبود هرچه بیشتر نتایج جستجوها الگوریتم BERT پا به عرصهی وجود گذاشت.
چه نیازی به حضور الگوریتم برت BERT بود؟
شاید بپرسید که در یکیدوسال اخیر نتایج گوگل برای شما راضی کننده بوده و چه نیازی به افزودن برت بود. دنیای جستجوها به سمتوسوی دیگری میرود و گوگل به دلیل حجم بالای کاربران، این نکته را زودتر از هر شخص یا کمپانی دیگر فهمیده است. آیندهی جستجوها از طریق صدا و صوت خواهد بود. به این معنی که هر روز به تعداد افرادی که عبارت مورد نظرشان را بجای تایپ کردن، با صدا به گوگل میگویند بیشتر و بیشتر میشود. اما ربط جستجوی صوتی با BERT چیست؟ در ادامه توضیح خواهیم داد که زبان گفتار با نوشتار متفاوت است و گوگل نیاز به سازوکاری داشت که این موضوع را درک کند.
در مورد الگوریتم برت برای بهبود سایتمان چه کاری انجام دهیم؟
نیازی به فعالیت خاصی نیست و حتی اگر بخواهید بهصورت ماشینی فکر کنید تا گیر BERT نیافتید درحقیقت خود را به خطر انداختهاید. بهترین کار این است که برای انسانها بنویسید و هرروز تمرکز بیشتری روی کیفیت محتوا و سایت خود بگذارید. سایت و مطالبتان را به سمتوسویی ببرید که انسانها بیشترین استفاده را ببرند و برای هر موضوع بهترین پاسخها را داشته باشید. به نکات زیر توجه کنید:
- تلاش کنید تا محتوای با کیفیت تولید کنید.
- تیتر موضوعات را طولانیتر اما مفید انتخاب کنید.
- هدف کاربر را شناسایی کنید.
- در مقالات خود پس از شناسایی هدف کاربر، پاسخ جامع و مناسب ارائه کنید.
- کلمات کلیدی طولانی یا Long Tail Keyword ها را به گویش عامیانه نزدیکتر کنید
تفاوت جستجوی صوتی و تایپی
تفاوت کسی که جملهای را با صدا میگوید و کسی که تایپ میکند در چیست؟ شاید پاسخهایی ابتدایی به این سوال بتوان داد، اما بدون تردید گوگل نکات بسیار مهمتری را یافته است و تلاش دارد تا پوشش مناسبی را برای جستجوی صوتی ارائه دهد. لحنها، گویشها و تفاوت جملهبندی در زبانها و گویشهای مختلف بسیار زیاد است. بهعنوان مثال در فارسی، جملهبندی حتی در شهرهای مختلف تفاوتهای بسیاری دارد که با گسترش جستجوی صوتی، انتظار میرود که افراد در تمام کشورها و زبانها، جملات را طولانیتر و راحتتر ادا کنند. شاید امروز جملهها را اندکی ادبیتر بیان شود ولی در آینده اینطور نخواهد بود.
انسانها کوتاه تایپ میکنند، اما هنگام حرفزدن جملهبندی طولانیتری دارند و حروف اضافهی بیشتری بهکار میبرند.
یکی از تفاوتهای مهم بین جستجوی تایپی و صوتی طول جملات است. در تایپ جمله، بهعنوان مثال شاید بنویسید: “پرفروشترین آلبوم خواجه امیری” اما در جستجوی صوتی اینطور بیان میشود، “بین آلبومهای خواجه امیری تاحالا کدام پرفروشتر بوده”؟
نکتهی حائز اهمیت بعدی “شکستن افعال و تغییر شکل کلمات محاوره” و اضافه شده حروف اضافه است. به این معنی که جملات صمیمیت بیشتری پیدا میکنند و شاید عبارت بالا اینطور گفته شود. “مردم کدوم آلبوم خواجه امیری رو بیشتر خریدن؟” و یا “بین آلبومای خواجه امیری کدومش پرفروشتر بوده؟”.
اضافه شدن کلمات اضافه و افعال شکسته در جستجوی صوتی بدیهی است و از اینجابهبعد گوگل باید دلیل حضور “از”، “را”، “که”، “برای”، “و”، “آن”، “این” و غیره را در جملات بهتر بفهمد. حتی باید شکل دیگر کلمات، لهجهها، گویشها و مترادف کلمات را نیز بهتر درک کند. فراموش نکنیم که ربط دادن کلمات مختلف بههم، کار آسانی برای یک ماشین که با صفر و یک کار میکند نیست.
استفاده از دانش NLP در الگوریتم BERT
ان ال پی که به آن برنامه ریزی عصبی زبانی میگویند دانشی است که تلاش دارد تا روشهای فکر کردن و زندگیکردن افراد را با الگوبرداری از دیگر اشخاص موفق بهبود بخشد. این دانش برای بهبود زندگی انسانها طراحی شده، اما در الگوریتم BERT از این روش استفاده شده تا علاوه بر شناخت بهتر انسانها و تمدنهای مختلف، هوش مصنوعی گوگل نیز یادگیری بهتری را بهنمایش بگذارد.
یکی از موضوعاتی که در NLP مطرح میشود این است که: اگر بهتر بفهمید که مردم چه چیزی میپرسند، جواب بهتری هم به آن خواهید داد. شاید بگویید که این کار سختی نیست، اما به این نکته فکر کنید که هنگام صحبت کردن میان انسانهای همزبان چقدر اختلاف درک و سوتفاهم پیش میآید. حالا این فرض را بهسوی گفتگوی انسانهایی ببرید که از زبانهای مختلف هستند. حتما میدانید که حتی برخی از واژگان انگلیسی ترجمهی دقیقی در فارسی ندارند. همچنین توجه کنید که در هر زبان دنیا، برخی از واژگان دارای چندین معنی هستند. مثل کلمهی “شیر” در فارسی. کدام شیر؟ شیر جنگل؟ شیر خوردنی؟ شیر آب؟ یک ماشین چگونه باید درک کند که شما بهدنبال چه چیزی هستید؟
به تصویر زیر دقت کنید، یک پردازشگر جملات، از کجا متوجه شود که جملهی زیر را برای جستجوی کدام Bank به مخاطب ارائه دهد؟
استفاده از ترانسفورماتورها در الگوریتم برت BERT
ترانسفورماتورها یا ترانسفورمرها، نوعی طراحی معماری شبکه عصبی الکترونیکی هستند که این روزها در علوم تخصصی استفاده زیادی میشوند و محبوبیت پیدا کردهاند. ترانسفورماتورها Transformers توسط شرکت OpenAI طراحی شدهاند و در مدلهای زبانی مورد استفاده قرار میگیرند، همچنین توسط Deepmind در طراحی پروژهی AlphaStar (پروژهای که کامپیوتر مثل یک انسان بازیهای کامپیوتری را انجام میدهد) نیز استفاده شده است. ترانسفورماتور برای حل مشکل توالی در شبکهی عصبی طراحی شدهاند، به این معنی که یک رشته را میگیرند (مثل کلمات یک جمله) و پس از پردازش بهصورت منظم، با یک توالی مشخص آن را خارج میکنند. تفاوت سیستمهای داری ترانسفورمر با سیستمهای بخشبهبخش این است که تا زمان تایید نهایی کل رشته، اجازهی خروج را نمیدهند و اگر نیاز به تغییر یکی از بخشها باشد، بخش مورد نظر تصحیح شده و رشتهی نهایی خارج میشود. به این مثال گیجکننده توجه کنید:
ترانسفورمرها یک گروه ژاپنی است. این گروه در سال ۱۹۶۸ شروع به کار کرد، یعنی دوران اوج موسیقی ژاپن.
در مثال بالا واژهی “این گروه” در جملهی دوم، به ترانسفورمرها در جملهی اول مربوط میشود و منظور گروه موسیقی ترانسفورمرهاست. در مثال ذکر شده، ترانسفورمرها نام یک گروه موسیقی بود و شاید حتی شما که درحال خواندن این مقاله بودید برای لحظهای گیج شدید. چراکه ما در حال صحبت درمورد تکنولوژی ترانسفورماتورها بودیم، اما پس از خواندن بخش دوم جمله، منظور بخش اول را فهمیدید. اگر کلمات و جملات تکبهتک ترجمه و درک شوند و بازگشت به عقبی درکار نباشد، هیچگاه یک ماشین نمیتواند مفهموم جملات را بفهمد. این دقیقا کاری است که یک ترانسفورمر انجام میدهد و با بررسیها توالیدار به درک موضوع و ارائهی ترجمه و معنی دقیقتر میپردازد.
در مثال زیر کلمهی View در یک پاراگراف قرار گرفته، یک انسان بهراحتی متوجه اشارهی این کلمه خواهد شد، اما کامپیوتر بهراحتی نمیفهمد که این کلمه به کدام بخش از جملات بالا اشاره کرده است:
برای حل مشکلات ماشین، پیش از این سیستمهای RNN به معنی Recurrent Neural Networks و CNN به معنی Convolutional Neural Networks نیز طراحی شده بودند که باتوجه به تخصصی بودن موضوع در این مقاله به آنها نمیپردازیم. تمام این تکنولوژیها یک گام رو به جلو برداشته بودند، اما دارای مشکلاتی بودند که هنگام درک نهایی جمله، خطاهای مختلفی بروز میکرد. در این میان سیستمهای Transformers ظهور کردند و بهترین عملکرد را از خود نشان دادند. به همین علت در الگوریتم BERT گوگل از این تکنولوژی استفاده شده تا غول جستجوی دنیا، جناب مستطاب گوگل پیشرفتهتر از قبل بهنظر برسد.
پیش بینی آینده الگوریتم برت BERT و گوگل
این الگوریتم در اغلب سایتها و بلاگهای فارسی و انگلیسی دارای تعاریف ساده و قابل فهمی است که کاربران و کارشناسان سئو بتوانند آن را درک کنند. اما واقعیت ماجرا این است که الگوریتم BERT اتفاق بسیار بزرگی خواهد بود و ابعاد واقعی آن در آینده روشن میشود، هرچند که شاید برای بسیاری از افراد ملموس نباشد. استفاده از دانش NLP برای درک بهتر انسانها و انتقال مفاهیم به ماشینهای گوگل و همچنین حضور Transformer ها، همگی نشان از نوعی انفجار تکنولوژی جستجو و درک محتوا در این شرکت دارد. باتوجه به اینکه این الگوریتمها دارای پشتوانهی Machine Learning هستند و هوش مصنوعی آنها را کنترل میکند، انباشت نتایج حاصل شده طی سالها در بانک اطلاعاتی گوگل، منجر به ظهور اتفاقاتی عجیب و درخشان خواهد شد. ترانسفورماتورهای گوگل هرروز تحلیلهای بیشتری را ارائه خواهند داد و هوش مصنوعی به تکمیل عملکرد ترانسفورماتورها کمک خواهد کرد. کسی چه میداند، شاید روزی فرابرسد که گوگل زبان مادری ما را بهتر از خودمان بشناسد و رباتهایی خلق کند که به راحتی به فارسی عامیانه و دیگر زبانها صحبت میکنند و معنی حرفهایشان را هم کاملا میفهمند. در ادامه، یکی دیگر از اتفاقات قابل پیشبینی آینده، میتواند حذف ترجمه و مترجم از جوامع مختلف باشد.
تاثیر الگوریتم برت بر زبان فارسی
گوگل اعلام کرده که این الگوریتم درحالحاضر روی برخی زبانهای دنیا اجرا شده و فارسی جزو آنها نیست. اما باتوجه به تکمیل هوش این الگوریتم با کار کردن روی زبانهای دیگر، انتظار میرود هنگامی که به پوشش فارسی برسد تبدیل به یک هوش جاافتاده شده باشد و نتیجهی قویتری را از خود نشان دهد. بنابراین به نکاتی که بالاتر در این مقاله به آنها اشاره شد توجه کنید و با نشانهگیری هدف کاربر از جستجوها و ارائهی پاسخ مناسب برای جستجوی صوتی و تایپی صفحات را هرچه میتوانید بهینهتر کنید.
Comments
۳ دیدگاهها
عالی. خیلی عمیق تر از سایر مقالات بود . تشکر مهندس
دنبال مقالات مترجمی بودم مطلب شما جذبم کرد ! نگاه تخصصی خوبی بود
خیلی جالب و متفاوت بود تشکر از تحلیل خوبتون