الگوریتم BERT چیست؟ نگاهی تخصصی به برت و آینده‌ی ترجمه

الگوریتم BERT

یکی از بزرگترین آپدیت‌های گوگل در حوزه‌ی جستجوی اینترنتی در سال ۲۰۱۹ اتفاق افتاد و الگوریتم BERT پا به عرصه گذاشت. بدون تردید این الگوریتم از سال‌ها قبل برنامه‌ریزی شده بوده و در این سال نتیجه‌ی کارهای بزرگ فنی تیم گوگل را مشاهده کردیم. البته مثل هر سازه یا برنامه‌ی دیگری این الگوریتم هم روزبه‌روز پیشرفت خواهد کرد و از آنجا که بر پایه‌ی هوش مصنوعی طراحی شده هرروز قدرت بیشتری پیدا می‌کنید.

الگوریتم BERT چیست؟

به گفته‌ی مهندسان گوگل، این تکنولوژی جدید به سیستم جستجوگرشان اضافه شده تا معنی واژه‌ها و و تک‌تک کلمات را یافته و رابطه‌ی آنها با همدیگر را بفهمد. در گذشته شاید برخی از جستجوها با نتایج دقیق مواجه نمی‌شد، اما با ظهور برت، بسیاری از خطاهای گذشته حل شده و از اینجا به بعد نیز همواره با دقت بیشتری به سوالات کاربران پاسخ داده می‌شود. تا پیش از این الگوریتم‌هایی مثل  الگوریتم Rankbrain برای این منظور توسط گوگل راه‌اندازی شده بود و امروز برای تکمیل و یا بهبود هرچه بیشتر نتایج جستجوها الگوریتم BERT پا به عرصه‌ی وجود گذاشت.

چه نیازی به حضور الگوریتم برت BERT بود؟

شاید بپرسید که در یکی‌دوسال اخیر نتایج گوگل برای شما راضی کننده بوده و چه نیازی به افزودن برت بود. دنیای جستجوها به سمت‌وسوی دیگری می‌رود و گوگل به دلیل حجم بالای کاربران، این نکته را زودتر از هر شخص یا کمپانی دیگر فهمیده است. آینده‌ی جستجوها از طریق صدا و صوت خواهد بود. به این معنی که هر روز به تعداد افرادی که عبارت مورد نظرشان را بجای تایپ کردن، با صدا به گوگل می‌گویند بیشتر و بیشتر می‌شود. اما ربط جستجوی صوتی با BERT چیست؟ در ادامه توضیح خواهیم داد که زبان گفتار با نوشتار متفاوت است و گوگل نیاز به سازوکاری داشت که این موضوع را درک کند.

در مورد الگوریتم برت برای بهبود سایتمان چه کاری انجام دهیم؟

نیازی به فعالیت خاصی نیست و حتی اگر بخواهید به‌صورت ماشینی فکر کنید تا گیر BERT نیافتید درحقیقت خود را به خطر انداخته‌اید. بهترین کار این است که برای انسان‌ها بنویسید و هرروز تمرکز بیشتری روی کیفیت محتوا و سایت خود بگذارید. سایت و مطالبتان را به سمت‌وسویی ببرید که انسان‌ها بیشترین استفاده را ببرند و برای هر موضوع بهترین پاسخ‌ها را داشته باشید. به نکات زیر توجه کنید:

  • تلاش کنید تا محتوای با کیفیت تولید کنید.
  • تیتر موضوعات را طولانی‌تر اما مفید انتخاب کنید.
  • هدف کاربر را شناسایی کنید.
  • در مقالات خود پس از شناسایی هدف کاربر، پاسخ جامع و مناسب ارائه کنید.
  • کلمات کلیدی طولانی یا Long Tail Keyword ها را به گویش عامیانه نزدیک‌تر کنید

تفاوت جستجوی صوتی و تایپی

تفاوت کسی که جمله‌ای را با صدا می‌گوید و کسی که تایپ می‌کند در چیست؟ شاید پاسخ‌هایی ابتدایی به این سوال بتوان داد، اما بدون تردید گوگل نکات بسیار مهم‌تری را یافته است و تلاش دارد تا پوشش مناسبی را برای جستجوی صوتی ارائه دهد. لحن‌ها، گویش‌ها و تفاوت جمله‌بندی در زبان‌ها و گویش‌های مختلف بسیار زیاد است. به‌عنوان مثال در فارسی، جمله‌بندی حتی در شهرهای مختلف تفاوت‌های بسیاری دارد که با گسترش جستجوی صوتی، انتظار می‌رود که افراد در تمام کشورها و زبان‌ها، جملات را طولانی‌تر و راحت‌تر ادا کنند. شاید امروز جمله‌ها را اندکی ادبی‌تر بیان شود ولی در آینده اینطور نخواهد بود.

انسان‌ها کوتاه تایپ می‌کنند، اما هنگام حرف‌زدن جمله‌بندی طولانی‌تری دارند و حروف اضافه‌ی بیشتری به‌کار می‌برند.

یکی از تفاوت‌های مهم بین جستجوی تایپی و صوتی طول جملات است. در تایپ جمله، به‌عنوان مثال شاید بنویسید: “پرفروش‌ترین آلبوم خواجه امیری” اما در جستجوی صوتی اینطور بیان می‌شود، “بین آلبوم‌های خواجه امیری تاحالا کدام پرفروش‌تر بوده”؟

نکته‌ی حائز اهمیت بعدی “شکستن افعال و تغییر شکل کلمات محاوره” و اضافه شده حروف اضافه است. به این معنی که جملات صمیمیت بیشتری پیدا می‌کنند و شاید عبارت بالا اینطور گفته شود. “مردم کدوم آلبوم خواجه امیری رو بیشتر خریدن؟” و یا “بین آلبومای خواجه امیری کدومش پرفروش‌تر بوده؟”.

اضافه شدن کلمات اضافه و افعال شکسته در جستجوی صوتی بدیهی است و از اینجابه‌بعد گوگل باید دلیل حضور “از”، “را”، “که”، “برای”، “و”، “آن”، “این” و غیره را در جملات بهتر بفهمد. حتی باید شکل دیگر کلمات، لهجه‌ها، گویش‌ها و مترادف کلمات را نیز بهتر درک کند. فراموش نکنیم که ربط دادن کلمات مختلف به‌هم، کار آسانی برای یک ماشین که با صفر و یک کار می‌کند نیست.

استفاده از دانش NLP در الگوریتم BERT

ان ال پی که به آن برنامه ریزی عصبی زبانی می‌گویند دانشی است که تلاش دارد تا روش‌های فکر کردن و زندگی‌کردن افراد را با الگوبرداری از دیگر اشخاص موفق بهبود بخشد. این دانش برای بهبود زندگی انسان‌ها طراحی شده، اما در الگوریتم BERT از این روش استفاده شده تا علاوه بر شناخت بهتر انسان‌ها و تمدن‌های مختلف، هوش مصنوعی گوگل نیز یادگیری بهتری را به‌نمایش بگذارد.

یکی از موضوعاتی که در NLP مطرح می‌شود این است که: اگر بهتر بفهمید که مردم چه چیزی می‌پرسند، جواب بهتری هم به آن خواهید داد. شاید بگویید که این کار سختی نیست، اما به این نکته فکر کنید که هنگام صحبت کردن میان انسان‌های هم‌زبان چقدر اختلاف درک و سوتفاهم پیش می‌آید. حالا این فرض را به‌سوی گفتگوی انسان‌هایی ببرید که از زبان‌های مختلف هستند. حتما می‌دانید که حتی برخی از واژگان انگلیسی ترجمه‌ی دقیقی در فارسی ندارند. همچنین توجه کنید که در هر زبان دنیا، برخی از واژگان دارای چندین معنی هستند. مثل کلمه‌ی “شیر” در فارسی. کدام شیر؟ شیر جنگل؟ شیر خوردنی؟ شیر آب؟ یک ماشین چگونه باید درک کند که شما به‌دنبال چه چیزی هستید؟

به تصویر زیر دقت کنید، یک پردازشگر جملات، از کجا متوجه شود که جمله‌ی زیر را برای جستجوی کدام Bank به مخاطب ارائه دهد؟

ترانسفورماتور زبان

استفاده از ترانسفورماتورها در BERT

ترانسفورماتورها یا ترانسفورمرها، نوعی طراحی معماری شبکه عصبی الکترونیکی هستند که این روزها در علوم تخصصی استفاده زیادی می‌شوند و محبوبیت پیدا کرده‌اند. ترانسفورماتورها Transformers توسط شرکت OpenAI طراحی شده‌اند و در مدل‌های زبانی مورد استفاده قرار می‌گیرند، همچنین توسط Deepmind در طراحی پروژه‌ی AlphaStar (پروژه‌ای که کامپیوتر مثل یک انسان بازی‌های کامپیوتری را انجام می‌دهد) نیز استفاده شده است. ترانسفورماتور برای حل مشکل توالی در شبکه‌ی عصبی طراحی شده‌اند، به این معنی که یک رشته را می‌گیرند (مثل کلمات یک جمله) و پس از پردازش به‌صورت منظم، با یک توالی مشخص آن را خارج می‌کنند. تفاوت سیستم‌های داری ترانسفورمر با سیستم‌های بخش‌به‌بخش این است که تا زمان تایید نهایی کل رشته، اجازه‌ی خروج را نمی‌دهند و اگر نیاز به تغییر یکی از بخش‌ها باشد، بخش مورد نظر تصحیح شده و رشته‌ی نهایی خارج می‌شود. به این مثال گیج‌کننده توجه کنید:

ترانسفورمرها یک گروه ژاپنی است. این گروه در سال ۱۹۶۸ شروع به کار کرد، یعنی دوران اوج موسیقی ژاپن.

در مثال بالا واژه‌ی “این گروه” در جمله‌ی دوم، به ترانسفورمرها در جمله‌ی اول مربوط می‌شود و منظور گروه موسیقی ترانسفورمرهاست. در مثال ذکر شده، ترانسفورمرها نام یک گروه موسیقی بود و شاید حتی شما که درحال خواندن این مقاله بودید برای لحظه‌ای گیج شدید. چراکه ما در حال صحبت درمورد تکنولوژی ترانسفورماتورها بودیم، اما پس از خواندن بخش دوم جمله، منظور بخش اول را فهمیدید. اگر کلمات و جملات تک‌به‌تک ترجمه و درک شوند و بازگشت به عقبی درکار نباشد، هیچگاه یک ماشین نمی‌تواند مفهموم جملات را بفهمد. این دقیقا کاری است که یک ترانسفورمر انجام می‌دهد و با بررسی‌ها توالی‌دار به درک موضوع و ارائه‌ی ترجمه و معنی دقیق‌تر می‌پردازد.

در مثال زیر کلمه‌ی View در یک پاراگراف قرار گرفته، یک انسان به‌راحتی متوجه اشاره‌ی این کلمه خواهد شد، اما کامپیوتر به‌راحتی نمی‌فهمد که این کلمه به کدام بخش از جملات بالا اشاره کرده است:

ترانسفورماتور زبان

برای حل مشکلات ماشین، پیش از این سیستم‌های RNN به معنی Recurrent Neural Networks و CNN به معنی Convolutional Neural Networks نیز طراحی شده بودند که باتوجه به تخصصی بودن موضوع در این مقاله به آنها نمی‌پردازیم. تمام این تکنولوژی‌ها یک گام رو به جلو برداشته بودند، اما دارای مشکلاتی بودند که هنگام درک نهایی جمله، خطاهای مختلفی بروز می‌کرد. در این میان سیستم‌های Transformers ظهور کردند و بهترین عملکرد را از خود نشان دادند. به همین علت در الگوریتم BERT گوگل از این تکنولوژی استفاده شده تا غول جستجوی دنیا، جناب مستطاب گوگل پیشرفته‌تر از قبل به‌نظر برسد.

پیش بینی آینده الگوریتم برت BERT و گوگل

این الگوریتم در اغلب سایت‌ها و بلاگ‌های فارسی و انگلیسی دارای تعاریف ساده و قابل فهمی است که کاربران و کارشناسان سئو بتوانند آن را درک کنند. اما واقعیت ماجرا این است که الگوریتم BERT اتفاق بسیار بزرگی خواهد بود و ابعاد واقعی آن در آینده روشن می‌شود، هرچند که شاید برای بسیاری از افراد ملموس نباشد. استفاده از دانش NLP برای درک بهتر انسان‌ها و انتقال مفاهیم به ماشین‌های گوگل و همچنین حضور Transformer ها، همگی نشان از نوعی انفجار تکنولوژی جستجو و درک محتوا در این شرکت دارد. باتوجه به اینکه این الگوریتم‌ها دارای پشتوانه‌ی Machine Learning هستند و هوش مصنوعی آنها را کنترل می‌کند، انباشت نتایج حاصل شده طی سال‌ها در بانک اطلاعاتی گوگل، منجر به ظهور اتفاقاتی عجیب و درخشان خواهد شد. ترانسفورماتورهای گوگل هرروز تحلیل‌های بیشتری را ارائه خواهند داد و هوش مصنوعی به تکمیل عملکرد ترانسفورماتورها کمک خواهد کرد. کسی چه می‌داند، شاید روزی فرابرسد که گوگل زبان مادری ما را بهتر از خودمان بشناسد و ربات‌هایی خلق کند که به راحتی به فارسی عامیانه و دیگر زبان‌ها صحبت می‌کنند و معنی حرف‌هایشان را هم کاملا می‌فهمند. در ادامه، یکی دیگر از اتفاقات قابل پیش‌بینی آینده، می‌تواند حذف ترجمه و مترجم از جوامع مختلف باشد.

تاثیر الگوریتم برت بر زبان فارسی

گوگل اعلام کرده که این الگوریتم درحال‌حاضر روی برخی زبان‌های دنیا اجرا شده و فارسی جزو آنها نیست. اما باتوجه به تکمیل هوش این الگوریتم با کار کردن روی زبان‌های دیگر، انتظار می‌رود هنگامی که به پوشش فارسی برسد تبدیل به یک هوش جاافتاده شده باشد و نتیجه‌ی قوی‌تری را از خود نشان دهد. بنابراین به نکاتی که بالاتر در این مقاله به آنها اشاره شد توجه کنید و با نشانه‌گیری هدف کاربر از جستجوها و ارائه‌ی پاسخ مناسب برای جستجوی صوتی و تایپی صفحات را هرچه می‌توانید بهینه‌تر کنید.

Share:

یک دیدگاه بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دیدگاه‌ها

    آشیانه‌ی جغد سئو


    تبریک می‌گویم! شما لانه‌ی جغد را پیدا کردید!
    این آشیانه استراحتگاهی برای جغد سئو است تا هرازگاه دمی بیاساید و نفسی تازه کند!
    جغد سئو فعلا تنهاست و در لانه‌ی او همدمی نیست،
    کسی چه می‌داند، شاید روزی در این لانه سروکله‌ی پرنده‌ی دیگری هم پیدا شد!
    این جغد با چشمان گرد و تیزبین خود اخبار را رصد می‌کند و گاهی که لازم باشد برای شکار خبرهای لذیذ می‌پرد.
    اخبار سئو و آپدیت الگوریتم‌های گوگل غذای مورد علاقه‌ی اوست.