به بازدید خوش آمدید گودال!
مکان فعلی:صفحه اول >> علم و فناوری

موسسه اطلاعات زبان ASEAN چین به طور مستقل یک جسد چند زبانه می سازد

2025-09-19 08:47:50 علم و فناوری

موسسه اطلاعات زبان ASEAN چین به طور مستقل یک جسد چند زبانه می سازد

در سالهای اخیر ، با توسعه سریع هوش مصنوعی و فناوری پردازش زبان طبیعی ، ساخت جسد چند زبانه به پایه و اساس مهمی برای ارتقاء ارتباطات متقابل زبان و نوآوری تکنولوژیکی تبدیل شده است. موسسه تحقیقاتی زبان ASEAN چین (از این پس از آن به عنوان "موسسه" یاد می شود) اخیراً اعلام کرد که با موفقیت یک قشر چند زبانه را که شامل زبان های اصلی ده کشور ASEAN است ، با هدف ترویج ارتباطات زبان ، انتشار فرهنگی و همکاری های فناوری هوشمند بین چین و کشورهای ASEAN ساخته است.

ساخت این جسد نه تنها شکاف در زمینه منابع زبان چند زبانه در چین را پر می کند ، بلکه پشتیبانی داده های با کیفیت بالا را برای برنامه های هوش مصنوعی مانند ترجمه ماشین ، تشخیص گفتار و تجزیه و تحلیل متن فراهم می کند. در اینجا مروری بر ویژگی ها و داده های اصلی این جسد آورده شده است:

موسسه اطلاعات زبان ASEAN چین به طور مستقل یک جسد چند زبانه می سازد

انواع زبانمقیاس Corpus (100 میلیون کلمه)مناطق پوششمنبع داده
چینی50اخبار ، قانون ، علوم و ادبیاتنشریات عمومی ، اسناد دولتی
تایلندی12رسانه های اجتماعی ، اخبار ، سفرارائه شده توسط موسسات خزنده و تعاونی شبکه
وابسته به ویتنامی10اقتصاد ، فرهنگ ، آموزشمقالات دانشگاهی ، رسانه های خبری
مالایی8تجارت ، قانون ، مکالمات روزانههمکاری شرکت ها ، آژانس ترجمه
وابسته به اندونزی8اخبار ، رسانه های اجتماعی ، فیلم و تلویزیونمجموعه داده های عمومی ، خزیدن شبکه

سناریوهای کاربردی

ساخت این جسد پشتیبانی اساسی برای برنامه های کاربردی در زمینه های مختلف ، عمدتاً از جمله:

1ترجمه ماشین: از طریق جسد موازی چند زبانه با کیفیت بالا ، این مؤسسه یک مدل ترجمه را آموزش داده است که از جفت های زبانی مانند چینی-انگلیسی ، چینی-تایلند و چینی و ویتنام پشتیبانی می کند و دقت ترجمه به طور قابل توجهی بهبود می یابد.

2تشخیص صدا: داده های صوتی در Corpus مواد آموزشی را برای سیستم های تشخیص گفتار کشورهای ASEAN فراهم می کند و به توسعه برنامه هایی مانند دستیاران صوتی هوشمند و سیستم های خدمات مشتری کمک می کند.

3بازیابی اطلاعات به زبان متقابل: کاربران می توانند محتوای مرتبط را به زبان های ASEAN از طریق کلمات کلیدی چینی جستجو کنند ، که تحقیقات دانشگاهی و کسب اطلاعات تجاری را تا حد زیادی تسهیل می کند.

4ارتباطات فرهنگی و تحقیقات: محتوای ادبیات ، فیلم و تلویزیون در Corpus به دانشمندان فرهنگی با مواد تحلیلی غنی و تبادل فرهنگی بین چین و کشورهای ASEAN می دهد.

برنامه ریزی آینده

این مؤسسه گفت که مقیاس و انواع زبانی جسد در آینده بیشتر گسترش می یابد و قصد دارد بیشتر زبان های کوچک ASEAN مانند برمه و کامبوج را شامل شود. در همین زمان ، این مؤسسه با مؤسسات دانشگاهی و بنگاههای اقتصادی در کشورهای آسه آن همکاری خواهد کرد تا به اشتراک گذاری آزاد Corpus و کمک به تحقیقات اطلاعات جهانی زبان کمک کند.

ساخت این جسد چند زبانه نه تنها یک دستاورد مهم انستیتوی اطلاعات زبان ASEAN چین است ، بلکه پشتیبانی جدی از قابلیت همکاری زبان و همکاری فنی تحت ابتکار "کمربند و جاده" نیز فراهم می کند. با پیشرفت مستمر فناوری هوش مصنوعی ، چشم انداز کاربردهای چند زبانه گسترده تر خواهد بود.

مقاله بعدی
  • چگونه وب سایت خود را بهینه کنید: 10 روز از موضوعات داغ و یک راهنمای ساختاریافتهدر عصر انفجار اطلاعات، بهینه سازی وب سایت (SEO) به کلید بهبود ترافیک و تجربه کاربر تبدیل شده است. این مقاله موضوعات داغ اینترنت را در 10 روز گذشته ترکیب می کند
    2026-01-29 علم و فناوری
  • چگونه یک مومیایی درست کنیممومیایی کردن یک مراسم تشییع جنازه مهم در تمدن مصر باستان بود. این نه تنها اعتقاد مصریان باستان به زندگی پس از مرگ را منعکس می کرد، بلکه دستاوردهای برجسته آنها را در پزشکی، شیمی و فناوری مومیایی کردن نیز نشان
    2026-01-26 علم و فناوری
  • نحوه ایجاد میانبر: موضوعات پرطرفدار و راهنمای عملی از سراسر وبدر میان موضوعات داغ اینترنت در 10 روز گذشته، فناوری و ابزارهای کارآمد توجه زیادی را به خود جلب کرده است، به ویژه مهارت ایجاد میانبر. این مقاله موضوعات داغ را با هم ترکیب می
    2026-01-24 علم و فناوری
  • چگونه ایمیل های پاک شده را بازیابی کنیم؟ ——راهنمای جامع و نکات کاربردیدر کار و زندگی مدرن، ایمیل یک ابزار ارتباطی ضروری است. با این حال، حذف تصادفی ایمیل ها اغلب اتفاق می افتد، به خصوص زمانی که ایمیل های مهم حذف می شوند. نحوه بازیابی
    2026-01-21 علم و فناوری
مقالات توصیه شده
رتبه بندی خواندن
پیوندهای دوستانه
خط تقسیم کننده