موسسه اطلاعات زبان ASEAN چین به طور مستقل یک جسد چند زبانه می سازد
در سالهای اخیر ، با توسعه سریع هوش مصنوعی و فناوری پردازش زبان طبیعی ، ساخت جسد چند زبانه به پایه و اساس مهمی برای ارتقاء ارتباطات متقابل زبان و نوآوری تکنولوژیکی تبدیل شده است. موسسه تحقیقاتی زبان ASEAN چین (از این پس از آن به عنوان "موسسه" یاد می شود) اخیراً اعلام کرد که با موفقیت یک قشر چند زبانه را که شامل زبان های اصلی ده کشور ASEAN است ، با هدف ترویج ارتباطات زبان ، انتشار فرهنگی و همکاری های فناوری هوشمند بین چین و کشورهای ASEAN ساخته است.
ساخت این جسد نه تنها شکاف در زمینه منابع زبان چند زبانه در چین را پر می کند ، بلکه پشتیبانی داده های با کیفیت بالا را برای برنامه های هوش مصنوعی مانند ترجمه ماشین ، تشخیص گفتار و تجزیه و تحلیل متن فراهم می کند. در اینجا مروری بر ویژگی ها و داده های اصلی این جسد آورده شده است:
انواع زبان | مقیاس Corpus (100 میلیون کلمه) | مناطق پوشش | منبع داده |
---|---|---|---|
چینی | 50 | اخبار ، قانون ، علوم و ادبیات | نشریات عمومی ، اسناد دولتی |
تایلندی | 12 | رسانه های اجتماعی ، اخبار ، سفر | ارائه شده توسط موسسات خزنده و تعاونی شبکه |
وابسته به ویتنامی | 10 | اقتصاد ، فرهنگ ، آموزش | مقالات دانشگاهی ، رسانه های خبری |
مالایی | 8 | تجارت ، قانون ، مکالمات روزانه | همکاری شرکت ها ، آژانس ترجمه |
وابسته به اندونزی | 8 | اخبار ، رسانه های اجتماعی ، فیلم و تلویزیون | مجموعه داده های عمومی ، خزیدن شبکه |
سناریوهای کاربردی
ساخت این جسد پشتیبانی اساسی برای برنامه های کاربردی در زمینه های مختلف ، عمدتاً از جمله:
1ترجمه ماشین: از طریق جسد موازی چند زبانه با کیفیت بالا ، این مؤسسه یک مدل ترجمه را آموزش داده است که از جفت های زبانی مانند چینی-انگلیسی ، چینی-تایلند و چینی و ویتنام پشتیبانی می کند و دقت ترجمه به طور قابل توجهی بهبود می یابد.
2تشخیص صدا: داده های صوتی در Corpus مواد آموزشی را برای سیستم های تشخیص گفتار کشورهای ASEAN فراهم می کند و به توسعه برنامه هایی مانند دستیاران صوتی هوشمند و سیستم های خدمات مشتری کمک می کند.
3بازیابی اطلاعات به زبان متقابل: کاربران می توانند محتوای مرتبط را به زبان های ASEAN از طریق کلمات کلیدی چینی جستجو کنند ، که تحقیقات دانشگاهی و کسب اطلاعات تجاری را تا حد زیادی تسهیل می کند.
4ارتباطات فرهنگی و تحقیقات: محتوای ادبیات ، فیلم و تلویزیون در Corpus به دانشمندان فرهنگی با مواد تحلیلی غنی و تبادل فرهنگی بین چین و کشورهای ASEAN می دهد.
برنامه ریزی آینده
این مؤسسه گفت که مقیاس و انواع زبانی جسد در آینده بیشتر گسترش می یابد و قصد دارد بیشتر زبان های کوچک ASEAN مانند برمه و کامبوج را شامل شود. در همین زمان ، این مؤسسه با مؤسسات دانشگاهی و بنگاههای اقتصادی در کشورهای آسه آن همکاری خواهد کرد تا به اشتراک گذاری آزاد Corpus و کمک به تحقیقات اطلاعات جهانی زبان کمک کند.
ساخت این جسد چند زبانه نه تنها یک دستاورد مهم انستیتوی اطلاعات زبان ASEAN چین است ، بلکه پشتیبانی جدی از قابلیت همکاری زبان و همکاری فنی تحت ابتکار "کمربند و جاده" نیز فراهم می کند. با پیشرفت مستمر فناوری هوش مصنوعی ، چشم انداز کاربردهای چند زبانه گسترده تر خواهد بود.
جزئیات را بررسی کنید
جزئیات را بررسی کنید