علاقهمندان به مبحث پردازش زبانهای طبیعی میتوانند جهت ثبت نام در کلاس رایگانی که با این موضوع توسط دانشگاه استنفورد به صورت آنلاین ارائه میشود به لینک زیر مراجعه کنند:
فارسدات (FarsDat)
دادگان گفتاری استاندارد برای زبان فارسی
1-هدف:
یکی از مهمترین ابزارها برای طراحی و ساخت سیستمهای هوشمند شناسایی گفتار، تهیه دادگان گفتاری برای آموزش مدلهای آکوستیکی صداها و آواهای تشکیلدهنده یک زبان است. برای تعلیم صداها و آواهای تشکیلدهنده یک زبان، تعداد بسیاری زیادی نمونه از این آواها که توسط گویندگان مختلف ادا شده است، باید توسط انسان و بصورت دستی و با دقت میلیثانیه از گفتار آنها استخراج شود.
2- چکیده:
دادگان فارسدات (FarsDat)، مجموعهای از عبارات و جملات است که توسط گویندگان فارسیزبان از مناطق مختلف کشور بیان شده است. این دادگان در سطح واج (آوا) با دقت میلیثانیه تقطیع و برچسبدهی شده و بصورت فایلهای مجزا ذخیره گردیده است. بدون تهیه این دادگان، شروع تحقیقات وسیع و گسترده در زمینه بازشناسی گفتار پیوسته فارسی با دایره لغات بزرگ (LVCSR) در دانشگاههای تراز اول و مراکز تحقیقاتی کشور میسر نبوده است. این دادگان، به عنوان دادگان استاندارد گفتاری زبان فارسی در داخل و خارج کشور شناخته شده و برای آموزش سیستمهای هوشمند تشخیص گفتار استفاده میشود. اهمیت طراحی و ساخت این دادگان در زبان فارسی، همانند اهمیت دادگان TIMIT در زبان انگلیسی است. در زبان فارسی، دادگانی با تنوع، وسعت و کیفیت برچسبزنیِ دادگان فارسدات وجود ندارد. البته این مهم با تلاش و کوشش مجموعهای از محققین دانشگاههای برتر کشور میسر گردیده که اولین و مهمترین گام را در شناسایی گفتار پیوسته در زبان فارسی برداشتهاند.
3- قابلیتها:
دادگان فارسدات دارای ویژگیها و قابلیتهای زیر است:
1- استخراج پرکاربردترین کلمات زبان فارسی از روزنامهها
2-طراحی 386 جمله با استفاده از 1000 کلمه شامل کلیه دنبالههای دوآوایی در زبان فارسی
3-متوازن بودن 386 جمله مذکور از لحاظ آوایی (Phonetically-Balanced)
4- انتخاب 304 گوینده بر حسب جنسیت، سن، میزان تحصیلات و لهجه از نقاط مختلف کشور
5-پوشش 10 لهجه رایج فارسی در کشور (تهرانی، ترکی، اصفهانی، جنوبی، شمالی، خراسانی، بلوچی، کردی، لری و یزدی)
6- تولید 20 جمله در 2 جلسه توسط هر گوینده با کیفیت صوتی بسیار بالا در اتاقک ضد صدا
7- تقطیع دستی جملات به آواهای تشکیلدهنده آنها و تهیه برچسبهای واجی و آوایی برای آن
8- ضبط جملات با فرکانس 22050 Hz و با کیفیت بسیار بالا (نسبت سیگنال به نویز 34 دسیبل)
9- تهیه نرمافزار مخصوص استفاده از دادگان فارسدات به منظور استفاده آسانتر توسط کاربران
10-استفاده از نشانهگذاری بینالمللی IPA برای برچسبزنی آواها و واجهای زبان فارسی
11- تأیید کیفیت دادگان توسط مؤسسه بینالمللی ELRA
12-برطرف کردن نقاط ابهام در برچسبزنی توسط دستگاه Sona-Graph
13-دارا بودن ساختاری شبیه به ساختار دادگان انگلیسی TIMIT (استاندارد ترین و معتبرترین دادگان گفتاری در زبان انگلیسی).
14-دارای مقاله مرجع چاپ شده در کنفرانس SST’1994 و قابل ارجاع برای پژوهشگران.
15-اولین و تنها دادگان برچسبدار در سطح آوا برای بازشناسی گفتار پیوسته فارسی در کشور
4- مشخصات فنی:
- سازگاری برنامه استفاده از فارسدات با سیستم عامل windows
5- کاربردها:
1- استفاده در طراحی و ساخت سیستمهای هوشمند تشخیص گفتار (تبدیل گفتار به متن فارسی) و تعیین هویت گوینده
2- استفاده برای کاربردهای پژوهشی و دانشگاهی در تمامی مراکز و دانشگاههای فعال در زمینه پردازش گفتار
3- استفاده در دانشکدههای فنی-مهندسی و نیز دانشکدههای زبانشناسی به عنوان دادگان استاندارد
6- افتخارات:
- رتبه سوم تحقیقات کاربردی جشنواره بین المللی خوارزمی در سال 1374.
منبع: سایت گروه پردازش صوت پژوهشکده پردازش هوشمند علائم
در سال های اخیر پیشرفت های زیادی تو زمینه ی "تشخیص گفتار" و "تبدیل گفتار به متن" صورت گرفته. حالا شرکت Apple اومده با معرفی "دستیار شخصی یا siri" برای سری iphone 4S از تکنولوژی تشخیص گفتار و تبدیل گفتار به متن برای ارسال sms, یافتن اطلاعات مورد نیاز, یادآوری کارها و ... استفاده کرده. |
پیشنهاد می کنم دو تا لینک زیرو حتما ببینید:
http://www.apple.com/iphone/#video-4s
http://www.apple.com/iphone/features/siri.html
تو این سری از پستها میخوام شما رو با مراکز، موسسات، شرکتها و سازمانهایی که در زمینههایی که به نحوی با زبانشناسی رایانشی مرتبط هستند آشنا کنم. آشنایی با این مراکز و فعالیتهای اونها میتونه از طرفی شما رو با کاربردهای عملی علم زبانشناسی رایانشی آشنا کنه و از طرف دیگه فرصتهای شغلی موجود برای این رشته رو به شما معرفی کنه. از اونجایی که من فرصت نمیکنم اطلاعات کاملی رو دربارۀ این مراکز براتون بنویسم، لینک اونها رو براتون میذارم که خودتون اطلاعات کاملتر رو توی وبسایتهاشون پیدا کنید.
و اما اولین شرکتی که میخوام معرفی کنم:
شرکت عصر گویش پرداز – (فعال در زمینۀ فناوری پردازش گفتار)
در مورد این شرکت فقط این رو بگم که مدیرش آقای دکتر حسین صامتی، استاد دانشکدۀ کامپیوتر دانشگاه صنعتی شریف و مدیر گروه هوش مصنوعی این دانشکده است. اصولاً این شرکت هم از دل آزمایشگاه پردازش گفتار دکتر صامتی در دانشگاه شریف در اومده.
منتظر اضافه شدن قسمتهای دیگه با همین عنوان باشید...
مقداری خبر داد: | |
تدوین فرهنگ زبان شناسی رایانشی در دانشگاه شریف | |
رئیس مرکز زبانها و زبان شناسی دانشگاه صنعتی شریف از تولید فرهنگ توصیفی دو زبانه زبان شناسی رایانشی در این دانشگاه خبر داد و گفت: فرهنگ کامل دوزبانه زبان شناسی رایانشی تا پایان سال جاری آماده چاپ می شود. | |
به گزارش خبرگزاری مهر، دکتر علی مقداری، عرضه فرهنگ توصیفی دو زبانه زبان شناسی رایانشی را از اقدامات مرکز زبانهای دانشگاه شریف نام برد و افزود: عرضه این فرهنگ در تهیه بانک اصطلاحات علمی کشور است که تاکنون بخشی از این فرهنگ عرضه شده است. رئیس مرکز زبانها و زبان شناسی دانشگاه صنعتی شریف ابراز امیدواری کرد که فرهنگ کامل دو زبانه زبان شناسی استفاده ماشین است. مقداری زبان شناسی رایانشی را حوزه ای میان رشته ای معرفی کرد و اظهار داشت: از جمله این کاربردهای این حوزه می توان به مهندسی زبان، هوش مصنوعی، ترجمه ماشینی متون از زبانی به زبان دیگر، طراحی موتورهای جستجوگر، استخراج اطلاعات از متون با حجم بالا، جستجو در دادگانهای زبانی بزرگ یا در اینترنت برای یافتن پاسخهای لازم به پرسشهای متفاوت اشاره کرد. وی پردازش متن و گفتار، دریافت فرمانهای صوتی توسط ماشین و اجرای دقیق آنها و خلاصه سازی متون را از دیگر کاربردهای مدل سازی زبانی ذکر کرد و یادآور شد: درک چگونگی عملکرد زبان و مدل سازی آن برای رایانه محور اصلی پژوهشهای زبان شناسی رایانشی است به گونه ای که رایانه می تواند با برخورداری از دانش زبانی اهل زبان و نیز ویژگی پردازش سریع، داده های زبانی را با دقت و سرعت بسیار بالایی تجزیه و تحلیل کند. مقداری به بیان دستاوردهای مرکز زبانها و زبانشناسی این دانشگاه پرداخت و یادآور شد: "برچسب زنی معنایی پیکره زبان فارسی" از طرحهای این مرکز است که با هدف یک سیستم رفع ابهام معنایی واژه و پیاده سازی یک بر چسب زن مفهومی خودکار برای زبان فارسی و استفاده از آن برای برچسب زنی یک پیکره اجرایی شد. مقداری از راه اندازی دو آزمایشگاه زبان شناسی در این مرکز خبر داد و اضافه کرد: گروه زبان شناسی رایانشی مجهز به دو آزمایشگاه پردازش گفتار و زبان و زبان شناسی رایانشی است. این دو آزمایشگاه در زمینه فناوریهای زبان، متن و گفتار فعال هستند. رایانشی تا پایان سال جاری آماده چاپ شود. منبع:خبرگزاری مهر |