در این لینک می توانید:
متن فارسی رو با حروف لاتین ( (Pinglish) بنویسید تا به خط فارسی تبدیل شود. متن نوشته شده رو می توونید مستقیما ایمیل کنید یا بصورت فایل تو کامپیوتر ذخیره کنید یا در برنامه و سایت های دیگه (مثل فیسبوک/یاهو چت/Google Talk و ...) کپی کنید.
دانشگاه صنعتی شریف برگزار می کند:
زنگ پژوهش
زمان: یکشنبه 90/10/4
13:30-14:30
سخنران: حسن عشایری
عنوان سخنرانی:Brain & Music
مکان:آمفی تئاتر دانشکده فیزیک
علاقهمندان به مبحث پردازش زبانهای طبیعی میتوانند جهت ثبت نام در کلاس رایگانی که با این موضوع توسط دانشگاه استنفورد به صورت آنلاین ارائه میشود به لینک زیر مراجعه کنند:
فارسدات (FarsDat)
دادگان گفتاری استاندارد برای زبان فارسی
1-هدف:
یکی از مهمترین ابزارها برای طراحی و ساخت سیستمهای هوشمند شناسایی گفتار، تهیه دادگان گفتاری برای آموزش مدلهای آکوستیکی صداها و آواهای تشکیلدهنده یک زبان است. برای تعلیم صداها و آواهای تشکیلدهنده یک زبان، تعداد بسیاری زیادی نمونه از این آواها که توسط گویندگان مختلف ادا شده است، باید توسط انسان و بصورت دستی و با دقت میلیثانیه از گفتار آنها استخراج شود.
2- چکیده:
دادگان فارسدات (FarsDat)، مجموعهای از عبارات و جملات است که توسط گویندگان فارسیزبان از مناطق مختلف کشور بیان شده است. این دادگان در سطح واج (آوا) با دقت میلیثانیه تقطیع و برچسبدهی شده و بصورت فایلهای مجزا ذخیره گردیده است. بدون تهیه این دادگان، شروع تحقیقات وسیع و گسترده در زمینه بازشناسی گفتار پیوسته فارسی با دایره لغات بزرگ (LVCSR) در دانشگاههای تراز اول و مراکز تحقیقاتی کشور میسر نبوده است. این دادگان، به عنوان دادگان استاندارد گفتاری زبان فارسی در داخل و خارج کشور شناخته شده و برای آموزش سیستمهای هوشمند تشخیص گفتار استفاده میشود. اهمیت طراحی و ساخت این دادگان در زبان فارسی، همانند اهمیت دادگان TIMIT در زبان انگلیسی است. در زبان فارسی، دادگانی با تنوع، وسعت و کیفیت برچسبزنیِ دادگان فارسدات وجود ندارد. البته این مهم با تلاش و کوشش مجموعهای از محققین دانشگاههای برتر کشور میسر گردیده که اولین و مهمترین گام را در شناسایی گفتار پیوسته در زبان فارسی برداشتهاند.
3- قابلیتها:
دادگان فارسدات دارای ویژگیها و قابلیتهای زیر است:
1- استخراج پرکاربردترین کلمات زبان فارسی از روزنامهها
2-طراحی 386 جمله با استفاده از 1000 کلمه شامل کلیه دنبالههای دوآوایی در زبان فارسی
3-متوازن بودن 386 جمله مذکور از لحاظ آوایی (Phonetically-Balanced)
4- انتخاب 304 گوینده بر حسب جنسیت، سن، میزان تحصیلات و لهجه از نقاط مختلف کشور
5-پوشش 10 لهجه رایج فارسی در کشور (تهرانی، ترکی، اصفهانی، جنوبی، شمالی، خراسانی، بلوچی، کردی، لری و یزدی)
6- تولید 20 جمله در 2 جلسه توسط هر گوینده با کیفیت صوتی بسیار بالا در اتاقک ضد صدا
7- تقطیع دستی جملات به آواهای تشکیلدهنده آنها و تهیه برچسبهای واجی و آوایی برای آن
8- ضبط جملات با فرکانس 22050 Hz و با کیفیت بسیار بالا (نسبت سیگنال به نویز 34 دسیبل)
9- تهیه نرمافزار مخصوص استفاده از دادگان فارسدات به منظور استفاده آسانتر توسط کاربران
10-استفاده از نشانهگذاری بینالمللی IPA برای برچسبزنی آواها و واجهای زبان فارسی
11- تأیید کیفیت دادگان توسط مؤسسه بینالمللی ELRA
12-برطرف کردن نقاط ابهام در برچسبزنی توسط دستگاه Sona-Graph
13-دارا بودن ساختاری شبیه به ساختار دادگان انگلیسی TIMIT (استاندارد ترین و معتبرترین دادگان گفتاری در زبان انگلیسی).
14-دارای مقاله مرجع چاپ شده در کنفرانس SST’1994 و قابل ارجاع برای پژوهشگران.
15-اولین و تنها دادگان برچسبدار در سطح آوا برای بازشناسی گفتار پیوسته فارسی در کشور
4- مشخصات فنی:
- سازگاری برنامه استفاده از فارسدات با سیستم عامل windows
5- کاربردها:
1- استفاده در طراحی و ساخت سیستمهای هوشمند تشخیص گفتار (تبدیل گفتار به متن فارسی) و تعیین هویت گوینده
2- استفاده برای کاربردهای پژوهشی و دانشگاهی در تمامی مراکز و دانشگاههای فعال در زمینه پردازش گفتار
3- استفاده در دانشکدههای فنی-مهندسی و نیز دانشکدههای زبانشناسی به عنوان دادگان استاندارد
6- افتخارات:
- رتبه سوم تحقیقات کاربردی جشنواره بین المللی خوارزمی در سال 1374.
منبع: سایت گروه پردازش صوت پژوهشکده پردازش هوشمند علائم
![]() | در سال های اخیر پیشرفت های زیادی تو زمینه ی "تشخیص گفتار" و "تبدیل گفتار به متن" صورت گرفته. حالا شرکت Apple اومده با معرفی "دستیار شخصی یا siri" برای سری iphone 4S از تکنولوژی تشخیص گفتار و تبدیل گفتار به متن برای ارسال sms, یافتن اطلاعات مورد نیاز, یادآوری کارها و ... استفاده کرده. |
پیشنهاد می کنم دو تا لینک زیرو حتما ببینید:
http://www.apple.com/iphone/#video-4s
http://www.apple.com/iphone/features/siri.html