Computational Linguistics, Sharif University of Technology

زبان‌شناسی رایانشی دانشگاه صنعتی شریف

Computational Linguistics, Sharif University of Technology

زبان‌شناسی رایانشی دانشگاه صنعتی شریف

هضم: ابزاری برای پردازش زبان فارسی در پایتون

هضم ابزاری برای اصلاح نویسه‌ها، تقطیع جمله‌ها و واژه‌ها، ریشه‌یابی کلمات، برچسب‌زنی اجزای سخن، تجزیۀ وابستگی و واسطی برای پیکره‌های بیجن‌خان و همشهری است که سازگار با بستۀ NLTK بوده و از پایتون 2.7 و 3.3 پشتیبانی می‌کند. 


نسخۀ نمایشی این ابزار تحت وب قرار داده شده و امکان دانلود کدهای پایتون نیز وجود دارد.

 

نسخۀ تحت وب


شناسایی خودکار شاعران شعر نو با استفاده از ویژگی های زبانی

دوستان سلام


تصمیم گرفتم قسمتی از چکیده پایان نامه ام رو روی وبلاگ قرار بدم تا دوستانی که علاقمند هستند نظراتشون رو به اشتراک بذارن. 


تشخیص نویسنده‌ی یک متن با استفاده از روش‌های آماری در حوزه‌ی شناسایی نویسنده که یکی از مسائل مهم در پردازش زبان طبیعی است قرار می‌گیرد. در مسئله‌ی شناسایی نویسنده با استفاده از روش‌های آماری عمل انتساب متنی بی‌نام به نویسنده‌ای صورت می‌گیرد. از مسائل مهم در این حوزه انتخاب ویژگی‌های سبکی متن برای مطالعه‌ی آماری آن است. برای این کار لازم است ویژگی‌هایی انتخاب شود که بتوان به‌صورت کمّی آن‌ها را مورد مطالعه قرار داد. این ویژگی‌ها می‌توانند واژگانی، حرفی، نحوی و یا مفهومی باشند. در مرحله‌ی دسته‌بندی متن که پس از انتخاب و استخراج ویژگی‌ها و به منظور شناسایی نویسنده‌ی متن صورت می‌گیرد، از روش‌های مختلفی همچون درخت تصمیم، شبکه‌ی عصبی مصنوعی، بیز ساده و روش‌های دیگر دسته‌بندی می‌توان استفاده کرد.

 در این پژوهش، هدف اصلی تعیین کارآمدترین ویژگی‌های سبکی در متون فارسی و کمّی سازی آن‌ها برای استفاده در سامانه‌های شناسایی نویسنده است. به این منظور، به بررسی ویژگی‌های سبکی آثار چهار شاعر شعر نو (مهدی اخوان ثالث، نیما یوشیج، احمد شاملو و سهراب سپهری) در سه سطح واژگانی، نحوی و حرفی از پیکره‌ای که متشکل از اشعار این چهار تن بود پرداختیم. در مرحله‌ی بعد، با استفاده از سه دسته‌بند K نزدیکترین همسایه، ماشین بردار پشتیبان و بیز ساده عمل دسته‌بندی و انتساب داده‌‌های آزمایش به یکی از چهار شاعر فوق را انجام دادیم.



کلاس آنلاین زبان‌شناسی پیکره‌ای


دانشگاه لنکستر انگلستان ارائه می‌کند:


کلاس آنلاین «زبان‌شناسی پیکره‌ای: متدها، تحلیل، تفسیر»

این کلاس از 27 ژانویه آغاز شده و به مدت 8 هفته ادامه خواهد داشت

برای ثبت‌نام و دسترسی به ویدئوهای این کلاس اینجا کلیک کنید

ثبت‌نام در این کلاس رایگان است


در این کلاس مباحث گوناگون حوزۀ زبان‌شناسی پیکره‌ای از جمله مهارت‌های لازم برای جمع‌آوری و تحلیل دادگان، استفاده از پیکره در علوم انسانی، آشنایی با پیکره‌های معروف، چگونگی برچسب‌‍زنی و غیره آشنا خواهید شد.


با تشکر از مرتضی رضایی بابت اطلاع‌رسانی



پایان‌نامه‌های زبان‌شناسی رایانشی

پژوهش‌های زیر در قالب پایان‌نامۀ کارشناسی ارشد توسط دانشجویان ورودی 90 انجام گرفته است.


_تحلیل معنایی حروف اضافۀ پیشین در زبان فارسی با استفاده از پیکرۀ متنی زبان فارسی

_شناسایی خودکار شاعران شعر نو

_ارائۀ راهکاری جهت تهیۀ پیکرۀ نحوی مبتنی بر دستور زایشی با استفاده از پیکرۀ وابستگی زبان فارسی

_بررسی فرایند دوگان‌سازی و واژگانی‌شدن آن در زبان فارسی

_برچسب‌گذاری خودکار مشخصه‌های نوایی در گفتار بی‌نشان فارسی

_فرایند اشتقاق و واژگانی‌شدن در زبان فارسی

_خلاصه‌ساز استخراجی تک سندی متون روایی مبتنی بر عملکرد ذهن انسان



اطلاعیه سازمان سنجش در خصوص اعلام ظرفیت رشته زبان‌شناسی رایانشی

قابل توجه پذیرفته شدگان کنکور کارشناسی ارشد ۹۲ و علاقه مندان به رشته زبان شناسی رایانشی:  

لینک زیر مربوط به اصلاحیه سازمان سنجش در مورد اعلام ظرفیت جدید پذیرش در برخی رشته‌ها از جمله زبان‌شناسی رایانشی است (که قبلاً در دفترچه نیامده بود).