هضم ابزاری برای اصلاح نویسهها، تقطیع جملهها و واژهها، ریشهیابی کلمات، برچسبزنی اجزای سخن، تجزیۀ وابستگی و واسطی برای پیکرههای بیجنخان و همشهری است که سازگار با بستۀ NLTK بوده و از پایتون 2.7 و 3.3 پشتیبانی میکند.
نسخۀ نمایشی این ابزار تحت وب قرار داده شده و امکان دانلود کدهای پایتون نیز وجود دارد.
دوستان سلام
تصمیم گرفتم قسمتی از چکیده پایان نامه ام رو روی وبلاگ قرار بدم تا دوستانی که علاقمند هستند نظراتشون رو به اشتراک بذارن.
تشخیص نویسندهی یک متن با استفاده از روشهای آماری در حوزهی شناسایی نویسنده که یکی از مسائل مهم در پردازش زبان طبیعی است قرار میگیرد. در مسئلهی شناسایی نویسنده با استفاده از روشهای آماری عمل انتساب متنی بینام به نویسندهای صورت میگیرد. از مسائل مهم در این حوزه انتخاب ویژگیهای سبکی متن برای مطالعهی آماری آن است. برای این کار لازم است ویژگیهایی انتخاب شود که بتوان بهصورت کمّی آنها را مورد مطالعه قرار داد. این ویژگیها میتوانند واژگانی، حرفی، نحوی و یا مفهومی باشند. در مرحلهی دستهبندی متن که پس از انتخاب و استخراج ویژگیها و به منظور شناسایی نویسندهی متن صورت میگیرد، از روشهای مختلفی همچون درخت تصمیم، شبکهی عصبی مصنوعی، بیز ساده و روشهای دیگر دستهبندی میتوان استفاده کرد.
در این پژوهش، هدف اصلی تعیین کارآمدترین ویژگیهای سبکی در متون فارسی و کمّی سازی آنها برای استفاده در سامانههای شناسایی نویسنده است. به این منظور، به بررسی ویژگیهای سبکی آثار چهار شاعر شعر نو (مهدی اخوان ثالث، نیما یوشیج، احمد شاملو و سهراب سپهری) در سه سطح واژگانی، نحوی و حرفی از پیکرهای که متشکل از اشعار این چهار تن بود پرداختیم. در مرحلهی بعد، با استفاده از سه دستهبند K نزدیکترین همسایه، ماشین بردار پشتیبان و بیز ساده عمل دستهبندی و انتساب دادههای آزمایش به یکی از چهار شاعر فوق را انجام دادیم.
دانشگاه لنکستر انگلستان ارائه میکند:
کلاس آنلاین «زبانشناسی پیکرهای: متدها، تحلیل، تفسیر»
این کلاس از 27 ژانویه آغاز شده و به مدت 8 هفته ادامه خواهد داشت
برای ثبتنام و دسترسی به ویدئوهای این کلاس اینجا کلیک کنید
ثبتنام در این کلاس رایگان است
در این کلاس مباحث گوناگون حوزۀ زبانشناسی پیکرهای از جمله مهارتهای لازم برای جمعآوری و تحلیل دادگان، استفاده از پیکره در علوم انسانی، آشنایی با پیکرههای معروف، چگونگی برچسبزنی و غیره آشنا خواهید شد.
با تشکر از مرتضی رضایی بابت اطلاعرسانی
پژوهشهای زیر در قالب پایاننامۀ کارشناسی ارشد توسط دانشجویان ورودی 90 انجام گرفته است.
_تحلیل معنایی حروف اضافۀ پیشین در زبان فارسی با استفاده از پیکرۀ متنی زبان فارسی
_شناسایی خودکار شاعران شعر نو
_ارائۀ راهکاری جهت تهیۀ پیکرۀ نحوی مبتنی بر دستور زایشی با استفاده از پیکرۀ وابستگی زبان فارسی
_بررسی فرایند دوگانسازی و واژگانیشدن آن در زبان فارسی
_برچسبگذاری خودکار مشخصههای نوایی در گفتار بینشان فارسی
_فرایند اشتقاق و واژگانیشدن در زبان فارسی
_خلاصهساز استخراجی تک سندی متون روایی مبتنی بر عملکرد ذهن انسان
قابل توجه پذیرفته شدگان کنکور کارشناسی ارشد ۹۲ و علاقه مندان به رشته زبان شناسی رایانشی:
لینک زیر مربوط به اصلاحیه سازمان سنجش در مورد اعلام ظرفیت جدید پذیرش در برخی رشتهها از جمله زبانشناسی رایانشی است (که قبلاً در دفترچه نیامده بود).