Computational Linguistics, Sharif University of Technology

هضم: ابزاری برای پردازش زبان فارسی در پایتون

هضم ابزاری برای اصلاح نویسه‌ها، تقطیع جمله‌ها و واژه‌ها، ریشه‌یابی کلمات، برچسب‌زنی اجزای سخن، تجزیۀ وابستگی و واسطی برای پیکره‌های بیجن‌خان و همشهری است که سازگار با بستۀ NLTK بوده و از پایتون 2.7 و 3.3 پشتیبانی می‌کند.

نسخۀ نمایشی این ابزار تحت وب قرار داده شده و امکان دانلود کدهای پایتون نیز وجود دارد.

نسخۀ تحت وب

هضم ابزار پردازش زبان پایتون فارسی

Paria Jamshidlou جمعه 16 اسفند‌ماه سال 1392 ساعت 10:16

13 نظر

شناسایی خودکار شاعران شعر نو با استفاده از ویژگی های زبانی

دوستان سلام

تصمیم گرفتم قسمتی از چکیده پایان نامه ام رو روی وبلاگ قرار بدم تا دوستانی که علاقمند هستند نظراتشون رو به اشتراک بذارن.

تشخیص نویسنده‌ی یک متن با استفاده از روش‌های آماری در حوزه‌ی شناسایی نویسنده که یکی از مسائل مهم در پردازش زبان طبیعی است قرار می‌گیرد. در مسئله‌ی شناسایی نویسنده با استفاده از روش‌های آماری عمل انتساب متنی بی‌نام به نویسنده‌ای صورت می‌گیرد. از مسائل مهم در این حوزه انتخاب ویژگی‌های سبکی متن برای مطالعه‌ی آماری آن است. برای این کار لازم است ویژگی‌هایی انتخاب شود که بتوان به‌صورت کمّی آن‌ها را مورد مطالعه قرار داد. این ویژگی‌ها می‌توانند واژگانی، حرفی، نحوی و یا مفهومی باشند. در مرحله‌ی دسته‌بندی متن که پس از انتخاب و استخراج ویژگی‌ها و به منظور شناسایی نویسنده‌ی متن صورت می‌گیرد، از روش‌های مختلفی همچون درخت تصمیم، شبکه‌ی عصبی مصنوعی، بیز ساده و روش‌های دیگر دسته‌بندی می‌توان استفاده کرد.

در این پژوهش، هدف اصلی تعیین کارآمدترین ویژگی‌های سبکی در متون فارسی و کمّی سازی آن‌ها برای استفاده در سامانه‌های شناسایی نویسنده است. به این منظور، به بررسی ویژگی‌های سبکی آثار چهار شاعر شعر نو (مهدی اخوان ثالث، نیما یوشیج، احمد شاملو و سهراب سپهری) در سه سطح واژگانی، نحوی و حرفی از پیکره‌ای که متشکل از اشعار این چهار تن بود پرداختیم. در مرحله‌ی بعد، با استفاده از سه دسته‌بند K نزدیکترین همسایه، ماشین بردار پشتیبان و بیز ساده عمل دسته‌بندی و انتساب داده‌‌های آزمایش به یکی از چهار شاعر فوق را انجام دادیم.

zahra دوشنبه 12 اسفند‌ماه سال 1392 ساعت 19:51

2 نظر

کلاس آنلاین زبان‌شناسی پیکره‌ای

دانشگاه لنکستر انگلستان ارائه می‌کند:

کلاس آنلاین «زبان‌شناسی پیکره‌ای: متدها، تحلیل، تفسیر»

این کلاس از 27 ژانویه آغاز شده و به مدت 8 هفته ادامه خواهد داشت

برای ثبت‌نام و دسترسی به ویدئوهای این کلاس اینجا کلیک کنید

ثبت‌نام در این کلاس رایگان است

در این کلاس مباحث گوناگون حوزۀ زبان‌شناسی پیکره‌ای از جمله مهارت‌های لازم برای جمع‌آوری و تحلیل دادگان، استفاده از پیکره در علوم انسانی، آشنایی با پیکره‌های معروف، چگونگی برچسب‌‍زنی و غیره آشنا خواهید شد.

با تشکر از مرتضی رضایی بابت اطلاع‌رسانی

زبان‌شناسی پیکره‌ای دانشگاه لنکستر کلاس آنلاین

Paria Jamshidlou سه‌شنبه 8 بهمن‌ماه سال 1392 ساعت 14:05

0 نظر

پایان‌نامه‌های زبان‌شناسی رایانشی

پژوهش‌های زیر در قالب پایان‌نامۀ کارشناسی ارشد توسط دانشجویان ورودی 90 انجام گرفته است.

_تحلیل معنایی حروف اضافۀ پیشین در زبان فارسی با استفاده از پیکرۀ متنی زبان فارسی

_شناسایی خودکار شاعران شعر نو

_ارائۀ راهکاری جهت تهیۀ پیکرۀ نحوی مبتنی بر دستور زایشی با استفاده از پیکرۀ وابستگی زبان فارسی

_بررسی فرایند دوگان‌سازی و واژگانی‌شدن آن در زبان فارسی

_برچسب‌گذاری خودکار مشخصه‌های نوایی در گفتار بی‌نشان فارسی

_فرایند اشتقاق و واژگانی‌شدن در زبان فارسی

_خلاصه‌ساز استخراجی تک سندی متون روایی مبتنی بر عملکرد ذهن انسان

پایان‌نامه زبان‌شناسی رایانشی تحلیل معنایی حروف اضافه شناسایی خودکار شاعر تهیۀ پیکرۀ نحوی فرایند دوگان‌سازی برچسب‌گذاری خودکار نوا فرایند اشتقاق

Paria Jamshidlou یکشنبه 6 بهمن‌ماه سال 1392 ساعت 22:15

0 نظر

اطلاعیه سازمان سنجش در خصوص اعلام ظرفیت رشته زبان‌شناسی رایانشی

قابل توجه پذیرفته شدگان کنکور کارشناسی ارشد ۹۲ و علاقه مندان به رشته زبان شناسی رایانشی:

لینک زیر مربوط به اصلاحیه سازمان سنجش در مورد اعلام ظرفیت جدید پذیرش در برخی رشته‌ها از جمله زبان‌شناسی رایانشی است (که قبلاً در دفترچه نیامده بود).

اصلاحیه سازمان سنجش

Paria Jamshidlou چهارشنبه 25 اردیبهشت‌ماه سال 1392 ساعت 21:38

3 نظر

Computational Linguistics, Sharif University of Technology

پیوندها

ابر برجسب

جدیدترین یادداشت‌ها

نویسندگان

بایگانی

هضم: ابزاری برای پردازش زبان فارسی در پایتون

شناسایی خودکار شاعران شعر نو با استفاده از ویژگی های زبانی

کلاس آنلاین زبان‌شناسی پیکره‌ای

پایان‌نامه‌های زبان‌شناسی رایانشی

اطلاعیه سازمان سنجش در خصوص اعلام ظرفیت رشته زبان‌شناسی رایانشی