Javascript Disabled!

Please Enable Javascript if you disabled it, or use another browser we preferred Google Chrome.
Please Refresh Page After Enable

Powered By UnCopy Plugin.

NLTK Tokenize


NLTK Tokenize

مقدمه ای بر NLTK Tokenize

NLTK tokenize فرآیند تجزیه یک جمله به لیست کلمات به نام توکن است. توکن سازی را می توان به روش های مختلفی انجام داد. می‌توان گفت که توکن‌سازی NLTK مقدار زیادی از متن را به تکه‌های کوچک‌تر تقسیم می‌کند که به عنوان توکن شناخته می‌شوند. این نشانه‌ها برای تشخیص الگو بسیار ارزشمند هستند و به عنوان پایه‌ای برای واژه‌سازی و ریشه‌یابی استفاده می‌شوند.

NLTK Tokenize چیست؟

  • توکن سازی همچنین می تواند برای جایگزینی داده های حساس با داده های غیر حساس استفاده شود. طبقه بندی متن، چت ربات های هوشمند و سایر برنامه ها به پردازش زبان طبیعی متکی هستند. برای رسیدن به هدف ذکر شده در بالا، درک الگوی متن بسیار مهم است.
  • هنگام کار با داده ها، توکن سازی یک فعالیت رایج برای دانشمندان داده است. این مستلزم شکستن یک متن بزرگ به نشانه های کوچک است. توکن سازی مرحله اولیه در اکثر پروژه های پردازش زبان طبیعی (NLP) است زیرا پایه و اساس ساخت مدل های قوی است و به درک بهتر متن کمک می کند.
  • اگرچه نوشتن split برای tokenize در پایتون ساده است، اما در برخی شرایط کارآمد نیست.
  • در حال حاضر، در مورد lemmatization نگران نباشید. در عوض، آنها را به عنوان مراحلی در پاکسازی داده های متنی با NLP در نظر بگیرید.
  • NLP در کارهایی مانند طبقه بندی متن و فیلتر هرزنامه و کتابخانه های یادگیری عمیق مانند Keras و Tensorflow استفاده می شود.
  • ماژول جملات نشانه‌گذاری NLTK، که شامل ماژول‌های فرعی است، بخشی کلیدی از جعبه ابزار زبان طبیعی است.
  • برای تفکیک یک عبارت به کلمات، متد را کلمه tokenize می نامیم. سپس، نتیجه توکن سازی کلمه را می توان به یک Data Frame برای برنامه های کاربردی پیشرفته تبدیل کرد.
  • همچنین می‌تواند نقطه شروعی برای عملیات پاکسازی متن، از جمله حذف علائم نقطه‌گذاری و ریشه‌گذاری باشد. در نهایت، برای آموزش و تولید یک پیش‌بینی، مدل‌های یادگیری ماشینی به داده‌های عددی نیاز دارند.
  • از روش nltk.word tokenize برای توکن کردن کلمات و جملات با NLTK استفاده خواهد شد. NLTK Tokenization روشی برای تجزیه داده های گسترده به قطعات کوچکتر برای تجزیه و تحلیل شخصیت متن است.
  • NLTK برای آموزش مدل های یادگیری ماشین و پاکسازی متن در پردازش زبان طبیعی استفاده می شود.

چگونه از NLTK Tokenize استفاده کنیم؟

با NLTK، کلمات و عبارات نشانه گذاری شده را می توان بردارید و به یک قاب داده تبدیل کرد. توکن‌سازی با کیت ابزار زبان طبیعی (NLTK) مستلزم ریشه‌یابی و آموزش الگوریتم‌های یادگیری ماشین است.

جعبه ابزار برای زبان طبیعی، ماژول توکن سازی “tokenize” در کتابخانه Python موجود است. دو نوع تابع توکن سازی در بسته NLTK “tokenize”.

نشانه گذاری کلمات با کیت ابزار زبان طبیعی مستلزم تجزیه یک متن به کلمات با استفاده از کیت ابزار زبان طبیعی است. دستورالعمل های زیر را دنبال کنید تا کلمات را با استفاده از NLTK نشانه گذاری کنید. مراحل زیر نحوه استفاده از آن را به صورت زیر نشان می دهد.

  • ماژول وارد کنید.
from nltk.tokenize import word_tokenize

وارد کردن ماژول 1

  • یک متغیر را با متن پر کنید. مثال زیر متغیر fill با متن را نشان می دهد.
py_word = "Python nltk tokenize steps"

یک متغیر 2 را پر کنید

  • برای متغیر، از تابع “word tokenize” استفاده کنید.
print (word_tokenize(py_word))

تابع نشانه گذاری کلمه 3

  • به نتیجه توکن سازی نگاهی بیندازید.

نتیجه 4

برای استفاده از tokenize در کد پایتون، ابتدا باید ماژول tokenize را وارد کنیم. پس از وارد کردن، می توانیم از این ماژول در برنامه خود استفاده کنیم. مثال زیر نشان می دهد که چگونه ماژول word_tokenize را به کد خود وارد کنیم.

کد:

from nltk.tokenize import word_tokenize

از nltk tokenize 5 استفاده کنید

مثال زیر نشان می دهد که چگونه می توانیم از آن در کد خود استفاده کنیم. در مثال زیر، خط اول، ماژول word_tokenize را با استفاده از ماژول nltk.tokenize وارد کرده ایم.

پس از وارد کردن ماژول در خط بعدی، باید شیء توکن های کلمه را ایجاد کنیم. پس از ایجاد شی در خط بعدی، این شی را به روش چاپ چاپ کردیم.

ما یک شی از کلمه با نام به عنوان py_word ایجاد کرده ایم به شرح زیر است.

کد:

from nltk.tokenize import word_tokenize
py_word = "Python nltk tokenize"
print (word_tokenize(py_word))

از nltk tokenize 6 استفاده کنید

NLTK Tokenize Words

یک ماژول فرعی از توکنیز NLTK ارسال کرد. نشانه گذاری جمله برای ماژول نشانه گذاری NLTK ضروری است. برای تعیین نسبت به هر دو جمله NLTK و توکنیزهای کلمه نیاز داریم. خروجی برای یادگیری ماشین مفید است. توکن ها به هر جزء اشاره دارند.

برای نشانه گذاری یک جمله از تابع send tokenize استفاده کنید. از نمونه “PunktSentenceTokenizer” ماژول nltk.tokenize.punkt استفاده می کند. در مثال زیر از ماژول word_tokenize استفاده کرده ایم.

کد:

from nltk.tokenize import word_tokenize
py_token = "python nltk tokenize words"
print (word_tokenize(py_token))

NLTK کلمات را نشانه گذاری کنید

در مثال بالا می بینیم که ابتدا نام ماژول را به صورت word_tokenize از nltk.tokenize وارد کرده ایم.

پس از وارد کردن ماژول، چندین کلمه را در جملات ارائه کرده ایم. سپس، ما مفعول آن کلمات را ایجاد کرده ایم. در مرحله بعد، شی کلمه جمله را به عنوان py_token ایجاد کردیم. سپس شی را با استفاده از ماژول word_tokenize و روش چاپ چاپ می کنیم.

کد NLTK Tokenize

برای اجرای کد NLTK tokenize، باید NLTK را در سیستم خود نصب کنیم. مثال زیر نصب NLTK را با استفاده از دستور pip نشان می دهد.

pip install nltk

NLTK Tokenize Code 1

مثال بالا نشان می دهد که NLTK قبلاً در سیستم ما نصب شده است و نشان می دهد که نیاز قبلاً برآورده شده است. در مثال زیر، ما مفعول کلمه جمله name را به صورت py_token ایجاد کرده ایم.

مثال زیر به شرح زیر است.

کد:

from nltk.tokenize import sent_tokenize
py_token = "Python nltk tokenize code"
print(sent_tokenize(py_token))

NLTK Tokenize Code 2

برنامه

برای اجرای برنامه پایتون باید NLTK روی سیستم ما نصب شود. ماژول NLTK یک جعبه ابزار بزرگ است که برای کمک به ما در بسیاری از جنبه های NLP طراحی شده است. به عنوان مثال، یک نشانه چیزی نیست جز جزئی از هر چیزی که طبق قوانین تقسیم شده است. هنگامی که هر جمله ای به کلمات تبدیل می شود، برای مثال، اگر جملات یک پاراگراف را نشانه گذاری کنیم، هر کلمه یک نشانه است.

برنامه های زیر به شرح زیر می باشد.

کد:

from nltk.tokenize import sent_tokenize, word_tokenize
py_word = "Nltk tokenize program"
print (sent_tokenize(py_word))
print (word_tokenize(py_word))

برنامه NLTK Tokenize

نتیجه

ماژول جملات نشانه‌گذاری NLTK، که شامل ماژول‌های فرعی است، بخشی کلیدی از جعبه ابزار زبان طبیعی است. این عبارت است که یک جمله را به فهرست کلماتی به نام نشانه ها تقسیم می کند. توکن سازی را می توان به روش های مختلفی انجام داد.

مقالات پیشنهادی

این راهنمای NLTK Tokenize است. در اینجا همچنین به تعریف و نحوه استفاده از NLTK Tokenize همراه با پیاده سازی کد و برنامه ها می پردازیم. همچنین می توانید برای کسب اطلاعات بیشتر به مقالات زیر نگاهی بیندازید –

  1. NLTK را نصب کنید
  2. نسخه آناکوندا
  3. زبان Coq
  4. ابزارک ابزار جاوا Swing GUI

پست NLTK Tokenize اولین بار در تگ سرویس ظاهر شد.


به این مطلب امتیاز دهید

جهت ارسال نظر اینجا کلیک کنید.