Javascript Disabled!

Please Enable Javascript if you disabled it, or use another browser we preferred Google Chrome.
Please Refresh Page After Enable

Powered By UnCopy Plugin.

پاندا است


پانداها یکی از بسته های زبان پایتون است که تجزیه و تحلیل داده ها را بسیار بهتر و آسان تر می کند. در حوزه علوم کامپیوتر، تجزیه و تحلیل داده ها و پیش پردازش تقریباً در هر مرحله انجام می شود و در آن داده های از دست رفته فرآیندی بسیار زمان بر و حیاتی است. بنابراین، در اینجا “pandas isna” می آید، که تابعی است که برای تشخیص مقادیر گم شده از داده ها استفاده می شود. به گونه‌ای کار می‌کند که یک شی با اندازه مشابه بولی را برمی‌گرداند، که نشان می‌دهد مقادیر در داده‌های داده شده “NA” هستند، که به معنای هیچ هستند، و کاراکترهایی مانند رشته‌هایی که خالی هستند اعلام شده‌اند.

همانطور که توضیح داده شد مقادیر از دست رفته به صورت “nan” یا “none” نشان داده می شوند. روش Pandas isna هیچ پارامتری در آن دخیل نیست. نوع بازگشتی یک دیتافریم با یک بولی است. “NaN” مقادیر “درست” را نشان می دهد. در غیر این صورت، هر داده دیگر به عنوان “نادرست” ترسیم می شود. برای پیاده سازی کدها، از ابزار “spyder” که به زبان “python” است استفاده خواهیم کرد. pandas isna یک شی جدید از پاندا است که جسم ورودی آن هم اندازه است.

نحو پانداها isna()

می توانیم از روش panda isna بر روی ساختارهای داده مختلف استفاده کنیم. شروع کار با نحو.

در دستور بالا از pandas isna() dataframe، به سادگی باید نام دیتافریمی را که می خواهیم روی آن کار کنیم وارد کنیم. فراخوانی روش با استفاده از “نقطه isna” انجام می شود. همچنین می‌توانیم متد pandas isna() را روی داده‌های سری اعمال کنیم. برای آن، باید نام شی سری را با متد isna() اختصاص دهیم.

حال بیایید برای درک بهتر روش پانداها مثال ها را انجام دهیم. روش‌هایی که در مثال‌ها برای شناسایی مقادیر گمشده در پانداها با استفاده از متد isna() در زیر پیاده‌سازی می‌کنیم:

  • شناسایی مقادیر گمشده در ستون دیتافریم با استفاده از pandas isna.
  • شناسایی مقادیر گمشده در کل دیتافریم با استفاده از pandas isna.
  • استفاده از pandas isna برای شمارش مقادیر تهی در هر ستون از dataframe.

ایجاد Dataframe برای پیاده سازی Pandas isna()

ابتدا باید کتابخانه pandas را به عنوان “pd” وارد کنیم. pandas یک کتابخانه منبع باز برای دستکاری داده ها است، و سپس کتابخانه numpy را به عنوان “np” وارد کنیم، که برای محاسبات عددی داده ها استفاده می شود. پس از وارد کردن کتابخانه ها، ما شروع به ایجاد یک دیتافریم می کنیم که می تواند به صورت “df” نیز نوشته شود. در «df»، نام، کشورها، فروش و هزینه‌ها را داریم. “چهار” متغیر وجود دارد که در آنها 2 ستون دارای داده های کاراکتر و دو ستون دیگر دارای داده های عددی هستند. دستور چاپ “اطلاعات فروش” را دنبال کنید. همانطور که در بالا توضیح داده شد، “np.nan” در کد “np” است، و “nan” مخفف یک عدد نیست. در مجموع، برای ایجاد مقادیر از دست رفته در دیتافریم است.

خروجی یک دیتافریم ایجاد شده را با توجه به داده های داده شده نشان می دهد و می بینیم که برخی از مقادیر به عنوان “nan” از دست رفته اند. مثال‌هایی که در زیر انجام خواهیم داد، نحوه رفع این مشکل را روشن می‌کند.

مثال 01: شناسایی مقادیر گمشده در یک ستون Dataframe با استفاده از Pandas isna()

در اینجا، ما مقادیر از دست رفته در ستون را شناسایی خواهیم کرد. ما ستون “فروش” را انتخاب کرده ایم تا عبارات گمشده آن را شناسایی کنیم. این روش به یافتن مقادیر گمشده در ستونی که می‌خواهیم بدانیم یا روی آن کار کنیم، کمک می‌کند تا به جای اعمال روش در کل دیتافریم، روی عباراتی که باید بدانیم تمرکز کنیم. ما چارچوب داده‌ای ایجاد کرده‌ایم که از آن می‌توانیم ببینیم که در فروش، مقداری وجود ندارد که به صورت «np.nan» نوشته شده است. با تکنیک درست و غلط کار می کند. مقادیر تخصیص داده شده به عنوان “نادرست” و موارد گم شده را به عنوان “درست” نشان می دهد.

خروجی نتایج را به صورت بولی به معنای درست و نادرست نمایش می دهد. مقادیر درست و نادرست که در آن به وضوح می‌توانیم جایی که مقدار گمشده نوشته شده است، به‌عنوان «درست» هستند.

مثال 02: شناسایی مقادیر گمشده در کل دیتا فریم با استفاده از روش Pandas isna

در این مثال، همانطور که در مثال قبلی انجام دادیم، عبارت گم شده را شناسایی خواهیم کرد، اما در اینجا، آن را در کل دیتافریم پیاده سازی خواهیم کرد. این به این معنی است که ما عبارات گم شده را در کل “df” شناسایی خواهیم کرد. “df” ایجاد شده دارای داده های فروش است که شامل نام، نام کشور، فروش و هزینه ها است. خط بعدی کد داده های فروش را توضیح می دهد که نام “df” داده شده به آن است. ما می‌توانیم آن را به تنهایی انتخاب کنیم، چه نامی به “df” شما می‌دهیم و سپس، “نقطه” isna وجود دارد که روش را اجرا می‌کند و خروجی را به صورت درست و نادرست چاپ می‌کند و عبارت‌های گمشده را در کل «df» تشخیص می‌دهد. “.

خروجی نشان می‌دهد که کل دیتافریم به‌عنوان «درست» و «نادرست» برچسب‌گذاری شده است، که مقادیر گمشده را نشان می‌دهد، مانند فروش (3) به عنوان «درست» و هزینه‌ها (2) نیز به‌عنوان «درست» نوشته می‌شود، که به این معنی است. اینها واحدی از دیتافریم هستند که داده در آن وجود ندارد.

مثال 03

حال در این مثال، شمارش مقادیر در دیتافریم را با روش pandas isna انجام می دهیم، انجام این روش با استفاده از دو روش پانداها، روش پانداها “isna” و پانداها “sum” امکان پذیر خواهد بود. همانطور که می دانیم isna () برای شناسایی مقدار گم شده استفاده می شود، و مجموع ما برای شمارش آن مقادیر از دست رفته در “df” است. این روش بسیار سودمند است، اغلب مورد استفاده قرار نمی گیرد، اما با توجه به این ترفند، استفاده از آن در حال افزایش است زیرا خروجی فرآیند را چنان واضح نشان می دهد که نیازی به شمارش در هر سطر یا هر ستون به خصوص تعداد خروجی نیست. درک تعداد عبارت های گم شده در “df” را ساده تر می کند.

این یک روش نحوی پیچیده برای قرار دادن دو روش مختلف در داخل یک پرانتز اما با خطوط متفاوت است. این یک تکنیک بسیار مفید و در عین حال قدرتمند برای داده های درگیر و تجزیه و تحلیل انجام شده بر روی داده ها است. می‌توانیم آن را یک روش پیچیده بنامیم که اشکال زدایی و خواندن داده‌ها را آسان‌تر می‌کند.

در اینجا، خروجی نسخه شمارش مقادیر از دست رفته را نشان می‌دهد، که مشخص می‌کند کدام ستون و چند عدد از دست رفته است. ستون فروش و هزینه هر دو دارای مقادیر «2» هستند. در حالی که نام و کشور هیچ عبارت گمشده ای ندارند.

نتیجه

در این مقاله، ما تمام روش‌هایی را که pandas isna() کار می‌کند، یاد گرفته‌ایم. در “df”، این راه سریع برای بررسی مقادیر از دست رفته است. ما مثال‌ها را برای درک بهتر کل دیتافریم متد pandas isna انجام داده‌ایم، همانطور که می‌خواهیم روش انتخابی ستون pandas isna و روش شمارش pandas isna را انجام دهیم. همه این روش‌ها، در مقیاس بزرگ، برای بهبود و سهولت کاربران کار می‌کنند، زیرا تشخیص مقدار گمشده در میلیون‌ها مجموعه داده دشوار خواهد بود. بنابراین، این رویکرد برای همه کسانی که با حجم عظیمی از داده ها برای هر فرآیند توسعه کار می کنند، نجات بخش خواهد بود.


به این مطلب امتیاز دهید

جهت ارسال نظر اینجا کلیک کنید.