Feedback Form

Data Selection & Filtering in Pandas in hindi

Data Selection & Filtering in Pandas (Hindi Guide for Students)

Data Selection & Filtering in Pandas in Hindi

अगर आप Data Science, Machine Learning या Python for Data Analysis पढ़ रहे हो, तो Pandas आपके syllabus का सबसे important हिस्सा है। College exams में भी Pandas से सीधे सवाल पूछे जाते हैं। आज के इस article में हम Data Selection & Filtering in Pandas को बिल्कुल basic से, आसान और exam-oriented तरीके से समझेंगे।

यह content ऐसे लिखा गया है जैसे classroom में teacher समझा रहा हो, ताकि आपको concept clear हो जाए और exam में answer लिखते समय confusion न रहे।

Column Selection in Pandas

Pandas में data आमतौर पर DataFrame के form में होता है, जो एक table जैसा structure होता है। इस table में columns बहुत important होते हैं क्योंकि analysis ज्यादातर column based ही किया जाता है।

Column Selection का मतलब है DataFrame में से किसी एक या एक से ज्यादा columns को access करना। Exam में यह question बहुत common है कि “Pandas में column कैसे select करते हैं?”

Single Column Selection

अगर आपको केवल एक column select करना है, तो उसका नाम square brackets के अंदर लिखते हैं। यह method सबसे simple और सबसे ज्यादा use होने वाला तरीका है।

df["Marks"]

यह code DataFrame df में से सिर्फ Marks column को return करेगा। Result एक Series के रूप में आता है, जो exam point of view से important fact है।

Multiple Columns Selection

अगर एक से ज्यादा columns चाहिए, तो columns के नाम list के अंदर pass किए जाते हैं। यह method तब use होती है जब comparison या combined analysis करना हो।

df[["Name", "Marks", "Grade"]]

यहाँ output एक DataFrame होगा, न कि Series। Exam में अक्सर पूछा जाता है कि single और multiple column selection में output का type क्या होता है।

Why Column Selection is Important

  • Unnecessary data remove करके analysis आसान बनाता है
  • Memory usage कम करता है
  • Exam में data manipulation questions solve करने में मदद करता है

Row Selection in Pandas

Row Selection का मतलब है DataFrame में से specific rows को access करना। Rows आमतौर पर index के basis पर select की जाती हैं।

Pandas में हर row का एक index होता है, जो default रूप से 0 से start होता है। Exam में row selection के लिए index concept बहुत जरूरी है।

Select Row by Index Position

अगर आपको किसी specific index की row चाहिए, तो iloc का basic concept समझना जरूरी है। हालांकि detail में iloc आगे पढ़ेंगे, अभी simple understanding जरूरी है।

df.iloc[0]

यह code DataFrame की पहली row को select करेगा। Index हमेशा zero-based होता है, यह exam में लिखने वाला key point है।

Select Multiple Rows

Multiple rows select करने के लिए index range का use किया जाता है। यह slicing concept Python जैसा ही होता है।

df.iloc[0:5]

यह code index 0 से 4 तक की rows return करेगा। Last index include नहीं होता, यह point exam में अक्सर पूछा जाता है।

Row Selection Use Cases

  • Top records check करने के लिए
  • Sample data निकालने के लिए
  • Large dataset को छोटे भागों में analyze करने के लिए

Boolean Indexing in Pandas

Boolean Indexing Pandas का सबसे powerful feature है। इसका मतलब है condition के basis पर data select करना।

Boolean Indexing में condition का result हमेशा True या False होता है। जहाँ condition True होती है, वही rows select होती हैं।

Basic Boolean Condition

मान लीजिए आपको सिर्फ उन students का data चाहिए जिनके marks 60 से ज्यादा हैं। ऐसे case में Boolean Indexing use की जाती है।

df[df["Marks"] > 60]

यह code केवल उन्हीं rows को दिखाएगा जहाँ Marks की value 60 से ज्यादा है। यह filtering का सबसे common exam question है।

Multiple Conditions with Boolean Indexing

Pandas में एक से ज्यादा conditions भी apply कर सकते हैं। इसके लिए logical operators जैसे & और | का use होता है।

df[(df["Marks"] > 60) & (df["Grade"] == "A")]

यह code उन students को select करेगा जिनके marks 60 से ज्यादा हैं और grade A है। Bracket का use mandatory है, यह exam में जरूर लिखना चाहिए।

Why Boolean Indexing is Important

  • Real-world data filtering में सबसे ज्यादा use होता है
  • Machine Learning dataset preparation में helpful
  • Exam में practical based questions solve करने में मदद करता है

यहाँ तक आपने Column Selection, Row Selection और Boolean Indexing को detail में समझ लिया। Next part में हम loc और iloc तथा Conditional Filtering को और ज्यादा depth में exam oriented तरीके से समझेंगे।

loc and iloc in Pandas

Pandas में data selection को strong और flexible बनाने के लिए loc और iloc का use किया जाता है। College exams में यह topic बहुत high-weightage का होता है क्योंकि इससे concept clarity और practical understanding दोनों check की जाती हैं।

Simple words में समझें तो loc label-based selection करता है और iloc index-based selection करता है। यही दोनों के बीच सबसे बड़ा difference है।

What is loc in Pandas

loc का use तब किया जाता है जब rows या columns को उनके label के basis पर select करना हो। Label का मतलब column name या index label होता है।

df.loc[0, "Marks"]

यह code index label 0 वाली row से Marks column की value return करेगा। Exam में यह point जरूर लिखना चाहिए कि loc inclusive होता है।

Select Multiple Rows and Columns using loc

loc के साथ हम range और multiple columns दोनों select कर सकते हैं। यह feature data analysis को काफी आसान बना देता है।

df.loc[0:4, ["Name", "Marks"]]

यह code index 0 से 4 तक की rows और Name व Marks columns को select करेगा। यहाँ 4 include होता है, जो slicing concept से अलग है।

What is iloc in Pandas

iloc integer position के basis पर selection करता है। इसमें labels नहीं, बल्कि row और column की position count होती है।

df.iloc[0, 2]

यह code पहली row और तीसरे column की value return करेगा। iloc में हमेशा zero-based indexing follow होती है।

Select Range using iloc

iloc के साथ slicing Python list जैसी ही होती है। Last index include नहीं होता, यह exam में बहुत important fact है।

df.iloc[0:5, 1:3]

यह code rows 0 से 4 और columns 1 से 2 तक का data return करेगा। iloc performance-wise भी fast माना जाता है।

Difference between loc and iloc

Basis loc iloc
Selection Type Label-based Index-based
Range Inclusion End value included End value excluded
Use Case Meaningful labels Position-based access

Exam में अगर loc vs iloc का question आए, तो table format में answer लिखना best माना जाता है। यह presentation marks बढ़ाने में मदद करता है।

Conditional Filtering in Pandas

Conditional Filtering Pandas का real-world application वाला concept है। इसका use तब किया जाता है जब data को specific condition के basis पर filter करना हो।

यह topic Data Analysis, Machine Learning dataset preparation और exams तीनों के लिए बहुत important है।

Basic Conditional Filtering

Conditional Filtering में comparison operators जैसे >, <, ==, != का use होता है। इनका output हमेशा Boolean form में होता है।

df[df["Marks"] >= 40]

यह code उन सभी students को select करेगा जो pass हैं। यह example exam में बहुत common है।

Filtering with Multiple Conditions

Multiple conditions apply करते समय logical operators का use किया जाता है। Pandas में & AND के लिए और | OR के लिए use होता है।

df[(df["Marks"] >= 40) & (df["Attendance"] >= 75)]

यह code उन students को filter करेगा जिनके marks भी pass हैं और attendance भी required level पर है। Bracket का use compulsory है, वरना error आ सकता है।

Filtering using isin()

जब किसी column में multiple fixed values के basis पर filtering करनी हो, तब isin() method use होती है। यह method readability बढ़ाती है।

df[df["Grade"].isin(["A", "B"])]

यह code केवल A और B grade वाले students का data return करेगा। Exam में इसे advanced filtering माना जाता है।

Filtering using notnull() and isnull()

Real datasets में missing values common होती हैं। Pandas में missing values handle करने के लिए isnull() और notnull() use किया जाता है।

df[df["Marks"].notnull()]

यह code उन rows को select करेगा जहाँ Marks column में value available है। Data cleaning questions में यह concept बहुत काम आता है।

Why Conditional Filtering is Important

  • Irrelevant data remove करने में मदद करता है
  • Accurate analysis possible बनाता है
  • Exam में case-study based questions solve करने में useful

अब आपने loc और iloc का practical use और Conditional Filtering को detail में समझ लिया है। ये दोनों concepts Pandas के core concepts माने जाते हैं और almost हर university exam में इनसे questions आते हैं।

FAQs

Pandas में Data Selection & Filtering का मतलब होता है DataFrame में से ज़रूरत के अनुसार specific rows या columns को चुनना। Data Selection से हम data को access करते हैं और Filtering से condition के basis पर unwanted data को हटा देते हैं। यह concept Data Analysis और college exams दोनों के लिए बहुत important होता है।

Pandas में Column Selection करने के लिए DataFrame के साथ square brackets का use किया जाता है। Single column के लिए df["ColumnName"] और multiple columns के लिए df[["Col1","Col2"]] लिखा जाता है। Exam में यह भी पूछा जाता है कि single column selection का output Series होता है।

Boolean Indexing in Pandas एक ऐसा तरीका है जिसमें condition के आधार पर data select किया जाता है। Condition का result True या False होता है और केवल True वाली rows ही output में आती हैं। Example के तौर पर marks, grade या attendance के basis पर data filter किया जाता है।

loc और iloc दोनों data selection के लिए use होते हैं, लेकिन दोनों का तरीका अलग होता है। loc label-based selection करता है यानी column name या index label से data select करता है। iloc position-based selection करता है यानी row और column number के basis पर data access करता है। यह difference exams में अक्सर पूछा जाता है।

Conditional Filtering में comparison operators जैसे >, <, == का use करके data को filter किया जाता है। Multiple conditions के लिए & और | operators use होते हैं। यह technique real-world datasets और practical exam questions में बहुत useful होती है।

Pandas Data Selection & Filtering exam में इसलिए important है क्योंकि इससे data manipulation, analysis और logical thinking test की जाती है। Practical based questions, case studies और short notes में यह topic बार-बार पूछा जाता है। Data Science और Machine Learning के foundation के लिए भी यह concept जरूरी है।