Data Selection & Filtering in Pandas in hindi
Data Selection & Filtering in Pandas (Hindi Guide for Students)
Data Selection & Filtering in Pandas – Table of Contents (Hindi)
- Column Selection in Pandas (Columns का Selection Pandas में) – in hindi
- Row Selection in Pandas (Rows का Selection Pandas में) – in hindi
- Boolean Indexing in Pandas (Pandas में Boolean Indexing) – in hindi
- loc and iloc in Pandas (Pandas में loc और iloc का Use) – in hindi
- Conditional Filtering in Pandas (Pandas में Condition के साथ Filtering) – in hindi
Data Selection & Filtering in Pandas in Hindi
अगर आप Data Science, Machine Learning या Python for Data Analysis पढ़ रहे हो, तो Pandas आपके syllabus का सबसे important हिस्सा है। College exams में भी Pandas से सीधे सवाल पूछे जाते हैं। आज के इस article में हम Data Selection & Filtering in Pandas को बिल्कुल basic से, आसान और exam-oriented तरीके से समझेंगे।
यह content ऐसे लिखा गया है जैसे classroom में teacher समझा रहा हो, ताकि आपको concept clear हो जाए और exam में answer लिखते समय confusion न रहे।
Column Selection in Pandas
Pandas में data आमतौर पर DataFrame के form में होता है, जो एक table जैसा structure होता है। इस table में columns बहुत important होते हैं क्योंकि analysis ज्यादातर column based ही किया जाता है।
Column Selection का मतलब है DataFrame में से किसी एक या एक से ज्यादा columns को access करना। Exam में यह question बहुत common है कि “Pandas में column कैसे select करते हैं?”
Single Column Selection
अगर आपको केवल एक column select करना है, तो उसका नाम square brackets के अंदर लिखते हैं। यह method सबसे simple और सबसे ज्यादा use होने वाला तरीका है।
df["Marks"]
यह code DataFrame df में से सिर्फ Marks column को return करेगा। Result एक Series के रूप में आता है, जो exam point of view से important fact है।
Multiple Columns Selection
अगर एक से ज्यादा columns चाहिए, तो columns के नाम list के अंदर pass किए जाते हैं। यह method तब use होती है जब comparison या combined analysis करना हो।
df[["Name", "Marks", "Grade"]]
यहाँ output एक DataFrame होगा, न कि Series। Exam में अक्सर पूछा जाता है कि single और multiple column selection में output का type क्या होता है।
Why Column Selection is Important
- Unnecessary data remove करके analysis आसान बनाता है
- Memory usage कम करता है
- Exam में data manipulation questions solve करने में मदद करता है
Row Selection in Pandas
Row Selection का मतलब है DataFrame में से specific rows को access करना। Rows आमतौर पर index के basis पर select की जाती हैं।
Pandas में हर row का एक index होता है, जो default रूप से 0 से start होता है। Exam में row selection के लिए index concept बहुत जरूरी है।
Select Row by Index Position
अगर आपको किसी specific index की row चाहिए, तो iloc का basic concept समझना जरूरी है। हालांकि detail में iloc आगे पढ़ेंगे, अभी simple understanding जरूरी है।
df.iloc[0]
यह code DataFrame की पहली row को select करेगा। Index हमेशा zero-based होता है, यह exam में लिखने वाला key point है।
Select Multiple Rows
Multiple rows select करने के लिए index range का use किया जाता है। यह slicing concept Python जैसा ही होता है।
df.iloc[0:5]
यह code index 0 से 4 तक की rows return करेगा। Last index include नहीं होता, यह point exam में अक्सर पूछा जाता है।
Row Selection Use Cases
- Top records check करने के लिए
- Sample data निकालने के लिए
- Large dataset को छोटे भागों में analyze करने के लिए
Boolean Indexing in Pandas
Boolean Indexing Pandas का सबसे powerful feature है। इसका मतलब है condition के basis पर data select करना।
Boolean Indexing में condition का result हमेशा True या False होता है। जहाँ condition True होती है, वही rows select होती हैं।
Basic Boolean Condition
मान लीजिए आपको सिर्फ उन students का data चाहिए जिनके marks 60 से ज्यादा हैं। ऐसे case में Boolean Indexing use की जाती है।
df[df["Marks"] > 60]
यह code केवल उन्हीं rows को दिखाएगा जहाँ Marks की value 60 से ज्यादा है। यह filtering का सबसे common exam question है।
Multiple Conditions with Boolean Indexing
Pandas में एक से ज्यादा conditions भी apply कर सकते हैं। इसके लिए logical operators जैसे & और | का use होता है।
df[(df["Marks"] > 60) & (df["Grade"] == "A")]
यह code उन students को select करेगा जिनके marks 60 से ज्यादा हैं और grade A है। Bracket का use mandatory है, यह exam में जरूर लिखना चाहिए।
Why Boolean Indexing is Important
- Real-world data filtering में सबसे ज्यादा use होता है
- Machine Learning dataset preparation में helpful
- Exam में practical based questions solve करने में मदद करता है
यहाँ तक आपने Column Selection, Row Selection और Boolean Indexing को detail में समझ लिया। Next part में हम loc और iloc तथा Conditional Filtering को और ज्यादा depth में exam oriented तरीके से समझेंगे।
loc and iloc in Pandas
Pandas में data selection को strong और flexible बनाने के लिए loc और iloc का use किया जाता है। College exams में यह topic बहुत high-weightage का होता है क्योंकि इससे concept clarity और practical understanding दोनों check की जाती हैं।
Simple words में समझें तो loc label-based selection करता है और iloc index-based selection करता है। यही दोनों के बीच सबसे बड़ा difference है।
What is loc in Pandas
loc का use तब किया जाता है जब rows या columns को उनके label के basis पर select करना हो। Label का मतलब column name या index label होता है।
df.loc[0, "Marks"]
यह code index label 0 वाली row से Marks column की value return करेगा। Exam में यह point जरूर लिखना चाहिए कि loc inclusive होता है।
Select Multiple Rows and Columns using loc
loc के साथ हम range और multiple columns दोनों select कर सकते हैं। यह feature data analysis को काफी आसान बना देता है।
df.loc[0:4, ["Name", "Marks"]]
यह code index 0 से 4 तक की rows और Name व Marks columns को select करेगा। यहाँ 4 include होता है, जो slicing concept से अलग है।
What is iloc in Pandas
iloc integer position के basis पर selection करता है। इसमें labels नहीं, बल्कि row और column की position count होती है।
df.iloc[0, 2]
यह code पहली row और तीसरे column की value return करेगा। iloc में हमेशा zero-based indexing follow होती है।
Select Range using iloc
iloc के साथ slicing Python list जैसी ही होती है। Last index include नहीं होता, यह exam में बहुत important fact है।
df.iloc[0:5, 1:3]
यह code rows 0 से 4 और columns 1 से 2 तक का data return करेगा। iloc performance-wise भी fast माना जाता है।
Difference between loc and iloc
| Basis | loc | iloc |
|---|---|---|
| Selection Type | Label-based | Index-based |
| Range Inclusion | End value included | End value excluded |
| Use Case | Meaningful labels | Position-based access |
Exam में अगर loc vs iloc का question आए, तो table format में answer लिखना best माना जाता है। यह presentation marks बढ़ाने में मदद करता है।
Conditional Filtering in Pandas
Conditional Filtering Pandas का real-world application वाला concept है। इसका use तब किया जाता है जब data को specific condition के basis पर filter करना हो।
यह topic Data Analysis, Machine Learning dataset preparation और exams तीनों के लिए बहुत important है।
Basic Conditional Filtering
Conditional Filtering में comparison operators जैसे >, <, ==, != का use होता है। इनका output हमेशा Boolean form में होता है।
df[df["Marks"] >= 40]
यह code उन सभी students को select करेगा जो pass हैं। यह example exam में बहुत common है।
Filtering with Multiple Conditions
Multiple conditions apply करते समय logical operators का use किया जाता है। Pandas में & AND के लिए और | OR के लिए use होता है।
df[(df["Marks"] >= 40) & (df["Attendance"] >= 75)]
यह code उन students को filter करेगा जिनके marks भी pass हैं और attendance भी required level पर है। Bracket का use compulsory है, वरना error आ सकता है।
Filtering using isin()
जब किसी column में multiple fixed values के basis पर filtering करनी हो, तब isin() method use होती है। यह method readability बढ़ाती है।
df[df["Grade"].isin(["A", "B"])]
यह code केवल A और B grade वाले students का data return करेगा। Exam में इसे advanced filtering माना जाता है।
Filtering using notnull() and isnull()
Real datasets में missing values common होती हैं। Pandas में missing values handle करने के लिए isnull() और notnull() use किया जाता है।
df[df["Marks"].notnull()]
यह code उन rows को select करेगा जहाँ Marks column में value available है। Data cleaning questions में यह concept बहुत काम आता है।
Why Conditional Filtering is Important
- Irrelevant data remove करने में मदद करता है
- Accurate analysis possible बनाता है
- Exam में case-study based questions solve करने में useful
अब आपने loc और iloc का practical use और Conditional Filtering को detail में समझ लिया है। ये दोनों concepts Pandas के core concepts माने जाते हैं और almost हर university exam में इनसे questions आते हैं।
FAQs
Pandas में Data Selection & Filtering का मतलब होता है DataFrame में से ज़रूरत के अनुसार specific rows या columns को चुनना। Data Selection से हम data को access करते हैं और Filtering से condition के basis पर unwanted data को हटा देते हैं। यह concept Data Analysis और college exams दोनों के लिए बहुत important होता है।
Pandas में Column Selection करने के लिए DataFrame के साथ square brackets का use किया जाता है।
Single column के लिए df["ColumnName"] और multiple columns के लिए
df[["Col1","Col2"]] लिखा जाता है।
Exam में यह भी पूछा जाता है कि single column selection का output Series होता है।
Boolean Indexing in Pandas एक ऐसा तरीका है जिसमें condition के आधार पर data select किया जाता है। Condition का result True या False होता है और केवल True वाली rows ही output में आती हैं। Example के तौर पर marks, grade या attendance के basis पर data filter किया जाता है।
loc और iloc दोनों data selection के लिए use होते हैं, लेकिन दोनों का तरीका अलग होता है। loc label-based selection करता है यानी column name या index label से data select करता है। iloc position-based selection करता है यानी row और column number के basis पर data access करता है। यह difference exams में अक्सर पूछा जाता है।
Conditional Filtering में comparison operators जैसे >, <, == का use करके data को filter किया जाता है। Multiple conditions के लिए & और | operators use होते हैं। यह technique real-world datasets और practical exam questions में बहुत useful होती है।
Pandas Data Selection & Filtering exam में इसलिए important है क्योंकि इससे data manipulation, analysis और logical thinking test की जाती है। Practical based questions, case studies और short notes में यह topic बार-बार पूछा जाता है। Data Science और Machine Learning के foundation के लिए भी यह concept जरूरी है।