ቪዲዮ: በ Spark Scala ውስጥ DataFrame ምንድን ነው?
2024 ደራሲ ደራሲ: Lynn Donovan | [email protected]. ለመጨረሻ ጊዜ የተሻሻለው: 2023-12-15 23:42
ሀ Spark DataFrame የማጣራት፣ የቡድን ወይም የማስላት ስራዎችን የሚያቀርብ እና ጥቅም ላይ ሊውል የሚችል በተሰየሙ አምዶች የተደራጀ የተከፋፈለ የመረጃ ስብስብ ነው። ብልጭታ SQL የውሂብ ፍሬሞች ከተዋቀሩ የውሂብ ፋይሎች፣ ነባር RDDዎች፣ ቀፎ ውስጥ ካሉ ሰንጠረዦች ወይም ከውጭ የውሂብ ጎታዎች መገንባት ይቻላል።
በተመሳሳይ፣ በ Scala ውስጥ የውሂብ ፍሬም ምንድነው?
በተሰየሙ ዓምዶች የተደራጀ የተሰራጨ የውሂብ ስብስብ። ሀ የውሂብ ፍሬም በስፓርክ SQL ውስጥ ካለው የግንኙነት ሰንጠረዥ ጋር እኩል ነው። አንድ አምድ ከ የውሂብ ፍሬም ፣ ውስጥ የመተግበር ዘዴን ተጠቀም ስካላ እና ኮል በጃቫ.
በ Scala ውስጥ መብራት ምን ጥቅም አለው? ( በርቷል ነው። ተጠቅሟል ውስጥ ብልጭታ ቀጥተኛ እሴትን ወደ አዲስ አምድ ለመለወጥ።) ኮንካት አምዶችን እንደ ነጋሪ እሴት ስለሚወስድ በርቷል መሆን አለበት ተጠቅሟል እዚህ.
ከላይ በተጨማሪ በ RDD እና በ DataFrame መካከል ያለው ልዩነት ምንድን ነው?
ስፓርክ RDD ኤፒአይዎች - አን አርዲዲ Resilient Distributed Datasets ማለት ነው። እሱ ተነባቢ-ብቻ የክፍል መዝገቦች ስብስብ ነው። አርዲዲ መሰረታዊ የመረጃ መዋቅር ነው ብልጭታ . DataFrame በስፓርክ ውስጥ ገንቢዎች መዋቅርን በተከፋፈለው የውሂብ ስብስብ ላይ እንዲጭኑ ያስችላቸዋል፣ ይህም ከፍተኛ ደረጃን ማጠቃለል ያስችላል።
በአምድ በስፓርክ ውስጥ ምን ያደርጋል?
ከአምድ ጋር ብልጭታ () ተግባር ነው። እንደገና ለመሰየም፣ እሴቱን ለመቀየር፣ ያለውን የውሂብ ፍሬም አምድ የውሂብ አይነት ለመቀየር እና እንዲሁም ይችላል አዲስ አምድ ለመፍጠር በዚህ ልጥፍ ላይ፣ I ያደርጋል በብዛት ጥቅም ላይ በሚውሉት የዳታ ፍሬም አምድ ክንዋኔዎች ውስጥ መራመድዎ ስካላ እና የፒስፓርክ ምሳሌዎች.
የሚመከር:
በስርዓተ ክወናው ውስጥ ያለው ሂደት ምንድን ነው በስርዓተ ክወናው ውስጥ ያለው ክር ምንድን ነው?
ሂደት፣ በቀላል አነጋገር፣ የአፈጻጸም ፕሮግራም ነው። አንድ ወይም ከዚያ በላይ ክሮች በሂደቱ አውድ ውስጥ ይሰራሉ። ክር የስርዓተ ክወናው ፕሮሰሰር ጊዜ የሚመደብበት መሰረታዊ አሃድ ነው። የክር ፑል በዋነኝነት የሚያገለግለው የአፕሊኬሽን ክሮች ብዛትን ለመቀነስ እና የሰራተኛ ክሮች አስተዳደርን ለማቅረብ ነው።
DataFrame Loc ምንድን ነው?
Pandas DataFrame፡ loc() ተግባር የሎክ() ተግባር የረድፎችን እና የአምዶችን ቡድን በመለያ(ዎች) ወይም በቦሊያን ድርድር ለመድረስ ስራ ላይ ይውላል . ዘንግ ሲሰነጠቅ ተመሳሳይ ርዝመት ያለው ቡሊያን ድርድር፣ ለምሳሌ (እውነት፣ ሀሰት፣ እውነት)
በ Scala ውስጥ RDD ምንድን ነው?
Resilient Distributed Datasets (RDD) የስፓርክ መሰረታዊ የውሂብ መዋቅር ነው። የማይለወጥ የተከፋፈለ የነገሮች ስብስብ ነው። RDDs በተጠቃሚ የተገለጹ ክፍሎችን ጨምሮ ማንኛውንም አይነት Python፣ Java ወይም Scala ነገሮችን ሊይዝ ይችላል። በመደበኛነት፣ RDD ተነባቢ-ብቻ፣ የተከፋፈለ የመዛግብት ስብስብ ነው።
በ Scala ውስጥ ስውር ክፍል ምንድን ነው?
Scala 2.10 ስውር ክፍሎች የሚባል አዲስ ባህሪ አስተዋውቋል። ስውር ክፍል በተዘዋዋሪ ቁልፍ ቃል ምልክት የተደረገበት ክፍል ነው። ይህ ቁልፍ ቃል የክፍሉን ቀዳሚ ገንቢ ለተዘዋዋሪ ልወጣዎች ክፍሉ በሚሰፋበት ጊዜ እንዲገኝ ያደርገዋል። በSIP-13 ውስጥ ስውር ክፍሎች ቀርበዋል።
DataFrame ነገር ምንድን ነው?
የውሂብ ፍሬም DataFrame ባለ 2-ልኬት የተሰየመ የውሂብ መዋቅር ነው የተለያዩ አይነቶች ሊሆኑ የሚችሉ አምዶች። እንደ የተመን ሉህ ወይም SQL ሠንጠረዥ፣ ወይም እንደ ተከታታይ ዕቃዎች dict ሊያስቡት ይችላሉ። በአጠቃላይ በጣም በብዛት ጥቅም ላይ የዋለው የፓንዳስ ነገር ነው