ዝርዝር ሁኔታ:

PySpark መሰብሰብ ምንድነው?
PySpark መሰብሰብ ምንድነው?

ቪዲዮ: PySpark መሰብሰብ ምንድነው?

ቪዲዮ: PySpark መሰብሰብ ምንድነው?
ቪዲዮ: ВВЕДЕНИЕ В PYSPARK И SPARKSQL / ОЛЕГ АГАПОВ 2024, ህዳር
Anonim

ሰብስብ (እርምጃ) - ሁሉንም የዳታ ስብስብ አካላት በአሽከርካሪው ፕሮግራም ላይ እንደ ድርድር ይመልሱ። ይህ ብዙውን ጊዜ ከማጣሪያ ወይም ሌላ በቂ የሆነ ትንሽ የውሂብ ስብስብን ከሚመልስ በኋላ ጠቃሚ ነው።

በዚህ መንገድ PySpark ምንድን ነው?

ፒስፓርክ ፕሮግራም ማውጣት። ፒስፓርክ የ Apache Spark እና Python ትብብር ነው። Apache Spark በፍጥነት፣ በአጠቃቀም ቀላልነት እና በዥረት መልቀቅ ላይ የተገነባ ክፍት ምንጭ የክላስተር ማስላት ማዕቀፍ ሲሆን ፒቲን ግን አጠቃላይ ዓላማ ያለው ከፍተኛ ደረጃ የፕሮግራም አወጣጥ ቋንቋ ነው።

እንዲሁም በፒስፓርክ ውስጥ ካርታ ምንድን ነው? ብልጭታ ካርታ ለውጥ. ሀ ካርታ በ Apache Spark ውስጥ የለውጥ ሥራ ነው። እሱ በእያንዳንዱ የ RDD አካል ላይ ተፈጻሚ ሲሆን ውጤቱን እንደ አዲስ RDD ይመልሳል። ካርታ RDD የርዝመት N ወደ ሌላ RDD ርዝመት N ይለውጣል። የግብአት እና የውጤት RDDዎች በተለምዶ ተመሳሳይ የመዝገቦች ብዛት ይኖራቸዋል።

በዚህ መንገድ በPySpark ውስጥ SparkContext ምንድን ነው?

ፒስፓርክ - SparkContext . ማስታወቂያዎች. SparkContext ለማንኛውም መግቢያ ነጥብ ነው ብልጭታ ተግባራዊነት. ማንኛውንም ስንሮጥ ብልጭታ መተግበሪያ, የአሽከርካሪ ፕሮግራም ይጀምራል, እሱም ዋናው ተግባር እና የእርስዎ SparkContext እዚህ ይጀምራል። ከዚያም የአሽከርካሪው መርሃ ግብር በሠራተኛ ኖዶች ላይ በአስፈፃሚዎች ውስጥ ያሉትን ስራዎች ይሰራል.

የ PySpark ሥሪትን እንዴት ማረጋገጥ እችላለሁ?

2 መልሶች

  1. የስፓርክ ሼል ተርሚናልን ይክፈቱ እና ትዕዛዙን ያስገቡ።
  2. sc.version ወይም ብልጭታ አስገባ - ስሪት።
  3. በጣም ቀላሉ መንገድ በትእዛዝ መስመር ውስጥ "ስፓርክ-ሼል" ማስጀመር ብቻ ነው. የሚለውን ያሳያል።
  4. የአሁኑ ንቁ የስፓርክ ስሪት።

የሚመከር: