ዝርዝር ሁኔታ:

በHadoop ውስጥ የተለያዩ የፋይል ቅርጸቶች ምንድናቸው?
በHadoop ውስጥ የተለያዩ የፋይል ቅርጸቶች ምንድናቸው?

ቪዲዮ: በHadoop ውስጥ የተለያዩ የፋይል ቅርጸቶች ምንድናቸው?

ቪዲዮ: በHadoop ውስጥ የተለያዩ የፋይል ቅርጸቶች ምንድናቸው?
ቪዲዮ: Забытый секрет наших бабушек 2024, ታህሳስ
Anonim

እንደ እድል ሆኖ፣ ትልቁ የመረጃ ማህበረሰብ በመሰረቱ በሶስት የተመቻቹ ነገሮች ላይ ሰፍሯል። የፋይል ቅርጸቶች ውስጥ ለመጠቀም ሃዱፕ ዘለላዎች፡ የተሻሻለ የረድፍ አምድ (ORC)፣ አቭሮ እና ፓርኬት።

በመቀጠል፣ አንድ ሰው፣ የተለያዩ የመረጃ ቅርጸቶች ምንድናቸው?

ሶስት ናቸው። የውሂብ አይነቶች ካርታ እና ጂአይኤስ የውሂብ ቅርጸቶች . እያንዳንዱ ዓይነት በተለየ መንገድ ይያዛል.

የውሂብ ቅርጸት ዓይነቶች

  • በፋይል ላይ የተመሰረተ - ቅርጻ ቅርጾች, ማይክሮስቴሽን ዲዛይን ፋይሎች (ዲጂኤን), የጂኦቲኤፍኤፍ ምስሎች.
  • ማውጫ ላይ የተመሰረተ - ESRI ArcInfo ሽፋኖች፣ የአሜሪካ ቆጠራ TIGER።
  • የውሂብ ጎታ ግንኙነቶች - PostGIS, ESRI ArcSDE, MySQL.

በተጨማሪም፣ በቀፎ ውስጥ የትኛው የፋይል ቅርጸት የተሻለ ነው? RCFile የረድፍ ዓምድ ነው። የፋይል ቅርጸት . ይህ ሌላ ቅጽ ነው። ቀፎ ፋይል ቅርጸት ይህም ከፍተኛ ረድፍ ደረጃ መጨናነቅ ተመኖች ያቀርባል. በአንድ ጊዜ ብዙ rowsat ለማከናወን መስፈርት ካሎት RCFileን መጠቀም ይችላሉ። ቅርጸት.

ይህንን ከግምት ውስጥ በማስገባት፣ በ Hadoop ውስጥ ያሉ የተለመዱ የግቤት ቅርጸቶች ምን ምን ናቸው?

InputFormat Inputsplit ይፈጥራል።

  • በጣም የተለመዱት የግቤት ፎርማት እነዚህ ናቸው፡-
  • FileInputFormat - ለሁሉም በፋይል ላይ የተመሰረተ የግቤት ፎርማት መሰረታዊ ክፍል ነው።
  • TextInputFormat - የMapReduce ነባሪው የግቤት ፎርማት ነው።
  • KeyValueTextInputFormat - ከ TextInputFormat ጋር ተመሳሳይ ነው።
  • ስለ InputFormat በHadoop የበለጠ ለማወቅ አገናኙን ይከተሉ።

በHadoop ውስጥ የኦርክ ፋይል ቅርጸት ምንድነው?

የ ORC ፋይል ቅርጸት የተሻሻለው ረድፍ አምድ ( ORC ) የፋይል ቅርጸት የ Hive ውሂብን ለማከማቸት በጣም ቀልጣፋ መንገድ ያቀርባል። የሌላኛው ቀፎ ውስንነቶችን ለማሸነፍ ነው የተቀየሰው የፋይል ቅርጸቶች . በመጠቀም ORC ፋይሎች Hiveis ውሂብ ሲያነብ፣ ሲጽፍ እና ሲያቀናብር አፈጻጸምን ያሻሽላል።

የሚመከር: