๐ก๋๊ท๋ชจ ๋ถ์ฐ ์ฒ๋ฆฌ์ ํ๋ ์์ํฌ๐ก
โ๏ธ๊ตฌ์กฐํ ๋ฐ์ดํฐ์ ๋น๊ตฌ์กฐํ ๋ฐ์ดํฐ
SQL๋ก ๋ฐ์ดํฐ๋ฅผ ์ง๊ณํ๋ ๊ฒฝ์ฐ, ๋จผ์ ํ ์ด๋ธ์ ์นผ๋ผ ๋ช ๊ณผ ๋ฐ์ดํฐํ, ํ ์ด๋ธ ๊ฐ์ ๊ด๊ณ ๋ฑ์ ์คํค๋ง๋ก ์ ํจ
=> ์คํค๋ง๊ฐ ๋ช ํํ๊ฒ ์ ์๋ ๋ฐ์ดํฐ๋ฅผ ๊ตฌ์กฐํ๋ ๋ฐ์ดํฐ๋ผ๊ณ ํ๋ค!
(๊ธฐ์กด์ ๋ฐ์ดํฐ ์จ์ดํ์ฐ์ค์์๋ ํญ์ ๊ตฌ์กฐํ๋ ๋ฐ์ดํฐ๋ก ์ถ์ ํ๋ ๊ฒ์ด ์ผ๋ฐ์ ์ด์์)
์คํค๋ง๊ฐ ์๋ ๋ฐ์ดํฐ๋ฅผ ๋น๊ตฌ์กฐํ ๋ฐ์ดํฐ๋ผ๊ณ ํจ!
(์์ฐ ์ธ์ด๋ก ์์ฑ๋ ํ ์คํธ ๋ฐ์ดํฐ์ ์ด๋ฏธ์ง, ๋์์ ๋ฑ์ ๋ฏธ๋์ด ๋ฐ์ดํฐ๊ฐ ํฌํจ๋จ)
=> ์ด ์ํ๋ก๋ SQL๋ก ์ ๋๋ก ์ง๊ณ X
๋น๊ตฌ์กฐํ ๋ฐ์ดํฐ๋ฅผ ๋ถ์ฐ ์คํ ๋ฆฌ์ง ๋ฑ์ ์ ์ฅํ๊ณ ๊ทธ๊ฒ์ ๋ถ์ฐ ์์คํ ์์ ์ฒ๋ฆฌํ๋ ๊ฒ์ด ๋ฐ์ดํฐ ๋ ์ดํฌ์ ๊ฐ๋ ์
=> ๋ฐ์ดํฐ๋ฅผ ๊ฐ๊ณตํ๋ ๊ณผ์ ์์ ์คํค๋ง๋ฅผ ์ ์ํ๊ณ , ๊ตฌ์กฐํ๋ ๋ฐ์ดํฐ๋ก ๋ณํํจ์ผ๋ก์จ ๋ค๋ฅธ ๋ฐ์ดํฐ์ ๋ง์ฐฌ๊ฐ์ง๋ก ๋ถ์ํ ์ ์์
์คํค๋ง๋ฆฌ์ค ๋ฐ์ดํฐ
CSV, JSON, XML ๋ฑ์ ๋ฐ์ดํฐ๋ ์์์ ์ ํด์ ธ ์์ง๋ง, ์นผ๋ผ ์๋ ๋ฐ์ดํฐํ์ ๋ช ํํ์ง ์์ ์คํค๋ง๋ฆฌ์ค ๋ฐ์ดํฐ๋ผ๊ณ ๋ถ๋ฆผ
(๋ช๋ช NoSQL ๋ฐ์ดํฐ๋ฒ ์ด์ค๋ ์คํค๋ง๋ฆฌ์ค ๋ฐ์ดํฐ์ ๋์ํ๊ณ ์์ผ๋ฉฐ ๋ฐ์ดํฐ ๋ ์ดํฌ์์๋ ๋๋์ผ๋ก ์ถ์ ๋ ์คํค๋ง๋ฆฌ์ค ๋ฐ์ดํฐ๋ฅผ ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํ๋๋ก ํ๋ ์๊ตฌ๋ ์ข ์ข ์๋ค๊ณ ํจ)
์ธํฐ๋ท์ ํตํด ์ฃผ๊ณ ๋ฐ๋ ๋ฐ์ดํฐ๋ก JSON ํ์์ ์ด์ฉํ๋ ๊ฒฝ์ฐ๊ฐ ํนํ ๋ง์
=> ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ๋ค์ด๋ก๋ํ ๋๋ง๋ค ์คํค๋ง๋ฅผ ์ ํ๋ ๊ฒ์ ์๊ฐ๊ณผ ๋น์ฉ์ด ์์๋๊ธฐ ๋๋ฌธ์ JSON์ JSON ๊ทธ๋๋ก ์ ์ฅํ๊ณ ๊ฑฐ๊ธฐ์ ๋ฐ์ดํฐ ๋ถ์์ ํ์ํ ํ๋๋ง์ ์ถ์ถํ๋๊ฒ ๊ฐ๋จํจ
๋ฐ์ดํฐ ๊ตฌ์กฐํ์ ํ์ดํ๋ผ์ธ
์ ํ์ดํ๋ผ์ธ์ ์ดํด๋ณด๋ฉด ๊ฐ ๋ฐ์ดํฐ ์์ค์์ ์์ง๋ ๋น๊ตฌ์กฐํ ๋ฐ์ดํฐ, ์คํค๋ง๋ฆฌ์ค ๋ฐ์ดํฐ๋ ์ฒ์์ ๋ถ์ฐ ์คํ ๋ฆฌ์ง์ ๋ณด์กด๋จ
=> ๋ถ์ฐ ์คํ ๋ฆฌ์ง์ ์์ง๋ ๋ฐ์ดํฐ๋ ๋ช ํํ ์คํค๋ง๋ฅผ ๊ฐ์ง ์๋ ๊ฒ๋ ๋ง์ผ๋ฏ๋ก ๊ทธ๋๋ก SQL ์ง๊ณ ๋ถ๊ฐ๋ฅ
๋ฐ๋ผ์, ์คํค๋ง๋ฅผ ๋ช ํํ๊ฒ ํ ํ ์ด๋ธ ํ์์ ๊ตฌ์กฐํ ๋ฐ์ดํฐ๋ก ๋ณํํด์ผํจ
=> ์ผ๋ฐ์ ์ผ๋ก ๊ตฌ์กฐํ ๋ฐ์ดํฐ๋ ๋ฐ์ดํฐ์ ์์ถ๋ฅ ์ ๋์ด๊ธฐ ์ํด ์ด ์งํฅ ์คํ ๋ฆฌ์ง๋ก ์ ์ฅํจ
๋น๊ตฌ์กฐํ ๋ฐ์ดํฐ๋ฅผ ์ฝ์ด ๋ค์ฌ ์ด ์งํฅ ์คํ ๋ฆฌ์ง๋ก ๋ณํํ๋ ๊ณผ์ ์์๋ ๋ฐ์ดํฐ์ ๊ฐ๊ณต ๋ฐ ์์ถ์ ์ํด ๋ง์ ์ปดํจํฐ ๋ฆฌ์์ค๊ฐ ์๋น๋จ
=> Hadoop๊ณผ Spark ๋ฑ์ ๋ถ์ฐ ์ฒ๋ฆฌ ํ๋ ์์ํฌ๋ฅผ ์ฌ์ฉํจ
โ๏ธHadoop
Hadoop์ ๋จ์ผ ์ํํธ์จ์ด๊ฐ ์๋๋ผ ๋ถ์ฐ ์์คํ ์ ๊ตฌ์ฑํ๋ ๋ค์์ ์ํํธ์จ์ด๋ก ์ด๋ฃจ์ด์ง ์งํฉ์ฒด์ด๋ค!
=> Hadoop2(2013๋ ๋ฐฐํฌ)๋ถํฐ YARN์ด๋ผ๊ณ ๋ถ๋ฆฌ๋ ์๋ก์ด ๋ฆฌ์์ค ๊ด๋ฆฌ์ ์์์ ๋ณต์์ ๋ถ์ฐ ์ ํ๋ฆฌ์ผ์ด์ ์ด ๋์ํ๋ ๊ตฌ์ฑ์ผ๋ก ๋์ด, ๋๊ท๋ชจ ๋ถ์ฐ์์คํ ์ ๊ตฌ์ถํ๊ธฐ ์ํ ๊ณตํต ํ๋ซํผ์ ์ญํ ์ ๋ด๋นํ๊ณ ์์
๋ถ์ฐ ์์คํ ์ ๊ตฌ์ฑ ์์
Hadoop์ ๊ธฐ๋ณธ ๊ตฌ์ฑ ์์๋ ๋ถ์ฐ ํ์ผ ์์คํ ์ธ HDFS, ๋ฆฌ์์ค ๊ด๋ฆฌ์์ธ YARN, ๋ถ์ฐ ๋ฐ์ดํฐ ์ฒ๋ฆฌ์ ๊ธฐ๋ฐ์ธ MapReduce 3๊ฐ์ง ์ด๋ค
๊ทธ ์ธ์ ํ๋ก์ ํธ๋ Hadoop ๋ณธ์ฒด์๋ ๋ ๋ฆฝ์ ์ผ๋ก ๊ฐ๋ฐ๋์ด Hadoop์ ์ด์ฉํ ๋ถ์ฐ ์ ํ๋ฆฌ์ผ์ด์ ์ผ๋ก ๋์ํจ
=> ๋ชจ๋ ๋ถ์ฐ ์์คํ ์ด Hadoop์ ์์กดํ๋ ๊ฒ์ด ์๋๋ผ, Hadoop์ ์ผ๋ถ๋ง ์ฌ์ฉํ๊ฑฐ๋ ํน์ ์ ํ ์ด์ฉํ์ง ์๋ ๊ตฌ์ฑ๋ ์์
๋ค์ํ ์ํํธ์จ์ด ์ค์์ ์์ ์๊ฒ ๋ง๋ ๊ฒ์ ์ ํํ๊ณ ๊ทธ๊ฒ๋ค์ ์กฐํฉํจ์ผ๋ก์จ ์์คํ ์ ๊ตฌ์ฑํ๋ ๊ฒ์ด Hadoop์ ์ค์ฌ์ผ๋ก ํ๋ ๋ฐ์ดํฐ ์ฒ๋ฆฌ์ ํน์ง
๋ถ์ฐ ํ์ผ ์์คํ ๊ณผ ๋ฆฌ์์ค ๊ด๋ฆฌ์
Hadoop์์ ์ฒ๋ฆฌ๋๋ ๋ฐ์ดํฐ ๋๋ถ๋ถ์ ๋ถ์ฐ ํ์ผ ์์คํ ์ธ HDFS์ ์ ์ฅ๋จ
=> ์ด๊ฒ์ ๋คํธ์ํฌ์ ์ฐ๊ฒฐ๋ ํ์ผ ์๋ฒ์ ๊ฐ์ ์กด์ฌ์ด์ง๋ง, ๋ค์์ ์ปดํจํฐ์ ํ์ผ์ ๋ณต์ฌํ์ฌ ์ค๋ณต์ฑ์ ๋์ธ๋ค๋ ํน์ง์ด ์์
CPU๋ ๋ฉ๋ชจ๋ฆฌ ๋ฑ์ ๊ณ์ฐ ๋ฆฌ์์ค๋ ๋ฆฌ์์ค ๋งค๋์ ์ธ YARN์ ์ํด ๊ด๋ฆฌ๋จ
(YARN์ ์ ํ๋ฆฌ์ผ์ด์ ์ด ์ฌ์ฉํ๋ CPU ์ฝ์ด์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์ปจํ ์ด๋๋ผ๊ณ ๋ถ๋ฆฌ๋ ๋จ์๋ก ๊ด๋ฆฌํจ)
=> Hadoop์์ ๋ถ์ฐ ์ ํ๋ฆฌ์ผ์ด์ ์ ์คํํ๋ฉด YARN์ด ํด๋ฌ์คํฐ ์ ์ฒด์ ๋ถํ๋ฅผ ๋ณด๊ณ ๋น์ด ์๋ ํธ์คํธ๋ถํฐ ์ปจํ ์ด๋๋ฅผ ํ ๋น
YARN์ ์ปจํ ์ด๋๋ Docker์ฒ๋ผ OS ์์ค์ ๊ฐ์ํ ๊ธฐ์ ์ด ์๋๋ผ ์ด๋ค ํธ์คํธ์์ ์ด๋ค ํ๋ก์ธ์ค๋ฅผ ์คํ์ํฌ ๊ฒ์ธ์ง ๊ฒฐ์ ํ๋ ์ ํ๋ฆฌ์ผ์ด์ ์์ค์ ๊ธฐ์ ์
=> HDFS๋ ๋ถ์ฐ ์์คํ ์ ์คํ ๋ฆฌ์ง๋ฅผ ๊ด๋ฆฌํ์ฌ ํญ์ ์ฌ๋ฌ ์ปดํจํฐ์ ๋ณต์ฌ๋๋๋ก ํจ
(YARN์ CPU์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ๊ด๋ฆฌํ๊ณ ๋ฆฌ์์ค์ ์ฌ์ ๊ฐ ์๋ ์ปดํจํฐ์์ ํ๋ก๊ทธ๋จ์ ์คํํจ)
๋ฆฌ์์ค ๊ด๋ฆฌ์๋ฅผ ์ฌ์ฉํ๋ฉด ์ ํ๋ฆฌ์ผ์ด์ ๋ง๋ค ์คํ์ ์ฐ์ ์์๋ฅผ ๊ฒฐ์ ํ ์ ์์
(์ค์ํ์ง ์์ ๋ฐฐ์น ์ฒ๋ฆฌ์๋ ๋ฎ์ ์ฐ์ ์์๋ฅผ ๋ถ์ฌ)
=> ์ฐ์ ๋๋ ์์ ๋ถํฐ ์คํํจ์ผ๋ก์จ ํ์ ๋ ๋ฆฌ์์ค๋ฅผ ๋ญ๋น ์์ด ํ์ฉํ๋ฉด์ ๋ฐ์ดํฐ ์ฒ๋ฆฌ๋ฅผ ์งํํ๋ ๊ฒ์ด ๊ฐ๋ฅ
๋ถ์ฐ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ๋ฐ ์ฟผ๋ฆฌ ์์ง
MapReduce๋ YARN ์์์ ๋์ํ๋ ๋ถ์ฐ ์ ํ๋ฆฌ์ผ์ด์ ์ค ํ๋์ด๋ฉฐ, ๋ถ์ฐ ์์คํ ์์ ๋ฐ์ดํฐ ์ฒ๋ฆฌ๋ฅผ ์คํํ๋๋ฐ ์ฌ์ฉ๋จ
=> MapReduce๋ ์์์ ์๋ฐ ํ๋ก๊ทธ๋จ์ ์คํ์ํฌ ์ ์๊ธฐ ๋๋ฌธ์ ๋น๊ตฌ์กฐํ ๋ฐ์ดํฐ๋ฅผ ๊ฐ๊ณตํ๋ ๋ฐ ์ ํฉ
(์๋ฐ์ ํ๋ซํผ ๋ ๋ฆฝ์ฑ, ๊ฐ๋ ฅํ ํ์ค ๋ผ์ด๋ธ๋ฌ๋ฆฌ, ์คํ์์ค ์ํ๊ณ, ๋๊ท๋ชจ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ์ง์๋ฑ์ ํน์ฑ)
MapReduce๋ ์๋ ๋๋์ ๋ฐ์ดํฐ๋ฅผ ๋ฐฐ์น ์ฒ๋ฆฌํ๊ธฐ ์ํ ์์คํ ์ด๋ค
=> ๋ถ์ฐ ํ์ผ ์์คํ ์์ ๋๋์ ๋ฐ์ดํฐ๋ฅผ ์ฝ์ ์ ์์ง๋ง, ์์ ํ๋ก๊ทธ๋จ์ ์คํํ๋ฉด ์ค๋ฒํค๋๊ฐ ๋๋ฌด ํฌ๊ธฐ ๋๋ฌธ์ ๋ช ์ด ์์ ๋๋๋ฒ๋ฆฌ๋ ์ฟผ๋ฆฌ ์คํ์๋ ์ ํฉ X
์ด ์ฑ์ง์ ๊ณ์นํ SQL ๋ฑ์ ์ฟผ๋ฆฌ ์ธ์ด์ ์ํ ๋ฐ์ดํฐ ์ง๊ณ๋ฅผ ์ํด ์ค๊ณ๋ ์ฟผ๋ฆฌ ์์ง์ธ Apache Hive์ ๊ฒฝ์ฐ ์๊ฐ์ด ๊ฑธ๋ฆฌ๋ ๋ฐฐ์น ์ฒ๋ฆฌ์๋ ์ ํฉํ๋, ์ ๋ ํน ์ฟผ๋ฆฌ๋ฅผ ์ฌ๋ฌ ๋ฒ ์คํํ๋ ๋ฐ๋ ๋ถ์ ํฉ!
=> MapReduce์์๋ ๋ฐ์ดํฐ ์ฒ๋ฆฌ์ ์คํ ์ด์ง๊ฐ ๋ฐ๋ ๋ ๋๊ธฐ ์๊ฐ์ด ์์ด์ ๋ณต์กํ ์ฟผ๋ฆฌ์์๋ ๋๊ธฐ ์๊ฐ๋ง ์ฆ๊ฐํจ
Hive on Tez
Hive๋ฅผ ๊ฐ์ํํ๊ธฐ ์ํ ๋ ธ๋ ฅ์ ํ๋๋ก ๊ฐ๋ฐ๋ ๊ฒ์ด Apache Tez์
MapReduce ํ๋ก๊ทธ๋จ์์๋ 1ํ์ MapReduce ์คํ ์ด์ง๊ฐ ๋๋ ๋๊น์ง ๋ค์์ ์ฒ๋ฆฌ๋ฅผ ์งํํ ์ ์์์ง๋ง Tez์์๋ ์คํ ์ด์ง์ ์ข ๋ฃ๋ฅผ ๊ธฐ๋ค๋ฆฌ์ง ์๊ณ ์ฒ๋ฆฌ๊ฐ ๋๋ ๋ฐ์ดํฐ๋ฅผ ์ฐจ๋ก๋๋ก ํ์ ์ฒ๋ฆฌ์ ์ ๋ฌํจ์ผ๋ก์จ ์ฟผ๋ฆฌ ์ ์ฒด์ ์คํ ์๊ฐ์ ๋จ์ถ!
=> ์ด๋ ๋ฏ MapReduce์ ์๋ ๋ช ๊ฐ์ง ๋จ์ ์ ํด์ํจ์ผ๋ก์จ ๊ณ ์ํ๋ฅผ ์คํ
Tez์์๋ ๋ถํ์ํ ๋จ๊ณ๊ฐ ๊ฐ์ํ์ฌ ์ฒ๋ฆฌ๊ฐ ์งง์์ง๊ณผ ๋์์, ์คํ ์ด์ง ์ฌ์ด์ ๋๊ธฐ ์๊ฐ์ด ์์ด ์ฒ๋ฆฌ ์ ์ฒด๊ฐ ๋์์ ์คํ๋์ ์คํ ์๊ฐ์ด ๋จ์ถ๋๋ค!
๋ํํ ์ฟผ๋ฆฌ ์์ง
Hive๋ฅผ ๊ณ ์ํํ๋ ๊ฒ์ด ์๋๋ผ ์ฒ์๋ถํฐ ๋ํํ์ ์ฟผ๋ฆฌ ์คํ๋ง ์ ๋ฌธ์ผ๋ก ํ๋ ์ฟผ๋ฆฌ ์์ง๋ ๊ฐ๋ฐ๋๊ณ ์๋ค!
(Apache Impala ์ Presto๊ฐ ๋ํ์ )
MapReduce์ Tez๋ ์ฅ์๊ฐ์ ๋ฐฐ์น ์ฒ๋ฆฌ๋ฅผ ๊ฐ์ ํด ํ์ ๋ ๋ฆฌ์์ค๋ฅผ ์ ํจํ๊ฒ ํ์ฉํ๋๋ก ์ค๊ณ๋จ
ํํธ, ๋ํํ ์ฟผ๋ฆฌ ์์ง์ผ๋ก๋ ์๊ฐ ์ต๋ ์๋๋ฅผ ๋์ด๊ธฐ ์ํด ๋ชจ๋ ์ค๋ฒํค๋๊ฐ ์ ๊ฑฐ๋์ด ์ฌ์ฉํ ์ ์๋ ๋ฆฌ์์ค๋ฅผ ์ต๋ํ ํ์ฉํ์ฌ ์ฟผ๋ฆฌ๋ฅผ ์คํํจ
=> ๋ํํ ์ฟผ๋ฆฌ ์์ง์ MPP ๋ฐ์ดํฐ๋ฒ ์ด์ค์ ๋น๊ตํด๋ ์์์๋ ์๋ต ์๊ฐ์ ์คํํ๊ณ ์๋ค!
Presto์ Impala๋ YARN๊ณผ ๊ฐ์ ๋ฒ์ฉ์ ์ธ ๋ฆฌ์์ค ๊ด๋ฆฌ์๋ฅผ ์ฌ์ฉํ์ง ์๊ณ , SQL์ ์คํ๋ง ํนํํ ๋ ์์ ์ธ ๋ถ์ฐ ์ฒ๋ฆฌ๋ฅผ ๊ตฌํํ๊ณ ์์
=> MPP ๋ฐ์ดํฐ๋ฒ ์ด์ค์ฒ๋ผ ๋ฉํฐ ์ฝ์ด๋ฅผ ํ์ฉํ๋ฉด์ ๊ฐ๋ฅํ ํ ๋ง์ ๋ฐ์ดํฐ ์ฒ๋ฆฌ๋ฅผ ๋ณ๋ ฌํํจ์ผ๋ก์จ ๊ณ ์ํ๋ฅผ ์คํ
Hadoop์์๋ ์ฑ์ง์ด ๋ค๋ฅธ ์ฟผ๋ฆฌ ์์ง์ ๋ชฉ์ ์ ๋ฐ๋ผ ๊ตฌ๋ถํจ
๋๋์ ๋น๊ตฌ์กฐํ ๋ฐ์ดํฐ๋ฅผ ๊ฐ๊ณตํ๋ ๋ฌด๊ฑฐ์ด ๋ฐฐ์น ์ฒ๋ฆฌ์๋ ๋์ ์ฒ๋ฆฌ๋์ผ๋ก ๋ฆฌ์์ค๋ฅผ ํ์ฉํ ์ ์๋ Hive๋ฅผ ์ด์ฉํ๊ณ ๊ทธ๋ ๊ฒ ํด์ ์์ฑํ ๊ตฌ์กฐํ ๋ฐ์ดํฐ๋ฅผ ๋ํ์์ผ๋ก ์ง๊ณํ๊ณ ์ ํ ๋๋ ์ง์ฐ์ด ์ ์ Impala์ Presto๋ฑ์ด ์ ํฉ
โ๏ธSpark
Hadoop์ ์ฐ์ฅ์ ์์ ์๋ Tez์ ๋ฌ๋ฆฌ, Spark๋ Hadoop๊ณผ๋ ๋ค๋ฅธ ๋ ๋ฆฝ๋ ํ๋ก์ ํธ์!
Spark์ ํน์ง์ ๋๋์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ํ์ฉํ์ฌ ๊ณ ์ํ๋ฅผ ์คํํ๋ ๊ฒ์ด๋ค
=> ๊ฐ๋ฅํ ํ ๋ง์ ๋ฐ์ดํฐ๋ฅผ ๋ฉ๋ชจ๋ฆฌ์์ ์ฌ๋ฆฐ ์ํ๋ก ๋์ด ๋์คํฌ์๋ ์๋ฌด๊ฒ๋ ๊ธฐ๋ก X
(์ด ๊ฒฝ์ฐ ์ปดํจํฐ๊ฐ ๋น์ ์ ์ข ๋ฃํ๋ฉด ์ค๊ฐ๊น์ง ์ฒ๋ฆฌํ ์ค๊ฐ ๋ฐ์ดํฐ๊ฐ ์ฌ๋ผ์ ธ ๋ฒ๋ฆฌ๊ธฐ์ ์ฒ๋ฆฌ๋ฅผ ๋ค์ ์๋ํด์ผ ํจ)
MapReduce ๋์ฒดํ๊ธฐ
Spark๋ Hadoop์ ๋์ฒดํ๋ ๊ฒ์ด ์๋๋ผ MapReduce๋ฅผ ๋์ฒดํ๋ ์กด์ฌ์
=> ๋ถ์ฐ ํ์ผ ์์คํ ์ธ HDFS๋ ๋ฆฌ์์ค ๊ด๋ฆฌ์์ธ YARN ๋ฑ์ Spark์์๋ ๊ทธ๋๋ก ์ฌ์ฉ
(Hadoop ์ด์ฉํ์ง ์๊ณ ๋ถ์ฐ ์คํ ๋ฆฌ์ง Amazon S3๋ ๋ถ์ฐ ๋ฐ์ดํฐ๋ฒ ์ด์ค ์นด์ฐ๋๋ผ์์ ๋ฐ์ดํฐ๋ฅผ ์ฝ๋ ๊ฒ๋ ๊ฐ๋ฅ)
Spark์์๋ ์ค๊ฐ ๋ฐ์ดํฐ๋ฅผ ๋์คํฌ์ ์ฐ์ง ์๊ณ ๋ฉ๋ชจ๋ฆฌ์ ๋ณด์กดํจ
=> ์คํ ์ค์ ๋ง์ ๋ฉ๋ชจ๋ฆฌ ํ์ํ์ง๋ง ์คํ ์๊ฐ์ ๋จ์ถ
=> ์ฅ์ ๋ฑ์ผ๋ก ๋ฉ๋ชจ๋ฆฌ ์์ ์ค๊ฐ ๋ฐ์ดํฐ๋ฅผ ์์ด๋ฒ๋ ค๋, ํ ๋ฒ ๋ ์ ๋ ฅ ๋ฐ์ดํฐ๋ก ๋ค์ ์คํํจ
(์ค๊ฐ ๋ฐ์ดํฐ๋ ์๋์ ์ผ๋ก ๋์คํฌ ์์ ์บ์ํ๋ ๊ฒ๋ ๊ฐ๋ฅ)
'Data Engineering > Big Data' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
๋น ๋ฐ์ดํฐ์ ํ์ (1) | 2024.07.24 |
---|---|
๋น ๋ฐ์ดํฐ์ ๊ธฐ์ด ์ง์ (6) | 2024.07.23 |