12
134 Comparative study between big data technology and relational database query system case study : Healthcare dataset Rachatha Timasornwichakit 1 , Wansa Paoin 2 , Worapol Phongpech 1 1 Computer and Communication Technology, Faculty of engineering, Dhurakij Pundit University 2 Faculty of Medicine, Thammasat University Abstract This article is aimed to study the proper method to store and analyze the data of illness that gathers the information of service provided by The Ministry of Public Health in a Big Data architecture and the process of using the set of healthcare data to compile with 2 compilation techniques. This is to promote the knowledge and understanding the different of big data technology (Hadoop MapReduce) and the relation database (MySQL) by using experimental research, studying the different between the groups of Mathematics data compilation with different storage architecture and retrieval methods. Testing the set of data of healthcare data with increasing large size and implement the set of questionnaire for the report of illness from 2014, sourcing from 2 reports from the cause of illness as the tool to find the performance of file compilation and query time. Performance evaluation with an analysis of the time by using t-Test tested the hypothesis that given the results of data query when there is a comparison between large data echnologies and relational databases vary significantly that the = 0.05 and assessing the accuracy and precision of results retrieval by percentage. The test results showed that the efficiency of Hadoop and MapReduce use more time to process. Results of the analysis were the P-Value = 0.17 rather than the 0.05 alpha result of the retrieval is not significantly different statistically. This not accept hypothesis predicted in advance. And the retrieval results are accurate synchronization of all data sets 100%. Keywords: Big Data, Healthcare System Received 12 September 2016; Accepted 25 November 2016 Correspondence: Rachatha Timasornwichakit, Computer and Communication Technology, Faculty of Engineer, Faculty of engineering, Dhurakij Pundit University, 110/1-4 Prachachuen Road Laksi, Bangkok 10210, Thailand (Tel.: +66-954-7300; E-mail address: [email protected]). Big data technology and relational database query Rachatha Timasornwichakit et al Journal of the Thai Medical Informatics Association, 2, 134-145, 2016

Comparative study between big data technology and ...tmi.or.th/.../2017/01/2016-2-7-big-data-technology-and-relational-database-query.pdf135 Rachatha Timasornwichakit et al. Big data

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Comparative study between big data technology and ...tmi.or.th/.../2017/01/2016-2-7-big-data-technology-and-relational-database-query.pdf135 Rachatha Timasornwichakit et al. Big data

134

Comparative study between big data technology and relational database query system case study : Healthcare dataset

Rachatha Timasornwichakit1, Wansa Paoin2, Worapol Phongpech1

1Computer and Communication Technology, Faculty of engineering, Dhurakij Pundit University2Faculty of Medicine, Thammasat University

AbstractThis article is aimed to study the proper method to store and analyze the data of illness that gathers the information of service provided by The Ministry of Public Health in a Big Data architecture and the process of using the set of healthcare data to compile with 2 compilation techniques. This is to promote the knowledge and understanding the different of big data technology (Hadoop MapReduce) and the relation database (MySQL) by using experimental research, studying the different between the groups of Mathematics data compilation with different storage architecture and retrieval methods. Testing the set of data of healthcare data with increasing large size and implement the set of questionnaire for the report of illness from 2014, sourcing from 2 reports from the cause of illness as the tool to find the performance of file compilation and query time. Performance evaluation with an analysis of the time by using

t-Test tested the hypothesis that given the results of data query when there is a comparison between large data echnologies and relational databases vary significantly that the = 0.05 and assessing the accuracy and precision of results retrieval by percentage. The test results showed that the efficiency of Hadoop and MapReduce use more time to process. Results of the analysis were the P-Value = 0.17 rather than the 0.05 alpha result of the retrieval is not significantly different statistically. This not accept hypothesis predicted in advance. And the retrieval results are accurate synchronization of all data sets 100%.

Keywords: Big Data, Healthcare System

Received 12 September 2016; Accepted 25 November 2016

Correspondence: Rachatha Timasornwichakit, Computer and Communication Technology, Faculty of Engineer, Faculty of engineering, Dhurakij Pundit University, 110/1-4 Prachachuen Road Laksi, Bangkok 10210, Thailand (Tel.: +66-954-7300; E-mail address: [email protected]).

Big data technology and relational database query Rachatha Timasornwichakit et al

Journal of the Thai Medical Informatics Association, 2, 134-145, 2016

Page 2: Comparative study between big data technology and ...tmi.or.th/.../2017/01/2016-2-7-big-data-technology-and-relational-database-query.pdf135 Rachatha Timasornwichakit et al. Big data

135

Rachatha Timasornwichakit et al. Big data technology and relational database query

Journal of the Thai Medical Informatics Association, 2, 134-145, 2016

การเปรยบเทยบการคนคนขอมลบนเทคโนโลยขอมลขนาดใหญกบระบบฐานขอมลเชงสมพนธ กรณศกษาตวอยางชดขอมลบรการสขภาพ

รชต ทมาสรวชกจ1, วรรษา เปาอนทร2, วรพล พงษเพชร1

1สาขาเทคโนโลยคอมพวเตอรและการสอสาร คณะวศวกรรมศาสตร มหาวทยาลยธรกจบณฑตย2คณะแพทยศาสตร มหาวทยาลยธรรมศาสตร

บทคดยอ บทความนมจดมงหมายเพอศกษาแนวทางทเหมาะสม ในการจดเกบและวเคราะหขอมลการใหบรการสขภาพทรวบรวมโดยกระทรวงสาธารณสขบนสถาปตยกรรมขอมลขนาดใหญ เพอเสรมสรางความรและความเขาใจในความแตกตางของเทคโนโลยระหวางเทคโนโลยขอมลขนาดใหญฮาดปและ แมพรดวกบระบบการจดการฐานขอมลเชงสมพนธมายเอสควแอล ทมหลกการทางคณตศาสตรทแตกตางกน และมสถาปตยกรรมการจดการขอมลทไมเหมอนกน และรปแบบวธการเรยกใชงาน การคนคนทตางกน ดวยขนตอนวธการใชชดขอมลบรการสขภาพน�ามาประมวลผลรวมกบเทคนควธการประมวลผลแบบขนาน แมพรดวและภาษาสอบถามเชงโครงสรางเอสควแอล โดยใชวธ วจยเชงทดลองน�ามาศกษาความแตกตาง ทดสอบดวยชดขอมลบรการสขภาพทมขนาดระเบยนเพมขนเปนล�าดบ และสรางชดแบบสอบถามขนจากรายงานสรปการเจบปวย พ.ศ.2557 จ�านวน 2 รายงาน เปนเครองมอทน�ามาใชหาประสทธภาพ ของเวลาในการประมวลผลการคนคนขอมล ประเมนประสทธภาพ

ดวยการวเคราะหผลลพธทางดานเวลาโดยใชสถต t-Test น�ามาทดสอบสมมตฐานทคาดการณวาผลลพธของเวลาการคนคนขอมลเมอมการเปรยบเทยบระหวางเทคโนโลยขอมลขนาดใหญ กบระบบฐานขอมลเชงสมพนธแตกตางกน ก�าหนดคานยส�าคญ ท = 0.05 และการประเมนผลลพธความถกตองและแมนย�า การคนคนดวยคาสถตรอยละ ผลการทดสอบพบวาประสทธภาพความเรวฮาดปและแมพรดวใชเวลาในการประมวลผลมากกวา และ ผลการวเคราะหสถตวจยทได P-Value = 0.17 มากกวา คาแอลฟา 0.05 ผลของเวลาจงไมมความแตกตางกนทางสถต แตมผลลพธถกตองแมนย�าตรงกน 100%

ค�าส�าคญ: ขอมลขนาดใหญ, ระบบบรการสขภาพ, การประมวลผลแบบขนาน, ฮาดป, แมพรดว

วนทรบตนฉบบ 12 กนยายน 2559; วนทตอบรบ 25 พฤศจกายน 2559

ผนพนธประสานงาน: รชต ทมาสรวชกจ, สาขาเทคโนโลยคอมพวเตอร และการสอสาร คณะวศวกรรมศาสตร มหาวทยาลยธรกจบณฑตย 110/1-4 ถนนประชาชน แขวงทงสองหอง เขตหลกส กรงเทพฯ 10210 โทร. 0-2954-7300; E-mail address: [email protected])

บทน�า กระทรวงสาธารณสขมนโยบายใหด�าเนนการจดเกบรวบรวมขอมลการใหบรการสาธารณสขและการแพทย เขาไวดวยกนโดยมกรอบแนวคด “เครอขายบรการทไรรอยตอ” ทสามารถเชอมโยงระดบบรการปฐมภม ทตยภม และตตยภมเขาดวยกน เพอใหสามารถจดบรการสขภาพทมคณภาพ และเกดการใชทรพยากรทมอยจ�ากดอยางมคณภาพ และใหด�าเนนการจดเกบรวบรวมขอมลการใหบรการจากทกหนวยบรการสาธารณสขเขาไวดวยกน1 ในระบบคลงขอมลดานการแพทย

และสขภาพ (Health Data Center : HDC) ใชแฟมโครงสรางมาตรฐานในการจดเกบ 43 และ 7 แฟมมาตรฐาน ขอมล ถกจดเกบไวในเซรฟเวอรแตละเดอนมขอมลเพมมากขน ขนาดใหญขน ปญหาส�าคญคอเวลาทใชในการประมวลผลเพอเปรยบเทยบสถตหรองานเวชสถตหรองานวเคราะหทางการแพทย ในแตละงานตองใชเวลาในการประมวลผลยาวนาน ระบบ ยอมไมสามารถสรางสารสนเทศไดทนเวลาตามความตองการ หากมสารสนเทศทสามารถใชไดทนตามตองการ ถกตอง ทนสมยและขอมลทน�ามากลนกรองใหผบรหารตองมคณภาพดวย2 สารสนเทศเปนสวนส�าคญทจะท�าใหผบรหารระดบสงตดสนใจไดถกตอง ในปจจบนเทคโนโลยระบบการจดเกบแบบกระจายและการประมวลผลแบบขนานทมในระบบนเวศขอมลขนาดใหญ (Big Data Ecosystem) จะสามารถน�ามาประมวล

Page 3: Comparative study between big data technology and ...tmi.or.th/.../2017/01/2016-2-7-big-data-technology-and-relational-database-query.pdf135 Rachatha Timasornwichakit et al. Big data

136

ผลขอมลขนาดใหญจากคลงขอมลดานการแพทยและสขภาพทมการจดการฐานขอมลเชงสมพนธไดหรอไม เพอท�าความเขาใจและรเชงลกในเทคโนโลยขอมลขนาดใหญมากขน งานวจยนใชวธวจยเชงทดลอง ก�าหนดขนตอนการวจยเปนแบบแผนการทดลองจรง มการเกบผลการทดลองสามครงเพอท�าการหาคาเฉลย และมการวเคราะหผลขอมลดวยสถตวจย ทดสอบดวยชดขอมลบรการสขภาพ ใชวธคดเลอกการสมขอมลตวอยางดวยเทคนควธแบบเฉพาะเจาะจงโดยอาศยการตดสนใจของผเชยวชาญระบบขอมลสขภาพ3 คดเลอกแฟมผ ปวยนอก (OPD)4 เปนขอมลชดตวอยางและก�าหนด ชดแบบสอบถามขอมลทใชเปนโจทยน�ามาจากหนงสอสรป รายงานการเจบปวย พ.ศ.25575 รายงานผปวยนอก 2 รายงาน ถกน�ามาใชทดลองการคนคนขอมลดวยภาษาสอบถามเชง โครงสรางเอสควแอลเพอเปรยบเทยบกบโปรแกรมประมวลผล การคนคนแบบขนานดวยเทคนคแมพรดวทมการจดเกบขอมล แบบกระจายดวยฮาดป ก�าหนดใหมขนาดระเบยนเพมขน ตามล�าดบโดยใชวธการเลอกสมขอมลแบบโควตา เปนการสม อยางงายดวยระบบคอมพวเตอรตามจ�านวนทก�าหนดดงน หาแสน,หนงลาน,หาลาน และสบลานระเบยนตามล�าดบ มการวเคราะหผลขอมลดวยสถตวจย โดยใชสถตเชงพรรณนาประกอบดวยคาเฉลยเลขคณต, รอยละ, รปตารางและการแสดงผลดวยกราฟหรอแผนภม6 และใชสถตเชงอนมานพสจนค�าตอบจากสมมตฐานทไดคาดการณไวลวงหนาดวยสถตวจย t-Test7 กบ ผลการทดลองดานความเรวในการคนคน และท�าการอภปรายผล

ทฤษฏและงานวจยทเกยวของ 1. ทฤษฏทเกยวของ ระบบบรการสขภาพจดเกบขอมลดวยฐานขอมล คอ การจดเกบขอมลอยางมระบบใชคอมพวเตอรและซอฟแวร ชวยในการจดการควบคมการท�างานของฐานขอมล [8] เปนขอมลทมโครงสรางตาราง และไดรบการออกแบบลดขนาดความซ�าซอน ขอมลมการจดการฐานขอมลเชงสมพนธ คอขอมลในรปของแถวและคอลมน ทถกจดเกบในตาราง ทก�าหนดใหตารางหนงสมพนธกบตารางหนงดวยรเลชนโดยมโครงสรางมาตรฐานและใชหลกพนฐานทางคณตศาสตรเซต พชคณตเชงสมพนธและแคลคลสเชงสมพนธทน�ามาใชจดการความสมพนธกบขอมล [9] และยงมคณสมบตทรานแซคชน ACID [10] ในการจดการฐานขอมลเชงสมพนธนยมใชภาษาสอบถามเชงโครงสรางเอสควแอล เปนภาษาโปรแกรมระดบสงทสามารถใชงานรวมกบฐานขอมลดวยชดค�าสงมาตรฐาน เพม,แกไข,ปรบปรง,ลบขอมล ในการจดการฐานขอมลสมยใหมยงมระบบปรบปรงประสทธภาพการสอบถามขอมล 3 ขนตอนดงน 1) Parsing 2) Query Optimization 3) Query Evaluation [11]

กรอบการท�างานหรอแพลตฟอรมฮาดป (Hadoop) เปนหนงในเทคโนโลยขอมลขนาดใหญ เปนระบบการจดเกบขอมลแบบกระจาย ฮาดปพฒนามาจนถงปจจบนในเวอรชน 2.6.2 มขนตอนการท�างานโดยการแบงไฟลออกมาเปนไฟลยอยๆ หรอบลอกขอมล (Data Block) และม Name Node (Master) ท�าหนาทระบต�าแหนงเกบ และม Data Node (Slave) กระจายไปเกบในเครองอนๆ และม YARN (Yet Another Resource Negotiator) ควบคมจดการทรพยากรและใชการประมวลผลแบบขนานแมพรดวปจจบนเปนเวอรชน 2 (MRV2)13 แมพรดวจงเปนการเขยนโปรแกรมควบคมความตองการขอมลทตองการคนคนผานการจบค Key/Value ทก�าหนดไว14 YARN Resource Manager ท�าหนาทควบคมคลสเตอร คอยบรหารตารางงานของ Job Tracker หรอ JobHistoryServer ทสงไปยง Node Manager (Slave) ม YARN Node Manager และ YARN Application Master ท�าหนาทควบคมการท�างานของแมพรดวภายในคลสเตอร การจดการทรพยากรและการจดเกบและประมวลผล YARN/MRV2 แบบใหมนจะกระท�าในแตละเครองคอมพวเตอร เพอลดปรมาณการประมวลผลภายในเครอขายลง15 ตามภาพท 1

ภาพท 1 กรอบการท�างานของฮาดปท�างานรวมกบแมพรดว

2. งานวจยทเกยวของ จากการศกษางานวจยทเกยวของกบเทคโนโลยขอมล ขนาดใหญการจดจ�าแนกประเภทเทคโนโลยของบกดาตา ยงไมมมาตรฐานหรอองคกรใดจดตงขนมารองรบหรอจดท�าเปนมาตรฐานสากล แตจะใชลกษณะการเตบโตของขอมลน�ามาจ�าแนกประเภทดงน ขอมลแบบเชงสมพนธขอมล (RDBMS) มขอมลเพมขนจะขยายเปนลกษณะแนวตง (Vertical Scaling) แตลกษณะขอมลขนาดใหญขอมลเพมขนจะขยายเปนลกษณะแนวนอน (Horizontal Scaling)16 ดงนนผวจยจงขอจ�าแนกเทคโนโลยขอมลขนาดใหญจากการศกษางานวจยทเกยวของออกไดเปน 2 กลมดงน (1). การจดเกบขอมล (Storage) แบงออกไดเปน 4 ประเภทดงน (a) แบบคอลมน (Columns Oriented) (b) แบบคยค (Key-Value Store)17 (c) แบบเอกสาร (Document

(Slave) ม YARN Node Manager และ YARN Application Master ท าหนาทควบคมการท างานของแมพรดวภายในคลสเตอร การจดการทรพยากรและการจดเกบและประมวลผล YARN/MRV2 แบบใหมนจะกระท าในแตละเครองคอมพวเตอร เพอลดปรมาณการประมวลผลภายในเครอขายลง [15] ตามภาพท 1

ภาพท 1. กรอบการท างานของฮาดปท างานรวมกบแมพรดว

2. งำนวจยทเกยวของ จากการศกษางานวจยทเกยวของกบเทคโนโลยขอมลขนาดใหญการจดจ าแนกประเภทเทคโนโลยของบกดาตายงไมมมาตรฐานหรอองคกรใดจดตงขนมารองรบหรอจดท าเปนมาตรฐานสากล แตจะใชลกษณะการเตบโตของขอมลน ามาจ าแนกประเภทดงน ขอมลแบบเชงสมพนธขอมล (RDBMS) มขอมลเพมขนจะขยายเปนลกษณะแนวตง (Vertical Scaling) แตลกษณะขอมลขนาดใหญขอมลเพมขนจะขยายเปนลกษณะแนวนอน (Horizontal Scaling) [16] ดงนนผวจยจงขอจ าแนกเทคโนโลยขอมลขนาดใหญจากการศกษางานวจยทเกยวของออกไดเปน 2 กลมดงน

(1).การจดเกบขอมล (Storage) แบงออกไดเปน 4 ประเภทดงน (a) แบบคอลมน (Columns Oriented) (b) แบบคยค (Key-Value Store) [17] (c) แบบเอกสาร (Document Oriented) [18] (d) แบบกราฟ (Graph Database) ซงการจดเกบทง 4 ประเภทนเปนลกษณะ NoSQL คอการเขยนโปรแกรมมอลกอรทมเพอควบคมการท างานการอาน, เขยน, ลบและแกไขแทนการจดการขอมลรปแบบดงเดมทมการใชภาษาสอบถามเชงโครงสราง SQL ในการจดการ [19]

(2).การประมวลผล (Processing) เทคโนโลยการประมวลผลขอมลในเทคโนโลยบกดาตามหลากหลายรปแบบเชนกน โดยจ าแนกออกเปน 6 ประเภทดงน (a) SQL ยงคงใชรปแบบภาษาสอบถามเชงโครงสรางในการจดการขอมลแบบเชงสมพนธ ใชงานรวมกบการจดเกบแบบ HDFS เชน Hive, Impala หรอ Tajo (b) Key-Value ม

ลกษณะของการประมวลผลดวยโปรแกรมมการเขยนอลกอรทมภาษาตางๆ คอยควบคมสงการ เชน Java ใชงานรวมกบแมพรดว [20] (c) NoSQL เปนลกษณะของการประมวลผลดวยการเขยนอลกอรทมดวยโปรแกรมภาษาตางๆ คอยควบคมสงการ เชน JSON ใชงานรวมกบ MongoDB หรอดวยภาษา Scala, Python ใชงานรวมกบ Spark (d) NewSQL เปนลกษณะของการประมวลผลดวย SQL แตน า NoSQL มาเปนฐานขอมลเพอการขยายขอมลในลกษณะแนวนอน และในการประมวลผลยงมการน าหนวยความจ าส ารองมาใชงานรวมกบการประมวลผล (In Memory) เชน VoltDB [21] (e) MPP (Massively Parallel Processing) เปนการประมวลผลแบบคขนานใชหนวยประมวลผล CPU รวมกนหลายตว เชน Exadata, Greenplumn (f) Graph Processing เปนลกษณะการประมวลผลแบบกราฟบนเครอขายสงคมออนไลนดวยทฤษฏกราฟ เชน Neo4j [22],[23] ท งนการประมวลผลทง 6 แบบมวตถประสงคหลกเพอการใชงานประมวลผลกบชดของขอมลขนาดเทราไบตและเพตาไบต [24]

ในยคขอมลขนาดใหญกรอบการท างานฮาดปและแมพรดวเปนโปรแกรมทสามารถรองรบไดกบระบบปฏบตการหลายระบบ ท าใหสามารถน ามาศกษาไดงาย [25] ผวจยจงเลอกศกษาลกษณะรปแบบวธการใชงาน และฮาดปและแมพรดวยงไดรบความนยมน ามาใชในวงการการศกษาวจยท งภาคอตสาหกรรมและภาคธรกจตางๆ อยางกวางขวางเพอพฒนาใหระบบมประสทธภาพเพมขน [26] ผวจยขอแบงงานวจยทเกยวของออกเปน 2 กลม เพองายและสะดวกตอการพจารณดงน

1) กลมน าเสนอการปรบปรงประสทธภาพของเทคโนโลยขอมลขนาดใหญ เชน แนะน าวธการปรบปรงกระบวนการภายในโปรแกรม จะท าใหเขาใจการเขยนโปรแกรมมากขนและการก าหนดคาเรมตนขนาดของไฟลขอมลเพอเพมประสทธภาพในการจดเกบและเรยกใชงานในกลมคลสเตอรขนาดเลก การน าฮาดปและแมพรดวมาประเมนประสทธภาพในกระบวนการเพอปรบปรงกระบวนการใน 2 ขนตอนแมพและรดว และการทดลองปรบปรงฮาดปและแมพรดวในการใชประมวลผลชดขอมลรปแบบตางๆ และน าแมพรดวมาสรางการเชอมโยงระหวางฐานขอมลเอกสารดวย MongoDB [27],[28],[29]

2) กลมประเมนผลเปรยบเทยบประสทธภาพ เชน ใชเทคโนโลยขอมลขนาดใหญท าการเปรยบเทยบเชงทดลองกบกลมฐานขอมลแบบด งเดมหรอเปรยบเทยบกนในกลมฐานขอมลรปแบบใหม ตวอยางเชน ใช NoSQL เปรยบเทยบกบ RDBMS ดานการเขยน,อาน,

Hadoop Core Components

HDFS (Data Storage)

Name Node [Master] Data Node [Slave]

YARN/MRV2 (Data Processing)

Resource Manager [Master] Node Manager [Slave]

Journal of the Thai Medical Informatics Association, 2, 134-145, 2016

Big data technology and relational database query Rachatha Timasornwichakit et al

Page 4: Comparative study between big data technology and ...tmi.or.th/.../2017/01/2016-2-7-big-data-technology-and-relational-database-query.pdf135 Rachatha Timasornwichakit et al. Big data

137

Oriented)18 (d) แบบกราฟ (Graph Database) ซงการ จดเกบทง' 4 ประเภทนเปนลกษณะ NoSQL คอการเขยน โปรแกรมมอลกอรทมเพอควบคมการท�างานการอาน, เขยน, ลบและแกไข แทนการจดการขอมลรปแบบดงเดมทมการใชภาษาสอบถามเชงโครงสราง SQL ในการจดการ19 (2). การประมวลผล (Processing) เทคโนโลยการประมวลผลขอมลในเทคโนโลยบกดาตามหลากหลายรปแบบเชนกน โดยจ�าแนกออกเปน 6 ประเภทดงน (a) SQL ยงคงใชรปแบบภาษาสอบถามเชงโครงสรางในการจดการขอมลแบบเชงสมพนธ ใชงานรวมกบการจดเกบแบบ HDFS เชน Hive, Impala หรอ Tajo (b) Key-Value มลกษณะของการประมวลผลดวยโปรแกรมมการเขยนอลกอรทมภาษาตางๆ คอยควบคมสงการ เชน Java ใชงานรวมกบแมพรดว20 (c) NoSQL เปนลกษณะของการประมวลผลดวยการเขยนอลกอรทมดวยโปรแกรมภาษาตางๆ คอยควบคมสงการ เชน JSON ใชงานรวมกบ MongoDB หรอดวยภาษา Scala, Python ใชงานรวมกบ Spark (d) NewSQL เปนลกษณะของการประมวลผลดวย SQL แตน�า NoSQL มาเปนฐานขอมลเพอการขยายขอมลในลกษณะแนวนอน และในการประมวลผลยงมการน�าหนวยความจ�าส�ารองมาใชงานรวมกบการประมวลผล (In Memory) เชน VoltDB21 (e) MPP (Massively Parallel Processing) เปนการประมวลผลแบบคขนานใชหนวยประมวลผล CPU รวมกนหลายตว เชน Exadata, Greenplumn (f) Graph Processing เปนลกษณะการประมวลผลแบบกราฟบนเครอขายสงคมออนไลนดวย ทฤษฏกราฟ เช น Neo4j 22,23 ท งนการประมวลผล ทง 6 แบบมวตถประสงคหลกเพอการใชงานประมวลผล กบชดของขอมลขนาดเทราไบตและเพตาไบต24

ในยคขอมลขนาดใหญกรอบการท�างานฮาดปและแมพรดวเปนโปรแกรมทสามารถรองรบไดกบระบบปฏบตการหลายระบบ ท�าใหสามารถน�ามาศกษาไดงาย25 ผวจยจงเลอกศกษาลกษณะรปแบบวธการใช งาน และฮาดปและแมพรดว ยงไดรบความนยมน�ามาใชในวงการการศกษาวจยทงภาคอตสาหกรรมและภาคธรกจตางๆ อยางกวางขวางเพอพฒนาใหระบบมประสทธภาพเพมขน26 ผ วจยขอแบงงานวจยทเกยวของออกเปน 2 กลม เพองายและสะดวกตอการพจารณดงน 1) กลมน�าเสนอการปรบปรงประสทธภาพของเทคโนโลยขอมลขนาดใหญ เชน แนะน�าวธการปรบปรงกระบวนการ ภายในโปรแกรม จะท�าใหเขาใจการเขยนโปรแกรมมากขนและ การก�าหนดคาเรมตนขนาดของไฟลขอมลเพอเพมประสทธภาพในการจดเกบและเรยกใชงานในกลมคลสเตอรขนาดเลก การน�าฮาดปและแมพร ดวมาประเมนประสทธภาพในกระบวนการเพอปรบปรงกระบวนการใน 2 ขนตอนแมพและ

รดว และการทดลองปรบปรงฮาดปและแมพรดวในการ ใชประมวลผลชดขอมลรปแบบตางๆ และน�าแมพรดว มาสร างการเ ชอมโยงระหว างฐานข อมลเอกสารด วย MongoDB 27,28,29

2) กล มประเมนผลเปรยบเทยบประสทธภาพ เชน ใชเทคโนโลยขอมลขนาดใหญท�าการเปรยบเทยบเชงทดลองกบกลมฐานขอมลแบบดงเดมหรอเปรยบเทยบกนในกลมฐานขอมลรปแบบใหม ตวอยางเชน ใช NoSQL เปรยบเทยบกบ RDBMS ดานการเขยน,อาน,แกไขและลบขอมล ทงแบบเครองเดยวและแบบหลายเครอง หรอ NoSQL เปรยบเทยบกบ SQL แบบเชงสาเหตดานความแตกตางของโครงสรางและรปแบบการจดการ หรอ NoSQL เปรยบเทยบเชงทดลองกบ NewSQL ในดานการน�าเขา,อาน,เขยนและคนหาบนคอมพวเตอรกลมเมฆเนนดานโปรแกรมบนกลมเครอขายสงคม หรอ Graph DB เปรยบเทยบเชงทดลองกบ RDBMS ในดานการคนหาตามขนาดของตวอกษรและขนาดขอมล หรอแมพรดวเปรยบเทยบ เชงทดลองกบ HiveQL และ RDBMS ดานการเขยนขอมล ดวยขอมลขนาด 200MB-10GB ทงแบบเครองเดยวและ แบบหลายเครอง สรปงานวจยทเกยวของกบทใกลเคยงกบจดประสงค งานวจยนดงน (1) การทดสอบฮาดปแมพรดวดวยการใชขอมลขนาดเลกในการอานและเขยนขอมลขนาด 512MB, 2GB, 4GB และใชขนาดบลอกขอมลท 64MB และ 128MB พบวาในกลมขอมลขนาดเลกจะมประสทธภาพมากหากใชบลอกขอมล 64MB และมประสทธภาพมากขน 28.6% เมออานขอมลขนาด 512MB และเมออานขอมลขนาด 4GB ท 25.3% (2) การเขยนแมพรดวเชอมคอลเลคชนฐานขอมล MongoDB การเชอมหรอ Join ขอมลแบบเอกสารดวยขอมลนกเรยนและทปรกษาเพอใชเชอมความสมพนธ พบวาการด�าเนนการสามารถเชอมขอมลไดและมประสทธภาพเพมขนเมอก�าหนดใหท�าการกรองขอมลทตองการเชอมไวลวงหนา ใชเวลาเพยง 23 วนาท (3) งานวจยการปรบปรงประสทธภาพการคนคนดวยแมพรดวดวยหลกการเชอมความสมพนธและท�า Query Plan เพอใหเผยขนตอนการเชอมในขนตอนทดทสด และท�าการคนคนดวยภาษาสอบถามเชงโครงสรางทจ�านวน 4, 6, 8 เครอง ดวยขอมลอนดบเขาดเวบไซต โดยทดลองกบ 2 กลม กล มปรบปรงประสทธภาพได ผลความเรวดขนเมอใช 8 เครอง แตจะใชเวลามากกวากลมขอมลทไมมการปรบปรงประสทธภาพ เมออลกอรทมสงเพมขอมลทระดบ 7-8 รอบ 30 (4) งานวจยการปรบปรงอลกอรทมแมพรดวเพอเพมประสทธภาพ เชน การเชอม,การจดเรยง,การจดกลมดวยขอมลหลายรปแบบ ผลรวมการประมวลผลใชเวลา 9 พนวนาทหรอ 2 ชวโมงครง ทขอมลขนาด 500GB ดวยขอมลทก�าหนด

Journal of the Thai Medical Informatics Association, 2, 134-145, 2016

Rachatha Timasornwichakit et al. Big data technology and relational database query

Page 5: Comparative study between big data technology and ...tmi.or.th/.../2017/01/2016-2-7-big-data-technology-and-relational-database-query.pdf135 Rachatha Timasornwichakit et al. Big data

138

2. สมคดเลอกขอมลชดทดสอบตามกลมทกำาหนด สมคดเลอกขอมลชดทดสอบตามกลมทก�าหนดแบบโควตาใชการสมอยางงายดวยระบบคอมพวเตอร โดยใชฟงกชน Rand() ในระบบฐานขอมลมายเอสควแอล แบงขอมลชดทดสอบออกเปน 4 ชด และท�าการน�าออกเปนรปเทกซไฟลตามจ�านวนชดขอมลเพอเตรยมน�าเขาในระบบการจดเกบ แบบกระจายฮาดป

ตารางท 2 แบงกลมขอมลชดทดสอบ 4 ชด

แฟม Diagnosis_opd

3. เตรยมแบบสอบถามชดทดสอบเอสควแอลและแมพรดว ก�าหนดชดแบบสอบถามจ�านวน 2 ชด จากรายงานสรปการเจบปวย พ.ศ.2557 1) รายงาน 10 ล�าดบแรก จ�านวนผปวยนอก ตามกลมสาเหตการปวย (ไมรวมกรงเทพมหานคร) 2) รายงานจ�านวนผปวยนอก รวมตามกลมสาเหตการปวย (ไมรวมกรงเทพมหานคร)

4. ทดสอบการประมวลผลดวยชดแบบสอบถาม น�ารายงานในขอ 3 สรางเปนชดแบบสอบถามดวยรปแบบภาษาสอบถามเชงโครงสรางเอสควแอล ท�าการประมวลผล กบชดขอมลทดสอบในขอท 2 จ�านวน 3 ครงตอ 1 รายงาน ตอ 1 ชดขอมลในระบบฐานขอมลเชงสมพนธ และสรางชดแบบสอบถามดวยการเขยนโปรแกรมแมพรดวใชทดสอบกบไฟลขอมลชดทดสอบทจดเกบอย ในรปแบบเทกซไฟล น�าเขาในโปรแกรมฮาดปจดเกบแบบกระจาย HDFS ท�าการ ประมวลผลจ�านวน 3 ครงตอ 1 ชดขอมล

5. บนทกผลจากการประมวลผล เกบบนทกผลการทดลองม 2 กลม คอ กลม (1) การประมวลผลดวยภาษาสอบถามเชงโครงสรางเอสควแอล ท�าการบนทกผล จากการทดลองประมวลผลตามก�าหนดขอ 4 ทกครงจะท�าการ คนคาหนวยความจ�าส�ารองใหม กลม (2) การประมวลผล ดวยเทคนคแมพรดว บนทกผลการทดลองประมวลผลตาม ก�าหนดขอ 4 และก�าหนดใหมสตรการบนทกผลการทดลอง ดงน

สมมตขน (Synthetic Data)31 (5) งานวจยทใชแมพรดว, ไฮฟและมายเอสควแอลท�าการทดสอบดวยขอมลการช�าระเงนของลกคาในธรกจขนาดเลก มขอมลลกคาตงแต 500-20,000 บญช มขนาดขอมลตงแต 235MB-9GB กบเครองจ�านวน 1-4 เครอง ผลสรปวามายเอสควแอลจะใชเวลามากกวา แมพรดวและไฮฟทขนาดขอมล 1 หมนบญช หรอ 5GB ใชเวลา 25 นาท แมพรดวจะใชเวลานอยทสดในการ ประมวลผลทง 1-4 เครอง ใชเวลาโดยประมาณ 80-90 วนาท ในทกชดขอมลทดสอบ โปรแกรมแมพรดวมประสทธภาพสม�าเสมอและดทสด32

สรปการศกษาในทกงานวจยมวตถประสงคคลายคลงกนคอ เพอหาความเหมาะสมและรปแบบการใชงาน ทสามารถน�ามาใชกบขอมลในรปแบบตางๆ และเพอคนหาแนวทางการเพมประสทธภาพใหกบการท�างานบนเทคโนโลยขอมลขนาดใหญ ซงไดผลการเปรยบเทยบทใหผลไปในทศทางเดยวกนคอ เทคโนโลยขอมลขนาดใหญจะมประสทธภาพดานความเรว เมอขอมลมขนาดใหญขน แตงานวจยทเกยวของน ผ วจยยงไมพบงานใดท�าการประเมนผลความแมนย�าถกตองของผลลพธขอมล งานวจยนจงขอน�าเสนอ การประเมนประสทธภาพดานความเรวรวมกบการประเมนผลความถกตองของผลลพธ ดวยการประมวลผลชดขอมลทมการขยายตวของขอมลอยางเปนล�าดบ เพอหา จดตดของกราฟดานผลความเรว และผลลพธทถกตองตรงกน ทกชดขอมลทใชในการทดลอง

วธด�าเนนงานวจย 1. เตรยมขอมลชดทดสอบ ชดขอมลทดสอบเปนขอมลบรการสขภาพทเกบรวบรวบขอมลโดยกระทรวงสาธารณสขดวยระบบคอมพวเตอรเครองแมขายระดบจงหวด การคดเลอกขอมลเปนการสมตวอยางดวยเทคนควธแบบเฉพาะเจาะจง เปนการเลอกกลมตวอยางโดยอาศยการตดสนใจจากผเชยวชาญขอมลสขภาพท�าการสมคดเลอกน�าตวอยาง กลมขอมลชดตวอยาง 1 แฟม จากแฟมมาตรฐาน 43 แฟม

ตารางท 1 ขอมลชดทดสอบทถกคดเลอก

แฟม Diagnosis_opd

diagnosis_opd_1.txtdiagnosis_opd_2.txtdiagnosis_opd_3.txtรวม

899,9725,558,2686,308,35712,766,597

65.2374.0454.0893.2

ชอแฟม จำานวนระเบยน ขนาดไฟล (MB)

diagnosis_opd_5hdiagnosis_opd_1mdiagnosis_opd_5mdiagnosis_opd_10m

500,0001,000,0005,000,00010,000,000

34.168.2341.0682.0

ชอแฟม จำานวนระเบยน ขนาดไฟล (MB)

Journal of the Thai Medical Informatics Association, 2, 134-145, 2016

Big data technology and relational database query Rachatha Timasornwichakit et al

Page 6: Comparative study between big data technology and ...tmi.or.th/.../2017/01/2016-2-7-big-data-technology-and-relational-database-query.pdf135 Rachatha Timasornwichakit et al. Big data

139

จากการทดลองน�าเขาขอมล สงเกตวาในตารางท 3 มหนวยความจทเพมขนจากไฟลทจดเตรยมไวกอนน�าเขา ในตารางท 2 ซงสวนนเปนคาโอเวอรเฮดในระบบฐานขอมล เชงสมพนธ เปนสวนทน�ามาใชในการจดการฐานขอมล ควบคมการท�างานของขอมล ผลการทดลองกลม (2) การน�าเขาในแพลตฟอรมฮาดป มการน�าเสนอผล 2 สวน เหมอนกลม (1) น�าเสนอเปนรปแบบตางรางท 4

ตารางท 4 ผลการน�าขอมลเขาจดเกบแบบกระจาย HDFS

แฟม Diagnosis_opd ในฐานขอมล

การทดลองน�าเขาขอมลทง 2 กลม จะสงเกตไดวาขนาดของไฟลและเวลาในการน�าเขาในตารางท 4 นอยกวาใน ตารางท 3 แตหากน�าไปเปรยบกบตารางท 2 จะเพมขน เลกนอย ซงระบบฐานขอมลมระบบการจดการเชงสมพนธ จงใชเวลามากกวา การเตรยมชดแบบสอบถามทผวจยคดเลอกนนพบวาตองการรายการ 21 กลมโรคหลก น�ามาใชในการประมวลผลรวมกบขอมลผปวยนอก มโครงสรางไฟล 21 กลมโรคดงน diag21 (diag21_Code Char(3), diag21_Name Char(150), diag21_Group Int(2) index, primary key (diag21_Code)) ก�าหนดใหมคยหลกเพอควบคมคาซ�ากนและท�าการเชอม ความสมพนธเพอจดท�ารายงานดงภาพท 2

ภาพท 2 เชอมความสมพนธตารางผปวยนอกกบตาราง 21 กลมโรค

สตรการบนทกผลการคนคนดวยภาษาเอสควแอล (1)Query Time = End Time - Start Time (1)

สตรการบนทกผลการคนคนดวยเทคนคแมพรดว (2)MR Jop1 = (Map Job1 + Reduce Job1)MR Job2 = (Map Job2 + Reduce Job2)Total Time = MR Job1 + MR Job2 (2)

6. วเคราะหผลดวยสถตวจย น�าคาเฉลยผลความเรวมาวเคราะหดวยสถต t-Test (dependent) พสจนสมมตฐานเวลาการคนคนขอมลเมอม การเปรยบเทยบระหวางเทคโนโลยขอมลขนาดใหญกบ ระบบฐานขอมลเชงสมพนธมผลลพธแตกตางกน ก�าหนด คานยส�าคญท 0.05 และใชสถตรอยละประเมนผลความ ถกตองและแมนย�าจากเทคโนโลยขอมล 2 รปแบบ

7. กำาหนดสภาพแวดลอมการทดสอบ ก�าหนดสภาพแวดลอมการทดสอบดวยคอมพวเตอรเสมอน ก�าหนดการทดลองฐานขอมลเชงสมพนธเปนแบบไคลเอนตเซรฟเวอรก�าหนดเซรฟเวอร 1 เครอง และไคลเอนตเปนแลปทอป 1 เครอง สงการประมวลผลผาน Web Browser และทดลองเทคโนโลยขอมลขนาดใหญในสภาพแวดลอม การจดเกบแบบกระจาย HDFS ก�าหนดใหคาเรมตนของ ระบบเปนมาตรฐานดงเดมและใหม Master จ�านวน 1 เครอง และม Slave จ�านวน 2 เครอง ใชแลปทอปสงการประมวลผลโปรแกรมแบบขนานแมพรดวผานโปรแกรม SSH สถานทท�าการทดลองใชหองปฏบตการขอมลขนาดใหญ มธบ. คณะวศวกรรมศาสตร ฮารดแวรมคณสมบตดงน (ก) CPU 2.4 GHz (ข) RAM 8 GB (ค) HDD 2 TB

ผลการทดลองและสรปผลงานวจย ผลการทดลองกลม (1) การน�าเขาในระบบฐานขอมลเชงสมพนธ มคาทน�าเสนอผล 2 สวน 1.ขนาดหนวยความจขอมล 2.หนวยเวลาทใชในกระบวนการน�าเขา น�าเสนอเปนรปแบบตารางท 3

ตารางท 3 ผลการน�าขอมลเขาฐานขอมลมายเอสควแอล

แฟม Diagnosis_opd ในฐานขอมล

diagnosis_opd_5hdiagnosis_opd_1mdiagnosis_opd_5mdiagnosis_opd_10m

500,0001,000,0005,000,00010,000,000

55.6110.6552.01,102.0

2.835.9329.7058.56

ชอแฟม จำานวนระเบยน ขนาดไฟล (MB)

เวลาทใช (Second)

diagnosis_opd_5hdiagnosis_opd_1mdiagnosis_opd_5mdiagnosis_opd_10m

500,0001,000,0005,000,00010,000,000

34.1268.23341.16682.34

0.170.341.072.12

ชอแฟม จำานวนระเบยน ขนาดไฟล (MB)

เวลาทใช (Second)

จากการทดลองน าเขาขอมล สงเกตวาในตารางท 3 มหนวยความจทเพมขนจากไฟลทจดเตรยมไวกอนน าเขาในตารางท 2 ซงสวนนเปนคาโอเวอรเฮดในระบบฐานขอมลเชงสมพนธ เปนสวนทน ามาใชในการจดการฐานขอมลควบคมการท างานของขอมล

ผลการทดลองกลม (2) การน าเขาในแพลตฟอรมฮาดป มการน าเสนอผล 2 สวน เหมอนกลม (1) น าเสนอเปนรปแบบตางรางท 4

ตารางท 4. ผลการน าขอมลเขาจดเกบแบบกระจาย HDFS

ชอแฟม จ านวนระเบยน ขนาดไฟล

(MB) เวลาทใช (Second)

diagnosis_opd_5h 500,000 34.12 0.17 diagnosis_opd_1m 1,000,000 68.23 0.34 diagnosis_opd_5m 5,000,000 341.16 1.07 diagnosis_opd_10m 10,000,000 682.34 2.12

แฟม Diagnosis_opd ใน Hadoop การทดลองน าเขาขอมลทง 2 กลม จะสงเกตไดวาขนาดของไฟล

และเวลาในการน าเขาในตารางท 4 นอยกวาในตารางท 3 แตหากน าไปเปรยบกบตารางท 2 จะเพมขนเลกนอย ซงระบบฐานขอมลมระบบการจดการเชงสมพนธจงใชเวลามากกวา

การเตรยมชดแบบสอบถามทผวจยคดเลอกนนพบวาตองการรายการ 21 กลมโรคหลก น ามาใชในการประมวลผลรวมกบขอมลผปวยนอก มโครงสรางไฟล 21 กลมโรคดงน diag21 (diag21_Code Char(3), diag21_Name Char(150), diag21_Group Int(2) index, primary key (diag21_Code)) ก าหนดใหมคยหลกเพอควบคมคาซ ากนและท าการเชอมความสมพนธเพอจดท ารายงานดงภาพท 2

ภาพท 2. เชอมความสมพนธตารางผปวยนอกกบตาราง 21 กลมโรค

ผวจยไดจดเตรยมเครองมอวจยออกเปนขนตอน 2 กลม ดงน กลม 1 ขนตอนการประมวลผลดวยภาษาสอบถามขอมลเอสควแอล

Query Report1 = 1} Count 2} Group 3} Join 4} Sort 5} Limit Query Report 2 = 1} Count 2} Group 3} Join 4} Sort

กลม 2 ขนตอนการประมวลผลดวยเทคนคแมพรดว MR Job1 = 1} Join 2} Map 3} Reduce 4} Output MR Job2 = 1} Map 2} Combine 3} Reduce 4} Output ในกลม 2 ขนตอน Combine และ Reduce จะรวมการจดเรยง

จ านวนสงสดไวเปนล าดบตน และน าผลทดสอบออกเปนเทกซไฟลและน าเขาโปรแกรมเอกเซล สรปผลจดเรยงใหมตามรายงานขอ 3 พรอมแสดงผลภาพ ซงในขนตอนนจะไมน ามารวมบนทกในเวลาการประมวลผลดวย

Excel Job = 1} Import Text File 2} Sort 3} Cut

ตารางท 5. ผลการคนคนขอมลระบบฐานขอมลเชงสมพนธ ดวยภาษาสอบถามขอมลเชงโครงสรางเอสควแอล

รายงาน 10 ล าดบแรก จ านวนผปวยนอก ตามกลมสาเหตการปวย และรายงานจ านวนผปวยนอก รวมตามกลมสาเหตการปวย (ไมรวมกรงเทพมหานคร)

จ านวน ขนาดไฟล

1) รายงาน 10 ล าดบแรก จ านวนผปวยนอก ตามกลมสาเหตการปวย (ไมรวม

กรงเทพมหานคร)

2) รายงานจ านวนผปวยนอก รวมตามกลมสาเหตการปวย

(ไมรวมกรงเทพมหานคร) ผลรวม

ชอแฟม ระเบยน (MB) เวลาทใช (วนาท) คาเฉลย

ครงท 1 ครงท 2 ครงท 3 คาเฉลย ครงท 1 ครงท 2 ครงท 3 คาเฉลย

diagnosis_opd_5h 500,000 55.6 0.8792 0.8723 0.8780 0.8765 0.8697 0.8686 0.8699 0.8694 1.7459 diagnosis_opd_1m 1,000,000 110.6 1.7388 1.7296 1.7451 1.7588 1.7478 1.7465 1.7451 1.7465 3.5053 diagnosis_opd_5m 5,000,000 552.0 8.8761 8.8679 8.8719 8.8720 8.8544 8.8584 8.8823 8.8650 17.7370 diagnosis_opd_10m 10,000,000 1,102.0 17.8370 17.8001 17.8156 17.8176 17.7472 17.7331 17.7646 17.7483 35.5659

Journal of the Thai Medical Informatics Association, 2, 134-145, 2016

Rachatha Timasornwichakit et al. Big data technology and relational database query

Page 7: Comparative study between big data technology and ...tmi.or.th/.../2017/01/2016-2-7-big-data-technology-and-relational-database-query.pdf135 Rachatha Timasornwichakit et al. Big data

140

diagnosis_opd_5hdiagnosis_opd_1mdiagnosis_opd_5mdiagnosis_opd_10m

500,0001,000,0005,000,00010,000,000

500,000

1,000,000

5,000,000

10,000,000

55.6

110.6

552.0

1,102.0

0.8792

1.7388

8.8761

17.8370

34.1268.23341.16682.34

6.2459.23435.298128.192

4.1444.09711.88428.792

1.9201.9011.9831.875

1.9331.9501.9263.560

6.2459.44637.618134.972

4.1443.9349.79527.440

1.9201.9202.9131.910

1.9331.8991.9031.948

6.9569.07538.236108.763

2.8004.44914.25329.924

1.9371.9131.9291.899

1.8751.9161.9381.925

14.017317.244753.2253157.0667

0.8723

1.7296

8.8679

17.8001

0.8780

1.7451

8.8719

17.8156

0.8765

1.7588

8.8720

17.8176

0.8697

1.7478

8.8544

17.7472

0.8686

1.7465

8.8584

17.7331

0.8699

1.7451

8.8823

17.7646

0.8694

1.7465

8.8650

17.7483

1.7459

3.5053

17.7370

35.5659

ชอแฟม จำานวนระเบยน

จำานวนระเบยน

ขนาดไฟล (MB)

ขนาดไฟล (MB)

1) รายงาน 10 ลำาดบแรก จำานวนผปวยนอก

ตามกลมสาเหตการปวย (ไมรวมกรงเทพมหานคร)

2) รายงานจำานวนผปวยนอก รวมตามกลมสาเหตการปวย (ไมรวมกรงเทพมหานคร)

เวลาทใช (Second)

เวลาทใช (Second) คาเฉลย(Total/3)

ครงท 1

Map Job1

1 1 1 12 2 2 23 3 3 3

Map Job2Reduce Job1 Reduce Job2

ครงท 1ครงท 2 ครงท 2ครงท 3 ครงท 3คาเฉลย คาเฉลย

ผลรวมคาเฉลย

ผวจยไดจดเตรยมเครองมอการประมวลผลออกเปนขนตอน ดงน กลม 1 ขนตอนการประมวลผลดวยภาษาสอบถามขอมลเอสควแอล Query Report1 = 1} Count 2} Group 3} Join 4} Sort 5} Limit Query Report2 = 1} Count 2} Group 3} Join 4} Sort กลม 2 ขนตอนการประมวลผลดวยเทคนคแมพรดว MR Job1 = 1} Join 2} Map 3} Reduce 4} Output

MR Job2 = 1} Map 2} Combine 3} Reduce 4} Output ในกลม 2 ขนตอน Combine และ Reduce จะรวม การจดเรยงจ�านวนสงสดไวเปนล�าดบตน และน�าผลทดสอบออกเปนเทกซไฟลและน�าเขาโปรแกรมเอกเซล สรปผลจดเรยงใหมตามรายงานขอ 3 พรอมแสดงผลภาพ ซงในขนตอนน จะไมน�ามารวมบนทกในเวลาการประมวลผลดวย Excel Job = 1} Import Text File 2} Sort 3} Cut

ตารางท 5 ผลการคนคนขอมลระบบฐานขอมลเชงสมพนธ ดวยภาษาสอบถามขอมลเชงโครงสรางเอสควแอล รายงาน 10 ล�าดบแรก จ�านวนผปวยนอก ตามกลมสาเหตการปวย และรายงานจ�านวนผปวยนอก รวมตามกลมสาเหตการปวย (ไมรวมกรงเทพมหานคร)

ตารางท 6 ผลการคนคนขอมลเทคโนโลยขอมลขนาดใหญ ดวยเทคนคแมพรดว รายงาน 10 ล�าดบแรก จ�านวนผปวยนอก ตามกลมสาเหตการปวย และรายงานจ�านวนผปวยนอก รวมตามกลมสาเหตการปวย (ไมรวมกรงเทพมหานคร)

ผลจากการทดลองสงเกตไดวาในตารางท 5 มคาเฉลย รายงาน 1) มากกวารายงาน 2) เลกนอย เนองจากมขนตอนการก�าหนดล�าดบการแสดงผลทเพมขน และในตารางท 6 ผล MR Job1 นนจะใชเวลามากทสดเปนผลจาก 2 ขนตอน

คอ หลงจากน�าขอมลเขาจดเกบใน HDFS การเรยกรายงานจะท�าการแสดงผลดวยโปรแกรมสงการประมวลผลและรวบรวมผลขอมลทถกจดเกบในเครอง Slave แลวน�าผลลพธสงคนกลบมาใหเครอง Master และจะท�าทกครงทมสงการ

Journal of the Thai Medical Informatics Association, 2, 134-145, 2016

Big data technology and relational database query Rachatha Timasornwichakit et al

Page 8: Comparative study between big data technology and ...tmi.or.th/.../2017/01/2016-2-7-big-data-technology-and-relational-database-query.pdf135 Rachatha Timasornwichakit et al. Big data

141

ประมวลผล และการ Join ดวยการน�าระเบยนทงหมด ในแฟมผปวยนอกมาเชอมความสมพนธกบแฟม 21 กลมโรค ดวย รปแบบ Nested Loop Join หรอการเชอมสมพนธโดยไมมการจดเรยงอนเดกซกอน ระเบยนมากขนยงใชเวลามากขนและน�าผลรวมทไดจดเกบในไฟลผลลพธเพอใชในขนตอน ตอไปใน MR Job2 แตสงเกตวางาน Mj2 และ Rj2 จะใชเวลาใกลเคยงกนเนองจากขนตอนนจะใชผลจาก MR Job1 น�ามาประมวลผลใหมดวยการจบคขอมล, รวม, เรยงล�าดบใหมและน�าเสนอเปนผลลพธใหมไวในรปแบบ เทกซไฟล สรปไดวาการประมวลผลดวยเทคนคแมพรดวมขนตอนทมากกวาจะสงผลตอประสทธภาพดานเวลาในการประมวลผล ในขนตอน MR Job1 การเชอมสมพนธและประมวลผล เพอนบจ�านวนในแตละกลมโรคกอน จากนนสรางไฟลผลลพธจดเกบไวเพอสงตอใหกบขนตอน MR Job2 ในการเรยกประมวลผลรวมแตละกลมโรคเพอใชแสดงผลรายงานและจดเกบในรปแบบของไฟลผลลพธอกครง อกทงการปรบปรงก�าหนดคาเรมตนของระบบฮาดปใหรองรบการประมวลขอมลขนาดเลกได อาจจะสงผลใหโปรแกรมใชเวลาในการเรยกคนไฟลขอมลขนาดใหญจากเครองทใชเกบขอมลในเครอขาย ในการเรยกคนไฟลขนาดใหญจ�านวนมากเพอน�ามาประมวลผลท�าใหเวลาการประมวลผลเพมขนเมอระเบยนมมากขน ผลรวมคาเฉลยทกขนตอนในตารางท 6 เมอเปรยบเทยบกบตารางท 5 ทรวมคาเฉลยจาก รายงาน 1) และ 2) มคาเฉลยของเวลาประมวลผลมากกวาทกชดขอมลทดสอบ ดงภาพท 3

ภาพท 3 กราฟผลเปรยบเทยบความเรวการประมวลผลเทคโนโลยขอมล 2 รปแบบ

การทดลองแสดงผลภาพการวเคราะหขอมลบรการ สขภาพ ดวยเทคโนโลยฐานขอมลสามารถด�าเนนการ ไดทนทดวยโปรแกรมการจดการฐานขอมลเชงสมพนธ phpMyAdmin

ตารางท 6. ผลการคนคนขอมลเทคโนโลยขอมลขนาดใหญ ดวยเทคนคแมพรดว

รายงาน 10 ล าดบแรก จ านวนผปวยนอก ตามกลมสาเหตการปวย และรายงานจ านวนผปวยนอก รวมตามกลมสาเหตการปวย (ไมรวมกรงเทพมหานคร) )

จ านวน ขนาดไฟล เวลาทใช (วนาท) ระเบยน (MB) Map Job1 Reduce Job1 Map Job2 Reduce Job2 คาเฉลย

1 2 3 1 2 3 1 2 3 1 2 3 (Total/3)

500,000 34.12 6.245 6.245 6.956 4.144 4.144 2.800 1.920 1.920 1.937 1.933 1.933 1.875 14.0173 1,000,000 68.23 9.234 9.446 9.075 4.097 3.934 4.449 1.901 1.920 1.913 1.950 1.899 1.916 17.2447 5,000,000 341.16 35.298 37.618 38.236 11.884 9.795 14.253 1.983 2.913 1.929 1.926 1.903 1.938 53.2253

10,000,000 682.34 128.192 134.972 108.763 28.792 27.440 29.924 1.875 1.910 1.899 3.560 1.948 1.925 157.0667

ผลจากการทดลองสงเกตไดวาในตารางท 5 มคาเฉลย รายงาน 1) มากกวารายงาน 2) เลกนอย เนองจากมขนตอนการก าหนดล าดบการแสดงผลทเพมขน และในตารางท 6 ผล MR Job1 นนจะใชเวลามากทสดเปนผลจาก 2 ขนตอนคอ หลงจากน าขอมลเขาจดเกบใน HDFS การเรยกรายงานจะท าการแสดงผลดวยโปรแกรมสงการประมวลผลและรวบรวมผลขอมลทถกจดเกบในเครอง Slave แลวน าผลลพธสงคนกลบมาใหเครอง Master และจะท าทกครงทมสงการประมวลผล และการ Join ดวยการน าระเบยนทงหมดในแฟมผปวยนอกมาเชอมความสมพนธกบแฟม 21 กลมโรค ดวยรปแบบ Nested Loop Join หรอการเชอมสมพนธโดยไมมการจดเรยงอนเดกซกอน ระเบยนมากขนยงใชเวลามากขนและน าผลรวมทไดจดเกบในไฟลผลลพธเพอใชในขนตอนตอไปใน MR Job2 แตสงเกตวางาน Mj2 และ Rj2 จะใชเวลาใกลเคยงกนเนองจากขนตอนนจะใชผลจาก MR Job1 น ามาประมวลผลใหมดวยการจบคขอมล, รวม, เรยงล าดบใหมและน าเสนอเปนผลลพธใหมไวในรปแบบเทกซไฟล

สรปไดวาการประมวลผลดวยเทคนคแมพรดวมข นตอนทมากกวาจะสงผลตอประสทธภาพดานเวลาในการประมวลผล ในขนตอน MR Job1 การเชอมสมพนธและประมวลผลเพอนบจ านวนในแตละกลมโรคกอน จากนนสรางไฟลผลลพธจดเกบไวเพอสงตอใหกบขนตอน MR Job2 ในการเรยกประมวลผลรวมแตละกลมโรคเพอใชแสดงผลรายงานและจดเกบในรปแบบของไฟลผลลพธอกครง อกทงการปรบปรงก าหนดคาเรมตนของระบบฮาดปใหรองรบการประมวลขอมลขนาดเลกได อาจจะสงผลใหโปรแกรมใชเวลาในการเรยกคนไฟลขอมลขนาดใหญจากเครองทใชเกบขอมลในเครอขาย ในการเรยกคนไฟลขนาดใหญจ านวนมากเพอน ามาประมวลผลท าใหเวลาการประมวลผลเพมขนเมอระเบยนมมากขน

ผลรวมคาเฉลยทกขนตอนในตารางท 6 เมอเปรยบเทยบกบตารางท 5 ทรวมคาเฉลยจาก รายงาน 1) และ 2) มคาเฉลยของเวลาประมวลผลมากกวาทกชดขอมลทดสอบ ดงภาพท 3

ภาพท 3. กราฟผลเปรยบเทยบความเรวการประมวลผลเทคโนโลยขอมล 2 รปแบบ

การทดลองแสดงผลภาพการวเคราะหขอมลบรการสขภาพ ดวยเทคโนโลยฐานขอมลสามารถด าเนนการไดทนทดวยโปรแกรมการจดการฐานขอมลเชงสมพนธ phpMyAdmin หากใชเทคโนโลยขอมลขนาดใหญฮาดปและแมพรดวตองน าผลทไดในรปเทกซไฟลออกมาจดท าในโปรแกรมเอกเซล ดงภาพท 4

ภาพท 4. แผนภมตวอยางทไดจากรายงาน 1) ชดขอมล 10 ลาน ดวย Excel

ตารางท 6. ผลการคนคนขอมลเทคโนโลยขอมลขนาดใหญ ดวยเทคนคแมพรดว

รายงาน 10 ล าดบแรก จ านวนผปวยนอก ตามกลมสาเหตการปวย และรายงานจ านวนผปวยนอก รวมตามกลมสาเหตการปวย (ไมรวมกรงเทพมหานคร) )

จ านวน ขนาดไฟล เวลาทใช (วนาท) ระเบยน (MB) Map Job1 Reduce Job1 Map Job2 Reduce Job2 คาเฉลย

1 2 3 1 2 3 1 2 3 1 2 3 (Total/3)

500,000 34.12 6.245 6.245 6.956 4.144 4.144 2.800 1.920 1.920 1.937 1.933 1.933 1.875 14.0173 1,000,000 68.23 9.234 9.446 9.075 4.097 3.934 4.449 1.901 1.920 1.913 1.950 1.899 1.916 17.2447 5,000,000 341.16 35.298 37.618 38.236 11.884 9.795 14.253 1.983 2.913 1.929 1.926 1.903 1.938 53.2253

10,000,000 682.34 128.192 134.972 108.763 28.792 27.440 29.924 1.875 1.910 1.899 3.560 1.948 1.925 157.0667

ผลจากการทดลองสงเกตไดวาในตารางท 5 มคาเฉลย รายงาน 1) มากกวารายงาน 2) เลกนอย เนองจากมขนตอนการก าหนดล าดบการแสดงผลทเพมขน และในตารางท 6 ผล MR Job1 นนจะใชเวลามากทสดเปนผลจาก 2 ขนตอนคอ หลงจากน าขอมลเขาจดเกบใน HDFS การเรยกรายงานจะท าการแสดงผลดวยโปรแกรมสงการประมวลผลและรวบรวมผลขอมลทถกจดเกบในเครอง Slave แลวน าผลลพธสงคนกลบมาใหเครอง Master และจะท าทกครงทมสงการประมวลผล และการ Join ดวยการน าระเบยนทงหมดในแฟมผปวยนอกมาเชอมความสมพนธกบแฟม 21 กลมโรค ดวยรปแบบ Nested Loop Join หรอการเชอมสมพนธโดยไมมการจดเรยงอนเดกซกอน ระเบยนมากขนยงใชเวลามากขนและน าผลรวมทไดจดเกบในไฟลผลลพธเพอใชในขนตอนตอไปใน MR Job2 แตสงเกตวางาน Mj2 และ Rj2 จะใชเวลาใกลเคยงกนเนองจากขนตอนนจะใชผลจาก MR Job1 น ามาประมวลผลใหมดวยการจบคขอมล, รวม, เรยงล าดบใหมและน าเสนอเปนผลลพธใหมไวในรปแบบเทกซไฟล

สรปไดวาการประมวลผลดวยเทคนคแมพรดวมข นตอนทมากกวาจะสงผลตอประสทธภาพดานเวลาในการประมวลผล ในขนตอน MR Job1 การเชอมสมพนธและประมวลผลเพอนบจ านวนในแตละกลมโรคกอน จากนนสรางไฟลผลลพธจดเกบไวเพอสงตอใหกบขนตอน MR Job2 ในการเรยกประมวลผลรวมแตละกลมโรคเพอใชแสดงผลรายงานและจดเกบในรปแบบของไฟลผลลพธอกครง อกทงการปรบปรงก าหนดคาเรมตนของระบบฮาดปใหรองรบการประมวลขอมลขนาดเลกได อาจจะสงผลใหโปรแกรมใชเวลาในการเรยกคนไฟลขอมลขนาดใหญจากเครองทใชเกบขอมลในเครอขาย ในการเรยกคนไฟลขนาดใหญจ านวนมากเพอน ามาประมวลผลท าใหเวลาการประมวลผลเพมขนเมอระเบยนมมากขน

ผลรวมคาเฉลยทกขนตอนในตารางท 6 เมอเปรยบเทยบกบตารางท 5 ทรวมคาเฉลยจาก รายงาน 1) และ 2) มคาเฉลยของเวลาประมวลผลมากกวาทกชดขอมลทดสอบ ดงภาพท 3

ภาพท 3. กราฟผลเปรยบเทยบความเรวการประมวลผลเทคโนโลยขอมล 2 รปแบบ

การทดลองแสดงผลภาพการวเคราะหขอมลบรการสขภาพ ดวยเทคโนโลยฐานขอมลสามารถด าเนนการไดทนทดวยโปรแกรมการจดการฐานขอมลเชงสมพนธ phpMyAdmin หากใชเทคโนโลยขอมลขนาดใหญฮาดปและแมพรดวตองน าผลทไดในรปเทกซไฟลออกมาจดท าในโปรแกรมเอกเซล ดงภาพท 4

ภาพท 4. แผนภมตวอยางทไดจากรายงาน 1) ชดขอมล 10 ลาน ดวย Excel

หากใชเทคโนโลยขอมลขนาดใหญฮาดปและแมพรดว ตองน�าผลทไดในรปเทกซไฟลออกมาจดท�าในโปรแกรมเอกเซล ดงภาพท 4

ภาพท 4 แผนภมตวอยางทไดจากรายงาน 1) ชดขอมล 10 ลาน ดวย Excel

ผลทดลองการคนคนมความถกตองและแมนย�าของเทคโนโลยขอมล 2 รปแบบ ตรงกน 100% ในทกชดขอมลและทกรายงาน ตามตวอยางตารางท 7 เปรยบเทยบผลลพธการประมวลผลดวยรายงาน 1) ซงในรายงาน 2) ไมไดน�ามาแสดงในบทความน ดวย และรายงานทประมวลผลดวยเทคโนโลยขอมลขนาดใหญยงสามารถประมวลผลผลลพธ ออกมาได 2 รายงานในคราวเดยว จากสมมตฐานทคาดการณไว ลวงหนาวาผลลพธของเวลาในการคนคนขอมล เมอมการเปรยบเทยบระหวางเทคโนโลยขอมลขนาดใหญกบระบบฐานขอมลเชงสมพนธแตกตางกน มผลค�านวณสถต t-Test ดวยโปรแกรมเอกเซลดงน

Journal of the Thai Medical Informatics Association, 2, 134-145, 2016

Rachatha Timasornwichakit et al. Big data technology and relational database query

Page 9: Comparative study between big data technology and ...tmi.or.th/.../2017/01/2016-2-7-big-data-technology-and-relational-database-query.pdf135 Rachatha Timasornwichakit et al. Big data

142

ตารางท 7 ผลการเปรยบเทยบความแมนย�าถกตองการคนคนขอมลจากเทคโนโลย 2 แบบ ในรายงานท 1) รายงาน 10 ล�าดบแรก จ�านวนผปวยนอก ตามกลมสาเหตการปวย (ไมรวมกรงเทพมหานคร)

491011131851147

โรคเกยวกบตอมไรทอ…โรคระบบไหลเวยนเลอด…โรคระบบหายใจ…โรคระบบยอยอาหาร…โรคระบบกลามเนอ…อาการแสดงและสงผดปกต…ภาวะแปรปรวนทางจต…โรคตดเชอและปรสต…โรคระบบสบพนธรวม…โรคตารวมสวนประกอบ…

40475382403287224665226661936210265891683196943

80330755086607949333452313794120439176521714413972

402100378424329670245614226363190885102636877878485869832

803921756420661610492848451451382004205790176598169937140556

40475382403287224665226661936210265891683196943

80330755086607949333452313794120439176521714413972

402100378424329670245614226363190885102636877878485869832

803921756420661610492848451451382004205790176598169937140556

100%100%100%100%100%100%100%100%100%100%

กลมโรค

สาเหตกลมการปวย จำานวนผปวยนอก

5 แสน

SQL SQLSQL SQLMR MRMR MR

1 ลาน 5 ลาน 10 ลาน

ผลความแมนยำาถกตองรอยละ (%)

ตารางท 7. ผลการเปรยบเทยบความแมนย าถกตองการคนคนขอมลจากเทคโนโลย 2 แบบ ในรายงานท 1)

รายงาน 10 ล าดบแรก จ านวนผปวยนอก ตามกลมสาเหตการปวย (ไมรวมกรงเทพมหานคร)

กลม จ านวนผปวยนอก ผลความ

โรค สาเหตกลมการปวย 5 แสน 1 ลาน 5 ลาน 10 ลาน แมนย าถกตอง

SQL MR SQL MR SQL MR SQL MR รอยละ (%)

4 โรคเกยวกบตอมไรทอ… 40475 40475 80330 80330 402100 402100 803921 803921 100% 9 โรคระบบไหลเวยนเลอด… 38240 38240 75508 75508 378424 378424 756420 756420 100% 10 โรคระบบหายใจ… 32872 32872 66079 66079 329670 329670 661610 661610 100% 11 โรคระบบยอยอาหาร… 24665 24665 49333 49333 245614 245614 492848 492848 100% 13 โรคระบบกลามเนอ… 22666 22666 45231 45231 226363 226363 451451 451451 100% 18 อาการแสดงและสงผดปกต… 19362 19362 37941 37941 190885 190885 382004 382004 100% 5 ภาวะแปรปรวนทางจต… 10265 10265 20439 20439 102636 102636 205790 205790 100% 1 โรคตดเชอและปรสต… 8916 8916 17652 17652 87787 87787 176598 176598 100% 14 โรคระบบสบพนธรวม… 8319 8319 17144 17144 84858 84858 169937 169937 100% 7 โรคตารวมสวนประกอบ… 6943 6943 13972 13972 69832 69832 140556 140556 100%

ผลทดลองการคนคนมความถกตองและแมนย าของเทคโนโลยขอมล 2 รปแบบ ตรงกน 100% ในทกชดขอมลและทกรายงาน ตามตวอยางตารางท 7 เปรยบเทยบผลลพธการประมวลผลดวยรายงาน 1) ซงในรายงาน 2) ไมไดน ามาแสดงในบทความนดวย และรายงานทประมวลผลดวยเทคโนโลยขอมลขนาดใหญยงสามารถประมวลผลผลลพธออกมาได 2 รายงานในคราวเดยว

จากสมมตฐานทคาดการณไว ลวงหนาวาผลลพธของเวลาในการคนคนขอมล เมอมการเปรยบเทยบระหวางเทคโนโลยขอมลขนาดใหญกบระบบฐานขอมลเชงสมพนธแตกตางกน คานยส าคญท

05.0 มผลค านวณสถต t-Test ดวยโปรแกรมเอกเซลดงน ตารางท 8. ตารางผลการค านวณ T-TEST

สรปผลการวเคราะหคาเฉลยดวยสถต t-Test สามารถแปลผลไดดงน เมอ P-Value (two tail) ทไดเทากบ 0.17 มากกวาคาแอลฟา 0.05

หรอคาสถต t=1.77 มคาอยระหวางจดวกฤต (t Critical) -3.18 ถง 3.18 จงเปนการปฏเสธสมมตฐานทไดคาดการณไวลวงหนาทวาผลลพธของเวลาประมวลผลการคนคนขอมลเมอมการเปรยบเทยบระหวางระบบขอมลขนาดใหญกบระบบฐานขอมลเชงสมพนธ มผลลพธทแตกตางกน

V. อภปรำยผลงำนวจย

ผลการประเมนประสทธภาพวเคราะหดวยคาเฉลยเวลาการคนคนขอมลผล P-Value (two tail) ทไดเทากบ 0.17 มากกวาคาแอลฟา 0.05 เปนการปฏเสธสมมตฐานทคาดการณไววาผลลพธของเวลาการคนคนขอมลเมอมการเปรยบเทยบระหวางเทคโนโลยขอมลขนาดใหญกบระบบฐานขอมลเชงสมพนธ มความแตกตางกน ซงจากผลการทดสอบดวยสถตวจยท าใหทราบวาผลลพธดานความเรวของเทคโนโลย 2 รปแบบ ไมมความแตกตางกน ผลการประเมนผลการคนคนมความถกตองและแมนย าของเทคโนโลยขอมล 2 รปแบบ พบวามผลลพธตรงกนในทกชดขอมลและทกรายงาน 100% จงเปนการยอมรบสมมตฐานทคาดการณวา ผลลพธของความแมนย า ถกตองการคน คนขอ มล เ มอมการ

ตารางท 8 ตารางผลการค�านวณ T-TEST

สรปผลการวเคราะหคาเฉลยดวยสถต t-Test สามารถ แปลผลไดดงน เมอ P-Value (two tail) ทไดเทากบ 0.17 มากกวาคาแอลฟา 0.05 หรอคาสถต t=1.77 มคาอยระหวางจดวกฤต (t Critical) -3.18 ถง 3.18 จงเปนการปฏเสธสมมตฐานทไดคาดการณไวลวงหนาทวาผลลพธของเวลาประมวลผลการคนคนขอมลเมอมการเปรยบเทยบระหวางระบบขอมลขนาดใหญกบระบบฐานขอมลเชงสมพนธ มผลลพธทแตกตางกน

อภปรายผลงานวจย ผลการประเมนประสทธภาพวเคราะหดวยคาเฉลยเวลาการคนคนขอมลผล P-Value (two tail) ทไดเทากบ 0.17 มากกวาคาแอลฟา 0.05 เปนการปฏเสธสมมตฐานทคาดการณไววาผลลพธของเวลาการคนคนขอมลเมอมการเปรยบเทยบระหวางเทคโนโลยขอมลขนาดใหญกบระบบฐานขอมลเชงสมพนธ มความแตกตางกน ซงจากผลการทดสอบดวยสถตวจย ท�าใหทราบวาผลลพธดานความเรวของเทคโนโลย 2 รปแบบ ไมมความแตกตางกน

ผลการประเมนประสทธผลการคนคนมความถกตองและแมนย�าของเทคโนโลยขอมล 2 รปแบบ พบวามผลลพธ ตรงกนในทกชดขอมลและทกรายงาน 100% จงเปนการยอมรบสมมตฐานทคาดการณวา ผลลพธของความแมนย�า ถกตอง การคนคนขอมลเมอมการเปรยบเทยบระหวางเทคโนโลยขอมลขนาดใหญกบระบบฐานขอมลเชงสมพนธ มผลลพธไมแตกตางกน เทคโนโลยขอมลขนาดใหญฮาดปและแมพรดวสามารถน�ามาใชงานรวมกบขอมลในระบบฐานขอมลเชงสมพนธแบบมโครงสรางได สามารถจดเกบและน�ามาวเคราะหขอมลระบบบรการสขภาพได อางองจากผลการทดสอบในงานวจยนทพบวาการจดเกบแบบกระจายฮาดปและการประมวลผลแบบขนานแมพรดว สามารถน�ามาประมวลผลและจดท�าสถตดวยขอมลบรการสขภาพได และมความถกตองแมนย�าของผลลพธทได 100% การใชงานโปรแกรมฮาดปและแมพรดวจะมประสทธภาพสง ขนอยกบขนาดของขอมลในแตละงานทตองการประมวลผล และชดขอมลทเชอมสมพนธมการกรองขอมลทตองการไวลวงหนาจะสงผลดตอความเรว แตยงไมเหมาะกบการประมวลผลชดขอมลทมขนาดเลกและคลสเตอรทมขนาดเลก แตสามารถใชประมวลผลกบชดขอมลทมโครงสรางและสมพนธกนได หากจะน�ามาใชตองเขาใจกระบวนการท�างานในโปรแกรม เพอการปรบแกไขคาเรมตน และการปรบปรงวธการเขยนโปรแกรมเพอประยกตใชกบงานในชดขอมลเฉพาะทตองการ และจ�าเปนตองก�าหนดรปแบบผลลพธไวลวงหนาจงจะเกดประสทธภาพและประสทธผลอยางสงสด

Journal of the Thai Medical Informatics Association, 2, 134-145, 2016

Big data technology and relational database query Rachatha Timasornwichakit et al

Page 10: Comparative study between big data technology and ...tmi.or.th/.../2017/01/2016-2-7-big-data-technology-and-relational-database-query.pdf135 Rachatha Timasornwichakit et al. Big data

143

ประสทธภาพดานความเรวในเทคโนโลยฮาดปและแมพรดวเมอเปรยบเทยบกบระบบฐานขอมลเชงสมพนธในงานวจยน พบวาการใช MySQL ประมวลผลขอมลขนาดชดสบลาน มความเรวมากกวา MapReduce ถง 4 เทา แตหากเปรยบเทยบในการน�าเขาขอมลชดขอมลสบลาน Hadoop จะเรวกวา 27 เทา ซงหากงานวจยนเปนงานทเปรยบเทยบประสทธภาพโดยรวมของการท�างานทงหมดฮาดปและแมพรดวจะมประสทธภาพทดกวามายเอสควแอล และยงไมเหมาะสมกบการใชงานการคนคนขอมลขนาดเลกและมโครงสราง แตเทคโนโลย NoSQL หรอ Key-Value นเปนการเตมเตมใหกบฐานขอมล RDBMS รปแบบดงเดม ทไมจ�าเปนตองจดเกบแบบโครงสราง แตยงไมสามารถน�ามาทดแทนไดในทกๆ รปแบบชดขอมล หากน�ามาใชอยางเหมาะสมตามลกษณะของขอมลทตองการจดเกบและเรยกใชงานจะท�าใหเกดประโยชนสงสด

ขอเสนอแนะ ขอจ�ากดจากงานวจยนผ วจยพบวาคณภาพขอมลเปน สงส�าคญ มขอควรทราบทวา “สารสนเทศทไดจะถกตองแมนย�า ตองใชขอมลคณภาพ” ดวยการควบคมคณภาพขอมลน�าเขาและการจบคเชอมสมพนธทดจะท�าใหไดผลทถกตอง ในการน�าเขาขอมลจ�าเปนตองท�าความสะอาดขอมลกอนใชงาน และขอมลทใชในการเชอมความสมพนธตองเขาใจประเภทของขอมลทใชในการจบคความสมพนธ และตองท�าความเขาใจผลลพธทตองการวาตองการแสดงผลรปแบบใด เพอควบคมคณภาพการเขยนโปรแกรมใหไดผลลพธตามทตองการ จงจะเปลยนขอมลใหออกมาเปนสารสนเทศทถกตองในรปแบบทตองการ สามารถน�าไปใชงานตอไดอยางมคณภาพ ส�าหรบผลดานประสทธภาพความเรวยงไมเปนตามทคาดหวง ซงผลทไดขดแยงกบงานวจยทเกยวของทพบวาการประมวลผลดวยแมพรดวจะสามารถประมวลผลขอมล ขนาดเลกได ด 32 แตจะสอดคลองกบทฤษฏ บกดาตา เหมาะกบการใชงานประมวลผลชดขอมลขนาดเทราไบต (TB) และเพตาไบต (PB) มากกวา24

งานวจยในอนาคต จากการทดลองนยงไมบรรลวตถประสงคในการหาจดตดของกราฟดานผลความเรววาจดใดทระบบฐานขอมลเชงสมพนธไมสามารถด�าเนนการไดหรอมประสทธภาพดอยกวาเทคโนโลยขอมลขนาดใหญ เพอคนหาจดทเรมตองปรบเปลยนระบบ

ตารางท 9 เปรยบเทยบคาเฉลยความเรวในการประมวลผล

จากผลรวมคาเฉลยความเรวดงตารางท 9 ทใชในการประมวลผล หากน�ามาค�านวณหาเวลาตางกนเปนกเทาจะ พบวามแนวโนมทลดลง จงเปนไปไดวาเมอขอมลมเพมขนถง 50 ลานระเบยน ประสทธภาพดานความเรวการประมวลผลดวยเทคนคแมพรดวจะดกวา ผวจยจงเหนวาสามารถน�ามาใชในงานทดลองครงตอไป ดวยการเพมระเบยน และจากการสงเกตในขนตอนการทดสอบ เมอเทยบขนตอนการประมวลผลกนแลวพบวาหากใชขนตอนในการเขยนค�าสงโปรแกรมแมพรดวใหเหมอนกบขนตอนของการใชภาษาสอบถามเชงโครงสรางเอสควแอล จะเปนการลดเวลาในขนตอนการประมวลผล สวนการจบคเ ชอมสมพนธลงได29 อกทงการเพมการ เรยงล�าดบอนเดกซไวลวงหนา และการก�าหนดขนาดบลอกขอมลใน HDFS จะเปนการเพมประสทธภาพความเรวได จากภาพท 5 เมอน�าตารางท 9 มาจดท�ากราฟแสดงผลภาพ

ภาพท 5 กราฟแสดงผลการเปรยบเทยบคาเฉลยความเรว

กตตกรรมประกาศ ขอขอบพระคณทาน ผศ.ดร.วรพล พงษเพชร คณบดคณะวศวกรรมศาสตร มธบ. ทเออเฟอและอนญาตใหใช สถานทท�าการทดลอง และทานอาจารยนกล พมเสน ผตดตงโปรแกรมฮาดป และขอบคณ นายนฐพงษ หนสงห นกศกษาวศวกรรมขอมลขนาดใหญผเขยนโปรแกรมแมพรดวส�าหรบใชในการทดลองครงน

5 แสน1 ลาน5 ลาน10 ลาน

1.74593.505317.737035.5659

14.017317.244753.2253157.0667

8.02874.91953.00244.4162

ชดขอมล รวมคาเฉลย MySQL (1+2)

คาเฉลย MapReduce

จำานวนเทา

ประมวลผลกนแลวพบวาหากใชขนตอนในการเขยนค าสงโปรแกรมแมพรดวใหเหมอนกบข นตอนของการใชภาษาสอบถามเชงโครงสรางเอสควแอล จะเปนการลดเวลาในขนตอนการประมวลผล สวนการจบคเชอมสมพนธลงได [29] อกทงการเพมการเรยงล าดบอนเดกซไวลวงหนา และการก าหนดขนาดบลอกขอมลใน HDFS จะเปนการเพมประสทธภาพความเรวได จากภาพท 5 เมอน าตารางท 9 มาจดท ากราฟแสดงผลภาพ

ภาพท 5. กราฟแสดงผลการเปรยบเทยบคาเฉลยความเรว

กตตกรรมประกาศ

ขอขอบพระคณทาน ผศ.ดร.วรพล พงษเพชร คณบดคณะวศวกรรมศาสตร มธบ. ทเออเฟอและอนญาตใหใชสถานทท าการทดลอง และทานอาจารยนกล พมเสน ผตดตงโปรแกรมฮาดป และขอบคณ นายนฐพงษ หนสงห นกศกษาวศวกรรมขอมลขนาดใหญผเขยนโปรแกรมแมพรดวส าหรบใชในการทดลองครงน

เอกสารอางอง [1] คณะกรรมการพฒนาระบบบรการทตอบสนองตอปญหาสขภาพทส าคญ (สาขาหลก).

“แผนพฒนาระบบบรการสขภาพ (Service Plan) กระทรวงสาธารณสข,” ส านกบรหารการสาธารณสข, ส านกงานปลดกระทรวงสาธารณสข, 2556 : น.1.

[2] เมธ จนทจารภรณ, “การจดการเชงกลยทธในการพฒนาสขภาพ,” หนวยท 5 ขอมลและสารสนเทศเชงกลยทธ, ครงท 2, มหาวทยาลยสโขทยธรรมาธราช:นนทบร, 2556, น.2.

[3] สน พนธพนจ, “เทคนคการวจยทางวทยาศาสตร,” ครงท 2, พมพดการพมพ :กรงเทพฯ, ม.ย. 2555, น.141-142.

[4] ส านกนโยบายและยทธศาสตร, “คมอการปฏบตงานการจดเกบและจดสงขอมลตามโครงสรางมาตรฐานขอมลสขภาพ กระทรวงสาธารณสข Version 2.1 (มกราคม 2559) ปงบประมาณ 2559,” ส านกงานปลดกระทรวงสาธารณสข, 2559, น.36.

[5] กลมภารกจดานขอมลขาวสาร, “สรปรายงานการปวย พ.ศ.2557,” ส านกนโยบายและยทธศาสตร, ส านกงานปลดกระทรวงสาธารณสข, 2558, น.5-15.

[6] สรชย พศาลบตร, “หลกสถต,” ครงท 2, พมพดการพมพ:กรงเทพฯ, 2555, น.17-21. [7] ชศร วงศรตนะ และองอาจ นยพฒน, “แบบแผนการวจยเชงทดลองและสถตวเคราะห:

แนวคดพนฐานและวธการ,” ครงท 1, โรงพมพแหงจฬาลงกรณ:กรงเทพฯ, 2551, น.151. [8] โอภาส เอยมสรวงศ, “ระบบฐานขอมล,” ว.พรนท(1991):กรงเทพฯ, 2558, น.37-40.

[9] โอภาส เอยมสรวงศ, สมโภชน ชนเอยม, “คณตศาสตรคอมพวเตอร,” ครงท 1, ว.พรนท(1991):กรงเทพฯ, 2558, น.205-219.

[10] ชาญชย ศภอรรถกร, “จดการฐานขอมลดวย MySQL ฉบบสมบรณ,” ครงท 5, รไววา:กรงเทพฯ, ก.ย. 2557, น.125-126.

[11] B. Schwartz, P. Zaitsev, V. Tkachenko, “High Performance MySQL Third Edition,”, O’Reilly Media, CA 95472, March 2012, pp.210-238.

[12] T. Plunkett, B. Macdonald, B. Nelson, H. Sun, M. F. Hornick, K. Laker, “Oracle Big Data Handbook,”, Oracle Press, 2014 , pp.4.

[13] T. White, “Hadoop The Definitive Guide,”, 3rd.Edition, O’Reilly Media, CA 95472, May 2012, pp. 13–14.

[14] D. Miner, A. Shook, “MapReduce Design Pattern,” O’Reilly Media, CA 95472, December 2012, pp. 4-7.

[15] T. Gunarathne, S. Perera, “Hadoop MapReduce v2 Cookbook Second Edition,” Packt Publishing, Birmingham, UK, February 2015, pp.60- 66.

[16] D. Singh, C. K Reddy, “A survey on platforms for big data analytics,” Journal of Big Data, 2014 1:8, MI 48202, USA , pp.1-20.

[17] ประกายมาศ ศรสขทกษณ, ผสด บญรอด, “การเปรยบเทยบความเรวในการประมวลผลระหวางฐานขอมลเชงสมพนธและฐานขอมลไมสมพนธแบบเอกสาร,” The Tenth National Conference on Computing and Information Technology, 2014, น.281-286.

[18] ผสด บญรอด, ประกายมาศ ศรสขทกษณ, “การคนคนขอมลขนาดใหญโดยใชภาษาสอบถามแบบไมมโครงสรางรวมกบเทคโนโลยเวบเชงความหมาย,’ วารสารวชาการพระจอมเกลาพระนครเหนอ ปท 25 ฉบบท 2, พ.ค.-ส.ค. 2558, น.255-264.

[19] P. Sareen, P. Kumar, “NoSQL Database and its Comparison With SQL Database,” International Journal of Computer Science & Communication Networks, 2015, Vol 5(5), pp.293-298.

[20] P. Deepika, A. Raman G R, “A Study of Hadoop-Related Tools and Techniques,” International Journal of Advanced Research in Computer Science and Software Engineering, Volume 5, Issue 9, September 2015, pp.160-164.

[21] Y. Gurevich, “Comparative Survey of NoSQL/ NewSQL DB Systems,” Final Paper Submitted as partial fulfillment of the requirements towards an M.Sc. degree in Computer Science, The Open University of Israel, December 2015, pp.30-31.

[22] R. Kune, P.K. Konugurthi, A. Agarwal, R.R. Chillarige, R. Buyya, “The anatomy of big data computing,” Wiley Online Library, October 2015, pp. 79–105.

[23] C. Vicknair, M. Macias, Z. Zhao, X. Nan, Y. Chen, D. Wilkins, “A Comparison of a Graph Database and a Relational Database,” ACMSE ’10, April 15-17, 2010, Oxford, MS:USA.

[24] H. S. Bhosale, D. P. Gadekar, “A Review Paper on Big Data and Hadoop,” International Journal of Scientific and Research Publications, Volume 4, Issue 10, October 2014, pp. 1-7.

[25] J. Dean, S. Ghemawat, “MapReduce: Simplied Data Processing on Large Clusters,” Google Inc., OSDI 2004, pp.1-13.

[26] R. Appuswamy, C. Gkantsidis, D. Narayanan, O. Hodson, A. Rowstron, “Scale-up vs Scale-out for Hadoop: Time to rethink?,” SoCC’13, 1–3 Oct. 2013, CA:USA, the Association for Computing Machinery, Inc.

[27] ชพนธ รตนโภคา, “การออกแบบและพฒนาระบบคนหาขอมลจราจรทางคอมพวเตอรดวยวธ Map/Reduce บนกรอบการท างานของ Hadoop,” วารสารวชาการเทคโนโลยอตสาหกรรมปท 8 ฉบบท 3, กนยายน–ธนวาคม 2555, น.18-27.

[28] T. Duc Dinh, “Hadoop Performance Evaluation,” Ruprecht-Karls Universit¨at Heidelberg, Institute of Computer Science, Research Group Parallel and Distributed Systems, March 2009, pp. 25-42.

[29] นรทธ รวยรน, ดร.เกรยงไกร ปอแกว, “การใชแมพรดวซเชอมคอลเลคชนของฐานขอมลโนเอสควแอลบนมองโกดบ,” วารสารวจย มข. (บศ.) 14 (2), เม.ย.-ม.ย. 2557, น.23-34.

[30] L. Fegaras, C. Li, U. Gupta, “An Optimization Framework for Map-Reduce Queries,” EDBT 2012, March 26–30, 2012, Berlin:Germany.

[31] Y. Tao, W. Lin, X. Xiao, “Minimal MapReduce Algorithms,” SIGMOD’13, June 22–27, 2013, NYork:USA, pp.1-13.

[32] M. Rae Hollingsworth, “Hadoop and Hive as Scalable Alternatives to RDBMS: A Case Study,” Boise State University, Department of Computer Science, August 2012, pp.35-44.

Journal of the Thai Medical Informatics Association, 2, 134-145, 2016

Rachatha Timasornwichakit et al. Big data technology and relational database query

Page 11: Comparative study between big data technology and ...tmi.or.th/.../2017/01/2016-2-7-big-data-technology-and-relational-database-query.pdf135 Rachatha Timasornwichakit et al. Big data

144

เอกสารอางอง1. คณะกรรมการพฒนาระบบบรการทตอบสนองตอปญหา

สขภาพทส�าคญ (สาขาหลก). แผนพฒนาระบบบรการสขภาพ (Service Plan) กระทรวงสาธารณสข. กรงเทพฯ: โรงพมพชมนมสหกรณการเกษตรแหงประเทศไทย จ�ากด, 2556, น.1.

2. เมธ จนทจารภรณ. การจดการเชงกลยทธในการพฒนาสขภาพ. หนวยท 5 ขอมลและสารสนเทศเชงกลยทธ. ครงท 2. นนทบร: มหาวทยาลยสโขทยธรรมาธราช, 2556, น.2.

3. สน พนธพนจ. เทคนคการวจยทางวทยาศาสตร. ครงท 2. กรงเทพฯ: พมพดการพมพ, 2555, น.141-2.

4. ส�านกนโยบายและยทธศาสตร ส�านกงานปลดกระทรวงสาธารณสข. คมอการปฏบตงานการจดเกบและจดสงขอมลตามโครงสรางมาตรฐานขอมลสขภาพ กระทรวงสาธารณสข Version 2.1 (มกราคม 2559) ปงบประมาณ 2559. ครงท 1. นนทบร: หางหนสวน เอสพ กอปปปรน, 2559, น.36.

5. กลมภารกจดานขอมลขาวสารสขภาพ ส�านกนโยบาย และยทธศาสตร ส�านกงานปลดกระทรวงสาธารณสข. สรปรายงานการปวย พ.ศ.2557. ครงท 1. นนทบร: องคการสงเคราะหทหารผานศกในพระบรมราชปถมภ, 2558, น.5-15.

6. สรชย พศาลบตร. หลกสถต. ครงท 2, กรงเทพฯ: พมพดการพมพ, 2555, น.17-21.

7. ชศร วงศรตนะ และองอาจ นยพฒน. แบบแผนการวจยเชงทดลองและสถตวเคราะห แนวคดพนฐานและวธการ. ครงท 1. กรงเทพฯ: โรงพมพแหงจฬาลงกรณ, 2551, น.151.

8. โอภาส เอยมสรวงศ. ระบบฐานขอมล. กรงเทพฯ: ว.พรนท(1991), 2558, น.37-40.

9. โอภาส เอยมสรวงศ และสมโภชน ชนเอยม. คณตศาสตรคอมพวเตอร. ครงท 1. กรงเทพฯ: ว.พรนท(1991), 2558, น.205-19.

10. ชาญชย ศภอรรถกร. จดการฐานขอมลดวย MySQL ฉบบสมบรณ. ครงท 5. กรงเทพฯ: รไววา, 2557, น.125-6.

11. Schwartz B, Zaitsev P, Tkachenko V, High Performance MySQL Third Edition. O’Reilly Media, 2012, pp.210-38.

12. Plunkett T, Macdonald B, Nelson B, et al. Oracle Big Data Handbook. Oracle Press. 2014, pp.4.

13. White T. Hadoop The Definitive Guide. 3rd.Edition. O’Reilly Media, CA. 2012, pp. 13–4.

14. Miner D, Shook A. MapReduce Design Pattern. O’Reilly Media, CA. 2012, pp. 4-7.

15. Gunarathne T, Perera S. Hadoop MapReduce v2 Cookbook Second Edition. Packt Publishing, Birmingham, UK. 2015, pp.60- 6.

16. Singh D, Reddy CK. A survey on platforms for big data analytics. Journal of Big Data. 2014; 1:8, 1-20.

17. ประกายมาศ ศรสขทกษณ และผสด บญรอด. การเปรยบเทยบความเรวในการประมวลผลระหวางฐานขอมล เชงสมพนธและฐานขอมลไมสมพนธแบบเอกสาร. งานประชมวชาการ The 10th National Conference on Computing and Information Technology, ภเกต, 8-9 พ.ค. 2557, โรงแรมองสนา ลากนา ภเกต, น.281-286.

18. ผสด บญรอด, ประกายมาศ ศรสขทกษณ. การคนคนขอมลขนาดใหญโดยใชภาษาสอบถามแบบไมมโครงสรางรวมกบเทคโนโลยเวบเชงความหมาย. วารสารวชาการพระจอมเกลาพระนครเหนอ, ปท 25, ฉบบท 2, น.255-264. พ.ค.-ส.ค. 2558.

19. Sareen P, Kumar P. NoSQL Database and its Comparison with SQL Database. International Journal of Computer Science & Communication Network. 2015;5(5):293-8.

20. Deepika P, Anantha Raman GR. A Study of Hadoop-Related Tools and Techniques. International Journal of Advanced Research in Computer Science and Software Engineering. 2015;5(9): 160-4.

21. Gurevich Y. Comparative Survey of NoSQL/ NewSQL DB Systems, Final Paper Submitted as partial fulfillment of the requirements towards an M.Sc. degree in Computer Science, The Open University of Israel, December 2015, pp.30-31.

22. Kune R, Konugurthi PK, Agarwal, A, et al. The anatomy of big data computing. Wiley Online Library. 2015, 79–105.

23. Vicknair C, Macias M, Zhao Z, et al. A Comparison of a Graph Database and a Relational Database. ACMSE ’10, 2010.

24. Bhosale HS, Gadekar, DP. A Review Paper on Big Data and Hadoop. International Journal of Scientific and Research Publications 2014; 4(10):1-7.

25. Dean J, Ghemawat S. MapReduce: Simplied Data Processing on Large Clusters. Google Inc., OSDI 2004, pp.1-13.

Journal of the Thai Medical Informatics Association, 2, 134-145, 2016

Big data technology and relational database query Rachatha Timasornwichakit et al

Page 12: Comparative study between big data technology and ...tmi.or.th/.../2017/01/2016-2-7-big-data-technology-and-relational-database-query.pdf135 Rachatha Timasornwichakit et al. Big data

145

26. Appuswamy R, Gkantsidis C, Narayanan D, et al. Scale-up vs Scale-out for Hadoop: Time to rethink?. SoCC’13, 2013.

27. ชพนธ รตนโภคา, การออกแบบและพฒนาระบบคนหาขอมลจราจรทางคอมพวเตอรดวยวธ Map/Reduce บนกรอบการท�างานของ Hadoop. วารสารวชาการเทคโนโลยอตสาหกรรมปท 8, ฉบบท 3, กนยายน–ธนวาคม 2555, น.18-27.

28. Tien DD. Hadoop Performance Evaluation. https://wr.informatik.uni-hamburg.de/_media/research/labs/2009/2009-12-tien_duc_dinh-evaluierung_von_hadoop-report.pdf. (2009, accessed 12 October 2015).

29. นรทธ รวยรน, เกรยงไกร ปอแกว, การใชแมพรดวซเชอมคอลเลคชนของฐานขอมลโนเอสควแอลบนมองโกดบ. วารสารวจย มข. (บศ.) 14 (2), เม.ย.-ม.ย. 2557, น.23-34.

30. Fegaras L, Li C, Gupta U. An Optimization Framework for Map-Reduce Queries. EDBT 2012, 2012.

31. Tao Y, Lin W, Xiao, X. Minimal MapReduce Algorithms. SIGMOD’13, June 22–27, 2013, NYork:USA, pp.1-13.

32. Rae M. Hadoop and Hive as Scalable Alternatives to RDBMS: A Case Study. Boise State University, Department of Computer Science. 2012, pp.35-44.

Journal of the Thai Medical Informatics Association, 2, 134-145, 2016

Rachatha Timasornwichakit et al. Big data technology and relational database query