ข้อมูลองค์ความรู้โดย
Web Master (IT)
ตำแหน่ง อาจารย์

การประยุกต์ใช้ DATA WAREHOUSEING

ประเภททางด้าน IT หลัก :   Data Management & Analysis
ประเภททางด้าน IT ย่อย :   Data Warehouse
  ลงข้อมูลเมื่อ 16:06:30 08/07/2010
  Page View (7037) แบ่งปัน

 

 

              มีการประมาณการณ์เอาไว้ว่า ถ้าไม่มีการนำเอาระบบ Data Warehouse มาประยุกต์ใช้ในองค์กร จะมีคน เพียง 10 เปอร์เซ็นต์เท่านั้นที่จะสามารถใช้งานระบบสารสนเทศได้ตามความต้องการ  และนั่นก็คือจำนวนคนที่มีระดับความรู้ ทาง  IT  เพียงพอที่จะสร้าง Query ขึ้นด้วยตนเองเพื่อสนองความต้องการด้านข้อมูลของตน นอกจากนั้นแล้ว ระบบ EIS (Executive Information System) และ DSS (Decision Support System) ก็มักจะทำงานได้ไม่ตรงกับที่ต้องการ  เพราะข้อมูล ดิบจากฐานข้อมูลประจำวันนั้น  เข้าถึงยาก  หรือไม่ก็ทำความเข้าใจได้ไม่ง่ายนัก ยิ่งไปกว่านั้น การอนุญาตให้ผู้ใช้ระดับสูง สามารถเข้าถึงและค้นหาฐานข้อมูลได้โดยตรงอาจจะส่งผลต่อประสิทธิภาพของงานข้อมูล  รวมไปถึงความเป็นระเบียบ (Data Integrity) ของฐานข้อมูลด้วย
              การย้ายข้อมูลจากฐานข้อมูลปกติ   เข้าไปไว้ใน Date Warehouse  มีข้อดีหลายอย่าง เช่น ทำให้องค์กรหรือ เจ้าของข้อมูล  มีโอกาสได้ออกแบบรูปแบบการเก็บข้อมูลใหม่ให้เหมาะสมกับการเรียกใช้มากยิ่งขึ้น  และทำให้เหมาะ สำหรับการนำไปใช้ช่วยในการตัดสินใจ หรือใช้ในงานวิเคราะห์ นอกจากนั้นระบบ Data Warehouse  ยังรวมเอา ข้อมูลที่ใช้อยู่ในปัจจุบันเข้ากับข้อมูลในอดีตเข้าเป็นฐานข้อมูลเดียวกัน สามารถเรียกใช้งานได้จากอินเตอร์เฟสแบบ กราฟิกได้โดยตรง (GUI) พร้อมสำหรับการจัดการข้อมูลและนำข้อมูลที่ได้ไปวิเคราะห์ ข้อดีสุดท้ายก็คือ ระบบ Data Warehouse ทำให้ผู้ใช้ระดับสูง หรือพนักงานทั่วไปสามารถเข้าถึงและเรียกใช้ฐานข้อมูลได้ด้วยตัวเอง โดยไม่ต้องอาศัยความ ช่วยเหลือจากเจ้าหน้าที่ทาง  IT อีกต่อไป ทำให้ทั้งคู่คือพนักงานและเจ้าหน้าที่ IT  ทำงานได้สะดวกและมีประสิทธิภาพ มากขึ้น


ทำไมต้องใช้ระบบ Data Warehouse
              องค์กรต่าง ๆ ในปัจจุบันส่วนใหญ่จะมีการลงทุนลงแรงไปมาก กับระบบที่เรียกว่า “ระบบฐานข้อมูลประจำวัน Operational System”  ระบบสารนิเทศที่ว่านี้จะมีหน้าที่หลักในการรวบรวมและจัดเก็บข้อมูลเอาไว้ ไม่ว่าจะเป็นข้อมูล ของลูกค้า ข้อมูลการขาย ข้อมูลฝ่ายบุคคล หรือข้อมูลเกี่ยวกับคงคลังก็ตาม
              เนื่องจากระบบเหล่านี้มีการลงทุนไปมาก ดังนั้นปริมาณข้อมูลที่มหาศาลก็เลยถือได้ว่าเป็นทรัพย์สินและ ทรัพยากรอย่างหนึ่งขององค์กรด้วย  และจำเป็นต้องมีการจัดการที่เหมาะสมเพื่อนำเอาทรัพย์สินเหล่านี้มาใช้อย่างเกิด ประโยชน์สูงสุด  หลาย  ๆ องค์กรนำข้อมูลเหล่านี้มาช่วยในการตัดสินใจโดยประยุกต์ใช้เป็นระบบ “Decision Support System” (DSS)  โดยนำเอาระบบ Data Warehouse  มาช่วยในการนี้  โดยหลักการและระบบ Data Warehouse จะเป็น รวบรวมเอาข้อมูลที่ใช้งานจริงอยู่ในปัจจุบัน  และข้อมูลในอดีตเข้าด้วยกันเป็นฐานข้อมูลเดียว โดยองค์ข้อมูลที่ประมวล ได้นี้ จะถูกนำเอามาใช้อย่างหลากหลาย ไม่ว่าจะเป็นในการช่วยตัดสินใจ ใช้ในการค้นหาเพื่อใช้ประโยชน์ทั่วไป หรือแม้แต่ การสร้างรายงาน นั่นคือประโยชน์ของระบบ Data Warehouse


ความแตกต่างระหว่าง ระบบที่ผ่านการวิเคราะห์และระบบปฏิบัติงานทั่วไป
              ระบบ  Data Warehouse  นั้นเรียกได้ว่าเป็นระบบฐานข้อมูลที่ผ่านการวิเคราะห์แล้ว ผลลัพธ์ที่ได้จะถูกนำมา ช่วยในการตัดสินใจได้ ในขณะที่ระบบปฏิบัติงานทั่วไป  จะเป็นเพียงระบบฐานข้อมูลที่ออกแบบมาเพื่อช่วยอำนวยความ สะดวกในงานประจำวันเท่านั้นแตกต่างโดยสิ้นเชิงกับระบบ Data Warehouse  ซึ่งจะนำข้อมุลมาผ่านการวิเคราะห์ก่อนซึ่ง ออกแบบมาให้ข้อมูลเหล่านั้นช่วยผู้ใช้ในการตัดสินใจได้ทันที  ไม่ว่าจะโดยการนำข้อมูลมาวิเคราะห์ สรุปและเสนอ เป็นรายงาน เช่นพวกประสิทธิภาพในการทำงานขององค์กร เป็นต้น
              ส่วนหัวใจของระบบฐานข้อมูลปฏิบัติงานทั่วไปนั้น   จะสนใจเพียงการรับข้อมูลเข้าสู่ฐานข้อมูล  คอยดูแลให้ ข้อมูลมีความทันต่อเหตุการณ์เสมอ โดยดูแลให้มีความรวดเร็วถูกต้อง  และมีประสิทธิภาพ  ส่วนข้อมูลที่ผ่านการวิเคราะห์ แล้ว  จะเป็นข้อมูลที่สนใจในช่วงเวลาใดเวลาหนึ่งเป็นจุด ๆ เท่านั้น
              การวิเคราะห์ข้อมูลนั้น ส่วนใหญ่จะอยู่ในรูปแบบของการเปรียบเทียบ  หรือไม่ก็เป็นพยายามหารูปแบบของ ข้อมูล (Pattern) เพื่อพยายามหาแนวโน้มที่จะเกิดต่อไปในอนาคต เช่น  การพยายามเปรียบเทียบข้อมูลการขายของพื้นที่ สองพื้นที่ก็จะให้ข้อมูลออกมาแบบหนึ่ง แต่ถ้าเป็นการนำข้อมูลการขายในอดีตมาดูย้อนหลัง ก็จะทำให้เห็นพฤติกรรม การขายของสินค้านั้น ๆ เปลี่ยนแปลงไปอย่างไรความแตกต่างอีกอย่างหนึ่งที่มองเห็นได้ชัดของสองระบบก็คือ ระบบฐาน ข้อมูลปฏิบัติงานนั้น จะเป็นข้อมูลที่ได้จากกิจกรรมจริงในแต่ละวัน  ดังนั้นข้อมูลตัวหนึ่ง ๆ จึงเปลี่ยนแปลงไปเรื่อย ๆ และถือได้ว่าเป็นข้อมูลที่ไม่ถาวร ส่วนข้อมูลจากระบบวิเคราะห์นั้น จะถือได้ว่าเป็นข้อมูลที่ค่อนข้างนิ่ง  เพราะเป็นการ วิเคราะห์ที่จุดใดจุดหนึ่งของเวลา เช่น บันทึกของข้อมูลตอนเที่ยงคืนของเมื่อวานนี้ เป็นต้น  ข้อมูลที่อยู่ในฐานข้อมูลแบบ วิเคราะห์นั้นจะอยู่คงที่ถาวร และจะเป็นการเพิ่มข้อมูลใหม่เข้ามาเรื่อย ๆ  ตามระยะเวลาที่กำหนด   ดังนั้นข้อมูลในฐาน ข้อมูลแบบวิเคราะห์นั้นจึงเป็นข้อมูลที่อ่านได้อย่างเดียว กิจกรรมอื่นนอกจากการอ่าน ก็จะอยู่ในรูปแบบของการเพิ่ม ข้อมูลเข้า ซึ่งจะต้องทำตามตารางเวลาที่กำหนดไว้แล้วอย่างแน่นอน
              ระบบจัดการฐานข้อมูลปฏิบัติงาน  (Operational Database   Management System - DBMSs) เช่นพวกที่ใช้ ในระบบบัญชีแยกประเภท นั้นเหมาะสมสำหรับช่วยในการเก็บรวบรวมข้อมูล ปรับปรุงข้อมูล ตรวจสอบธุรกรรมต่าง ๆ ที่เกิดขึ้น แสดงรายงาน และคอยดูแลให้ข้อมูลอยู่ในรูปแบบที่ถูกต้องอยู่เสมอ  ส่วนระบบฐานข้อมูลแบบวิเคราะห์นั้น จะตรงข้ามกัน คือออกแบบมาเพื่อรองรับข้อมูลจำนวนมาก ๆ อ่านได้อย่างเดียว  จุดประสงค์หลักก็เพื่อช่วยในการวิเคราะห์ และช่วยในการตัดสินใจ การตัดสินใจที่ว่านี้ สามารถเป็นได้ตั้งแต่การตัดสินใจระยะยาวเพื่อการวางการวางแผนกลยุทธ์ ขององค์กรก็ได้    เช่นการวิเคราะห์พฤติกรรมตลอดระยะเวลาหลาย  ๆ  ปีที่ผ่านมาหรือจะเป็นการวิเคราะห์ระยะสั้น เช่นการวิเคราะห์การเปลี่ยนแปลงจำนวนซื้อในการซื้อครั้งหนึ่ง ๆ ก็เป็นไปได้


วิธีการใช้และผู้ที่ใช้ Data Warehouse 
              ภายในองค์กรหนึ่ง  โดยเฉพาะองค์กรธุรกิจหลายๆ แผนกน่าจะสามารถใช้ประโยชน์จากระบบ Data Warehouse ได้  แต่ว่าแผนที่น่าจะได้รับประโยชน์มากที่สุดก็คงหนีไม่พ้นแผนกประเภท  ฝ่ายการเงิน,  ฝ่ายวิเคราะห์การขาย,  การตลาด ประวัติลูกค้า แผนกวิเคราะห์ตลาดเป็นต้น ถ้าสังเกตดูให้ดีจะเล็งเห็นว่า  แผนกเหล่านี้จะเป็นแผนกที่องค์กรต้องการให้ เป็นแผนกที่ความสามารถในการแข่งขันได้สูง คือพูดง่าย ๆ ว่าแผนกเหล่านี้เป็นแผนกที่ทำเงินให้กับบริษัทได้โดยตรง 
              ดังนั้นจะเห็นได้ว่างานหลักของระบบ  Data Warehouse ก็คือ  การนำเอาข้อมูลของบริษัทมารวมกันแลพยายามทำให้ มันมีประโยชน์และเรียกใช้งานได้สะดวกที่สุด แต่ว่าผลลัพธ์ของระบบ Data Warehouse จะเป็นข้อมูลที่เฉพาะเนื้อ ๆ ที่ ต้องการจากทะเลของข้อมูล สามารถนำไปช่วยการตัดสินใจได้โดยไม่ผิดพลาด  โดยทั่วไปจะเป็นการนำข้อมูลจากระบบ ปฏิบัติงานหลาย ๆ แหล่งมารวมกัน สรุป จัดเก็บให้อยู่ในรูปแบบที่เหมาะสม  ก่อนจะส่งต่อไปให้กับอีกระบบหนึ่งที่ออก แบบมาโดยเฉพาะสำหรับช่วยการตัดสินใจช่วยให้ผู้ใช้สามารถเข้าถึงข้อมูลได้โดยไม่ต้องไปรบกวนการปฏิบัติงาน จริง ๆ ของผู้ปฏิบัติงาน 
              ปัจจุบัน ไม่ว่าจะเป็นหน่วยงานการตลาดหรือหน่วยงานที่เกี่ยวข้องกับการวิจัยและพัฒนาก็มีความต้องการ ไปทาง Data Warehouse เพิ่มขึ้นทั้งนั้น เริ่มแรก หน่วยงานทางการตลาดก็ต้องการข้อมูลวิเคราะห์ทางการตลาดก่อน โดยอาจจะเป็นข้อมูลที่เกี่ยวกับผลิตภัณฑ์เป็นเรื่อง  ๆ ไปเช่น จำนวนสินค้าที่ขายได้  หรือจะเป็นจำนวนบัญชีเงินฝากที่มี คนมาเปิด หรือจะเป็นนโยบายการขายสินค้าแต่ละตัวว่าแบบไหนมีสนใจมากกว่ากัน   ข้อมูลที่พูดมาทั้งหมดนี้สามารถ รวบรวมได้จากระบบฐานข้อมูลปฏิบัติการทั้งหมด   จากจุดนี้เมื่อบริษัทเริ่มจับทางได้แล้วว่า ข้อมูลจากฐานข้อมูลปฏิบัติงาน พวกนี้สามารถให้แนวทางได้ว่าจะปรับปรุงบริการอย่างไร จึงจะขายของได้มากขึ้น แผนกอื่น ๆ เช่นแผนกที่เกี่ยวกับการ ให้บริการลูกค้าก็เริ่มให้ความสนใจกับการตลาดที่อิงกับข้อมูลสารสนเทศมากขึ้น ดังนั้นระบบฐานข้อมูลปฏิบัติงานการเลย ถูกขยายเพิ่มเติมโดยเพิ่มระบบ “Customer Information Files (CIF)” เข้ามาโดยจะเป็นข้อมูลที่เก็บข้อมูลลูกค้าแต่ละราย เลยว่าได้ซื้ออะไรไปบ้าง เป็นการสร้างระบบจัดเก็บประวัติลูกค้าที่เข้มข้นขึ้น ทำให้สามารถเข้าใจและเข้าถึงลูกค้ามากขึ้น ทำให้สามารถปรับบริการให้ตรงกับความต้องการของลูกค้ามากขึ้น 
              งานต่อไปที่ต้องทำก็คือ การจัดระเบียบให้กับงานการตลาดมากขึ้น เช่น  การรวบรวมข้อมูลของลูกค้าไว้ที่ที่ เดียวกัน  การตลาดแบบอาศัยข้อมูล  จะเป็นการเรียนรู้ว่าข้อมูลว่าบริษัททำกำไรจากลูกค้ารายหนึ่ง ๆ ได้เท่าไร หรือถ้าเป็น ความสัมพันธ์กับบริษัทอื่นเช่นบริษัทที่เราใช้บริการอยู่ เราก็อาจจะรวบรวมข้อมูลเช่น ทั้งบริษัท ทุกแผนกนั้นใช้บริการ กับผู้ค้ารายนี้ไปเท่าไร ข้อมูลแบบนี้มีประโยชน์มาก เช่นในกรณีที่เราจะต่อรองเพื่อขอเงื่อนไขพิเศษกับผู้ค้ารายนั้น ๆ กับ กรณีที่ซื่อของทีละปริมาณมาก ๆ 
              ปัจจุบัน การตลาดแบบอาศัยข้อมูลนั้นเปลี่ยนโฉมหน้าไป จากการที่เพียงจัดระบบกับข้อมูลของลูกค้ากลายเป็น ระบบจัดการลูกค้าเลย  ระบบนี้พัฒนาขึ้นจากเดิมกลายเป็นงานที่รวบรวมข้อมูลของลูกค้า (หรือคู่ค้า) มาไว้ที่เดียวกัน นำมาประมวลเป็นข่าวสารที่เข้าได้ นำมาเตรียมไว้ให้บริการกับ ฝ่ายขาย หรือฝ่ายบริการลูกค้า อาจจะให้เจ้าหน้าที่เหล่า นั้นเข้าใช้งานผ่านอุปกรณ์พวกเครื่องคอมพิวเตอร์แบบพกพาได้เลยด้วยซ้ำ  จะเห็นได้ว่าการตลาดแบบอาศัยข้อมูลที่กล่าว ไปข้างต้นนี้  จะให้บริการกับฝ่ายขายหรือฝ่ายบริการที่เป็นแนวหน้าของบริษัท  เพื่อให้เขาสามารถให้บริการที่ดีกว่าโดย สามารถปรับให้เหมาะกับลูกค้าแต่ละราย 
              ระบบการตลาดแบบอาศัยข้อมูลที่ดีนั้นต้องมีลักษณะอยู่หลายอย่าง  เช่น  ผู้ใช้ต้องสามารถค้นหาและเข้าใช้ข้อมูล ได้ง่าย พวกเขาต้องมีทางเลือกในการค้นหาข้อมูลหลายวิธี ไม่ใช่ติดอยู่แค่กับวิธีการ Query ข้อมูลเพียงไม่กี่ทางเลือกที่ เจ้าหน้าที่คอมพิวเตอร์สร้างไว้ให้เท่านั้น ปัจจุบันความก้าวหน้าทางวิทยาการทำให้สิ่งเหล่านี้ที่กล่าวข้างต้นเป็นไปได้เช่น

  • มีระบบที่รวบรวม Transaction ทั้งหมดได้บนเครื่อง mainframe หรือเครื่อง UNIX เพื่อให้เข้ามาเรียกใช้
  • การเปลี่ยนแปลงจากระบบปิดไปสู่ระบบ Client/Service แบบเปิด  ช่วยเพิ่มประสิทธิภาพและอำนวยความสะดวกให้กับผู้ใช้มากขึ้น
  • มีเครื่องมือที่ดีและเก่งขึ้น เช่นระบบช่วยตัดสินใจ เป็นต้น



ตัวอย่างของระบบ Data Warehouse ที่ประสบความสำเร็จ 
              ต่อไปนี้จะเป็นตัวอย่างจำนวนหนึ่งของการนำระบบData Warehouse ไปประยุกต์ใช้ที่เรียกได้ว่าประสบความ สำเร็จ

  • ระบบจัดการชนิดสินค้า (Categories Management)ช่วยให้ธุรกิจค้าปลีกเข้าใจพฤติกรรมการใช้จ่ายของลูกค้ามาก ขึ้นและทราบว่าลูกค้ามีปฏิกิริยากับโปรโมชั่นของตนอย่างไร
  • ระบบวิเคราะห์การ “Claim” หรือการอ้างสิทธิของธุรกิจประกันสุขภาพ  ช่วยให้บริษัทควบคุมค่าใช้จ่ายของ ลูกค้าได้ดีขึ้น
  • ระบบควบคุมการทุจริตและควบคุมค่าใช้จ่ายของธุรกิจประกันสุขภาพ
  • ระบบ Supplier Management หรือระบบจัดการ Supplier  ช่วยให้องค์กรเหล่านั้นสามารถประเมินคาดการณ์ และวางแผนสำหรับอนาคตได้ดีกว่า
  • ระบบการเงิน ซึ่งมีองค์กรทั้งหลายนำไปใช้อย่างกว้างขวาง ทำให้องค์กรเหล่านี้สามารถประเมินคาดการณ์ และวางแผนสำหรับอนาคตได้ดีกว่า
  • ระบบจัดการค่าใช้บริการ ซึ่งบริษัทโทรคมนาคมนำไปใช้  ทำให้บริษัทเหล่านั้นสามารถกำหนดอัตราค่าบริการ ที่ทำกำไรได้สูงสุด ในขณะเดียวกันก็เป็นอัตราที่จูงใจลูกค้ามากที่สุดด้วย ไม่ว่าจะเป็นค่าบริการโทรศัพท์เคลื่อนที่โทรศัพท์ ทางไกลหรือโทรศัพท์บ้านก็ตาม
  • ระบบประวัติลูกค้า ระบบทำนายความต้องการและระบบการตลาดขนาดจุลภาคที่มีใช้ในบริษัทบริการสื่อสาร
  • ระบบจัดเก็บค่าบริการ ระบบจัดการเครดิต  และระบบการตลาดขนาดจุลภาคที่มีใช้ในสถาบันการเงิน
  • สุดท้ายคือระบบจัดการทรัพย์สินที่ปรับปรุงใหม่และระบบควบคุมค่าใช้จ่าย  ในอุตสาหกรรมน้ำมันและก๊าซ


              หนึ่งในระบบ Data Warehouse ที่ประสบความสำเร็จมากที่สุดเห็นจะเป็นการนำมาประยุกต์ใช้กับธุรกิจค้าปลีก เพราะระบบ Data Warehouse  ทำให้เจ้าของสามารถสร้างระบบรายงานที่ดึงเฉพาะข้อมูลที่ต้องการออกมาจากเครื่อง เก็บเงินได้ (Point-of-Sales) และนำข้อมูลนั้นมาสร้างและทดสอบโปรโมชั่นต่าง ๆ ช่วยในการดูพฤติกรรมการซื้อ (เช่น ของบางอย่างลูกค้ามักจะซื้อคู่กัน อย่างเช่น เสื้อเชิ้ตกับเนคไทหรือรองเท้ากับกระเป๋าถือ เป็นต้น) หรือสร้างบริการและ ผลิตภัณฑ์ใหม่ ๆ  ถ้าคุณของคุณกำลังใช้ระบบ Data Warehouse อยู่ล่ะก็ คาดการณ์ไว้ได้เลยว่า ไม่ช้าก็เร็วเขาจะต้องนำระบบ ดังกล่าวเพื่อช่วยในการวางแผนการตลาดเพื่อให้ตรงกับความต้องการของลูกค้าที่สูด และสร้างความได้เปรียบสูงสุด 

ใครต้องการข้อมูลช่วยเหลือ

  • ผู้ที่ต้องการข้อมูลช่วยการตัดสินใจ   ซึ่งเป็นข้อมูลที่ได้จากระบบ  Data Warehouse นั้น ก็คือใคร ๆ ก็ตามใน องค์กรที่ต้องการข้อมูลเพิ่มเติมเพื่อให้บริการลูกค้าที่ดีกว่า ซึ่งเป็นไปได้ดังต่อไปนี้
  • ผู้ใช้มือใหม่ หรือผู้ใช้ธรรมดา (ผู้ซึ่งต้องการใช้ข้อมูลเป็นครั้งคราว และต้องการข้อมูลที่วิเคราะห์ไว้ก่อนแล้ว เช่น พวกนักการตลาดระยะไกล (TeleMarketer)
  • นักวิเคราะห์ธุรกิจ (ผู้ซึ่งต้องใช้ข้อมูลทุกวัน  เพื่อปรับให้ทันกับเหตุการณ์แต่ละวัน แต่เขาเหล่านั้นไม่มีความรู้ พอที่จะสร้างโปรแกรมรายงานขึ้นด้วยตนเอง)
  • ผู้ใช้ระดับเชี่ยวชาญ (ผู้ที่เขียนโปรแกรมขึ้นด้วยตนเองเพื่อสร้าง Query ขึ้นแบบเฉพาะหน้าโดยอาศัยข้อมูล ที่ได้จากระบบ Data Warehouse)


              นอกจากนั้นก็ยังอาจจะรวมไปถึงใครก็ตามที่จะต้องสร้างรายงานและโปรแกรม Query เพื่อวิเคราะห์ทาง ธุรกิจและเรื่องทั่วไปที่จะต้องอาศัยข้อมูล 
              ระบบ Data Warehouse เป็นระบบที่ทำงานสองงานในเวลาเดียวกัน คืองานแรกเป็นระบบที่ให้ผู้ใช้สามารถ สำรวจและเรียกใช้ข้อมูลที่มีอยู่ได้อย่างไม่จำกัด  สามารถสร้าง Query ขึ้นได้ตามใจและเจาะลึกลงไปในข้อมูลได้ตราบ เท่าที่ต้องการ  และในขณะเดียวกันก็ยังเป็นระบบที่รวบรวมข้อมูลเข้าระบบ  ข้อมูลที่ว่าก็จะเป็นข้อมูลที่ตรงกับหัวข้อที่ สนใจอยู่ (Subject-Oriented) เป็นข้อมูลที่รวมกันเป็นชุด มิใช่ข้อมูลเดี่ยว ๆ เป็นข้อมูลเก็บสะสมตามการเปลี่ยนแปลงไป ตามเวลา และก็เป็นข้อมูลที่คงตัวด้วย  ดังนั้นการสร้างระบบ Data Warehouse จึงจำเป็นต้องประกอบด้วยสี่ขั้นตอน ดังต่อไปนี้

  1. การกลั่นกรองข้อมูลสร้างเป็นโมเด็ลและรวบรวมจากระบบปฏิบัติงาน
  2. แปลงข้อมูลดิบจากระบบปฏิบัติการ ไปเป็นข้อมูลที่ผู้ใช้สนใจ
  3. เผยแพร่และจัดการกับความเปลี่ยนแปลงที่เกิดกับข้อมูล
  4. ให้บริการเข้าใช้ข้อมูล โดยอาจจะทำผ่านระบบช่วยการตัดสินใจ ระบบช่วยการบริหารก็ได้



สถาปัตยกรรมของ Data Warehouse 
              สถาปัตยกรรม ความจริงก็คือกลุ่มของกฎ หรือ โครงสร้างจำนวนหนึ่ง ที่เป็นกรอบสำหรับการออกแบบระบบ มาชักระบบหนึ่งโครงสร้างพื้นฐานที่จำเป็นสำหรับการสร้างระบบ Data Warehouse ขึ้นมาสักระบบหนึ่งก็ต้องประกอบด้วย แพลตฟอร์มของระบบที่จะใช้เกตเวย์สู่ฐานข้อมูล ระบบ LAN เป็นต้น ในด้านของฮาร์ดแวร์ ระบบ Data Warehouse สามารถ จะอยู่บนหลาย  ๆ แพลตฟรอร์มได้ เช่น อาจจะเป็นเมนเฟรม ระบบที่ใช้หลายโปรเซสเซอร์ทำงานพร้อม ๆ กัน หรืออาจจะ เป็น Client/Server ก็ได้ ยุคหลัง ๆ นี้พัฒนาการของแพลตฟอร์มก็มีแนวโน้มจะเคลื่อนย้ายจากระบบเมนเฟรมาเป็นการทำงาน แบบหลายโปรเซสเซอร์ขนานกันมากขึ้นโดยทั่วไปแล้วถ้าระบบของคุณมีขนาดไม่ใหญ่มากนัก    ระบบ Client/Server ก็จะเป็น ทางเลือกที่ประหยัดและเหมาะสมที่สุด 
              สำหรับโครงสร้างของสถาบัตยกรรมของข้อมูลนั้นก็เป็นอีกส่วนที่มีความสำคัญ เพราะจะเป็นพิมพ์เขียวบอกเรา ว่าข้อมูลของเราจะมีทิศทางการไหลหรือเคลื่นที่ไปอย่างไรภายในระบบจะสามารถนำมาใช้ประโยชน์ได้เพียงใด  สำหรับ ระบบ Data Warehouse นั้น สถาปัตยกรรมของข้อมูลหลักก็จะเป็นข้อมูลที่อ่านได้อย่างเดียว  โดยเอามาใช้ในระบบช่วย การตัดสินใจ  โดยในรูปแบบนี้  ข้อมูลก็จะถูกคัดเลือกมาจากฐานข้อมูลปกติหรืออาจจะไฟล์ต่าง ๆ ก็ได้ เมื่อได้วัตถุดิบ แล้วก็จะนำมาปรับแปลงให้อยู่ในรูปแบบที่เหมาะสมก่อนจะจัดเก็บเข้าสู่  Warehouse ต่อไป ผู้ใช้จะสามารถเข้าใช้งาน Warehouse  ได้ผ่านทางโปรแกรมที่เป็นส่วนติดต่อเฉพาะโปรแกรมที่ว่าอาจจะเป็นแบบ 2 ชั้นหรือ 3 ชั้นก็ได้ ซึ่งจะมี โอกาสได้พูดถึงต่อไป 

โครงสร้างสถาปัตยกรรมแบบ 2 ชั้น 
              ในระบบ 2 ชั้น การทำ Query และงานวิเคราะห์ข้อมูลจะทำที่ฝั่ง Client  หรือชั้นแรกของระบบนั่นเองส่วน ชั้นที่สองก็หมายถึงตัวฐานข้อมูลนั่นเอง ข้อให้สังเกตไว้ว่าในระบบ  2 ชั้นนี้ไม่จำเป็นจะต้องแยกกันอยู่บนแพลตฟอร์ม อย่างเช่น โปรแกรม  Impromptu ของบริษัท  Cognos จะทำหน้าที่ถึงข้อมูลมาจากฐานข้อมูลชนิด RDBMS หลังจากนั้น โปรแกรม Transformer ของ Powerplay ต่อไปจะเห็นได้ว่าในตัวอย่างนี้ ทั้งเครื่องมือดึงข้อมูล  และเครื่องมือวิเคราะห์ ที่ด้าน Client จะอยู่บนแพลตฟอร์มเดียวกัน โดยเราสามารถออกแบบให้ด้าน Client เป็นระบบคอมพิวเตอร์เคลื่อนที่ให้ เหมาะกับงานมากขึ้น 
              ในระบบ 2 ชั้นซึ่งเป็นแบบ Client/Server นั้น จะเป็นการแยกส่วนประกอบสองส่วนออกจากกัน คือด้านผู้ใช้ ที่ไม่เชี่ยวชาญทางเทคนิคมาก  กับอีกด้านซึ่งต้องการติดต่อด้วยภาษา SQL ทำให้ด้าน Client สามารถทำการ Query  และ สร้างรายงานได้โดยไม่จำเป็นต้องมีความรู้เกี่ยวกับ SQL เลยเพราะ Client มีอินเตอร์เฟสเป้นแบบ GUI  (กราฟิก) ในระบบ นี้จะมีเครื่องมือที่ช่วยโปรแกรมย่อยเพื่อการจัดการกับข้อมูลต่อไป  โปรแกรมสำเร็จรูปอย่าง Business Objects, Forest and Trees, Light Ship  จากบริษัท  Pilot และอื่น ๆ อีกหลายโปรแกรม  จะสร้างอินเตอร์เฟสขึ้นให้ผู้ใช้สามารถเลือกและ สำรวจรายงานได้ตามต้องการ เมื่อได้แล้วโปรแกรมพวกนี้ก็จะไปสร้างรหัส SQl  ขึ้นภายในเพื่อนำไปใช้ค้นข้อมูลแบบ ทันทีทันใด  โดยเฉพาะอย่างยิ่ง  Business Objects หรือ Impromptu  จะสร้างเลเยอร์ของภาษาใหม่ขึ้นมาแทรกอยู่ ระหว่างผู้ใช้กับฐานข้อมูล เพื่อให้ผู้ใช้สามารถร้องขอ หรือค้นข้อมูลด้วยภาษาที่เป็นภาษาธุรกิจอย่างแท้จริง รายงานหรือ ข้อมูลที่ผู้ใช้ค้นหาก็จะถูกโยงเข้าหาตัวฐานข้อมูลจริง ๆ อีกที ก่อน Layer  กลางนี้จะทำหน้าที่แปลงคำสั่งที่ผู้ใช้ต้องการให้ กลายเป็นรหัส SQL เพื่อนำไปค้นหาข้อมูลต่อไป 
              เพราะฉะนั้นหลักการของโมเด็ล 2 ชั้นนี้ จำเป็นต้องอาศัยกลไกการสร้างรหัสภาษา SQL ที่ซ่อนอยู่ภายใต้ GUI อีกที หรือไม่ก็เป็นโปรแกรมย่อยที่ซ่อนอยู่ใต้ GUI  ก่อนที่จะติดต่อกับ  DBMS จริง ๆ อีกที ดังนั้นจึงจำเป็นต้องมีการสร้าง API  ขึ้นมาเพื่อเป็นตัวกลางการเชื่อมโยงระหว่างเครื่อง Clientกับ Server ที่เป็นฐานข้อมูลมาตรฐาน API ที่ว่าสำหรับระบบ Windows ก็คือ Open Database Connectivity (ODBC)  จากไมโครซอฟต์นั่นเอง 

ข้อจำกัดของโมเดลแบบ 2 ชั้น 
              โมเด็ลของระบบแบบ 1 ชั้นนี้จะเกิดปัญหาทันทีถ้าจำนวนผู้ที่ใช้งานอยู่บนระบบเพิ่มจำนวนขึ้นหรือจำนวน Query ที่เรียกใช้เพิ่มขึ้นพร้อมกัน สาเหตุก็เพราะว่าในระบบนี้ จำเป็นต้องมีการเคลื่อนย้ายข้อมูลขนาดใหญ่  ๆ ระหว่างทั้งสอง ชิ้นนี้  เพราะว่าการวิเคราะห์นั้นเกิดขึ้นที่ชั้นของ Client ดังนั้นเมื่อมีการ Query มากขึ้น ก็ทำให้ต้องมีการเคลื่อนย้ายข้อมูล ผ่านเครือข่ายมากขึ้น ส่งผลให้ประสิทธิภาพของเครื่อง PC กลายเป็นเรื่องสำคัญขึ้นมาทันที  ผู้ใช้ที่ขาดประสบการณ์และ เรียก Query ข้อมูลอย่างไม่ถูกต้องหรือไม่เป็นระบบ  ก็อาจจะเหมือนยึดเอาฐานข้อมูลไปเป็นของตัวหรือทำให้ระบบฐาน ข้อมูลล่มได้เช่นกันโดยเฉพาะอย่างยิ่งพวก Query ที่คิดขึ้นมาแบบสด ๆ  จะทำให้การใช้งานฐานข้อมูลไม่เป็นไปอย่างมี ประสิทธิภาพ เพราะต้องค้นกันตอนนั้น  ไม่สามารถเก็บงานเลื่อนไปทำตอนที่ไม่ค่อยมีคนใช้ได้ 
              จะเห็นได้ว่าโมเดลแบบ 2 ชั้นนี้ไม่เหมาะอย่างยิ่งสำหรับระบบช่วยการตัดสินใจที่ซับซ้อน  เพราะในระบบ พวกนั้นจำเป็นต้องมีการประมวลข้อมูลหลายชั้น ระบบ 2  ชั้น นี้ไม่ได้ออกแบบมาสำหรับการวิเคราะห์ทางธุรกิจ จุดอ่อน ของมันคือไม่สามารถทำงานเปรียบเทียบข้อมูลได้ นอกจากนั้นรายงานบางประเภท เช่นการทำ Query ที่ต้องมีการประมวล ผลเป็นรายการยาว ๆ ก็เป็นเรื่องที่ทำได้ยาก เช่นงานการวิเคราะห์ที่เป็นเปอร์เซ็นต์  การหา Ratio หรือการหาส่วนต่าง เป็นต้น เพราะงานเหล่านี้ต้องใช้ข้อมูลทั้งหมดมาประมวลผลจึงจะหาค่าได้ นั่นหมายความว่าต้องย้ายค่าทั้งหมดที่จะทำนี้ ผ่านเครือข่ายไปสู่เครื่อง Client ซึ่งก็หมายความว่าถ้ามีการแก้ใขวิธีการประมวลผลหรือแก้ Bug จะต้องปทำการ  Update ที่เครื่อง Client ทุกเครื่องด้วย 
              อย่างไรก็ดี  สถาปัตยกรรมแบบ 2  ชั้นนี้มีราคาถูก กว่าและมันจะมีอินเตอร์เฟสที่สะดวกและเข้าใจง่าย  เพราะ มันจะอยู่ที่เครื่อง  Clinet   ดังนั้นจึงต้องรวมอยู่กับเครื่อง Client  ได้อย่างแนบเนียนกว่า เพราะฉะนั้นถ้าจำนวนผู้ใช้ ของคุณมีไม่มากนัก  รายงานหรือการวิเคราะห์ที่ต้องการใช้ ก็มีเพียงการขอรายงานง่าย ๆ ขนาดฐานข้อมูลก็ไม่เกิน  1 GB ละก็ระบบแบบ 2 ชั้นนี้ก็ดูจะเป็นทางเลือกที่เหมาะสมและ ใช้งานได้ 

สถาปัตยกรรมแบบ 3 ชั้น 
              เครื่องหรือระบบที่จัดการแยกส่วนแบบ 3 ชั้นหรือแบบหลายชั้นนั้นจะมีส่วนประกอบดังนี้  คือ ส่วนแรกหรือ ชั้นแรก จะเป็น Client ซึ่งมีขนาดเล็กเรียกว่า “thin client” เป็นส่วนที่ติดต่อกับผู้ใช้ ทำหน้าที่เล็กน้อยเท่านั้นคือ ร้องขอ ข้อมูล ตอบโต้กับชั้นอื่นและแสดงและแสดงข้อมูลที่ได้กับผู้ใช้เท่านั้น การประมวลผลจริง ๆ  จะเกิดที่ชั้นที่สองซึ่งเป็น ส่วนถัดไป ทำหน้าที่ประมวลผลข้อมูลตามความต้องการทางธุรกิจ  และวิธีการดึงข้อมูลที่กำหนดขึ้น (เช่นรายงานจำนวน ภาษีการค้า และสถานที่ที่ต้องไปทำการเสียภาษี เป็นต้น) นอกจากนั้นที่ชั้นนี้อาจจะมีงานอย่างอื่นต้องทำอีกเช่น Transaction Processing (TP)  การ Multiplexing และระบบ Fault Tolerance เป็นต้น ส่วนถัดมาซึ่งเป็นชั้นสุดท้ายก็จะเป็น ตัวฐานข้อมูลหรือคลังข้อมูลนั่นเอง หน้าที่หลักของส่วนนี้คือเก็บข้อมูล ไม่มีงานอื่น ๆ ใดทั้งสิ้นนอกจากรวบรวมข้อมูล และแยกแยะให้ถูกต้องตามความต้องการเท่านั้น 
              เครื่องมือสำหรับสร้างระบบแบบหลายชั้นนี้จะแตกต่างกันออกไป   ขึ้นอยู่กับประเภทและหน้าที่ของมันว่า อะไรบ้างที่จะทำได้ที่ Server ตัวอย่างเช่น หลาย ๆ ตัวต้องการให้เซอร์เวอร์ติดต่อกับแหล่งข้อมูลโดยตรงและประมวลผล ข้อมูลด้วยตัวเอง   ในขณะที่บางตัว เซอร์เวอร์ก็ทำหน้าที่ดูแลรักษาข้อมูล  ควบคุม Transaction จัดการข้อมูลเท่านั้น ส่วนการประมวลผลจริง ๆ เกิดขึ้นที่ตัว Client เป็นต้น 
              ข้อดีจริง ๆ ของระบบที่มีหลายชั้นก็คือประสิทธิภาพที่ดีขึ้น เราสามารถจะทำงานที่ซับซ้อนได้โดยกระจายงานไป ตามชั้นต่าง  ๆ ที่มี อย่างเช่นในระบบ EIS/DSS เป็นต้น  ซึ่งช่วยลดภาระที่จะเกิดกับเครื่อง Client ได้  โดยการยกเอางาน ที่ต้องการการประมวลผลมาก ๆ ไปไว้ที่เครื่องเซอร์เวอร์ ก็ช่วยลดภาระของเครื่อง Client ได้มากและทำให้เครื่อง  Client ไปทำงานอื่นได้มีประสิทธิภาพมากขึ้นหรือเครื่องมือบางตัวก็ต้องการจะกระจายงานต่าง  ๆ ไปตามเครื่อง Client เครื่อง Database Server  และเครื่อง Application Server เป็นต้นผลิตภัณฑ์ในท้องตลาดที่รองรับสถาปัตยกรรมแบบหลายชั้น ก็มีหลายตัวเช่น  Gentium  ของ Planning Science,  AAcumate ของ  Kenan Technology, Beacon ของ PLATINUM, SAS/EIS จากบริษัท SAS Institute จำกัด และ Decision Support Suit จาก Information Advatage เป็นต้น 
              วิธีการอื่นของระบบหลาย  ๆ  ชั้นที่มีในท้องตลาดอีก  ก็เช่น  ระบบที่แยกการประมวลผลไปไว้ที่เซอร์เวอร์เช่น กัน    แต่มีเงื่อนไขว่าเจ้าตัวประมวลผลจะต้องเป็นระบบที่มีแพลตฟอร์มเดียวกัน Database Server เป็นต้น Express/EIS ของ Oracle  ก็เป็นหนึ่งในกลุ่มนี้ข้อดีของการกำหนดให้เครื่อง Application Server  กับ  Database Server  จะต้องเป็นแพลต ฟอร์มเดียวกันก็คือ  ทำให้สามารถลด Overhead และ Traffic ที่ไม่จำเป็นไปได้มาก เพราะ  Overhead  เหล่านี้เป็นสิ่งจำเป็น สำหรับการสร้างมาตรฐานที่ตรงกันให้เครื่องต่างตระกูลสามารถสื่อสารกันได้ 
              ดังนั้นโดยสรุปก็คือระบบแบบหลายชั้นนั้นดูจะเหมาะสำหรับงานที่ต้องการการประมวลผลสูง ๆ  และรองรับ จำนวนผู้ใช้ที่มีปริมาณมาก     และมันจะเป็นระบบที่รองรับ Application แบบ Distributed ในรูปแบบ Peer-to-Peer ทำให้ ระบบประเภทนี้สามารถรองรับการสื่อสารระหว่าง Application ที่อาจจะเกิดขึ้นในอนาคตได้ 

สถาปัตยกรรมการประมวลผลแบบขนาน 
              อีกวิธีที่สามารถปรับปรุงประสิทธิภาพของ Data Warehouse  ได้ก็คือการนำระบบ Parallel Processing  หรือ การประมวลผลแบบขนานมาใช้ด้วยระบบ  Paralle Processing นี้ งานที่ซับซ้อนสามารถแตกออกเป็นงานย่อย ๆ ได้  และนำ ไปประมวลผลพร้อม ๆ กันเลย ดังนั้นก็เลยเป็นการปรับปรุง ประสิทธิภาพของ RDBMS และช่วยให้ผู้ใช้สามารถเข้าถึง ข้อมูลได้เร็วขึ้น เมื่อปริมาณ Qurey หรือ เมื่อขนาดข้อมูลที่ จะต้องใช้งานเพิ่มสูงขึ้น 
              ระบบนี้สามารถปรับปรุงให้ดีขึ้นไปได้อีก  เราสามารถใช้ระบบที่เรียกว่า “Intelligent Data Partitioning” เพื่อช่วย กระจายข้อมูล Table  อันหนึ่งไปสู่หลาย ๆ ดิสก์ เมื่อข้อมูลมีการเปลี่ยนแปลงและต้อง Refresh ส่วนหนึ่งของ Partition ก็จะอยู่ในสภาพ  Off-Line ไม่สามารถใช้งานได้ ในขณะที่ ส่วนอื่นของ Table  ซึ่งแยกเก็บอยู่ใน  Partition ก็ยิ่งมีความ จำเป็นมากขึ้น  มากกว่าแบบเดิมที่จะทำงานในระดับ Database เลย โดยทั่วไปแล้วระบบ Data Warehouse ขนาดเล็ก กล่าวคือ มีฐานข้อมูลขนาดไม่เกิน 5 GB ซึ่งทำการ query ที่ระดับ Client จะสามารถใช้เครื่องที่เป็น  PC หรือ UNIX Workstation ก็ เพียงพอแล้ว แต่ถ้าข้อมูลมีขนาดใหญ่กว่านั้น ก็อาจจะจำเป็นต้องใช้ระบบหลาย  ๆ โปรเซสเซอร์ขนาดกันเป็น  Symmetrical MultiProcessor (SMP) หรืออาจจะต้องย้ายไปใช้เมนเฟรม หรือระบบอื่น ๆ ที่มีโปรเซสเซอร์หลาย ๆ ตัวทำงานขนาน กันมาก ๆ ก็ได้ 

ส่วนประกอบของ Data Warehouse 
              ระบบ  Data Warehouse  ไม่ใช่ระบบสำเร็จรูปที่ซื้อมาแกะกล่องก็ใช้งานได้ทันที จำเป็นต้องมีการติดตั้ง project ขึ้นเพื่อทำการ Custonize เพื่อให้ใช้งานได้  ซึ่งการ Customize ที่ว่าก็ต้องการขั้นตอนจำนวนหนึ่งรวมถึงผลิตภัณฑ์อื่น ๆ มา ช่วยด้วย ดังนี้

  • เครื่องมือพัฒนาเพื่อช่วยออกแบบฐานข้อมูลของ Data Warehouse  และโปรแกรมที่จะทำหน้าที่เก็บรวบรวม ข้อมูลจากระบบปฏิบัติงานหรือแหล่งข้อมูลอื่น ๆ
  • ส่วนที่ทำหน้าที่เป็น Directory ของข้อมูล  เพื่ออำนวยความสะดวกแก่ผู้ดูแลระบบหรือผู้ใช้ทั่วไป ให้เข้าใจถึงข้อมูลแต่ละตัวและความหมายของมัน
  • ตัวฐานข้อมูลของ Data Warehouse เอง
  • ส่วนที่ทำหน้าที่ Data Acquisition ซึ่งก็คือตัวที่ทำ หน้าที่ดับจับ เก็บรวบรวมข้อมูล รักษาความถูกต้อง โอนย้าย หรือแปลงข้อมูลจากแหล่งข้อมูลอื่นให้อยู่ ในรูปแบบที่เหมาะสมก่อนจะเก็บเข้าสู่ Data Warehouse ต่อไป
  • ส่วนที่ทำหน้าที่ Data Management สำหรับจัดการ และควบคุมการปฏิบัติงานของ Data Warehouse
  • ส่วนที่ทำหน้าที่เข้าถึงข้อมูล จะเป็นส่วนที่ให้บริการแก่ผู้ใช้ที่มีพื้นมาทางธุรกิจ  ให้สามารถใช้มันเป็น เครื่องมือช่วยการตัดสินใจได้   ซึ่งแน่นอนว่าต้องการเครื่องมือตัวนี้เพื่อช่วยเขาเข้าถึงและวิเคราะห์ข้อมูล
  • ส่วนที่ทำหน้าที่โอนย้ายข้อมูลเป็นส่วนที่ทำหน้าที่ export ข้อมูลภายใน  Data Warehouse  ออกสู่ภายนอกอาจจะ เพื่อจะโอนย้ายไปสู่ระบบ Data Warehouse  ระบบอื่น Data Mart หรือระบบอื่น ๆ ทั่วไป



การออกแบบฐานข้อมูลของ Data Warehouse 
              การวิเคราะห์แหล่งข้อมูลเพื่อสร้างฐานข้อมูลนั้นจำเป็นต้องมีการวิเคราะห์ข้อมูลที่มีอยู่ทั้งหมดและจำเป็นต้อง มีการสร้าง Data Model ของทั้งองค์กร แหล่งข้อมูลที่กล่าวถึง ก็คือข้อมูลจากฐานข้อมูลหลาย ๆ ที่ ไฟล์และ Segment ต่าง ๆ เป็นต้น  ซึ่งสิ่งเหล่านี้หาได้จากระบบปฏิบัติงานประจำวัน หรือบางทีก็อาจจะได้จากแหล่งภายนอกองค์กรก็ได้ เช่นบริษัท ทางบริษัทก็มีหน้าที่ขายข้อมูล  ข้อมูลที่เราต้องการก็คือข้อมูลที่จะเข้าไปอยู่ฐานข้อมูลของเราต่อไปโดยอาจจะเป็นฐาน ข้อมูลแบบ Relational หรือ Multidimension ก็ได้ 

Data Modeling 
              การทำโมเด็ลของฐานข้อมูล   ก็คือขบวนการที่นำเอาข้อมูลทั้งหมดที่เรามีมาแบออกและจัดรูปแบบใหม่ให้อยู่ ในรูปแบบที่เราสามารถใช้งานได้  มันทำหน้าที่เป็นพิมพ์เขียวบอกเราเลยว่าข้อมูลจากแหล่งข้อมูลจะเข้าไปอยู่ที่ในส่วนไหน ของ  Data Warehouse  การสร้าง Data Model ของ Date Warehouse จะต่างจากการสร้าง Date Model  ทั่วไปก็คือ การสร้าง Data Model ของ Data Warehouse จะเน้นที่การวางรูปแบบข้อมูลให้ผู้ใช้ปลายทางเข้าใจได้ง่าย  ในขณะที่ Data Model  ทั่วไป จะเน้นที่ความเร็วในการเข้าใช้งานข้อมูล พูดง่าย ๆ  ก็คือจะเป็นขบวนการที่เน้นผลลัพธ์มากกว่าจะเน้นขั้นตอนการ ประมวลผลออกแบบให้ข้อมูลนั้นสนองความต้องการของผู้ใช้มากกว่าที่จะออกแบบให้โมเด็ลเป็นอย่างไรก็ได้แล้วแต่ ผู้ใช้ต้องมากำหนดอีกทีว่าจะเอาข้อมูลนั้นไปทำอะไรต่อ พูดง่าย  ๆ ก็คือข้อมูลใน Data Warehouseพร้อมที่จะนำไปใช้ ได้ทันที  แทบไม่ต้องประมวลอะไรอีก ดังนั้นการออกแบบโมเด็ลก็จำเป็นจะต้องออกแบบตามข้อกำหนดที่กล่าวไปแล้ว ซึ่งโมเด็ลที่ได้จะต้องบอกได้ว่า ข้อมูลคืออะไร หมายถึงอะไร และมันมีส่วนเกี่ยวข้องกับข้อมูลอื่นอย่างไร และใครเป็นผู้ใช้ มัน 
              การทำ Data Modeling ก็คือขั้นตอนที่จะแปลงแนวคิดทางธุรกิจออกให้เป็นแผนผังที่เป็นรูปแบบซึ่งสามารถจะ เป็นแนวทางชี้ได้ว่า  ข้อมูลเหล่านั้นจะนำไปสู่สถานที่จัดเก็บจริง ๆ  ได้อย่างไร การสร้าง Data Model  ที่ดีและมีประสิทธิภาพ จะช่วยลดความแออัดของจราจรบนระบบเครือข่ายได้  โดยการนำข้อมูลมาสรุปรวมในรูปแบบที่เข้าใจได้ง่ายและมีประโยชน์ เมื่อข้อมูลอยู่ในรูปแบบที่มีประโยชน์แล้ว ผู้ใช้ก็ไม่จำเป็นต้องเสียเวลา และเสียพลังงานในการสร้าง Query ส่วนตัวที่ จะไป Join Table เพิ่มเติมขึ้นมาอีก 
              Data Modeling ของ Data Warehouse สำหรับระบบช่วยการตัดสินใจ จะแยกแยะข้อมูลทางธุรกิจและ Attribute ของมันออกเป็น Fact และมีมิติมุมมองด้านต่าง  ๆ ของมัน ดังนั้น Dimensional Business Model ก็จะเป็นแผนผังที่จะชี้ ไปยัง  Fact, มุมมองต่าง ๆ, Hierarchy, ความสัมพันธ์ และ Candidate Key เพื่อจะเป็นแนวทางและขอบเขตของการ พัฒนาระบบต่อไป  ซึ่งโมเด็ลและขอบเขตที่ได้นี้  ก็จะต้องย้อนกลับไปแสดงให้ผู้ใช้ตรวจทานต่อไปว่าตรงกับความ ต้องการหรือไม่ ตอนที่แสดงให้ผู้ใช้ดูนั้นก็ต้องเริ่มที่มิติด้านต่าง ๆ ที่มีก่อนหลังจากนั้นก็ค่อยลงรายละเอียดไปใน แต่ละมิติว่ามีรายละเอียดอย่างไรบ้าง 
              Logical Data Model ทั้งหลายเช่นพวก Entity Relation Diagram บางครั้งก็ต้องมาใช้ในการพัฒนา Data Warehouse ด้วย และแน่นอนว่ารายละเอียดของ Logical Data Model พวกนี้จำเป็นต้องมีการทำเป็นเอกสารเก็บไว้ ความจำเป็นจะยิ่งเพิ่มมากขึ้น เพื่อให้เข้ากับวัฒนธรรมขององค์กรที่มีขนาดใหญ่ บางองค์กรอาจจะมีวัฒนธรรมที่เคร่งครัด มาก ขนาดที่ต้องการให้มีการทำ Data Model ให้เสร็จทั้งหมดเสียก่อนที่จะมีการเริ่ม Table ใด ๆ ในฐานข้อมูลเลยด้วยซ้ำ ตามปกติแล้ว Logical Data Model ก็จะครอบคลุมไปถึงขอบเขตของ Project เลยซึ่งรวมไปถึง Relationship, Cardinality, attribute และ Candicated Key ที่มีทั้งหมด อย่างไรก็ดี การออกแบบระบบ Data Warehouse ที่ประสบ ความสำเร็จก็ไม่จำเป็นต้องมี Logical Data Model ที่ครบถ้วนก็ได้ ในหลาย ๆ กรณีเพียงแค่ Dimensional Business Model ก็เพียงพอแล้ว 

Metadata หรือ Information Directory 
              การที่จะได้ประโยชน์จากระบบ Data Warchouse อย่างเต็มที่ผู้ใช้จำเป็นต้องมีเครื่องอำนวยความสะดวกที่ช่วย พวกเขาหาข้อมูลเกี่ยวกับตัวข้อมูล หรือสิ่งอื่น ๆ ที่เกี่ยวข้อง เช่น Quries, ตัววิเคราะห์หรือรายงานที่มีและวิธีที่นำสิ่งเหล่านี้ มาช่วยในการตัดสินใจวางแผนกลยุทธ์ สิ่งอำนวยความสะดวกที่ว่านี้ก็คือ “Information Directory” นั่นเอง เจ้า Information Directory จะทำหน้าที่เหมือนเป็นคลังสำหรับจัดการเก็บ Metadata หรือข้อมูลที่เกี่ยวกับเนื้อหาที่ Data Warchouse มี อยู่ Metadata ช่วยให้ผู้ใช้รู้ว่าตัว Data Warehouse นั้นเก็บอะไรไว้ เข้าใจความหมายทางธุรกิจของข้อมูลแต่ละตัว และ สามารถเรียกใช้ Query หรือตัววิเคราะห์เพื่อเข้าถึงข้อมูลภายในWarehouse ได้ถูกต้อง นอกจากผู้ใช้ปลายทางแล้วนักพัฒนา หรือผู้ดูแลระบบก็มีความจำเป้นต้องใช้ Metadata นี้ด้วยเช่นกัน 
              โดยทั่วไปแล้วระบบ Information Dirctory ก็จะเตรียมเครื่องมือให้จำนวนหนึ่งเพื่อช่วย รวบรวมข้อมูล ดูแล รักษา และดูข้อมูล Metadata ซึ่งเป็นตัวบอกถึงเนื้อหาภายใน Data Warehouse อีกที เจ้า Metadata ที่ว่านี้ก็อาจจะเป็น Metadata ทางเทคนิคหรือทางธุรกิจก็ได้ และอาจจะสร้าง โดย Graphical Information directory Interface ซึ่งเป็น เครื่องมือจัดการ Metadata ที่เป็นกราฟิกอินเตอร์เฟสหรืออาจจะสร้างโดยการ Inport เอา Metadata มาจากผลิตภัณฑ์ หรือ Data Warehouse ตัวอื่นก็ได้ ข้อมูล Metadata ทางเทคินคก็จะเป็นข้อมูลเกี่ยวกับ Data Warehouse ระบบนั้นที่ใช้ โดยผู้ออกแบบ Data Warehouse และผู้ดูแลระบบในขั้นตอนการพัฒนาและการเชื่อมโยงประเด็นทางธุรกิจเข้าสู่ตัวข้อมูล ใน Data Warehouse ด้วย นอกจากนั้นก็ยังให้นิยามและบอกรายละเอียดถึง Query และรายงานแต่ละตัวให้นิยาม แค่ศัพท์ทางธุรกิจและสัทพ์ทางเทคนิคที่เกี่ยวข้อง นอกจากนั้นก็ยังให้รายละเอียดเกี่ยวกับผู้ดูแลรักษาข้อมูลแต่ละตัว นอกจากนั้น Metadata ยังให้ข้อมูลในขั้นตอนการออกแบบและให้นิยามฐานข้อมูลของ Data Warehouse แหล่งข้อมูล ของ Data Warehouse นอกจากนั้นยังกำหนดกฎสำหรับใช้กำจัดขยะและปรับปรุงข้อมูลในฐานข้อมูลด้วย 

ฐานข้อมูลของ Data Warehouse 
              ฐานข้อมูลที่ใช้ใน Data Warehouse สามารถเป็นชนิดใดก็ได้ ไม่ว่าจะเป็น Relational, แบบเฉพาะกิจ หรือจะ เป็นไฟล์ธรรมดา แนวความคิด Data Warehouse ไม่ได้ผูกติดอยู่กับแนวคิดใดแนวคิดหนึ่ง แต่แบบที่เป็นสากลและได้ รับความนิยมที่สุด ก็เห็นจะเป็นระบบการจัดการฐานข้อมูลแบบสารพัดประโยชน์และแบบ RDBMS ที่ update ที่ระดับ record 
              โครงสร้างพื้นฐานที่อยู่เบื้องหลังระบบ Data Warehouse จะต่างจากระบบฐานข้อมูลแบบ Relational ทั่วไป ดังนั้นไม่ว่าเราจะเลือกใช้ฐานข้อมูลชนิดใดก็ตาม เราจะต้องนำมันมา Optimized เพื่อให้เหมาะสำหรับการทำ Analytical Processing การปรับปรุงหรือ Optimization จะเป็นงานที่ออกไปในลักษณะการทำ Partition ข้อมูลเพื่อใช้ในงาน VLDB และเตรียมข้อมูลให้พร้อมสำหรับงานวิเคราะห์แบบหลายมิติหลายมุมมอง 
              เนื่องจากงาน Analytical Processing ซึ่เป็นงานที่ Data Warehouse ทำเป็นเรื่องที่ค่อนข้างมีลักษณะเฉพาะตัว ดังนั้นชนิดของฐานข้อมูลที่จะเลือกใช้จึงมีผลต่อประสิทธิภาพโดยตรง ตัวอย่างเช่นฐานข้อมูลชนิด RDBMS ทั่ว ๆ ไปก็ มักจะไม่ได้ถูก Optimized มาสำหรับงาน Analytical Processing เพราะมันมักจะมี Table ขนาดใหญ่ มีการ Join กันมากและมัก จะทำ Index ได้ด้วย สิ่งเหล่านี้ล้วนเป็นการลดประสิทธิภาพ ใน Analytical Processing 
              และเพื่อเป็นการแก้ปัญหานี้ เราจึงมักจะเลือกใช้ DBMS ชนิดที่ออกแบบมาสำหรับ Data Warehouse โดยเฉพาะ DBMS ชนิดที่ออกแบบมาสำหรับ Data Warehouse โดยเฉพาะก็มักจะมีโครงสร้างและวิธีการทำ Indexing ที่เหมาะและมี ประสิทธิภาพสำหรับ Data Warehouse ทำให้มันสามารถจัดการกับข้อมูลขนาดใหญ่ ๆ ได้ดีกว่า อย่างเช่น RDBMS ของ Red Brick ก็จะมีโครงสร้างการเก็บข้อมูลแบบพิเศษ สำหรับ Stat Schema โดยเฉพาะ นอกจากนั้น Red Brick 4.0 ยังมี Index แบบ TargetIndex ซึ่งเป็น Indexing ชนิด Bitmpped อีกด้วย ซึ่งทำให้เข้าถึงข้อมูลได้เร็วกว่าแบบ B-Tree ทั่วไป ที่จะใช้ งานได้กับข้อมูลที่มี Instant น้อย ๆ เท่านั้น เช่นพวกข้อมูลเพศ เป็นต้น แต่ใน TargetIndex ซึ่งเป็น Index แบบ Bit-mapped นั้นจะทำให้สามารถใช้งานได้กับข้อมูลที่มี Instant มาก ๆ เช่น พวกอาชีพ เป็นต้น นอกจากเรื่องจำนวน Instant แล้วจากการ ทดสอบยังพบว่า B-tree จะใช้เวลาเข้าถึงข้อมูลมากกว่าแบบ Bit-Mapped ถึง 3 ถึง 10 เท่าทีเดียว Sybase เอง ก็ยังนำระบบ Bit-mapped เข้ามาใช้กับ IQ ของตน โดยตัว IQ จะทำให้ผู้ใช้ เห็นข้อมูลเป็น Relational ธรรมดา แต่ความจริงโครงสร้างภายในกลับไม่ใช่ 

ระบบฐานข้อมูลแบบ Multidimensional 
              อีกวิธีหนึ่งที่จะช่วยเพิ่มประสิทธิภาพให้กับระบบ Data Warehouse ได้ก็คือการเปลี่ยนไปใช้ระบบฐานข้อมูล แบบ Multidmension Server (Multidimensionai Database - MDD) แทน ในระบบนี้ ข้อมูลจะถูกเก็บเป็นรูปแบบของอะเรย์หลาย มิติหรือเรียกง่าย ๆ ว่า Data Cube ดังนั้นการเข้าถึงข้อมูลตัวใด ๆ ก็ตามในอะเรย์ ก็จะอ้างผ่าน Offset Address ทำให้ ระยะทางเข้าสู่ข้อมูลทุกตัวนั้นเท่ากัน การนำเทคนิค MDD มาประยุกต์ใช้กับการจัดการเก็บ Storage และ Data Management ทำให้เราสามารถทำงานได้อย่างมีประสิทธิภาพมากขึ้น แต่ถึงจะมีข้อดีอย่างไรก็ตาม ผลลัพธ์ที่ได้ก็ยังถูก จำกัดอยู่ที่ความจริงที่ว่า มาตรฐานการอินเตอร์เฟสนั้นยังเป็นแบบเฉพาะตัวอยู่ (Proprietary) และยังไม่เหมาะกับ ข้อมูลที่มีปริมาณมาก ๆ และมีรายละเอียดมาก ๆ ทำให้มีการพูดถึงเรื่อง Scalabiltiy หรือความสามารถในการขยาย ระบบเพิ่มเติม ด้วยการเพิ่มบริการที่เรียกว่า Reach-through ทำให้เราสามารถทำให้ผู้ใช้ สามารถฐานข้อมูลแบบ MDD ไปเรียกข้อมูลที่เป็นรายละเอียดปลีกย่อย ซึ่งเก็บอยู่ในฐานข้อมูลแบบ RDBMS ได้โดยผู้ใช้รู้สึกเหมือนเก็บอยู่ที่เดียว กันได้ 

Star Schema 
              อีกวิธีหนึ่งซึ่งเป็นการเพิ่มประสิทธิภาพการนำเอา RDBMS มาใช้กับระบบ Data Warehouse ได้ก็คือ การนำ ระบบ Star Schema มาใช้งาน โดยที่ Star Schema ก็คือ ฐานข้อมูลรูปแบบพิเศษ ที่ออกแบบมาเฉพาะสำหรับทำงาน Analytical Processing โดยทั่วไปแล้วระบบ Star Schema จะประกอบด้วย Table สองชนิดด้วยกัน ก็คือ Fact Table ที่ผ่าน การ Normalized แล้วกับอีกตัวคือ Dimension Table โดยที่ความแตกต่างระหว่างสองประเภทนี้ก็คือ Fact Table จะเก็บ ข้อมูลที่เกิดจากธุรกิจหรือกิจกรมจริง ๆ ซึ่งก็คือข้อมูลที่พวกเราต้องการค้นหานั่นเอง เช่นพวก ปริมาณการขาย, ยอดขาย, ค่าใช้จ่าย, จำนวนสายโทรเข้า เป็น ส่วนอีกตัวคือ Dimension Table จะเก็บข้อมูลในมิติต่าง ๆ ที่ผู้ใช้ต้องการดู เช่น ตามเวลา (เป็นวัน, อาทิตย์, เดือน, ปี) ตามเขตการขาย (แบ่งตามร้านตามพื้นที่ หรือตามพนักงานขาย) ตามผลิตภัณฑ์ (เช่นตามประเภท ตามรหัสสินค้า) และอื่น ๆ อีกมากมาย ตามแต่ความต้องการของผู้ใช้ ในแต่ละมิติหรือ Dimension ก็จะเก็บ Key ซึ่งจะมี ตัวชี้ไปยัง Fact Table อีกที โดยทั่วไปแล้ว Dimension Table ก็จะเล็กกว่า Fact Table มาก ๆ ซึ่งก็ไม่เกิน 1 ล้านบรรทัด ใน รูปแบบปกติ ซึ่ง Fact Table ก็คือ Key ของข้อมูลทั้งหมดอยู่รวมกันนั่นเอง การนำเทคนิคหรือนำ Dimension Key มาใช้ ทำให้เราสามารถเข้าถึงข้อมูล (Fact Data) ได้รวดเร็วกว่า และด้วยแนวคิดนี้ Star Schema ทำให้ SQL Query สามารถสร้าง Join Path ระหว่าง Fact Table กับ Dimension ขึ้นมาก่อนตามความต้องการได้ 

การนำเอา Data Warehouse ไปใช้งาน 
              การนำข้อมูลจากฐานข้อมูลจากระบบประจำวันไปไว้ใน Data Warehouse เป็นกระบวนการที่ประกอบด้วย หลายขั้นตอนด้วยกัน อย่างน้อยก็ต้องมีการ Mapping การคัดเลือกและดึงข้อมูล และแปลงข้อมูลให้อยู่ในรูปแบบที่ ต้องการ ซึ่งในขั้นตอนนี้อย่างน้อยก็ต้องสร้างโปรแกรมหรือระบบที่สามารถเข้าใจความสัมพันธ์ระหว่าง ฐานข้อมูลประจำวัน กับฐานข้อมูลของ Data Warehouse หลังจากนั้นก็เลือกดึงเอาเฉพาะข้อมูลที่ต้องการ และจัดรูปแบบใหม่ให้อยู่ในรูปแบบ ที่เหมาะสำหรับระบบเป้าหมาย เช่น ระบบการตัดสินใจ 
              ส่วนประกอบหนึ่งที่มีความสำคัญก็คือ Database Gateway มันจะทำหน้าที่เป็นประตูเชื่อมระหว่างฐานข้อมูล ประจำวันมีรูปแบบหลากหลาย หรือแม้กระทั่งมีระบบที่หลากหลายเข้าด้วยกัน นอกจากนั้นแล้ว Gatway ยังมีหน้าที่ ในการ เชื่อมระหว่างเครือข่ายสองชนิดที่ต่างกัน โปรโตคอลสื่อสารที่ต่างกัน และเชื่อมสองระบบที่มีวิธีการเก็บหรือจัด รูปแบบข้อมูลที่ต่างกัน เช่นระหว่างเครื่องเมนเฟรมกับระบบฐานข้อมูลที่ทำงานอยู่บนระบบปฏิบัติการต่าง ๆ 
              ข้อมูลที่ถูกวิเคราะห์แล้วว่าเป็นที่ต้องการและจำเป็นสำหรับระบบช่วยการตัดสินใจ ก็จะถูกดึงจากระบบฐานข้อมูล ประจำวันหรือจากแหล่งอื่น ๆ เช่น จากบริษัทเฉพาะทางที่ประกอบอาชีพขายข้อมูล เช่น Metro Mail, A.C.Nielsen หรือ Information Source Inc. (IRI) โดยทั่วไปแล้วการพยายามนำเอาข้อมูลมาจากหลาย ๆ แหล่งนับเป็นเรื่องธรรมดาสำหรับ โครงสร้างของ Data Warehouse แหล่งข้อมูลระดับ Field อาจจะมาจากหลาย ๆ แหล่ง หลาย ๆ ฐานข้อมูล หลาย ๆ ระบบ ซึ่งแน่นอนว่าจะต้องประกอบด้วยข้อมูลหลาย ๆ ชนิดในหลาย ๆ แบบ 

การดึงข้อมูลจากฐานข้อมูลประจำวัน 
              การดึงข้อมูลเข้า Data Warehouse ก็เป็นอีกเรื่องที่มีพิธีรีตองพอสมควร ข้อมูลที่ดึงมาจากแหล่งข้อมูลทั้งหลาย ก็จำเป็นต้องได้รับการแปลงให้อยู่ในรูปแบบที่เหมาะสม ก่อนจะนำมารวมกันเป็นก้อนใน Warehouse การแปลงข้อมูลจะ เป็นขั้นตอนที่ทำพร้อม ๆ กับการดึงข้อมูลไปด้วย ซึ่งจะครอบคลุมไปถึง การจัดรวบรวมข้อมูลที่มีชนิดต่าง ๆ กัน การเปลี่ยนรหัส (เช่นการเปลี่ยนรหัสเพศจาก 1, 2 เป็น M, F เป็นต้น) และรวมไปถึงการคัดเลือกเฉพาะข้อมูลที่เราต้องการ นอกจากนั้นแล้ว การแปลงข้อมูลยังรวมไปถึงการคำนวณที่จำเป็น การสรุปข้อมูล และการ Update ข้อมูลจากหลาย ๆ แหล่งให้ตรงกัน ในการนี้ก็จะมีเครื่องมือที่ได้รับการออกแบบมาโดยเฉพาะสำหรับการแปลงข้อมูล ดังนั้นเครื่องมือนี้ก็จะ มีหน้าที่ดึงข้อมูลและแปลงข้อมูลจากหลาย ๆ แหล่งดังที่กล่าวมาแล้ว ทำการ Map ข้อมูลต้นฉบับไปสู่ปลายทางและ สร้าง DDL (Data Defination Language) รวมไปถึงช่วยเราสร้างโปรแกรมที่จะทำหน้าที่จัดการกับข้อมูลและแปลงข้อมูล ก่อนจะโหลดไปเก็บไว้ในตำแหน่งที่เหมาะสมในฐานข้อมูลต่อไป มีเครื่องมือชนิดที่จำเป็นต้องใช้ประกอบและมีความ สำคัญ นั่นคือ Data Scrubbing และ Normalization Tools มีหน้าที่ทำความสะอาดข้อมูลให้มี Consistency สูง เช่น ค้นหา และทำการ Merge ที่ซ้ำกันเข้าด้วยกัน จัดมาตรฐานให้กับคำย่อที่ใช้ให้ตรงกันทั้งหมด และปรับความยาวของ Field ของ ข้อมูลชนิดเดียวกันให้ตรงกัน ฐานข้อมูลที่ทำการ Normalization ไว้ได้ดีจะทำให้ระบบที่นำไปใช้จริงมีประสิทธิภาพสูง แต่ก็ ทำให้เราต้อง Join ข้อมูลมากเช่นกัน ตอนเราทำการ query ดังนั้นเครื่องมือแปลงข้อมูล ก็มีหน้าที่ Denormalization กลับ ในขั้นตอนการสร้างหรือรวบรวมข้อมูลสำหรับ Warehouse เครื่องมือรวบรวมและแปลงข้อมูลบางตัวสามารถตั้งให้ทำการ Update ข้อมูลตามตารางเวลาได้ 
              ความจริงแล้วการสร้าง Data Warehouse บางระบบก็อาจจะไม่จำเป็นต้องมีการแปลงข้อมูลเลยก็ได้ ถ้าเป็นกรณี ที่ Warehouse นั้นมีโครงสร้างไม่ซับซ้อนนัก ในขณะที่ข้อมูลจากฐานข้อมูลต้นฉบับมีเป็นชนิดเดียวกันหมด เป็นมาตรฐาน เดียวกัน ค้นหาและดึงออกมาได้ง่าย รวมไปถึงมีเครื่องมือ Front End ที่ช่วยเราเข้าถึงข้อมูลได้ดี แต่ในทางกลับกัน การ แปลงข้อมูลกลับเป็นเรื่องจำเป็นมากถ้าข้อมูลของคุณต้องการการประมวลผลอย่างมาก โดยเฉพาะอย่างยิ่งถ้าแหล่งต้นฉบับ ของข้อมูลคุณมีหลายประเภทหลายตระกูล หลายเทคโนโลยีและมีโครงสร้างข้อมูลที่แตกต่างกันไป ใช้ฐานข้อมูลแตกต่าง กัน รวมไปถึงว่าข้อมูลแต่ละตัวก็มีขอบเขตไม่เท่ากัน และมีความจำเป็นต่างกัน เรียกว่าต่างกันสุดขั้วเท่าที่จะเป็นไปได้ เลยทีเดียว นั่นคือการแปลงข้อมูลเป็นเรื่องที่ไม่อาจหลีกเลี่ยงได้ 

การส่งถ่ายข้อมูล 
              Middle Ware ซึ่งเป็นตัวกลางระหว่างระบบฐานข้อมูลประจำวันและระบบ Data Warehouse จะทำหน้าที่ เป็นตัวกลางและโอนย้ายข้อมูลให้ ตัว Middleware เองจำเป็นต้องรองรับหลาย ๆ โปรโตคอล ซึ่งเรียกใช้โดยหลาย ๆ ตระกูล โดยมากเครื่องมือช่วยติดต่อเหล่านั้นจะอยู่ในรูปของ Gateway โดยเครื่องมือช่วยติดต่อที่ว่านี้จะเชื่อมแหล่งข้อมูลจากหลาย ๆ แหล่งเข้าด้วยกัน เข้าสู่ Data Warehouse สร้างเป็นระบบ 3 ชั้นขึ้นเพื่อเชื่อมข้อมูลเข้าสู่ Server ทั้งหมดก่อนที่จะส่งเข้าไปที่ เครื่อง Client ไปในคราวเดียวกัน Middleware ซึ่งอยู่ตรงกลางระหว่าง Data warehouse จุดเข้าถึงฐานข้อมูลและระบบ วิเคราะห์ข้อมูล จะต้องเป็น Middleware ที่เก่งมากในการรับมือกับ Request ของข้อมูลที่แปลก ๆ ต้องสามารถรับมือ กับข้อมูลที่มีขนาดเปลี่ยนแปลงไปได้ถึงแม้ว่าขนาดที่ว่าจะไม่ใหญ่มากนัก 
              สิ่งหนึ่งที่ต้องคำนึงถึงในการย้ายข้อมูลจากแหล่งข้อมูลมาก็มีหลายอย่างด้วยกัน เช่น อัตราการ Update วิธี การคัดลอกข้อมูลการ Maintainance และการปรับข้อมูลให้เข้ากับความต้องการทางธุรกิจ ข้อมูลเมื่อได้รับการอ่านขึ้น มาจากต้นฉบับแล้ว ก็จะถูกทำความสะอาดและปรับปรุงให้อยู่ในสภาพที่ดีขึ้น การทำความสะอาดที่ว่านี้ก็คือการปรับ โครงสร้างข้อมูล ไม่ว่าจะเป็น Record หรือ Field การลบข้อมูลที่มีเพียงฐานข้อมูลประจำวันใช้ประโยชน์เท่านั้นออก การ เติมค่าใน Field ที่หายไป ตรวจสอบความถูกต้องของข้อมูล (Consistency และ Integrity Check) ส่วนการปรับสภาพ ข้อมูลให้ดีขึ้นนั้น ก็จะเป็นการถอดรหัส และแปลค่าใน Field ต่าง ๆ เพิ่ม Attribute ที่บ่งค่าของช่วงเวลาลงไป ทำการสรุป ข้อมูล หรือคำนวณค่าที่จะเป็นผลลัพธ์ต่าง ๆ เมื่อข้อมูลได้ รับการทำความสะอาดและปรับสภาพแล้วจึงจะถูก Map เข้ายัง ตำแหน่งใน Data Warehouse ต่อไป การนำข้อมูลดังกล่าวไป ใช้ในฐานข้อมูลของ Warehouse อาจจะทำได้โดยผ่านทาง SQL หรือผ่านทางยูทิลิตี้ สำหรับโหลดข้อมูลของ Database ก็ได้ 
              มีวิธีหลัก ๆ อยู่สองวิธีในการนำข้อมูลไปประยุกต์ใช้กับฐานข้อมูล คือตามการเปลี่ยนแปลง (Change-base) กับ Batch copy ในแบบแรกคือ Changed-Based ระบบฐานข้อมูล จะก๊อปปี้เฉพาะข้อมูลที่เกิดความเปลี่ยนแปลงหรือมีความ แตกต่างเท่านั้น ส่วนใน Batch Copy ตัว Warehouse ทั้ง Warehouse ก็จะถูก Update พร้อม ๆ กัน โดยจะทำการ Upload และ Download จากฐานข้อมูลประจำวันโดยทำกับ ข้อมูลทีละมาก ๆ และจะทำเป็นระยะ ๆ สำหรับข้อดีข้อเสีย นั้นแน่นอนว่าแบบแรกจะเคลื่อย้ายข้อมูลน้อยกว่ามาก ทำให้ เปลืองทรัพยากรเครือข่ายน้อยกว่า แต่ว่าโปรแกรมที่ทำหน้า ที่ดูแลและงานดูแลรักษาก็ต้องซับซ้อนกว่าด้วยเช่นกัน สำหรับแบบที่สองที่จะเคลื่อนย้ายข้อมูลทีละมาก ๆ แน่นอน ว่าเปลืองเครือข่ายกว่า แต่ว่าตัว Warehouse เองก็ติดตั้งและดูแลรักษาง่ายกว่า เมื่อฐานข้อมูลจะเริ่มรับข้อมูลเข้า ข้อมูล ก็จะต้องได้รับการออกแบบปรับโครงสร้างใหม่ ตัว Table เองก็จะต้องถูก Denomalized ตัวข้อมูลก็จะต้องถูกทำความ สะอาด อาจจะต้องมีการเพิ่ม Field หรือ Keyใหม่เข้าไปเพื่อจะทำการเรียงข้อมูล, จัดพวกข้อมูล หรือว่าทำการสรุปข้อมูล ต่อไป 
              เครื่องดึงข้อมูล (Data Transport Tools) ก็จะเป็นเครื่องมือที่ช่วยเราดึงข้อมูลออกจากระบบฐานข้อมูลประจำวัน และนำไปใส่ไว้ในตำแหน่งที่ถูกต้องใน Data Warehouse นอกจากนั้นเครื่องมือเหล่านี้ก็จะต้องทำการแปลงปรับเปลี่ยน ข้อมูล เช่นการแปลงรหัส Binary ที่ใช้กับ Hosts (EBCDIC) มาเป็น ASCII 

การจัดและการบริหาร Data Warehouse 
              การจัดการ Data Warehouse ก็จะเริ่มด้วยการพัฒนา ระบบขึ้นมาเสียก่อน เครื่องมือสำหรับช่วยพัฒนา Data Warehouse ก็จะเป็นตัวที่ช่วยสร้างและรักษาอินเตอร์เฟสระหว่างระบบที่ใช้ งานปกติกับระบบ Data Warehouse ซอฟต์แวร์สำหรับพัฒนาระบบ Data Warehouse ก็จะรับงานอันซับซ้อนในการสร้าง อินเตอร์เฟส โดยการสร้างโปรแกรมเพื่อจะสร้าง, จัดการ และดูแลรักษาอินเตอร์เฟสโดยอัตโนมัติ อินเตอร์เฟสที่ว่านี้ เมื่องานการรวบรวมและแปลงข้อมูลทำเสร็จแล้ว ก็ควรจะมีหน้าที่อย่างน้อยดังต่อไปนี้

  • แปลงข้อมูล
  • Mapping ข้อมูล
  • ปรับรูปแบบข้อมูล
  • คำนวณค่าใหม่
  • ปรับโครงสร้าง Key ของข้อมูล
  • สรุปข้อมูล


              เครื่องมือสำหรับพัฒนาระบบ Data Warehouse ก็ควรจะสามารถดึงข้อมูล, แปลงข้อมูล, โหลดข้อมูลได้ ทำการ สำรองและกู้ข้อมูลได้ โดยควรจะสามารถทำได้โดยอัตโนมัติตามตารางเวลา นอกจากงานที่กล่าวมาทั้งหมดแล้ว ตัดจัดการ Data Warehouse ก็ควรจะสามารถควบคุมหรือจัดการการเข้าใช้ระบบ Data Warehouse ได้รวมถึงเรื่องระบบรักษา ความปลอดภัย การตรวจสอบการทำงานของผู้ใช้ สามารถจัดการ Directory และตารางเวลาได้ รวมไปถึงการ Monitor การใช้งาน, Monitor ข้อมูลได้ 

การใช้งาน, วิเคราะห์ และขอรายงาน 
              ปัจจุบันเครื่องเก่ง ๆ ก็มีเพิ่มขึ้นเรื่อย ๆ ซึ่งรวมไปถึงโปรแกรมพวก Spreadsheet อย่าง Lutus 1-2-3 และ Microsoft Access, ระบบฐานข้อมูลบนเครื่องเดสก์ทอป และโปรแกรมที่ทำหน้าที่เป็น Front End สำหรับเข้าถึงข้อมูลเช่น Business Objects, Impromptu, 1Q/Objects และ Forest & Tree เป็นต้น เครื่องมือพวกนี้ทำให้เราสามารถเข้าใช้งานข้อมูลใน Ware House ได้โดยไม่ต้องรู้โครงสร้างภายในของมันเลย หรือไม่รู้ วิธีการเรียกใช้ SQL เลยก็ได้ พวกมันยังสามารถเจาะลึกเข้าไปในข้อมูล หรือก็อปปี้ออกมาเก็บไว้ใน Spread Sheet เพื่อ จะเอามาวิเคราะห์ต่อไป เครื่อง Workstation ทั่วไปสามารถเข้าใช้งานหรือวิเคราะห์ได้อย่างอิสระทั้งข้อมูลที่เป็นราย ละเอียดหรือข้อมูลสรุปสามารถเข้าใช้ได้ที่ระดับนี้เลยเครื่องมือ 

    สำหรับเข้าถึงข้อมูลสามารถแบ่งได้คร่าว ๆ ดังนี้

  • เครื่องมือเข้าถึงข้อมูลและ Query พวกนี้จะเป็น GUI เพื่อช่วยเราเข้าใช้ Data Warehouse ทำให้ผู้ใช้สามารถติดต่อกับ Table ได้โดยตรง
  • ตัวสร้างรายงาน : เป็นตัวให้บริการรูปแบบเพิ่มเติมของรายงาน เพื่อช่วยสร้างรายงาน และก็ยังทำให้ผู้ใช้สามารถติดต่อกับ Table ได้โดยตรงเช่นกัน
  • ระบบฐานข้อมูลแบบหลายมิติ (Multidimension Databases System) ให้บริการ Advance Metric และสามารถทำ Slice-and-dice ได้ด้วย
  • ระบบช่วยการตัดสินใจระดับสูง (Advanced Decision Support) ให้บริการวิเคราะห์แบบหลายมิติขั้นสูง โดยกระทำที่ Relational DBMS โดยตรง เครื่องมือประเภทนี้ มักจะมี Advanced Metric, Slice-and-Dice และ Drill-down รวมทั้งสามารถจัดการกับ Metadata ที่ใช้ร่วมกันได้
  • ระบบสารสนเทศผู้บริหาร ใช้บริการอินเตอร์เฟสแบบมีรูปแบบเพื่อสร้างรายงานให้ข้อมูลที่สรุปเป็นพิเศษเกี่ยวกับองค์กรโดยรวม



บทบาทของระบบ EIS กับ DSS 
              บทบาทของระบบ EIS/DSS นั้นมีส่วนช่วยเจ้าหน้าที่ IS อย่างมาก ไม่ให้เขาเหล่านั้นต้องสร้างรายงานแบบ Ad hoc โดยการช่วยให้เหล่าผู้ใช้สามารถเข้าถึงข้อมูลที่ต้องการได้ด้วยตัวเอง เพราะออกแบบตามต้องการทางธุรกิจอยู่แล้ว เครื่องมือทางด้าน EIS/DSS ก็จะแตกต่างกันไปตั้งแต่เป็นเครื่องมือช่วย Query สำหรับผู้ใช้ทั่วไป จนไปถึงเป็นเครื่อง มือช่วยปรับปต่งสำหรับเจ้าหน้าที่ IS ชุดเครื่องมือสำหรับผู้บริหารที่เป็นแบบ object ก็จะมีความสามารถที่จะโปรแกรม Query เพื่อจะสร้างรายงานที่สามารถให้ผลลัพธ์เป็นกราฟได้ หลายชนิด รวมไปถึงทำให้ผู้ใช้สามารถท่องไปตามกลุ่ม ข้อมูลและเจาะลึกลงไปในจุดต่าง ๆ ได้ และท้ายที่สุดก็คือ สามารถทำงานในแบบ What-if ได้ 
              โดยทั่วไป เครื่องมือประเภท EIS/DSS ก็จะมีจุด หมายปลายทางอยู่ในตารางแบบ Relational หรืออาจจะเป็น โครงสร้างที่ออกแบบมาโดยเฉพาะเช่น MDd แต่ว่าเครื่องมือ EIS/DSS เหล่านั้นก็สามารถแบ่งออกได้ตามชนิดของฐาน ข้อมูลที่มันติดต่อด้วยเช่น อาจจะเป็นฐานข้อมูลธรรมดาหรือ ฐานข้อมูล Warehouse หรืออาจจะแบ่งตามข้อมูลที่มันส่งออก ไปยังเครื่องเดสก์ทอปก็ได้ 

Data Mining 
              ความสามารถในการค้นหาข้อมูลที่ไม่เคยพบมาก่อนจากในฐานข้อมูลขนาดใหญ่ จะเรียกว่า Data Mining ซึ่งจริง ๆ ก็คือการรวมเทคโนโลยีของ Data Warehouse กับความสามารถในการสร้าง Query ขึ้นมาเอง ซึ่งในขั้นแรกคุณก็ต้องสร้าง สมมุติฐานขึ้นมาก่อนหลังจากนั้นก็ค่อยแปลงมันให้กลายเป็น Query แล้วก็ให้มันไปทำงานกับข้อมูล หลังจากนั้นก็นำข้อมูล ที่ได้มาตีความหรือแปลงให้อยู่ในรูปแบบที่เหมาะสม ส่วนค้นหาข้อมูลของ Data Mining (Discovery) จะใช้ข้อมูลหรือ เนื้อหาที่อยู่ใน Warehouse เป็นเครื่องช่วนในการสร้างโมเด็ลของข้อมูล ซึ่งสามารถนำมาช่วยทำนายพฤติกรรมของข้อมูล ที่ต้องการได้ด้วยวิธีการแบบ “if-Then” ส่วนต่อมาก็คือ “Link-Analysis” ก็จะเป็นตัวที่จะไปทำนายอีกทีว่าสิ่งที่ ต้องการนั้นอยู่ในส่วนไหนของฐานข้อมูล ส่วน Discovery จะใช้วิธีการแบ่งฐานข้อมูลออกเป็นส่วน ๆ เพื่อจะสร้างกลุ่ม ของ record ที่มีพฤติกรรมหรือคุณสมบัติคล้าย ๆ กัน รวมไปถึงการพยายามตรวจจับหา record ที่มีพฤติกรรมที่เบี่ยงเบน ออกไปไม่เข้าพวกกับใครเลย เพื่อจะจัดเข้าไปอยู่ในอีกกลุ่ม คือกลุ่มที่อยู่เหนือคาดหมาย หรือ Norm 
              แน่นอนว่าระบบ Data Mining ไม่ได้สร้างขึ้นด้วยเทคโนโลยีเดี่ยว ๆ แต่ประกอบด้วยหลาย ๆ เทคโนโลยี เพื่อ สนองความต้องการของผู้ใช้ที่แตกต่างกันออกไปในแต่ละอุตสาหกรรมและแต่ละความต้องการ แต่โดยทั่ว ๆ ไปแล้ว ก็ยังต้องการสิ่งพื้นฐานก็คือคอมพิวเตอร์ที่ประมวลผลได้เร็ว, ฐานข้อมูลที่มีประสิทธิภาพสูง เครือข่ายที่เร็ว และนอกจาก นั้นมันก็ยังต้องการรายการต่อไปนี้

  • วิธีการที่จะกำหนด, ระบุและดึงข้อมูลที่ต้องการเครื่องมือที่จะช่วยตรวจหารูปแบบและความสัมพันธ์ ในข้อมูลและสร้างกลุ่มของข้อมูลขึ้นมา
  • ต้องการวิธีการที่จะแสดงข้อมูลที่ได้มา

              ผลลัพธ์ของระบบ Data Mining จะต้องได้รับการแปลงรูปแบบและรวบรวมเข้าด้วยกัน ก่อนจะส่งให้เป็น Input สำหรับช่วยตัดสินใจต่อไป ซึ่งกระบวนการที่ข้อมูลเหล่านี้จะไปช่วยตัดสินใจก็มีหลายวิธี ตั้งแต่ระบบที่ทำด้วยคนไปจน ถึงระบบที่ต้องการหลักการทางวิทยาศาสตร์อย่าง Linear Programming เข้าช่วย 

ข้อจำกัดของระบบ Data Warehouse 
              ในความเป็นจริงระบบ Data Warehouse ก็มีข้อมูลจำกัดอยู่มาก ไม่ว่าจะเป็นระยะเวลาที่ใช้ในการพัฒนาประเด็น เกี่ยวกับคุณภาพของข้อมูลที่ได้ ราคา และเรื่องที่ Metadata นั้น ไม่มีมาตรฐาน รวมไปถึงข้อจำกัดด้านประสิทธิภาพของฐานข้อมูล ที่จะนำมาใช้ทำ Data Warehouse เป็นต้น 

ระยะเวลาที่ใช้ในการพัฒนา 
              ระยะเวลาทั้งหมดที่จะใช้ในการพัฒนาระบบ Data Warehouse ให้สำหรับทั้งองค์กรนั้นอาจจะยาวนานมาก จากเป็นเดือนถึงเป็นปีเลยทีเดียวความต้องการด้านข้อมูลของผู้ใช้แต่ละแผนกก็จะเปลี่ยนไปเรื่อย ๆ ทุก ๆ วันเพราะว่าโดยทั่วไปเมื่อผู้ใช้ได้ข้อมูลในมือมากขึ้น ก็จะไปกระตุ้นให้เกิดคำถามใหม่ ๆ ซึ่งชักนำไปสู่ความต้องการข้อมูลใหม่ ๆ อีกเช่นกัน ดังนั้นการพยายามทำนายว่าการ Access ชนิดใดที่จำเป็นต้องมี หรือว่าข้อมูลควรจะไปเก็บที่ไหน โมเด็ลของข้อมูลควรจะเป็นอย่างไร และการวางแผนอื่น ๆ นั้นล้วนเป็นงานที่ต้องใช้เวลาทั้งสิ้น เมื่อหมดประเด็นดังกล่าวแล้วก็จะเป็นเรื่องของการพยายามเลือกระบบ การออกแบบเพื่อให้ Storage พอเหมาะกับความต้องการข้อมูลและการเรียกใช้ข้อมูล หลังจากนั้นผู้ใช้ก็ยังต้องคอยต่อไป ให้แผนก IS ทำการดึงข้อมูลครั้งใหญ่ ทำการแปลงข้อมูล และการโหลดข้อมูลอื่น ๆ ก่อนที่พวกเขาจะทำการวิเคราะห์ข้อมูลต่อไป 

คุณภาพของข้อมูล 
              ระบบ Data Warehouse จะเรียกว่าล้มเหลวก็ได้ ถ้าในช่วงการวิเคราะห์ข้อมูลไม่ได้ทำอย่างรอบคอบทำให้ไม่ได้ข้อมูลที่ต้องการออกมา ซึ่งจะเป็นได้ดังนี้ ก็จำเป็นต้องให้ผู้ใช้ช่วยเราระบุตำแหน่งช้อมูล แปลง และรวมข้อมูล ก่อนที่จะนำไปใส่ไว้ใน Data Warehouse มิฉะนั้นถ้าผู้ใช้เกิดความสงสัยในตัวข้อมูลขึ้นมาแล้วละก็ พวกเขาอาจจะเสียความเชื่อมั่นในระบบไปเลย งานหนึ่งที่มันจะนิยมนำ Data Warehouse ไปใช้ก็คือ การทำแคมเปญจน์เพื่อดึงดูดลูกค้า ระบบที่ฉลาดก็จะต้องสร้างโมเด็ลที่เหมาะสมขึ้นมาก่อน โดยพยายามหาโมเด็ลให้กับลูกค้าที่หนีไปใช้บริการที่อื่น หลังจากนั้นก็นำโมเด็ลที่ได้ไปปรับใช้กับลูกค้าปัจจุบันเพื่อหาข้อบกพร่องที่เกิดขึ้นเพื่อจะได้ป้องกันต่อไป เพื่อจะทำงานนี้ให้สำเร็จ เราจำเป็นจะต้องสร้างประวัติลูกค้าที่ถูกต้อง ข้อมูลที่ผิดพลาดก็จะทำให้ได้ประวัติลูกค้าที่ผิดพลาด ซึ่งทำให้การทำแคมเปญจ์นไม่สำเร็จในที่สุด เมื่อข้อมูลจากระบบได้รับการจัดและส่งไปให้ผู้ปฏิบัติงานจริงแล้ว ซึ่งก็คือแผนกขายและบริการ ก็จะทำให้ลูกค้า ได้รับการบริการที่ดีขึ้นมาก เช่น จากข้อมูลการซื้อของลูกค้า ซอฟต์แวร์ที่ทำงานตามกฏที่ตั้งไว้ก็จะช่วยเราแนะนำสินค้าที่เหมาะกับลูกค้าแต่ละรายอย่างเมื่อวันเกิดของลูก ๆ ของลูกค้ารายหนึ่งกำลังจะมาถึงแล้ว เราก็จะสามารถโปรแกรมซอฟต์แวร์ให้ส่งแคตาล็อกรายการของเล่นไปให้ลูกค้าได้ ทำให้ช่วยเร่งแรงจูงใจในการซื้อมากขึ้น โปรแกรมเหล่านี้จะช่วยเร่งปริมาณการขายได้สูงมาก แต่นั่นก็ต้องหมายความว่าเรามีข้อมูลที่ถูกต้องและมีคุณภาพ ส่วนในงานการขายตรงผ่านจดหมายนั้น ค่าใช้จ่ายในการส่งจดหมายนั้นจะได้ผลโดยตรงจากความถูกต้องของข้อมูล โดยทั่วไปถ้าข้อมูลมีความถูกต้องประมาณ 95% ก็จะมีความเสี่ยงประมาณ 2 ถึง 4% ไม่ว่าจะเป็นในเรื่องการขายหรือการบริการ ซึ่งถ้าเป็นในอุตสาหกรรมขนาดใหญ่แล้ว จำนวนเปอร์เซ็นต์ดังกล่าวก็จะมีมูลค่าหลายล้านดอลลาร์ ทีเดียว 
              การทำให้แน่ใจว่าข้อมูลที่ได้ความถูกต้องนั้นก็มีขั้นตอนคือ เราต้องทำการ Reengineer นั่นหมายความว่า เราต้องไปอ่านและวิเคราะห์ข้อมูลเก่าที่มีอยู่ ก่อนที่จะแปลงให้อยู่ในรูปแบบที่เข้าในง่ายหรือมีความหมายมากขึ้น หลังจากนั้นก็ค่อย Map เข้าไปยัง Relational Databases สำหรับงานที่จริงจังมากกับเรื่องคุณภาพของข้อมูล ก็อาจจะต้องมีการไปวิเคราะห์ข้อมูลที่มีอยู่ในปัจจุบันว่ามีคุณภาพระดับใด และไปกำหนดอีกทีว่าต้องการระดับไหน ตัวอย่างเช่น ถึงแม้เราจะมีฐานข้อมูลขนาดเล็กๆ แต่เกิดเป็นว่าข้อมูลแต่ละตัวนั้นเป็นข้อมูลที่มีค่าสูงมาก เราจึงจำเป็นต้องมี มาตรการที่เข้มงวดมากขึ้นเพื่อตรวจสอบคุณภาพของข้อมูลเป็นต้น 
              เมื่อองค์กรหนึ่งๆ ตั้งใจแล้วว่าจะทำ Data Reengineering พวกเขาต้องกำหนดก่อนว่าจะใช้วิธีการใด จึงจะมีประสิทธิภาพสูงสุด ประหยัดสูง เพื่อให้มั่นใจว่าระบบจะทำงานลุล่วง ตามปกติแล้วระบบที่สร้างขึ้นด้วย โปรแกรมเมอร์ตามบ้าน หรือโปรแกรมเมอร์รายย่อย ก็มักจะทั้งแพงและเปลืองเวลา ส่วนระบบที่เป็นโปรแกรมจากบริษัทใหญ่ ๆ ก็มักจะให้เราปรับแต่งได้ตามต้องการ ซึ่งก็มักจะเป็นโปรแกรมสำเร็จรูปที่มีอยู่แล้ว ซึ่งระบบทั้งหลายที่ว่าก็จำเป็นจะต้องมีบุคลากรมืออาชีพ เพื่อจะมาทำงานร่วมกับองค์กร เพื่อจะมาสำรวจความต้องการ ก่อนจะทำการ Data Reengineering 
              ไม่ว่าใน Data Warehouse จะต้องการคุณภาพข้อมูลที่ระดับไหนก็ตาม เราต้องมีมาตรการเพื่อตรวจสอบ(AUDIT) เพื่อจะให้ได้ข้อมูลที่ถูกต้องต่อไป Metadata สำเร็จรูปไม่มีในโลก 
              ส่วนประกอบเกือบทุกส่วนของ Data Warehouse นั้น จำเป็นต้องใช้ Metadata ตัวอย่างเช่น เครื่องมือทำ Data Modcling ก็จะใช้มันเพื่อจะกำหนดความสัมพันธ์ระหว่างข้อมูล ส่วนเครื่องมือสำหรับโอนย้ายหรือแปลงข้อมูล ก็จะ ใช้มันหาตำแหน่งหรือตัวข้อมูลที่ถูกต้อง เพื่อจะใช้มันเป็นแม่แบบสำหรับการแปลงและนำไปใส่ไว้ในตำแหน่งที่ถูกต้อง ของฐานข้อมูล Metadatr จะเป็นเครื่องมือสำหรับโปรแกรม front-end ที่ทำหน้าที่เป็นตัวเข้าถั้งข้อมูล ช่วยให้ผู้ใช้สามารถ เข้าถั้งข้อมูลอย่างธรรมชาติที่สุด โดยซ่อนรายละเอียดความซับซ้อนไว้ได้ภายใน แต่เป็นที่น่าสังเกตอย่างหนึ่งว่ารูปแบบ หรือมาตรฐานของ Metadata นั้นจะเป็น proprietaary ก็คือแต่ละคนจะมีมาตรฐานของตัวเองตามแต่ว่าจะใช้เครื่องมือ ตัวไหน ดังนั้นปัญหาที่อาจจะเกิดขึ้นก็คือ เมื่อ Data Warehouse ใหญ่ขึ้นเรื่อยๆมาตรฐานของ Metadata แต่ละตัวก็จะเริ่มไม่ เข้ากันหรือทำงานร่วมกันไม่ได้แล้ว
              ทำให้กลุ่มบริษัทกลุ่มหนึ่ง คือ Arbor Software Corp,Business Object Inc., Cognos Corp., Evolutionary Technologies, International , PLATINUM Technology Inc ,และ Texas Instrument Inc. รวมตัวกันตั้งเป็น Metadata Council ขึ้น โดยมี บทบาทที่จะสร้างมาตรฐานAPI ขึ้นมาสำหรับ Metadata เพื่อให้ Metadata กลายเป็นมาตรฐานที่ไม่ขึ้นกับผู้ผลิตอีก ต่อไป ทำให้ Metadata ใดๆ ก็ตามสามารถจะใช้ข้ามระบบกันได้ 

ใช้ฐานข้อมูลเฉพาะงาน 
              การใช้ฐานข้อมูลที่ออกแบบมาเฉพาะคือให้มันทำงานเฉพาะงานเป็น Data Warehouse นั้นเป็นสิ่งที่ต้องใช้แรงงาน สูงไม่ว่าจะในขั้นตอนการสร้างหรือขั้นตอนการดูแลรักษาฐานข้อมูลพวกนี้ซึ่งออกแบบมาโดยเฉพาะสำหรับจัดการกับ การสอบถามข้อมูลทางธุรกิจโดยเฉพาะ ซึ่งมาตรฐานข้อมูลนี้จะต้องทำงานร่วมกับ RDBMS ธรรมดาด้วยมีการทำนายไว้ว่า ภายในปี 1997 ตัว information dictionary สำหรับงาน Analytical Processing ซึ่งไม่ขึ้นกับทั้งฐานข้อมูลและโปรแกรม จะได้ รับความนิยมอย่างสูง ซึ่งจะมาแทนที่ระบบฐานข้อมูลที่ออกแบบมาเฉพาะสำหรับ Data Warehouse ทำให้เราสามารถ เข้าถึงข้อมูลแบบหลายมิติได้ โดยเรียกข้อมูลผ่านหลาย ๆ ฐานข้อมูลและหลาย ๆ โปรแกรม ปัจจุบันผู้ผลิต RDBMS กำลัง พยายามทำสิ่งนี้อยู่ โดยจะเพื่อความสามารถทางหลายมิติ (Multidimensional) เข้าไปทำมาตรฐานการทำ index ให้เป็น มาตรฐาน 

พิจารณาเรื่องราคา 
              ประเด็นที่เป็นเรื่องสำคัญเรื่องหนึ่งของ Data Warehouse ก็คือเรื่องราคา ซึ่งมันอาจจะหมายไปถึงจำนวน เงินหลายล้านดอลลาร์และเวลาอีกเกือบ 2 - 3 ปี อย่างไรก็ดี ฮาร์ดแวร์และซอฟต์แวรเริ่ามต้นที่จะใช้สร้าง Data Warehouse กลับมีราคาไม่สูงมากเกือบเท่ากับค่าใช้จ่ายที่เกิดขึ้นทั้งหมดซึ่งส่วนใหญ่จะหมดไปเป็นค่าบำรุงรักษา และค่าใช้จ่ายจะ สูงขึ้นมากเมื่อเราต้องการเปลี่ยนความต้องการให้กับระบบใหม่ 

ทางเลือกอื่นนอกเหนือจาก Data Warehouse 
              แทนที่จะสร้างระบบ Data Warehouse ขึ้นมา บางองค์กรเลือกที่จะสร้างเป็น Data Mart แทน ซึ่งจริงๆ มันก็ คือ Data Warehouse ที่มีขนาดเล็กกว่าหรือก็คือเป็นซับเซตของ Data Warehouse ด้วยการใช้ Data Mart ผู้ใช้จะสามารถ เลือกได้ว่าต้องการโครงสร้างสถาปัตยกรรมช่วยการตัดสินใจอย่างไร คือให้มีโครงสร้างขนาดใหญ่ที่ซับซ้อนอันเดียว หรือ จะให้มีเป็นโครงสร้างเล็กๆ (Data Mart) อันทำงานร่วมกันข้อดีของการใช้ Data Mart ก็คือมีขนาดเล็กกว่า ทำให้ฮาร์ดแวร์ ที่ใช้ก็มีขนาดไม่ใหญ่มากนัก ราคาไม่แพง และได้ข้อมูลที่เป็น Local เหมาะกับแต่ละบุคคลกว่า แต่ว่าข้อเสียก็คือเราจะ ไม่สามารถมีข้อมูลที่กว้างใช้ทั้งองค์กรได้ และเราก็จะไม่ได้ประโยชน์จากราคาอุปกรณ์ที่จะถูกลงถ้าซื้อจำนวนมาก ๆ และ ขนาดใหญ่ๆ แต่อย่างไรก็ดีการสร้าง Data Mart ให้มีขนาดเล็ก ๆ และมีประจำแต่ล LAN แยกกันเป็นส่วนตัวจะช่วยลด ขนาดของการจราจรในเครือค่ายของทั้งองค์กรไปได้ 
              อีกทางเลือกก็คือการสร้าง Virtual Data Warehouse หรือ Data Warehouse without Movement ในรูปแบบนี้ข้อมูล จะไม่มีการถูกเคลื่อนย้ายออกมาจากแหล่งเก็บข้อมูล แต่ผู้ใช้จะได้รับอนุญาติให้เข้าถึงข้อมูลจริงได้โดยตรง ในหลาย ๆ กรณี เช่น ข้อมูลที่ไม่ค่อยได้เข้าใช้เท่าไร หรือข้อมูลที่มีปริมาณมากๆ หรือข้อมูล Strategic ขององค์กร (ซึ่งเป็นความ ลับ) ก็จะเลือกให้ผู้ใช้เข้าถึงข้อมูลได้โดยตรง วิธีการนี้จะมีพื้นฐานอยู่บนการสร้างรายงาน ซึ่งจะดึงข้อมูลออกจาก โปรแกรมเพียงหนึ่งหรือสองตัว และเกี่ยวข้องกับข้อมูลจำนวนไม่มากนัก เช่น แผนกขายและการตลาดเท่านั้น ทำให้ เราไม่ต้องจัดโครงสร้างข้อมูลมากนัก ผลลัพธ์ที่ได้ก็จะเป็นรายงานที่ผสมรวมกันและมีการประมวลผลไม่มากนัก และ การ Denormalized ก็จะเป็นงานหลักที่จะทำเพื่อจะสร้างรายงานที่ต้องการ 
              ตัวอย่างของโปรแกรมประเภทนี้ก็คือ Virual Data Warehouse Explorer ของบริษัท Intersolv ด้วยโปรแกรม Explorer ข้อมูลทั้งหมดก็จะอยู่ในฐานข้อมูลที่ใช้งานประจำวันไม่ได้ถูกแยกออกมาเป็นฐานข้อมูลพิเศษต่างหาก วิธีการที่ Virtual Warehouse ใช้ในการทำให้การทำงานค่อนข้างง่ายและรายลื่นสำหรับผู้ใช้ทั่วไปก็คือ จะสร้าง Layer หนึ่งขึ้นมา สำหรับเป็น Semantic Mapping เรียกว่า SmartData เจ้า Layer ที่ว่านี้ก็จะทำหน้าที่เป็นเกราะกำบังความซับซ้อนของแหล่ง ข้อมูลที่มันจะหามาให้ ทำให้ผู้ใช้สามารถเข้าถึงข้อมูลได้มากมายโดยไม่ต้องรู้เลยว่าจริงๆ ข้อมูลเหล่านั้นเก็บอยู่ที่ไหน บริษัท Intersolv ซึ่งเป็นหนึ่งในบริษัทที่ร่วมพัฒนามาตรฐานการเชื่อมต่อเข้ากับฐานข้อมูลขึ้น (ODBC) ได้พัฒนาไดร์เวอร์ ขึ้นมา เพื่อเป็นเส้นทางในการติดต่อกับระบบของตน ข้อเสียอย่างหนึ่งที่หลีกเลี่ยงไม่ได้ของระบบนี้ก็คือ ระบบนี้จะไป ทำให้ระบบฐานข้อมูลที่ใช้ในงานประจำวันช้าลง โดยเฉพาะตอนที่เราขอรายงานแบบ Ad hoc ซึ่งเกิดแบบฉับพลันและ ไม่เป็นเวลา ผลก็คือระบบนี้จะเป็นประโยชน์กับระบบที่มีขนาดเล็ก และใช้เป็นเส้นทางเชื่อมก่อนที่จะย้ายไปใช้ Data Warehouse แบบเต็มรูปแบบ 
              Data Replication เป็นอีกเทคโนโลยีที่มักจะเป็นทางเลือกสำหรับมาแทนที่ Data Warehouse โดยระบบนี้จะ ใช้วิธีการก๊อปปี้ ข้อมูลเข้าไปไว้ในแหล่งเก็บข้อมูลท้องถิ่นเพื่อให้แต่ละรายนำข้อมูลไปทำการวิเคราะห์หรือทำอะไร ก็ได้ตามต้องการ โดยไม่มีผลกระทบกับระบบส่วนรวม 

สรุป
ข้อควรทำและไม่ควรกระทำใน Data Warehouse 
              อย่างที่คุณทราบแล้วว่า การพยายามสร้างระบบ Data Warehouse แบบเต็มรูปแบบนั้นเป็นงานที่ซับซ้อน ตลอดทางการพัฒนาก็มีกับดักมากมาย การหลีกเลี่ยงก็ควรทำ ตามขั้นตอนดังนี้

  • เริ่มต้นโครงการด้วยขนาดที่ไม่ใหญ่มากนัก แต่เป็นโครงการที่ท้าทายและเป็นประโยชน์ และใช้เวลาไม่ มากนัก ประมาณ 90 วันเป็นต้น
  • ทำความเข้าใจกับปัญหาทางธุรกิจที่คุณพยายามจะแก้ใช้เวลากับผู้ใช้มาก ๆ เพื่อค้นหาว่าข้อมูลอะไรที่เป็นที่ ต้องการ
  • กำหนดข้อมูลทั้งหมดให้ครบและสมบูรณ์ที่สุดแต่อย่ารวมเอาข้อมูลทั้งหมดที่มีเข้าไปเลย ให้เลือกเอาเฉพาะ ข้อมูลที่คาดว่าจะเป็นประโยชน์ต่อความก้าวหน้าของบริษัท ให้ตั้งใจเป็นพิเศษในขั้นตอนการจับและเลือกข้อมูล ดูให้แน่ ใจว่าข้อมูลนั้นจะเป็นประโยชน์ต่อส่วนรวม พยายามลดจำนวนแหล่งข้อมูลและตัวข้อมูลให้น้อยที่สุดและให้ข้อมูล แต่ละตัวเกิดประโยชน์สูงสุด
  • พยายามใช้ระบบ Reposito

    ที่มา : http://www.pwstation.com/datawarehouse.htm



    องค์ความรู้ที่มีผู้อ่านมากสุด
    เรียนรู้เรื่อง เมนบอร์ด (Mainboard, mother board)
    แผงวงจรหลัก เป็นหัวใจสำคัญที่สุดที่อยู่ภายในเครื่อง เมื่อเปิดฝาเครื่องออกมาจะเป็นแผงวงจรขนาดใหญ่วางนอนอยู่ นั่นคือส่วนที่เรียกว่า "เมนบอร์ด"

    โดย... Web Master (IT)

    รายละเอียดของระบบ e-Purchasing Online ของกรมส่งเสริมอุตสาหกรรม กระทรวงอุตสาหกรรม
    รายละเอียดของระบบ e-Purchasing Online ของกรมส่งเสริมอุตสาหกรรม กระทรวงอุตสาหกรรม

    โดย... Web Master (IT)

    AutoCAD คืออะไร
    AutoCAD (Computer Aided Drefting/Dedign, CAD) เป็นซอฟต์แวร์ช่วยออกแบบด้วยคอมพิวเตอร์ ที่สามารถรองรับการทำงานทั้งใน 2 มิติ และ 3 มิติ

    โดย... Web Master (IT)

    ทำความรู้จักกับ IIG (International Internet Gateway ) & NIX(National Internet Exchange )
    การใช้งานอินเตอร์เน็ตของเราทุกคน จำเป็นต้องผ่านระบบการให้ บริการของ IIG และ NIX เพราะว่า เป็นเหมือนเส้นทางหลักของศูนย์กลางโครงข่าย ของประเทศไทย ทั้งภายในและ ภายนอกประเทศ ที่จากเดิมเราจะทราบกันอยู่แล้วว่า บริการทั้งสองประเภทนี้จะมีผู้ให้บริการ แบบผูกขาดอยู่เพียงรายเดียวเท่านั้น คือ การสื่อสารแห่งประเทศไทย เพียงเท่านั้น แต่ ณ ปัจจุบันนี้ได้มีหน่วยงานที่เข้ามา กำกับดูแลในเรื่องของโทรคมนาคมของเมืองไทยอย่างเป็น รูปธรรมมากยิ่งขึ้น จึงก่อให้เกิดการแข่งขันอย่างเสรี และปัจจุบัน ทาง กทช. ผู้เป็นหน่วยงานหลัก ของ การกำกับดูแลได้เปิดอนุญาตให้กลุ่มบริษัทเอกชนทั่วไป สามารถขอรับใบอนุญาต การให้ บริการทั้งสองประเภทได้ เพื่อให้เกิดการแข่งขันกันอย่างเป็นธรรม และก่อให้ เกิดประโยชน์สูงสุด แก่ผู้บริโภคกันเลยละครับ

    โดย... Web Master (IT)

    ความรู้เรื่อง...การ์ดจอ
    การ์ดจอ (Video Card) การ์ดแสดงผล หรือ กราฟฟิกการ์ด (Graphic card) เป็น แผงวงจรอิเล็กทรอนิกส์ ที่ทำหน้าที่ในการนำข้อมูลที่ได้จากการประมวลผลของซีพียูมาแสดงบนจอภาพ ทำให้ผู้ใช้ สามารถควบคุมการทำงาน ได้อย่างมีประสิทธิภาพ โดยจอภาพจะเป็นส่วนที่รับข้อมูลจากการ์ดแสดงผลอีกทีหนึ่ง การ์ดกราฟฟิกทีได้รับความนิยมและใช้กันแพร่หลายในอยู่ปัจจุบัน เป็นการ์ดกราฟฟิกที่มี GPU เป็นตัวประมวลผล

    โดย... Web Master (IT)

    Windows XP Service Pack 3 Overview
    ภาพรวม Windows XP Service Pack 3 จะประกอบด้วย security updates hotfix และ patch ต่างๆ ที่ไมโครซอฟท์ปล่อยหลังออก SP2 เป็นต้นมาไม่มีการเปลี่ยนแปลงในเชิงฟังก์ชั่นและการทำงานที่สำคัญ แต่จะอัพเดตองค์ประกอบต่างๆ อย่าง Microsoft Management Console (MMC) 3.0 และ Microsoft Core XML Services 6.0 (MSXML6) เป็นเวอร์ชั่นปัจจุบัน สิ่งที่น่าสนใจประการหนึ่งคือ ไมโครซอฟท์ไม่ได้รวมเอา Windows Internet Explorer 7 เข้ามาไว้ใน SP3 แต่จะใส่มาเฉพาะส่วนที่เป็นอัพเดตและ fix เท่านั้น คล้ายกับว่าไมโครซอฟท์ตั้งใจจะไม่บีบให้ลูกค้าต้องเปลี่ยนจาก IE6 มาใช้ IE7 ใครที่ต้องการอยู่กับ IE6 (ด้วยเหตุผลใดก็ตาม) ก็จะยังสามารถใช้ IE6 ได้ สำหรับใครที่เปลี่ยนไปเป็น IE7 แล้วจะมีอัพเดตมาให้เช่นเดียวกัน

    โดย... Web Master (IT)

    นวัตกรรมรถบรรทุกขนาดใหญ่ B-double รถกึ่งพ่วงบรรทุกแบบพิเศษ
    ในยุคที่ประสิทธิภาพและต้นทุนการขนส่งเป็นเรื่องสำคัญที่ต้องพัฒนาร่วมกันอย่างเร่งด่วน โดยเฉพาะเมื่อต้นทุนหลักของการขนส่งคือน้ำมันเชื้อเพลิงมีสัดส่วนสูงขึ้นอย่างต่อเนื่อง ก๊าซธรรมชาติและไบโอดีเซลกลายเป็นประเด็นสำคัญที่ผู้ประกอบการขนส่งต้องศึกษาและพัฒนากองรถมาทดลองและใช้กันแน่นอน การพัฒนารถไฟและการขนส่งทางลำน้ำให้สามารถขนส่งสินค้าในเส้นทางหลักได้มากขึ้น มีบริการที่แน่นอนและสามารถเชื่อมต่อกับการขนส่งด้วยรถบรรทุกได้สะดวกรวดเร็ว เป็นเรื่องที่ทุกฝ่ายปรารถนา เพราะคาดหมายว่าจะทำให้การขนส่งได้ประสิทธิภาพที่ดีกว่าด้วยต้นทุนที่ต่ำกว่าการขนส่งด้วยรถบรรทุก ประเด็นเรื่องการขนส่งในปริมาณมากๆ ต่อเที่ยว มักจะยกประเด็นในเรื่องการประหยัดพลังงาน การลดปริมาณมลพิษจากน้ำมัน และการประหยัดค่าจ้างแรงงานของพนักงานขับรถ โดยทั้งหมดคิดหารเฉลี่ยจากจำนวนหน่วยสินค้าและระยะทางขนส่งต่อเที่ยวนั้นๆ หลายครั้งที่รถบรรทุกถูกวางตำแหน่งให้ทำหน้าที่ขนส่งและกระจายสินค้าในระยะทางรัศมีสั้นๆ รอบๆ สถานีหรือต้นทางปลายทางที่เป็น hub

    โดย... Web Master (IT)

    เรียนรู้เรื่อง CPU
    CPU (Central Processing Unit) หรือ โปรเซสเซอร์ (Processor) คือ ส่วนหนึ่งของเครื่องคอมพิวเตอร์ที่มีหน้าที่ควบคุมกา รทำงานของส่วนอื่นๆ โดยทั่วไปแล้ว ซีพียูจะประกอบไปด้วย หน่วยควบคุม (Control Unit), หน่วยประมวลผลคณิตศาสตร์และตรรกศาสตร์ (Arithmetic and Logic Unit; ALU) และหน่วยความจำ ได้แก่ รีจีสเตอร์ (Register), แคช (Cache), แรม (RAM) และรอม (ROM)

    โดย... Web Master (IT)

    การเขียนโปรแกรมเชิงวัตถุ (Object Oriented Programming: OOP)
    ในปัจจุบันภาษาในการเขียนโปรแกรมเพื่อพัฒนาระบบสารสนเทศที่ใช้ในองค์กรธุรกิจ มีมากมายหลายภาษาให้เลือก การเรียนรู้ภาษาเขียนโปรแกรมหรือการมีความรู้ในหลาย ๆ ภาษาถือเป็นสิ่งที่ดี แต่ไม่ได้หมายความว่าเราจำเป็นต้องเขียนโปรแกรมให้ได้ทุก ๆ ภาษา แต่สามารถเลือกบางภาษาที่เรามีความถนัดหรือเลือกที่จะเริ่มต้นกับภาษาใด ภาษาหนึ่งได้ ซึ่งการเขียนโปรแกรมเชิงวัตถุถือได้ว่าได้รับความนิยมในปัจจุบันรวมถึงแนวโน้มในอนาคต ซึ่ง Java ก็เป็นหนึ่งในการเขียนโปรแกรมเชิงวัตถุ ที่มีพื้นฐานมาจากภาษา C และคิดว่าน่าจะเป็นอีกภาษาหนึ่งที่น่าศึกษาและน่าเรียนรู้ เพราะเทคโนโลยีของ Java ถือว่ากำลังร้อนแรงในแวดวงของ Software

    โดย... Web Master (IT)

    iTAP เตือนใช้ ?เราท์เตอร์- เครื่องมืองานไม้?ต้องรู้จริง เร่งหนุนทักษะ เสริมทัพอุตฯเฟอร์นิเจอร์
    iTAP หนุนทักษะการใช้ “เราท์เตอร์- เครื่องมืองานไม้” ซึ่งใช้ในการตกแต่งขอบไม้ หรือแกะลวดลายต่างๆของชิ้นงานตกแต่งบ้าน หรือเฟอร์นิเจอร์ฯลฯ ย้ำเครื่องมือเฉพาะทางเหล่านี้ต้องมีทักษะ ใส่ใจในการทำงาน และระมัดระวังเพื่อปลอดภัยต่อผู้ใช้งานมากที่สุด เชื่อหากภาคอุตสาหกรรมสร้างบุคลากรมีความรู้ นอกจากจะได้ผลงานคุณภาพ ยังสร้างศักยภาพการแข่งขันในตลาด

    โดย... Web Master (IT)