ผู้เขียนบท: อินกอนยามะ
การเพิ่มขึ้นของปัญญาประดิษฐ์นั้นน่าประหลาดใจ ตั้งแต่อัลกอริธึมพื้นฐานไปจนถึงโมเดลการเรียนรู้ภาษา (LLM) เช่น ChatGPT และ Copilot ปัญญาประดิษฐ์ถือเป็นแนวหน้าของวิวัฒนาการทางเทคโนโลยี เนื่องจากโมเดลเหล่านี้โต้ตอบกับผู้ใช้และประมวลผลข้อมูลและสัญญาณจำนวนมาก ปัญหาความเป็นส่วนตัวของข้อมูลจึงมีความสำคัญอย่างยิ่ง ในบรรดาบริษัทเหล่านี้ บริษัทขนาดใหญ่ เช่น Amazon และ Apple ได้จำกัดการเข้าถึงของพนักงานในการเข้าถึง API สาธารณะ เช่น ChatGPT เพื่อป้องกันการรั่วไหลของข้อมูลที่อาจเกิดขึ้นจากการโต้ตอบของ AI นอกจากนี้ ยังมีเหตุผลที่จะคาดการณ์ได้ว่าเร็วๆ นี้จะมีการบังคับใช้กฎระเบียบที่เกี่ยวข้องเพื่อกำหนดระดับการคุ้มครองความเป็นส่วนตัวของผู้ใช้
เราจะแน่ใจได้อย่างไรว่าข้อมูลที่เราโต้ตอบด้วย ถามคำถาม และแบ่งปันกับโมเดลเหล่านี้ยังคงเป็นส่วนตัว
รู้เบื้องต้นเกี่ยวกับการเข้ารหัส Homomorphic อย่างสมบูรณ์ (FHE)
ในด้านการเข้ารหัส การเข้ารหัสแบบโฮโมมอร์ฟิกอย่างสมบูรณ์ถือเป็นแนวคิดที่แปลกใหม่ เสน่ห์อยู่ที่ความสามารถเฉพาะตัว: ช่วยให้การคำนวณสามารถดำเนินการได้โดยตรงกับข้อมูลที่เข้ารหัสโดยไม่ต้องถอดรหัสข้อมูลก่อน จึงทำให้สามารถอนุมานส่วนตัวกับข้อมูลที่ละเอียดอ่อนได้
ฟีเจอร์นี้รับประกันสิ่งสำคัญสองประการ: ข้อมูลยังคงปลอดภัยในระหว่างการประมวลผล และทรัพย์สินทางปัญญา (IP) แบบจำลองได้รับการปกป้องอย่างสมบูรณ์
การใช้เหตุผลความเป็นส่วนตัวและการคุ้มครองทรัพย์สินทางปัญญา
ทุกวันนี้ "ความเป็นส่วนตัว" และ "ประสบการณ์ผู้ใช้" ดูเหมือนจะเป็นความสัมพันธ์แบบปลาและหมี และคุณไม่สามารถมีทั้งสองอย่างได้ ผู้คนมักไว้วางใจให้บุคคลที่สามจัดการข้อมูลของตนเพื่อประสบการณ์การใช้งานที่ดีขึ้น เราเชื่อว่าบริษัทบุคคลที่สามเหล่านี้สามารถหาจุดสมดุลระหว่างความเป็นส่วนตัวของผู้ใช้และบริการผู้ใช้ที่มีคุณภาพโดยไม่ต้องเลือกระหว่างโซลูชันดั้งเดิมที่เป็นส่วนตัวแต่ขาดคุณสมบัติหรือเสียสละความเป็นส่วนตัวสำหรับบริการที่มีฟีเจอร์หลากหลาย เลือก
การเข้ารหัสแบบโฮโมมอร์ฟิกโดยสมบูรณ์ช่วยให้สามารถอนุมานส่วนตัวได้ในขณะที่ปกป้องทรัพย์สินทางปัญญาของโมเดลอย่างเต็มที่ ด้วยการคำนวณข้อมูลที่เข้ารหัส ช่วยให้มั่นใจได้ว่าคำที่แจ้งจะเป็นความลับอย่างสมบูรณ์ ขณะเดียวกันก็ปกป้องทรัพย์สินทางปัญญาของแบบจำลองภาษาขนาดใหญ่
วิธีการเข้ารหัสแบบดั้งเดิม VS FHE
ในรูปแบบการเข้ารหัสแบบดั้งเดิม หากคุณต้องการดำเนินการที่สำคัญกับข้อมูลในรูปแบบที่เข้ารหัส คุณจะต้องถอดรหัสข้อมูลก่อน แต่การถอดรหัสจะเปิดเผยข้อความธรรมดาของข้อมูล ซึ่งหมายความว่าข้อมูลจะเปราะบางและเสี่ยงต่อการถูกโจมตี แม้ว่าจะถูกถอดรหัสเพียงชั่วครู่ก็ตาม
ในทางตรงกันข้าม การเข้ารหัสแบบโฮโมมอร์ฟิกอย่างสมบูรณ์สามารถดำเนินการกับไซเฟอร์เท็กซ์ได้โดยตรง ทำให้มั่นใจได้ว่าข้อมูลที่ละเอียดอ่อนจะยังคง "มองไม่เห็น" ในระหว่างการดำเนินการทั้งหมด
ทำไม FHE จึงมีความสำคัญ
ความสำคัญของการเข้ารหัสแบบโฮโมมอร์ฟิกอย่างสมบูรณ์นั้นนอกเหนือไปจากทฤษฎี ลองนึกภาพบริการคอมพิวเตอร์คลาวด์ที่การประมวลผลข้อมูลสามารถทำได้โดยไม่ต้องถอดรหัสข้อมูล หรือที่ที่สามารถวิเคราะห์ฐานข้อมูลทางการแพทย์โดยไม่ต้องเข้าถึงรายละเอียดของผู้ป่วยที่มีความละเอียดอ่อน การประยุกต์ใช้การเข้ารหัสแบบโฮโมมอร์ฟิกเต็มรูปแบบนั้นมีมากมายและหลากหลาย รวมถึงระบบการลงคะแนนที่ปลอดภัยและการค้นหาฐานข้อมูลที่เข้ารหัสแบบส่วนตัว
รากฐานทางคณิตศาสตร์ของ FHE
ความสำคัญของการเข้ารหัสแบบโฮโมมอร์ฟิกอย่างสมบูรณ์นั้นนอกเหนือไปจากทฤษฎี ลองนึกภาพบริการคอมพิวเตอร์คลาวด์ที่การประมวลผลข้อมูลสามารถทำได้โดยไม่ต้องถอดรหัสข้อมูล หรือที่ที่สามารถวิเคราะห์ฐานข้อมูลทางการแพทย์โดยไม่ต้องเข้าถึงรายละเอียดของผู้ป่วยที่มีความละเอียดอ่อน การประยุกต์ใช้การเข้ารหัสแบบโฮโมมอร์ฟิกเต็มรูปแบบนั้นมีมากมายและหลากหลาย รวมถึงระบบการลงคะแนนที่ปลอดภัยและการค้นหาฐานข้อมูลที่เข้ารหัสแบบส่วนตัว
รากฐานทางคณิตศาสตร์ของ FHE
การเข้ารหัสแบบโฮโมมอร์ฟิกโดยสมบูรณ์นั้นอิงตามปัญหาความทนทานต่อการเรียนรู้ (LWE) ซึ่งเป็นเทคนิคการเข้ารหัสแบบ Lattice ที่ทนทานต่อควอนตัม ใน LWE สัญญาณรบกวนแบบสุ่มถูกใช้เพื่อทำให้ข้อมูลไม่สามารถอ่านได้ เว้นแต่จะมีคีย์อยู่ เป็นไปได้ที่จะดำเนินการทางคณิตศาสตร์กับข้อมูลที่เข้ารหัส แต่มักจะเพิ่มระดับเสียง หากดำเนินการมากเกินไปติดต่อกัน ทุกคนจะไม่สามารถอ่านข้อมูลได้ รวมถึงบุคคลที่ถือกุญแจด้วย นี่คือการเข้ารหัสโฮโมมอร์ฟิกบางส่วน (SHE)
การแปลงการเข้ารหัสโฮโมมอร์ฟิกบางส่วนไปเป็นการเข้ารหัสโฮโมมอร์ฟิกอย่างสมบูรณ์จำเป็นต้องมีการดำเนินการที่ลดระดับเสียง การดำเนินการนี้เรียกว่า "การบูตสแตรปปิ้ง" และแผนการเข้ารหัสแบบโฮโมมอร์ฟิกจำนวนมากใช้การบูตสแตรปปิ้ง ในบทความนี้ เราจะเน้นที่รูปแบบการเข้ารหัสแบบโฮโมมอร์ฟิกอย่างสมบูรณ์บนพรู (Torus FHE) ซึ่งใช้โครงสร้างพีชคณิตของพรูทางคณิตศาสตร์เพื่อให้ได้การเข้ารหัสแบบโฮโมมอร์ฟิกอย่างสมบูรณ์
ข้อดีของ TFHE
แม้ว่ารูปแบบการเข้ารหัสโฮโมมอร์ฟิกแต่ละรูปแบบจะมีข้อดีและข้อเสียของตัวเอง แต่ในสถานการณ์จริง ปัจจุบัน TFHE มีการใช้งานที่มีประสิทธิภาพมากกว่า ข้อได้เปรียบที่สำคัญอีกประการหนึ่งของ TFHE คือ Programmable Bootstrapping (PBS) ซึ่งขยายการดำเนินการบูตสแตรปตามปกติให้ครอบคลุมการคำนวณฟังก์ชันตัวแปรเดี่ยว เช่น ฟังก์ชันการเปิดใช้งาน ซึ่งมีความสำคัญในด้านการเรียนรู้ของเครื่อง
ข้อเสียประการหนึ่งของ TFHE คือการดำเนินการทางคณิตศาสตร์แต่ละรายการที่ดำเนินการในการคำนวณจำเป็นต้องมีการดำเนินการ PBS ในขณะที่แผนงานอื่นๆ อนุญาตให้ดำเนินการบางอย่างเป็นชุดระหว่างการดำเนินการบูตสแตรป
สมมติฐานและการประมาณ
ในการประมาณเวลาที่ต้องใช้สำหรับการอนุมานโมเดลภาษาขนาดใหญ่ (LLM) โดยใช้การเข้ารหัสแบบโฮโมมอร์ฟิกอย่างสมบูรณ์ เราได้ตั้งสมมติฐานบางประการในการประเมิน:
- จำนวนการดำเนินการทางคณิตศาสตร์ที่ต้องการต่อโทเค็นคือประมาณ 1–2 เท่าของจำนวนพารามิเตอร์ในแบบจำลอง นี่คือขอบเขตล่าง และเนื่องจากแต่ละโทเค็นใช้แบบจำลองทั้งหมด เราจะถือว่าขอบเขตล่างนี้ใกล้เคียงกับความต้องการจริงเพียงพอ
- การดำเนินการทางคณิตศาสตร์แต่ละรายการในแบบจำลองภาษาขนาดใหญ่สามารถแมปกับการดำเนินการทางคณิตศาสตร์ใน TFHE ได้ โดยพื้นฐานแล้วนี่เป็นการแสดงขนาดประเภทตัวแปรในทั้งสองสถานการณ์ เราถือว่าตัวแปร INT4 นั้นเพียงพอสำหรับโมเดลภาษาขนาดใหญ่และเป็นไปได้สำหรับ TFHE
- การดำเนินการทางคณิตศาสตร์ทุกครั้งในแบบจำลองภาษาขนาดใหญ่จำเป็นต้องแมปกับการดำเนินการทางคณิตศาสตร์ในการเข้ารหัสแบบโฮโมมอร์ฟิกอย่างสมบูรณ์ ซึ่งหมายความว่าเราไม่สามารถเรียกใช้บางส่วนของโมเดลได้หากไม่มีการเข้ารหัส โพสต์บนบล็อกล่าสุดโดย Zama พิจารณาการอนุมาน FHE โดยไม่มีสมมติฐานนี้ โดยที่ โมเดลส่วนใหญ่จะดำเนินการภายในเครื่องโดยผู้ใช้โดยไม่มีการเข้ารหัสใด ๆ และมีเพียงส่วนเล็ก ๆ เท่านั้น (เช่น หัวความสนใจเดียว) เท่านั้นที่ถูกใช้งานเหมือนกันบนเซิร์ฟเวอร์องค์กรของโมเดล สถานะ -การดำเนินการเข้ารหัสที่ทันสมัย เราเชื่อว่าแนวทางนี้ไม่ได้ปกป้องทรัพย์สินทางปัญญาของแบบจำลองจริงๆ เนื่องจากในกรณีนี้ผู้ใช้สามารถเรียกใช้ส่วนหัวที่หายไปโดยสูญเสียความแม่นยำเพียงเล็กน้อยดังที่แสดงไว้ที่นี่ หรือดำเนินการเรียกใช้แบบสัมพันธ์กับส่วนที่หายไป การฝึกอบรมเพื่อให้ได้ผลลัพธ์ที่เทียบเท่ากับรุ่นดั้งเดิม
- การดำเนินการทางคณิตศาสตร์แต่ละรายการใน TFHE ต้องใช้ PBS (Bootstrap แบบตั้งโปรแกรมได้) PBS คือคอขวดหลักของการคำนวณ TFHE
- การใช้งาน TFHE ที่ทันสมัยที่สุดในปัจจุบันคือ FPT นี่คือการใช้งาน FPGA ที่คำนวณ PBS ทุกๆ 35 ไมโครวินาที
ความท้าทายของ LLM และ FHE
ด้วยความก้าวหน้าทางเทคโนโลยีล่าสุด การใช้งานการเข้ารหัสแบบโฮโมมอร์ฟิกอย่างสมบูรณ์ในปัจจุบันที่ดีที่สุดสามารถดำเนินการทางคณิตศาสตร์ได้ในเวลาเพียง 35 ไมโครวินาที อย่างไรก็ตาม เมื่อพิจารณาโมเดลที่ซับซ้อนเท่ากับ GPT2 โทเค็นเดียวต้องมีการดำเนินการมากถึง 1.5 พันล้านครั้ง ซึ่งหมายความว่าเวลาในการประมวลผลต่อโทเค็นจะอยู่ที่ประมาณ 52,000 วินาที
เพื่อให้เข้าใจได้ดีขึ้น สำหรับโมเดลภาษา โทเค็นสามารถแสดงถึงอักขระหรือคำที่สมบูรณ์ ฯลฯ ลองนึกภาพการโต้ตอบกับโมเดลภาษาที่เวลาตอบสนองใช้เวลาหนึ่งหรือสองสัปดาห์! สิ่งนี้เป็นสิ่งที่ยอมรับไม่ได้ และความล่าช้าดังกล่าวไม่สามารถทำได้อย่างชัดเจนสำหรับการสื่อสารแบบเรียลไทม์หรือการใช้งานแบบจำลองในทางปฏิบัติ
นี่แสดงให้เห็นว่าภายใต้เทคโนโลยีการเข้ารหัสโฮโมมอร์ฟิกอย่างเต็มรูปแบบในปัจจุบัน การอนุมานแบบเรียลไทม์สำหรับโมเดลภาษาขนาดใหญ่ยังคงเป็นความท้าทายที่ยิ่งใหญ่ แม้ว่าการเข้ารหัสแบบโฮโมมอร์ฟิกโดยสมบูรณ์มีความสำคัญอย่างยิ่งในการปกป้องข้อมูล แต่ข้อจำกัดด้านประสิทธิภาพอาจทำให้ยากต่อการนำไปใช้ในสถานการณ์จริงในงานที่ต้องใช้ความเข้มข้นในการคำนวณสูง สำหรับการโต้ตอบแบบเรียลไทม์และความต้องการการตอบสนองที่รวดเร็ว อาจจำเป็นต้องมีการสำรวจโซลูชันการประมวลผลที่ปลอดภัยและการปกป้องความเป็นส่วนตัวอื่นๆ
โซลูชั่นที่เป็นไปได้
หากต้องการเปิดใช้งานการเข้ารหัสแบบโฮโมมอร์ฟิกอย่างสมบูรณ์เพื่อนำไปใช้กับโมเดลภาษาขนาดใหญ่ ต่อไปนี้เป็นแผนงานที่เป็นไปได้:
ใช้เครื่องหลายเครื่องเพื่อใช้การประมวลผลแบบขนาน:
โซลูชั่นที่เป็นไปได้
หากต้องการเปิดใช้งานการเข้ารหัสแบบโฮโมมอร์ฟิกอย่างสมบูรณ์เพื่อนำไปใช้กับโมเดลภาษาขนาดใหญ่ ต่อไปนี้เป็นแผนงานที่เป็นไปได้:
ใช้เครื่องหลายเครื่องเพื่อใช้การประมวลผลแบบขนาน:
- เริ่มต้นที่ 52,000 วินาที/โทเค็น
- ด้วยการปรับใช้เครื่องแบบขนาน 10,000 เครื่อง เราได้ลดเวลาลงเหลือ 5 วินาที/โทเค็น โปรดทราบว่าโมเดลภาษาขนาดใหญ่สามารถทำงานแบบขนานได้ในระดับสูง และการอนุมานปัจจุบันจะดำเนินการแบบขนานบนคอร์ GPU นับพันคอร์ขึ้นไป
การเปลี่ยนไปใช้ฮาร์ดแวร์ขั้นสูง:
- จากการปรับปรุง -- เริ่มต้นที่ 5 วินาที/โทเค็น
- การเปลี่ยนมาใช้ GPU หรือ ASIC ทำให้เราสามารถบรรลุเวลาประมวลผล 0.1 วินาทีต่อโทเค็น แม้ว่า GPU จะให้ความเร็วที่เพิ่มขึ้นโดยตรงมากกว่า แต่ ASIC ก็สามารถให้ความเร็วและการใช้พลังงานที่สูงกว่าได้ เช่น ZPU ที่กล่าวถึงในบล็อกที่แล้ว
ดังที่แสดงในภาพ การอนุมานส่วนตัวของโมเดลภาษาขนาดใหญ่สามารถทำได้ผ่านการเข้ารหัสแบบโฮโมมอร์ฟิกอย่างสมบูรณ์โดยใช้เทคนิคการเร่งความเร็วข้อมูลที่มีอยู่ สิ่งนี้สามารถรับการสนับสนุนจากการลงทุนเริ่มแรกจำนวนมากแต่เป็นไปได้ในศูนย์ข้อมูลขนาดใหญ่เพียงพอ อย่างไรก็ตาม ความเป็นไปได้นี้ยังห่างไกลอย่างมาก และสำหรับโมเดลภาษาขนาดใหญ่ขนาดใหญ่ เช่น Copilot (พารามิเตอร์ 12 พันล้านพารามิเตอร์) หรือ GPT3 (พารามิเตอร์ 175 พันล้านพารามิเตอร์) ก็ยังมีช่องว่างที่ต้องเชื่อมโยง
สำหรับ Copilot ปริมาณงานโทเค็นที่น้อยกว่าก็เพียงพอแล้ว เนื่องจากสร้างเอาต์พุตโค้ดที่โดยทั่วไปจะกระชับมากกว่าภาษาของมนุษย์ หากเราลดข้อกำหนดปริมาณงานลง 8 เท่า Copilot ก็สามารถบรรลุเป้าหมายที่เป็นไปได้เช่นกัน
ช่องว่างสุดท้ายนี้สามารถปิดได้ด้วยการผสมผสานระหว่างการขนานขนาดใหญ่ การนำไปใช้งานที่ดีขึ้น และอัลกอริธึมที่มีประสิทธิภาพมากขึ้นที่บูตในการเข้ารหัสแบบโฮโมมอร์ฟิกอย่างสมบูรณ์ ที่ Ingonyama เราเชื่อว่าอัลกอริธึมเป็นส่วนสำคัญในการเชื่อมช่องว่างนี้ และขณะนี้ทีมงานของเรากำลังมุ่งเน้นไปที่การวิจัยและพัฒนาอัลกอริธึมที่เกี่ยวข้อง
สรุป
การผสมผสานระหว่างการรักษาความปลอดภัยของการเข้ารหัสแบบโฮโมมอร์ฟิกอย่างสมบูรณ์และพลังการคำนวณของโมเดลภาษาขนาดใหญ่สามารถกำหนดนิยามใหม่ของการโต้ตอบของปัญญาประดิษฐ์ เพื่อให้มั่นใจทั้งประสิทธิภาพและความเป็นส่วนตัว แม้ว่าจะมีความท้าทายอยู่บ้าง แต่ด้วยการวิจัยและนวัตกรรมอย่างต่อเนื่อง เราสามารถบรรลุอนาคตที่การโต้ตอบกับโมเดล AI เช่น ChatGPT มีทั้งความฉับไวและเป็นส่วนตัว สิ่งนี้จะช่วยให้ผู้ใช้ได้รับประสบการณ์ที่มีประสิทธิภาพและปลอดภัยยิ่งขึ้น และส่งเสริมการประยุกต์ใช้เทคโนโลยีปัญญาประดิษฐ์อย่างกว้างขวางในสาขาต่างๆ
ความคิดเห็นทั้งหมด