การฝึกอบรมครึ่งวันโดยใช้เงินเพียงไม่กี่ร้อยดอลลาร์ สามารถให้ผลลัพธ์ที่คล้ายคลึงกับโมเดลขนาดใหญ่กระแสหลัก โซลูชัน LLM เฉพาะด้านโดเมนที่เปิดกว้างและไม่มีค่าใช้จ่ายทางพาณิชย์

63 One half-day of training using a few hundred dollars yields similar results to mainstream large models, open-source and commercial-free domain-specific LLM solution

สิงคโปร์, 1 ต.ค. 2566 – เมื่อเร็วๆ นี้ Colossal-AI ได้สร้างโมเดลภาษาธรรมชาติขนาดใหญ่เฉพาะด้าน (LLM) ที่น่าประทับใจ โดยใช้งบประมาณในการฝึกอบรมเพียง ไม่กี่ร้อยดอลลาร์ มันสามารถนําไปใช้ได้หลากหลายด้าน ช่วยอํานวยความสะดวกในการสร้างโมเดล AI ขนาดใหญ่ให้มีต้นทุนต่ํา

โซลูชันนี้สามารถเข้าถึงได้โดยไม่มีข้อจํากัดทางการค้า โดยเปิดเผยขั้นตอนการฝึกอบรม รหัส และน้ําหนักโมเดลอย่างโปร่งใสทั้งหมด

รายละเอียดทางเทคนิค รหัสโอเพ่นซอร์ส และน้ําหนักมีอยู่ที่: https://github.com/hpcaitech/ColossalAI

สร้างสะพานเชื่อมต่อจากโมเดลขนาดใหญ่ทั่วไปไปยังโมเดลขนาดใหญ่เฉพาะด้านใดก็ได้ด้วยค่าใช้จ่ายเพียงไม่กี่ร้อยดอลลาร์เท่านั้น

ประสิทธิภาพ

โมเดลของ Colossal-AI ไม่เพียงแต่เสริมความสามารถทางภาษาจีนเท่านั้น แต่ยังปรับปรุงความชํานาญด้านภาษาอังกฤษอีกด้วย น่าประหลาดใจที่มันแสดงระดับประสิทธิภาพที่เทียบเท่าโมเดลสถานะแนวหน้า (SOTA) ที่มีขนาดคล้ายกันในชุมชนโอเพ่นซอร์ส

นอกจากนี้ Colossal-AI ยังมีกรอบการประเมินผลที่ครอบคลุม ColossalEval ช่วยอํานวยความสะดวกในการทดสอบซ้ําได้อย่างมีประสิทธิภาพ

นอกจากนี้ การปรับแต่งโมเดลผ่านวิธีการเช่น SFT และ LoRA มีข้อจํากัดในการถ่ายทอดความรู้และความสามารถจากโมเดลพื้นฐานอย่างมีประสิทธิภาพ มันไม่สามารถตอบสนองความต้องการในการสร้างความรู้เฉพาะด้านที่มีคุณภาพสูงหรือแอปพลิเคชันโมเดลเฉพาะด้านได้อย่างเพียงพอ

สร้างสะพานเชื่อมต่อจากโมเดลขนาดใหญ่ทั่วไปไปยังโมเดลขนาดใหญ่เฉพาะด้าน

สิ่งที่สําคัญยิ่งกว่านั้น การสร้างเวอร์ชันภาษาจีนไม่เพียงแต่มีข้อได้เปรียบในเรื่องของการนํากลับมาใช้ใหม่เท่านั้น แต่ยังมีความสําคัญอย่างมากในการนําไปใช้จริง

เป็นที่ยอมรับกันอย่างกว้างขวางว่าค่าใช้จ่ายในการฝึกอบรมโมเดล AI ขนาดใหญ่จากศูนย์นั้นสูงเกินไป บ่อยครั้งที่มักจะถูกเรียกขานอย่างขบขันว่าเป็นด้านที่สามารถเข้าถึงได้เฉพาะผู้ที่มี “50 ล้านดอลลาร์” สํารองไว้เท่านั้น

ยักษ์ใหญ่ทางเทคโนโลยีและสตาร์ทอัพ AI หลายแห่งกําลังใฝ่ฝันที่จะลงทุนอย่างหนักในการสร้างโมเดลขนาดใหญ่เพื่อวัตถุประสงค์ทั่วไป อย่างไรก็ตาม เบื้องหลังความทั่วไปของโมเดลขนาดใหญ่เหล่านี้มักจะมีความขาดแคลนความรู้เฉพาะด้าน ดังนั้นปัญหาด้านความสามารถในการนําไปใช้งานจริงจึงเป็นเรื่องร้ายแรงเป็นพิเศษ

หากสามารถสร้างโมเดลขนาดใหญ่เฉพาะด้านได้อย่างรวดเร็วและมีต้นทุนต่ํา ตามด้วยการปรับแต่งโมเดลสําหรับความต้องการทางธุรกิจเฉพาะ มันจะเป็นการส่งเสริ