12月18日,清华软件论坛第二十八期邀请加拿大皇家学会院士、清华大学杰出访问教授、滑铁卢大学塔梅尔·欧苏(M. Tamer Özsu)教授作题为“快速高效的向量索引(Fast and Efficient Vector Indexes)”的学术报告。论坛以线上线下结合的方式举行。软件学院的师生线下参会,来自其他兄弟高校的数据库与信息系统领域的研究者线上参会。

欧苏教授线上作报告
欧苏教授首先介绍了关于向量数据库和嵌入技术的研究。当前的数据科学研究正处于嵌入时代,即多模态数据的处理。各种不同类型的数据,如文本、图像、音频等,通过嵌入模型转换为高维向量,应用于机器学习、模式识别等领域。向量数据库是专门设计用来存储和检索这些高维向量的系统,在检索增强生成中有重要的应用。向量数据库通常需要进行最近邻搜索,然而在高维空间中,计算复杂度增大,面临维度灾难的问题。为了加速向量检索过程,需要构建向量索引。欧苏教授介绍了几种常用的向量索引方法,特别是图索引中的算法技术,对比分析了图索引的两类主要的构建方法(增量和精细化)的特点和不同之处,并提出了一种新的索引构建的方法,通过结合这两者的优点,提高图索引的构建速度和搜索性能。欧苏教授具体讲解了方法的构建过程,分享了实验结果,显示新方法在构建速度和搜索性能上相较于现有技术的优势,并且提出了一些未来的研究方向,比如混合查询和并行化处理等。
在提问环节,参会的师生围绕向量数据库、大语言模型、图索引构建等话题,以及不同模态数据的相似性处理、索引结构的存储等问题进行提问,欧苏教授逐一进行分析并详细解答。
嘉宾简介:
M. Tamer Özsu is a University Professor at Cheriton School of Computer Science at University of Waterloo. Previously, he was the Director of the Cheriton School and Associate Dean (Research) of the Faculty of Mathematics. His research is on data engineering aspects of data science focusing on distributed data management and the management of non-conventional data. He is a Fellow of the Royal Society of Canada,American Association for the Advancement of Science, Science Academy, Turkey, Asia-Pacific Artificial Intelligence Association and Balsille School of International Affairs and Life Fellow of ACM and lEEE. Dr, Özsu is the recipient of the ACM Presidential Award (2024), lEEE Technical Committee on Data Engineering (TCDE) Education Award (2024),lEEE Innovation in Societal Infrastructure Award (2022), CS-Can/Info-Can Lifetime Achievement Award (2018), ACM SIGMOD Test-of-Time Award (2015), the ACM SIGMOD Contributions Award (2006), and The Ohio State University College of Engineering Distinguished Alumnus Award (2008). He is the Founding Editor-in-Chief of ACM Books (2014-2020) and the Founding Series Editor of Synthesis Lectures on Data Management (2009-2014). He serves on the editorial boards of three journals and one book series.