图论是描述“对象关联关系”的数学工具,通过顶点(实体) 和边(关系) 构建离散结构,是AI处理非欧几里得数据(如社交网络、知识图谱、分子结构)的核心基础,也是图神经网络(GNN)、推荐系统等模型的底层框架。
| 分类维度 | 类型 | 核心特征 | AI应用场景示例 |
|---|---|---|---|
| 边的方向 | 无向图 | (u,v)=(v,u)(u, v) = (v, u)(u,v)=(v,u),边无方向 | 图像像素相邻关系、社交好友关系 |
| 有向图 | <u,v>≠<v,u><u, v> eq <v, u><u,v>=<v,u>,边有方向 | 网页超链接、食物链、任务依赖关系 | |
| 边的权重 | 无权图 | 边无权重(默认权重为1) | 简单好友关系、无权重的知识图谱关系 |
| 加权图 | 边关联权重 w(e)∈Rw(e) in mathbb{R}w(e)∈R,记为 G=(V,E,W)G = (V, E, W)G=(V,E,W)(WWW 为权重矩阵) | 用户互动频率(权重=互动次数)、词相似度 | |
| 特殊结构 | 有向无环图(DAG) | 无循环的有向图 | 神经网络计算图、任务调度依赖 |
| 二分图 | V=V1∪V2V = V_1 cup V_2V=V1∪V2(V1∩V2=∅V_1 cap V_2 = emptysetV1∩V2=∅),边仅存在于 V1−V2V_1-V_2V1−V2 间 | 用户-物品推荐系统、学生-课程分配 | |
| 完全图 | 任意两顶点间均有边(无向完全图边数 m=n(n−1)2m = frac{n(n-1)}{2}m=2n(n−1)) | 全连接神经网络层内连接、全连通传感器网络 |
公式:设图 G=(V,E)G = (V, E)G=(V,E) 有 nnn 个顶点,邻接矩阵 A∈{0,1}n×nA in {0, 1}^{n imes n}A∈{0,1}n×n(无权图)定义为:
核心特性:
无向图的邻接矩阵对称(AT=AA^T = AAT=A),有向图不一定;空间复杂度 O(n2)O(n^2)O(n2),适合稠密图(边数 m≈n2m approx n^2m≈n2)。AI应用:
图神经网络(GNN)核心输入:如 GCN 的层间传播公式 H(l+1)=σ(D~−1/2A~D~−1/2H(l)W(l))H^{(l+1)} = sigma( ilde{D}^{-1/2} ilde{A} ilde{D}^{-1/2}H^{(l)}W^{(l)})H(l+1)=σ(D~−1/2A~D~−1/2H(l)W(l)),A~ ilde{A}A~ 为带自环的邻接矩阵;小规模图的快速运算:如邻接矩阵乘法可计算“两跳邻居”(Aij2A^2_{ij}Aij2 表示 viv_ivi 到 vjv_jvj 的两跳路径数)。节点度:
无向图:节点 viv_ivi 的度 di=∑j=1nAijd_i = sum_{j=1}^n A_{ij}di=∑j=1nAij(关联边数);有向图:入度 di−=∑j=1nAjid_i^- = sum_{j=1}^n A_{ji}di−=∑j=1nAji(指向 viv_ivi 的边数),出度 di+=∑j=1nAijd_i^+ = sum_{j=1}^n A_{ij}di+=∑j=1nAij(从 viv_ivi 出发的边数)。度矩阵:对角矩阵 D∈Rn×nD in mathbb{R}^{n imes n}D∈Rn×n,公式:
D=diag(d1,d2,...,dn)D = ext{diag}(d_1, d_2, ..., d_n)D=diag(d1,d2,...,dn)(仅对角元素为节点度,其余为0)。
AI应用:
GNN中的特征归一化:如 GCN 用 D~−1/2 ilde{D}^{-1/2}D~−1/2 平衡不同度数节点的特征贡献,避免高度数节点主导聚合结果;节点重要性初判:社交网络中高度数节点可能是“意见领袖”,优先分析其传播影响力。定义:用“数组+链表”存储,数组 adjadjadj 索引对应顶点,链表存储该顶点的邻接顶点:
无向图:adj[vi]=[vj∣(vi,vj)∈E]adj[v_i] = [v_j mid (v_i, v_j) in E]adj[vi]=[vj∣(vi,vj)∈E];加权图:adj[vi]=[(vj,wij)∣(vi,vj)∈E]adj[v_i] = [(v_j, w_{ij}) mid (v_i, v_j) in E]adj[vi]=[(vj,wij)∣(vi,vj)∈E](同时存储邻接顶点及边权重)。核心特性:
空间复杂度 O(n+m)O(n + m)O(n+m),适合稀疏图(AI中大规模图多为稀疏图,如社交网络 m≪n2m ll n^2m≪n2);高效遍历:遍历某顶点的所有邻居仅需访问对应链表,无需遍历整行矩阵。AI应用:
大规模图的遍历算法:如 BFS、DFS 对社交网络(nnn 百万级)的高效节点访问;推荐系统存储:用户-物品二分图用邻接表存储“用户购买的物品”或“物品被购买的用户”,节省内存。无向图定理:所有顶点的度数和等于边数的2倍,公式:
∑v∈Vd(v)=2msum_{v in V} d(v) = 2m∑v∈Vd(v)=2m
(每边贡献2个度数,分别属于两个顶点)。
有向图推论:所有顶点的入度和等于出度和,且等于边数,公式:
∑v∈Vd−(v)=∑v∈Vd+(v)=msum_{v in V} d^-(v) = sum_{v in V} d^+(v) = m∑v∈Vd−(v)=∑v∈Vd+(v)=m。
AI应用:
图数据校验:如社交网络数据中,若度数和为奇数,说明数据存在统计错误(如漏记/多记边);异常节点检测:度数远高于均值的节点可能是“超级节点”(如机器人账号),度数为0的节点是孤立节点(可剔除以简化模型)。路径:顶点序列 v1→v2→...→vkv_1 o v_2 o ... o v_kv1→v2→...→vk,相邻顶点间有边,长度为 k−1k-1k−1(边数);
简单路径:顶点不重复的路径(如 v1→v2→v3v_1 o v_2 o v_3v1→v2→v3)。
回路:起点=终点的路径(如 v1→v2→v1v_1 o v_2 o v_1v1→v2→v1);
简单回路:除起点/终点外顶点不重复的回路。
连通性:
无向图:任意两顶点间有路径则为连通图,否则为非连通图,其极大连通子图称为连通分量;有向图:任意两顶点间有双向路径则为强连通图,忽略边方向后连通则为弱连通图。AI应用:
社区发现:社交网络中,连通分量对应“用户社群”,强连通分量对应“核心互动群体”;知识图谱补全:实体间的路径长度可衡量语义关联强度(短路径关联更紧密)。定理:一个无向图是二分图,当且仅当它不包含长度为奇数的回路(奇环)。
判定方法:染色法(用两种颜色标记顶点,相邻顶点颜色不同,无冲突则为二分图)。
AI应用:
用户-物品推荐:将“用户-物品”建模为二分图,保证无“用户-用户”或“物品-物品”直接边,简化推荐算法(如基于二分图匹配的协同过滤);图像标注:将“图像区域-标签”建模为二分图,通过二分图匹配优化标签分配(避免同一区域被标注多个冲突标签)。定理:一个有向图存在拓扑排序,当且仅当它是有向无环图(DAG)。
拓扑排序:顶点的线性序列 v1,v2,...,vnv_1, v_2, ..., v_nv1,v2,...,vn,对任意边 <vi,vj><v_i, v_j><vi,vj>,viv_ivi 在序列中早于 vjv_jvj(满足“先后依赖”)。
AI应用:
深度学习框架计算:TensorFlow/PyTorch 将模型计算流程建模为DAG,拓扑排序确定算子执行顺序(避免依赖错误);任务调度:AI workflow 中,基于拓扑排序规划“数据预处理→模型训练→结果评估”的执行顺序。| 定理名称 | 核心结论 | AI应用场景 |
|---|---|---|
| 哈密顿回路定理 | 判断图是否存在“包含所有顶点的回路”是NP完全问题,需近似求解 | 旅行商问题(TSP)路径优化、物流配送路线规划 |
| 四色定理 | 任何平面图可用最多4种颜色着色,使相邻顶点颜色不同 | 地图区域着色、芯片设计中的寄存器分配 |
| 聚类系数定理 | 聚类系数 C=3×三角形数量连通三元组数量C = frac{3 imes ext{三角形数量}}{ ext{连通三元组数量}}C=连通三元组数量3×三角形数量,衡量图的聚集程度 | 社交网络社群紧密性分析、蛋白质相互作用网络模块识别 |
最小生成树是“包含所有顶点、无回路、边权重和最小”的子图(边数 n−1n-1n−1),用于“最小成本连接所有节点”。
核心思想:从任意顶点出发,每次选择“连接已选顶点集与未选顶点集的最小权重边”,加入MST,直至包含所有顶点。
时间复杂度:O(mlogn)O(m log n)O(mlogn)(使用优先队列)。
AI应用:
传感器网络部署:用MST连接所有传感器,最小化布线成本;图像分割:将像素视为顶点,边权重=像素相似度,MST的“最大边切割”对应分割边界(分离不同物体)。核心思想:通过“增广路径”迭代扩展匹配集——增广路径是“从非匹配顶点出发,交替经过非匹配边和匹配边的路径”,翻转路径中边的匹配状态(非匹配→匹配,匹配→非匹配),可使匹配边数+1。
时间复杂度:O(nm)O(nm)O(nm)(nnn 为顶点数,mmm 为边数)。
AI应用:
推荐系统:用户-物品二分图的最大匹配,最大化“用户-物品”匹配数(提升推荐覆盖率);人才-岗位匹配:基于“技能匹配度”(边权重)的加权二分图匹配,优化人才资源分配。| 中心性类型 | 公式(无向图) | 核心含义 | AI应用场景 |
|---|---|---|---|
| 度中心性 | Cd(v)=d(v)n−1C_d(v) = frac{d(v)}{n-1}Cd(v)=n−1d(v)(归一化,最大度数为 n−1n-1n−1) | 节点的直接关联度(邻居数量) | 社交网络“粉丝数”排名、知识图谱核心实体初筛 |
| 介数中心性 | Cb(v)=∑s≠v≠tσst(v)σstC_b(v) = sum_{s eq v eq t} frac{sigma_{st}(v)}{sigma_{st}}Cb(v)=∑s=v=tσstσst(v)(σstsigma_{st}σst为s−ts-ts−t最短路径总数,σst(v)sigma_{st}(v)σst(v)为经过vvv的路径数) | 节点在“信息传递”中的中介作用(位于多对节点的最短路径上) | 传播路径关键节点识别(如谣言传播的阻断节点) |
| 特征向量中心性 | Ac=λmaxcA oldsymbol{c} = lambda_{ ext{max}} oldsymbol{c}Ac=λmaxc(coldsymbol{c}c为特征向量,λmaxlambda_{ ext{max}}λmax为AAA的最大特征值) | 节点重要性由“邻居重要性”决定(与重要节点相连的节点更重要) | PageRank算法基础、学术论文影响力评估(被高影响力论文引用) |
| closeness中心性 | Cc(v)=n−1∑u≠vdist(v,u)C_c(v) = frac{n-1}{sum_{u eq v} ext{dist}(v, u)}Cc(v)=∑u=vdist(v,u)n−1(dist(v,u) ext{dist}(v,u)dist(v,u)为v−uv-uv−u最短距离) | 节点到其他所有节点的“平均距离”(距离越短,中心性越高) | 应急节点选址(如医院、消防站需快速到达所有区域) |
两种常用形式:
对称归一化:Lsym=D−1/2LD−1/2=I−D−1/2AD−1/2L_{ ext{sym}} = D^{-1/2} L D^{-1/2} = I - D^{-1/2} A D^{-1/2}Lsym=D−1/2LD−1/2=I−D−1/2AD−1/2(GCN核心矩阵);随机游走归一化:Lrw=D−1L=I−D−1AL_{ ext{rw}} = D^{-1} L = I - D^{-1} ALrw=D−1L=I−D−1A(随机游走相关任务)。AI应用:
图卷积网络(GCN):LsymL_{ ext{sym}}Lsym 实现邻域特征的“平滑聚合”,避免高度数节点特征被过度稀释;谱聚类:对 LLL 做特征分解,取前 kkk 个最小特征值对应的特征向量聚类(利用谱特性保留全局结构,优于传统K-Means);图平滑性衡量:XTLX=12∑(u,v)∈E(xu−xv)2X^T L X = frac{1}{2} sum_{(u,v) in E} (x_u - x_v)^2XTLX=21∑(u,v)∈E(xu−xv)2(值越小,相邻节点特征越相似,图信号越平滑)。将图节点/边映射到低维向量空间,保留图结构和语义信息,是GNN的前置基础。
| 嵌入方法 | 核心思想 | AI应用场景 |
|---|---|---|
| DeepWalk | 随机游走生成节点序列,用Word2Vec学习嵌入(保留局部结构) | 社交网络节点分类、链路预测 |
| Node2Vec | 可控随机游走(参数 p/qp/qp/q 平衡BFS/DFS),兼顾局部和全局结构 | 知识图谱实体嵌入、分子结构表示 |
| 谱聚类嵌入 | 拉普拉斯矩阵特征分解,取前 kkk 个特征向量作为嵌入(保留全局结构) | 非球形数据聚类(如用户行为聚类) |
| TransE(知识图谱) | 将实体和关系映射到向量,满足 h+r=th + r = th+r=t(hhh 头实体,rrr 关系,ttt 尾实体) | 知识图谱补全、语义问答系统 |
通过“消息传递”聚合邻居特征,处理图结构数据,是当前AI图任务的核心模型。
生成符合特定结构的图,用于模拟真实网络或创造新结构(如药物分子、社交网络)。
| 生成模型 | 核心思想 | AI应用场景 |
|---|---|---|
| Erdős-Rényi模型 | G(n,p)G(n, p)G(n,p):每对顶点以概率 ppp 随机连接,度分布近似泊松分布 | 随机网络模拟、基准测试数据集生成 |
| Watts-Strogatz模型 | 从完全图开始,随机重连部分边,生成“短平均路径+高聚类系数”的小世界网络 | 社交网络模拟、传染病传播建模 |
| Barabási-Albert模型 | 偏好连接(新节点优先连接高度数节点),度分布服从幂律(无标度网络) | 互联网拓扑模拟、 citation网络生成 |
| 图生成对抗网络(GGAN) | 生成器生成图结构,判别器区分“真实图”与“生成图”,对抗训练优化生成质量 | 药物分子生成(设计新活性分子)、场景图生成 |
| 符号 | 写法规范 | 读音 | 核心使用场景 |
|---|---|---|---|
| GGG | 大写G | “G” | 图的总称(如无向图 G=(V,E)G=(V,E)G=(V,E),有向图 D=(V,A)D=(V,A)D=(V,A)) |
| VVV | 大写V | “V” | 顶点集(存储图中的实体,如用户、单词) |
| EEE | 大写E | “E” | 无向边集(存储无向关系,如好友关系) |
| AAA | 大写A | “A” | 1. 有向边集;2. 邻接矩阵(描述节点连接关系,GNN核心输入) |
| DDD | 大写D | “D” | 度矩阵(对角矩阵,存储节点度数,用于GNN特征归一化) |
| LLL | 大写L | “L” | 拉普拉斯矩阵(L=D−AL=D-AL=D−A,谱图理论和GCN的核心矩阵) |
| LsymL_{ ext{sym}}Lsym | 大写L+下标sym | “L sym” | 对称归一化拉普拉斯矩阵(GCN的核心卷积矩阵) |
| d(v)d(v)d(v) | 小写d+顶点v | “d of v” | 节点 vvv 的度数(无向图),衡量节点直接关联数 |
| d−(v)/d+(v)d^-(v)/d^+(v)d−(v)/d+(v) | 小写d±+顶点v | “d minus/plus of v” | 节点 vvv 的入度/出度(有向图),如网页的入链/出链数 |
| PR(p)PR(p)PR(p) | 大写PR+节点p | “P R of p” | 节点 ppp 的PageRank值,衡量节点重要性(搜索引擎排序核心) |
| λmaxlambda_{ ext{max}}λmax | 小写lambda+下标max | “lambda max” | 邻接矩阵/拉普拉斯矩阵的最大特征值,用于特征向量中心性和谱分析 |
| hih_ihi | 小写h+节点i | “h of i” | 节点 iii 的特征向量(GNN中存储节点的属性信息,如用户年龄、单词嵌入) |
| H(l)H^{(l)}H(l) | 大写H+上标l | “H superscript l” | 第 lll 层节点特征矩阵(GNN中层间传播的特征载体) |
| W(l)W^{(l)}W(l) | 大写W+上标l | “W superscript l” | GNN第 lll 层的可学习权重矩阵(用于特征线性变换) |
| αijalpha_{ij}αij | 小写alpha+下标ij | “alpha i j” | GAT中的注意力系数,表示节点 jjj 对节点 iii 的贡献权重 |
| w(u,v)w(u,v)w(u,v) | 小写w+括号u,v | “w of u v” | 边 (u,v)(u,v)(u,v) 的权重(如用户互动频率、路径长度) |
| dist(u,v) ext{dist}(u,v)dist(u,v) | 英文dist+括号u,v | “dist of u v” | 节点 uuu 到 vvv 的最短距离(最短路径算法的核心输出) |