遗传性终身癌症风险评估模型：乳腺癌案例研究

全文

研究文章

马丁内斯-奥维拉JC^{1 *}Guillén-ponce c^2.伯爵J^2.Garcia-Cortes拉^3.

^1.西班牙西贝雷斯斯斯克伦“奥克图布雷12医院”卫生研究所
^2.医学肿瘤科，医院大学RamónyCajal，Carretera Colmenar Viejo Km 9，马德里，西班牙
^3.西班牙马德里拉科鲁尼亚7公里处国家农业和食品技术研究所动物育种和遗传系

*通讯作者：Jose Carlos Martinez Avila，卫生学研究所“2号奥坎特鲁文”划线（西班牙临床研究网络）Ciberesp（流行病学和公共卫生的生物医学研究中心网络），Avda de Cordoba S / N，Edifico de Actividades Ammulatorias 6d，Madrid，Madrid，Spain那电邮：马丁内扎。imas12@h12o.es

摘要

为了提供准确有效的遗传咨询和二次筛查，评估个体遗传性癌症风险并非易事。

我们基于最佳线性无偏预测（BLUP）方法对明尼苏达州乳腺癌数据进行分析，以估计个体一生中发生癌症的预测遗传风险。该模型使用癌症状态、出生年份（yob）、性别、最后随访年龄（endage）和出生数（平价）估计方差成分以定义遗传性。该工具还可用于确定家族内癌症聚集是否确实是由于遗传性或共同的环境因素。我们提供了一个示例，说明该模型如何用于乳腺癌，但可应用于许多癌症具有遗传成分的癌症类型。

我们获得了癌症（乳腺癌和前列腺癌）遗传力的可靠估计值在0.1-0.2，不同于零，和有意义的附加值的癌症在明尼苏达乳腺数据集为每个个体。BLUP能够纳入临床和病理信息的估计，并考虑多基因遗传模型，而不是常染色体显性模型。

BLUP提供了一个用于遗传性癌症的额外工具，用于估计癌症的遗传程度，计算家庭成员中癌症的个体遗传风险和未来后代的遗传风险的近似值。此外，该工具还可用于评估这些家庭中遗传性癌症的遗传基础，即ei这是由于高风险等位基因为中低风险等位基因所致。

关键词

最佳线性无偏预测；加性遗传效应；明尼苏达州乳腺癌遗传力；遗传风险；癌症风险评估；癌症风险预测模型；预期遗传值

缩写

BLUP：最佳线性无偏预测；ROH：纯合性运行；HPDI：高后密度间隔；EGV：期望遗传值；ROC：接收机工作特性；AUC：ROC曲线下的面积。

介绍

大约5-10%的癌症有遗传因素[1]，9.4%的乳腺癌患者有一级亲属[2]。已知癌症基因中存在致病性种系突变意味着该个体在其一生中发生特定癌症类型的可能性更大。然而，根据不同基因变体的遗传以及这些变体如何相互作用，癌症易感性无疑存在巨大差异。在基因组时代，我们发现了更多与癌症等复杂疾病相关的基因和基因变体[3,4]。高风险基因在普通人群中出现的频率较低，而中低风险基因出现的频率较高。在缺乏已知致病性种系突变的情况下，很难评估癌症风险，尤其是当受试者在这些基因中存在未知意义的变异时。仍有许多中-低风险等位基因以高频率出现，其对癌症发展的影响尚不清楚，目前正在努力破解其对癌症风险的贡献[5]。另一方面，为了发现“独奏者”基因，我们需要知道我们看到的表型变异中有多少是由遗传学引起的。

癌症通常被认为是散发性癌症，除非患者具有与家族癌症如家族中额外癌症病例相关的特征，在诊断中异常早期，同一个体的多种肿瘤如双侧肿瘤或不同但相关肿瘤等乳腺癌和卵巢癌。德赢vwin首页网址这些类型的家庭的遗传和高风险评估指南包括国家癌症综合网络和漂亮[6,7]等。

在乳腺癌的特殊病例中，大约25-30%的遗传力可归因于高风险到中等风险基因的突变brca1, brca2, chek2, atm, palb2, palb1, brip1, tp53, pten, cdh1和STK11)(5、8)。这些基因中的大多数参与了DNA修复和细胞周期检查点的调节，以应对DNA损伤。其他中低风险基因包括BARD1, RAD51C和RAD51D[9-11]。非突变携带者的疾病易感性可以用多基因模型来解释，其中许多易感基因和这些基因内的多态性结合起来增加风险并产生观察到的癌症表型[12].最近在乳腺癌研究中的努力旨在通过高密度下一代测序和协调国际研究小组进入联盟来发现稀有等位基因的作用[13]。

尽管人类中的高质量血统信息是罕见的，主要是由于小家庭规模，缺乏临床记录或非信息百分点，当它被记录时，出现了一个新的机会，了解有关癌症的遗传基础的更多信息。遗传性的统计定义被定义为遗传方差归因于遗传方差的表型方差的比例。当遗传学解释的变异很小时，需要准确的统计方法来寻找个体基因。

为了估计个体一生中罹患乳腺癌的风险，在不同的假设下，将家族史和个人信息结合在几个统计模型中。克劳斯模型关注具有未知种系突变的白种人以及患有乳腺癌的一级或二级女性亲属的信息[14]。Gail模型基于多元逻辑回归模型，以估计乳腺癌风险[15-17]。在这种情况下，Gail模型只包括一级亲属的信息，并给予受影响个体更大的重要性。在有大量乳腺家族史的情况下，Gail模型的这一特征可能低估了乳腺癌风险[18,19]。

a的可能性BRCA1或BRCA2使用不同的方法计算存在突变，其中包括BRCAPRO和乳腺和卵巢疾病发病率分析和携带者估计算法（Boadieca）[20,21]。一些指南，如美国癌症协会（ACS）乳腺筛查指南，以确定女性患乳腺癌的高风险[22,23]使用基于家族史的模型，评估20-25%或更高的乳腺癌终生风险。德赢vwin首页网址

最佳线性无偏预测（BLUP）模型[24]是动物和植物育种中研究复杂性状最有用的工具之一，目前该方法对遗传性癌症等人类疾病非常有用[25]。BLUP方法提供了个体预测的遗传风险[26]可用于评估个人一生中罹患癌症的风险，这对家族性癌症的遗传咨询非常重要，尤其是在遗传基础未知的家庭中。这些受试者可以进一步研究，以找到中低风险等位基因。

明尼苏达数据乳腺癌家族是一项历史队列研究，对426例乳腺癌患者的亲属进行了连续的队列研究，先证者，确定于1944年至1952年[27]，并已用于乳腺癌和前列腺癌[28]的家族聚类研究。该数据集包含有关受影响状态、性别、年龄、出生年份、父亲、母亲、家庭、最后随访年龄、教育状况、婚姻状况、怀孕次数和出生次数的信息。

我们使用明尼苏达数据乳腺癌家族的目标是a）应用增孔方法来估计乳腺癌中的可遗传性，以确定遗传遗传是多少变化;b）提出一种新的个人措施，用于在家庭历史中分配癌症风险的遗传添加剂值，这些历史与其他遗传风险评估模型相当;c）开发一种可用于识别具有高癌症添加剂风险的个体的算法，从而有助于优先考虑遗传检测的族族和/或鉴定与癌症相关的新基因和多态性。

材料和方法

数据

明尼苏达州数据乳腺癌家族研究可以在R包kinship2[29]中免费获得，其中提供了基于血统和系谱身份计算相关矩阵的函数。资料由426个家庭的20532个个体组成，每个家庭有一个先证者，系谱有28082个个体，有可用数据的20532个。

1224名女性患有乳腺癌。

结果变量是二进制的，为罹患癌症的个体赋值1，为无癌症的个体赋值0。当二元性状被研究时，我们假设一个潜在的连续随机变量，其方差等于一(负债)正态分布。这种责任的临界值表明，当我们有一个案例时，癌症或没有癌症。

从明尼苏达数据，主题标识符（ID），父亲的标识符（父亲），母亲的标识符（母体）和性别的标识符都被用来构建血统。癌症，出生年份（yob），家庭标识符（家庭），性别，最后随访（ENDAGE）和出生数量（奇偶校验）被保留为混合模型。

从1842年到1983年，出生年份的振幅超过一个世纪，以1920年为中心，以三次多项式中的协变量或随机效应的形式添加。这是为了检查是否可能存在yob的随机环境效应（模型1）（模型2）。

性别、出生年份、胎次和终末期缺失值分别占观测总数的0.07%、23.92%、3.36%和32.65%。这些值是用随机森林函数输入的。

每个家庭的癌症发病率是由家庭中受影响的个人人数除以有癌症记录的家庭成员总数来计算的。为了避免由于归一化而导致的人工噪声的加入，我们决定不使用更多的解释变量，因为它们的缺失率很高。

这个数据库是在上世纪40年代建立的，不幸的是没有关于BRAC突变的信息。

评估个人一生中罹患癌症风险的统计方法

使用R[30]和MCMCglmm[31]、kinship2[29]、missForest[32]和ROCR[33]进行统计分析。MCMCglmm用于从混合模型方程和方差分量中取样。kinship2软件包用于系谱图，ROCR软件包用于ROC曲线图计算。最后，missForest用于插补连续和分类数据，考虑到非线性关系和复杂迭代。

最佳线性无偏预测（BLUP）：方法学方面基于BLUP-Tower Henderson的混合模型方程方法[24]和Fisher的无穷小模型[34]。

给定一个线性混合模型，

\[y=X\beta+Zu+e\]

其中Y是观察到的表型，β和你为固定和随机效应的矢量，X和Z是设计矩阵，e是随机误差。

随机效应定义为多变量正态分布，MVN，U〜mvn（0，g）和e~MVB（0，R）具有G - 遗传方差协方差矩阵和R - 残差方差协方差矩阵。

亨德森指出了前一种模式的解决方案，

\[左\[\开始{数组}{1}
x'{r ^ { - 1}} x \，\，\，x'{r ^ { - 1}} z \\
Z'{r ^{- 1}} x \，\，\，Z'{r ^{- 1}}Z + {g ^{- 1}}
数组{}\ \端)左\[开始\{数组}{1}
{\mathord{\buildrel{\lower3pt\hbox{$\scriptscriptstyle\皱眉$}
\超过\beta}\\
{\帽子你}
数组{}\ \端)左\[开始\{数组}{1}
X'{R^{-1}}}y\\
Z ' {R ^ {- 1}} y
\结束{array}\right]\]

在Fisher的无穷小模型中，遗传是基于具有小加性效应的无限位点的。这种由环境改变的遗传产生了观察到的表型，BLUP方法允许我们计算遗传的这一加性部分。

广义遗传力是可归因于遗传变异的表型变异的分数。当考虑该遗传变异的平均影响、加性时，定义狭义遗传力。

在本研究中，术语遗传力被定义为遗传变异的加性成分。

已经提出了两种型号并拟合，其在包含Yob作为随机（模型1）或固定效果（模型2）的不同之处。

在之前基于广义logistic模型的变量选择步骤中，根据现有信息，将家庭作为变量从模型中剔除，只保留性别、末端、奇偶性和yob作为解释变量。

型号1

癌症~µ+性别+寿命+胎次+yob+yob^2.+尤布^3.+个人

用YOB~N（0，Iσ）^2._尤布）和个人~（0，Aσ）^2._个人)在哪里我是单位矩阵，A.分子关系矩阵，其元素是个体间共祖先的两倍[35]，σ^2._尤布出生年份和σ给出的方差^2._个人遗传加性方差。

模型2

癌症~µ+性别+寿命+胎次+yob+yob^2.+尤布^3.+个人

具有尤布作为协变量和，个人〜n（0，aσ^2._个人)在哪里A.分子关系矩阵，和σ^2._个人遗传加性方差。

两种模型都认为R =我，即记录之间不存在残差协方差。

遗传力估计：计算遗传力以评估遗传变异的加性成分，计算结果如下:

\{{{{{h^2}}{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{h^2}}{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{}}}}}}{{{{{{{{}}}}}，{{{{{{{{{{{{{{{{{{}}}}}}}}}}}}}}}}}}}}，{{{{{{{{{{{{{{{{{{{{{{{}}}}}}}}}}}}}}}}}}}}}}}}}}}，}}}}}}}}}}}}}}}}}}}}}}}}，，{{{{{{{{，{\rm{in}\，{\rm{modle}}\，{\rm{2}}\]

我们的估计的一致性H^2.通过检验无效假设进行评估，H₀（h）^2.=0/数据），根据García-Cortés等人提出的方法计算边际后验密度，使用贝叶斯因子对零假设进行遗传力分析[36]。这种方法检查了血管的后验密度H^2.=0，计算备择假设(可加成分)的概率为，

\[p（{H{u 1}/data）=\frac{1}{{1+p（{H^2}/data）}}\，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，（1）\]

以及零假设的概率（无加性成分），

\[p（{H^0}/data）=\frac{p（{H^2}=0/data）}{{1+p（{H^2}/data）}、\、\、\、\、\、\、\、\、\、\、\、\、\、\、\、\、\、\、\、\、\、\，（2）\]

预期遗传值的估计EGVs：预期遗传值（EGV）是个体随机效应的解，u~MVN（0，G），这对于癌症患者和非癌症患者是不同的。EGV值的估计需要在最佳线性无偏预测（BLUP）部分求解混合模型方程，在遗传力估计部分估计方差分量。我们使用贝叶斯推理，因为我们的结果是二分法的，并且当二元响应是因变量时，马尔可夫链蒙特卡罗方法已经证明了它们的高性能[37]。非参数Kruskal-Wallis检验用于评估结果组之间EGV的差异。

1和2两个模型均以151500次迭代运行，燃烧1500次，每150次迭代对链进行采样。假设具有参数扩展的反向Wishart为随机效应的优先项，剩余方差固定为1σ^2._E.= 1.

收敛诊断使用海德堡和韦尔奇检验[38]进行评估，以接受或拒绝无效假设，马尔可夫链来自平稳分布。

最后，为了开发一种算法，可以用来识别具有高癌症遗传加性风险的个体，即使我们只有系谱，没有临床或人口统计数据，在进行遗传评估时，我们计算了EGV的亲代均值作为单个EGV[39]的代理，因为一个个体的遗传加性遗传有一半来自母亲，另一半来自父亲。以接受工作曲线下面积(ROC)评价EGV的预测能力。

比较Gail和Claus模型与BLUP评估癌症风险

对于癌症发病率最高的9个家庭，我们还使用Gail模型[15]和克劳斯模型[14]，仅使用明尼苏达州乳腺癌的可用信息，计算了5年后个体患乳腺癌的风险。Gail模型使用的变量是年龄和患乳腺癌的一级亲属人数，克劳斯模型使用的变量是年龄和一级亲属人数；先证者和受影响亲属之间的年龄和关系。使用Pearson相关系数将这些值与相应的EGV进行比较。

基于EGV的癌症风险遗传因素评估

EGV值低于零的个体被归类为无癌症遗传风险，而EGV值为正值的个体被归类为有遗传基础。有1或2例癌症病例的家庭被认为是散发的，没有遗传成分，而有3例或更多病例的家庭被认为有遗传成分t、我们计算了这两组家族的EGV汇总统计数据，包括平均值、中位数、25%和75%，并使用这些值将家族分类为有遗传成分和无遗传成分（即散发）。

结果

方差分量和遗传力估计

海德堡和韦尔奇测试的结果在其他文件（见在线参考资料表ESM1和ESM2）中给出，模型1和模型2达到收敛，这意味着我们的结果是有效的。

模型1方差分量的高后验密度区间(MCMCglmm提供的HPDI)为[0.018-0.621]和[1.45-2.97]^2._个人和σ^2._尤布,分别。在模型2中，HPDI为σ^2._个人为[0.057-0.65]，与模型1中获得的间隔相似。

强调了这种相似性（参见在线资源表ESM3），其中给出了估计的平均值和标准偏差。σ^2._个人在两种模型中具有相似的值。

在癌症遗传学中存在添加剂组分，这对于明尼苏达乳腺癌数据集来导致0.1或0.24的遗传性，这取决于模型规格。

遗传力的HPDI在模型1中为(0.017-0.174)，在模型2中为(0.058-0.396)，在这两种情况下，HPDI都没有包含零，这意味着我们的结果是有效的。

两个模型中方差分量的后验分布在其他文件中给出（参见在线参考资料图ESM1和ESM2）^2.=0），导致H0被（H）拒绝₀=0）。可以观察到，在h^2.=0在这两种情况下都为空（图1）。

图1：模型1红色和模型2蓝色的遗传力密度。

明尼苏达州乳腺癌家庭的描述性统计

表1目前癌症发病率的描述性统计数据，分析中包括426个家庭的受试者的出生年份，这些变量在男性和女性受试者之间没有显着差异。图2呈现了这些家庭的癌症发病率，并清楚地表明，这在家庭中受影响的案件稳步增加。为了描述一篇文章是不可行的，因为这个原因，我们呈现了9个家庭的发病率，yob，病例，案件数和性别的性别，分别在表2和3中最大和最低发病率的描述性统计数据。

	女性	男性
癌症发病率	0.103	0.016
末日	65.2 (16.4)	61.7 (13.6)
出生年份	1924 (21)	1923(22)

表1：按性别分列的描述性统计
括号内的标准偏差

图2：每个家庭的癌症发病率，计算为每个家庭的病例数和个人数与家庭中癌症病例数的比率。

表2为癌症发病率最高的9个家庭的描述性统计。图3显示了这些家族的系谱，使用模型1计算它们的EGV。

家庭	发病率	意味着yob.	案例	女性	男性	末日
574	0.33	1932	3.	6.	5.	48.2 (12.6)
173	0.28	1913	10	19	17	73.1(13.5)
447	0.24	1916	5.	13	11	65.1（17.4）
289	0.23	1914	3.	8.	7.	59.5(17.8)
411	0.23	1933	6.	14	20.	56.8(11.1)
494	0.22	1921	9	22	24	68.1 (15)
19	0.20	1911	5.	12	12	70.5(11.9)
474	0.20	1919	9	22	28	72（11.9）
62	0.16	1926	4.	15	16	61.8(20.7)

桌子2：癌症发病率最高的9个家庭的描述性统计
括号内的标准偏差

家庭	发病率	意味着yob.	案例	女性	男性	末日
397	0.019	1934	1.	27	33	62.3 (13)
316	0.019	1926	2.	73.	73.	68.6 (13.3)
343	0.018	1933	1.	36	35	58.5 (13.2)
395	0.017	1936	1.	39	39	55.5 (16.8)
453	0.014	1909	1.	49	54	72.2(13.1)
12	0.013	1926	1.	46	51	66.4 (16.5)
286	0.0129	1907	1.	47	48	64.9 (16.1)
433	0.0128	1930	1.	53	54	61.1（14.8）
274	0.0125	1901	1.	40	44	69.5(18.2)
353	0.0120	1913	1.	48	46	68.5 (16.9)

表3：10个癌症发病率最低家庭的描述性统计
括号内的标准偏差

图3:黑色是发病率最高的家庭。病人id和估计遗传加值下面的数字。

预期遗传值（EGV）

EGV提供了癌症发展的遗传添加剂风险，作为EXP（EGV）。预计未受影响的个体比受癌症影响的人更小，分散的egvs较小，分散的egvs较小，并且在更广泛的范围内传播。EGVS具有有趣的功能。第一个EGVS分离非受影响的癌症患者。其次，他们评估每个人的个体遗传值，EGV越大，显影癌症的概率越高，这些EGV被传递到下一代。遗传添加剂癌症风险可以计算为EGV的指数。图4显示了使用模型1的癌症影响和非受影响的家庭成员之间的EGV的差异。作为模型2的其他文件提供了类似的图形（参见在线资源图ESM3）。

图4:模型1的EGV。EGV在癌症和非癌症之间是不同的。左上面板：红色癌症，黑色非癌症。右下面板：未受影响、红色和癌症的EGV分布。

癌症患者的EGV高于健康人（图4a），这达到了统计学意义（p<0001）（图4b）。健康人的EGV在男性和女性中相似，而男性癌症患者的EGV高于女性癌症患者（图4c）。

图4d显示了EGV在受影响（绿色）和未受影响（红色）个体中的分布。EGV阳性个体具有发生癌症的遗传易感性（用虚线标记）这些个体可能存在增加癌症风险的突变或多态性。将EGV与癌症状态进行比较，以使用ROC曲线检查预测性能。绘制了这些ROC曲线和ROC曲线下面积的95%置信区间（AUC）（参见在线资源图ESM4）模型1和模型2显示出相似的大AUC值，0.93-0.94，因此，当个体EGV高阳性时，与EGV高阴性的个体相比，这表明其具有较高的癌症遗传易感性

这些特征解释了EGVs与观察到的表型之间的联系，也解释了EGVs的生物学意义。

由于个体的EGV是父亲EGV的½加上母亲EGV的½，因此我们使用该父母平均值预测癌症状态，并使用该值作为个体EGV的代理（图5a）。这些平均值的预测能力用相应的AUC测试，AUC表现为0.713-0.791（图5b）。

图5：父母平均预期遗传值与后代预期遗传值。红色，癌症，左面板。使用父母平均EGV的ROC曲线，右面板，模型2。

BLUP与Gail和Claus模型的比较

图6提供了BLUP遗传风险估计与绘制风险值的Gail模型之间的比较，两个值之间存在0.6[0.44-0.73]p<0.01的统计显著相关性。此外，根据克劳斯模型[14]，BLUP遗传风险估计与乳腺癌累积概率之间的相关性为0.23[0.02-0.42]。

图6：10个癌症大发病家族的BLUP遗传风险估算、EGV和Gail模型比较黑点表示感染。蓝点不受影响。

遗传性和非遗传性癌症的家庭和个人分类

在图7中，我们显示了EGV阳性家族中的个体数量（即癌症的遗传易感性）。我们可以区分具有多个EGV阳性成员的家族，这些家族可能携带中-高风险等位基因（虚线右侧），以及具有少数EGV阳性成员的家族，因此可能携带具有可变外显率的中-低风险等位基因（虚线左侧）。

图7：使用EGV值将这些家族分类为散发家族或遗传家族。A.EGV值为正的家庭中个体的频率。B家族中有1或2例（散发性）或3例或3例以上（遗传性）的家族EGV中位数。C中位家族EGV值与癌症发病率（即遗传风险）的关系图。

具有1或2例癌症病例（通常被视为散发）的家庭的中位EGV分别为-0.23（-0.25，-0.21,25和75个百分位数，而患有3个或更多案例的家庭中位数（哪个depending on the relationship of affected individual’s would be considered as having a hereditary component) was-0.18 (-0.21, -0.15, 25 and 75 percentiles respectively) (Figure 7b) The median EGV is significantly higher in families with 3 or more cases (-0.18) than families with 1 or 2 cases (p<0.001). As demonstrated in figure 7c we have used these values as criteria to classify and define families as sporadic or with a hereditary component. We have classified those families with an EGV below the median value of families with 1-2 cases as sporadic cancer families. The families with a hereditary component are defined as those with an EGV above the 75^th只有1或2个病例的家族的EGV百分位。我们进一步将具有遗传成分的家族定义为可能具有高风险等位基因（如BRCA2突变）的家族，即EGV大于75的家族^th百分比的家庭的百分比为3个或更多案例。以及可能涉及低媒体风险等位基因的家庭，即75之间的EGV的家庭^th有1或2个病例的家庭百分位数和75^th3例或3例以上家族的百分位。值得注意的是，有3-5例癌症家族的EGV中值在散发性癌症范围内。这些家族中的癌症聚集似乎没有遗传成分，可能是由于共同的环境风险因素。因此，这些家族中的基因检测将e不适当，该模型提供了一种在决定进行基因检测之前评估这些家族遗传成分的工具。

讨论

本研究中应用于乳腺癌家庭的BLUP模型遗传力值不同于零，并强调了多基因遗传模式的有效性。EGV能够区分癌症和非癌症受试者，并为遗传性癌症咨询提供了一个工具，因为它们提供了个人风险评估，即使患者尚未发展为癌症。考虑到结果的二元性，本文给出的结果是可靠和准确的。

通过添加临床、病理和社会人口统计学数据，可以更精确地估计EGV；但是这些数据通常不可用。关于易感基因中存在种系突变的数据可以在稍后阶段很容易地纳入模型中。事实上，基因组信息可用于n结合系谱或单独计算更精确的关系矩阵[40]此外，即使由于缺乏信息而无法构建系谱，基因组时代和衍生的遗传数据也让我们能够构建比系谱更精确的关系矩阵。事实上，下一代测序技术产生的高数量和高质量遗传数据有助于识别通过血统y（IBD）计算，以及我们对连续纯合基因型的长期比较，即所谓的纯合性运行，ROHs[41]确定了基于系谱的方法中未考虑的个体之间的关系[35]。

此处获得的EGV在乳腺癌中的双峰分布与Vazquez等人[26]基于系谱或基因组信息使用BLUP在皮肤癌中计算的分布相似。尽管这些作者发现基因组信息模型在ROC面积方面比系谱模型具有更好的癌症预测能力，但0.58vs0.63，百分比改善率为8%，基因组信息未用于构建关系矩阵。另一方面，基于系谱的方法的经济费用低于需要基因组信息的方法。

BLUP的多基因遗传方法在没有已知种系突变的情况下，提供了一个比假定一个主要等位基因位点的更现实的家族性乳腺癌模型[14]。

BLUP方法也用于收缩方法，如Riddge、套索和弹性网[42,43]为了降低数据的高维性并选择有意义的变量，事实上，BLUP作为一种收缩方法，在遗传力较高时更加重视模型的遗传部分，并惩罚模型的非遗传项。

在临床实践中，可以通过建立一个包含所有系谱和临床变量的数据库来建立遗传性癌症的评估方案，以便计算每个个体的BLUP估计值，并为需要遗传咨询的新感染家庭加入该方案提供参考措施。尽管男性乳腺癌似乎没有遗传成分，但它们会被评估，其遗传附加价值会传给下一代。这是BLUP的一个相关特征，因为其他风险模型对一组同胞[44]赋以相同的值。

图3说明了同一家庭中的BLUP估计值区分相同受影响亲属数量的亲属之间的风险的过程。例如，在173494和474家庭中，第三代表亲的遗传加性值不同。在第173个家庭中^{理查德·道金斯}第三代有三组表亲。其中两组的父母受到影响。7118和7136的后代具有较大的EGV（较高的遗传风险），其次是7138和7121的后代，最后7137和7120的后代具有最小的预期遗传值，但仍有遗传风险。

图5显示，作为突出的定量遗传学，可以计算被定义为父母的平均值的后代的值加上随机孟德尔噪声系数，[39]，其可以用于遗传咨询作为EGV的近似预测。为临床医生提供价值关于未来后代的遗传癌症风险。

对于没有致病性种系突变或易感基因中未知重要变异携带者的家庭的管理，仍然有很多猜测，特别是关于开始筛查的年龄、筛查方式（乳腺X光摄影或MRI）以及预防性手术或预防性化疗的建议。这些类型的模型在指南不太明确的此类族中可能最有用。这一信息有助于确定筛选个体的优先顺序，应相应地筛选具有较大遗传加性值的家庭成员，以便确定处于潜在可治愈阶段的癌症。德赢vwin首页网址

Gail模型用于临床，以确定未来5年内罹患癌症的概率，而BLUP方法估计终生遗传风险。我们将Gail模型的风险评估值与我们的模型进行了比较，发现两者之间存在正相关关系，说明它们具有相同的癌症风险发展的潜在机制，但对风险值的解释不同。Gail模型使用给定数量的亲属进行估计，而BLUP则可以使用整个家族树。

克劳斯模型假设一个双列主基因座是乳腺癌易感性的根本原因，而BLUP模型提出了一个多基因加性模型，这就是两个模型之间相关性低的原因。

还有其他模型来预测基于年龄的估计的遗传癌风险，如估计的估计，而Blup可以独立于年龄，性别或其他混乱来计算遗传风险。其次，Boadicea通过个人计算风险，而Blup在遗传咨询中的单一步骤中具有eGV的eGV，并且在遗传咨询中的额度中的可能性，可以在遗传咨询中获得所有人口的可能性。

BLUP方法为遗传性癌症提供了一种新的应用，而癌症遗传学中使用的其他模型无法提供这种应用。如图7所示，BLUP可识别EGV较大的家族，即遗传性癌症家族，并有助于区分可能存在高风险等位基因（如BRCA突变）的家族和具有中低风险等位基因的家族。BLUP方法可以帮助我们识别候选家庭，通过高密度下一代测序探索其遗传背景，寻找更罕见的多态性。以及破译研究中发现的许多意义未知的变异对风险的影响BRCA1和BRCA2基因等。

BLUP模型可以应用于其他乳腺癌人群或其他癌症类型，以验证这些结果。与Gail和Claus模型相比，该模型还提供了独立于环境因素的可靠癌症遗传风险评估，假设了癌症易感性的多基因潜在机制。

结论

所得结果给出了乳腺癌不同于零的遗传力的可靠估计，并为每个个体提供了有意义的遗传加性值。

我们已经获得了对每个人的明尼苏达乳房数据中的乳腺癌的可靠性估算乳腺癌的可遗传性0.1-0.2之间，不同的癌症添加剂值。这些价值单独或与其他方法组合改善遗传癌症环境中的癌症预测，以及鉴定与癌症相关的新基因/多态性以及评估变异对乳腺癌风险不明意义的影响。Blup能够在估计中纳入临床和病理信息，并考虑多基因遗传模型而不是常染色体显性模型。

作者的贡献

JCMA和LAGC设计了这项研究，开发了统计分析工具，并撰写了手稿。

JCMA有助于R和LAGC检验遗传力后验密度的统计规划。

JE和CGP为BLUP方法在临床癌症研究中的应用提供了临床癌症方面的专业知识，并撰写了手稿。

所有作者审查，评论和批准的手稿。

致谢

作者感谢玛尔塔·拉瓦在手稿中的宝贵评论。

利益冲突

作家JC Martínez Avila、作家C Guillen Ponce、作家J Earl和作家LA García-Cortés声明他们没有利益冲突。

本工作中使用的数据可在R包Kinship2上免费提供。数据对应于明尼苏达数据乳腺癌家庭研究。此数据集中的主题是匿名的。

工具书类

高渗透遗传性肿瘤综合征。致癌基因23:6445 - 6470。[Ref。]
Evans DG，Brentnall AR，Harvie M，Dawe S，Sergeant JC，et al.（2014）《国家乳腺筛查计划中年轻女性乳腺癌风险：应用NICE指南进行额外筛查和化学预防的意义》。癌症预防研究7:993-1001[德赢vwin首页网址Ref。]
Kandoth C，Mclellan MD，Vandin F，Ye K，Niu B等。（2013）跨越12种主要癌症类型的突变景观和意义。自然502：333-339。[Ref。]
Bogdanova N, Helbig S, Dörk T(2013)遗传性乳腺癌:越来越多的多基因谜题。癌症临床实践11:12。[Ref。]
Eccles Sa，Aboagye Eo，Ali S，Anderson As，Armes J等人。（2013）乳腺癌成功和治疗的关键研究差距和翻译优先事项。乳腺癌RE5：R92。[Ref。]
国家卫生和保健卓越研究所(2013)家族性乳腺癌:家族性乳腺癌风险人群的分类和护理，以及乳腺癌家族史患者的乳腺癌和相关风险管理。[Ref。]
NCCN指德赢vwin首页网址南（2016年）国家综合癌症网络[Ref。]
Lalloo F, Evans DG(2012)家族性乳腺癌。临床82:105-114。[Ref。]
Vahteristo P，Syrjäkoski K，Heikkinen T，Eerola H，Aittomäki K等（2006）BARD1变体Cys557Ser和Val507Met在乳腺癌易感性中的作用。欧洲基因14:167-172。[Ref。]
Loveday C、Turnbull C、Ruark E、Xicola RMM、Ramsay E等。（2012）生殖系RAD51C突变导致卵巢癌易感性。Nat基因44:475-476[Ref。]
Thompson ER, Rowley SM, Sawyer S, kConFab, Eccles DM，等(2013)卵巢癌患者及有卵巢癌或乳腺癌家族史的患者RAD51D分析。PLoS One 8: e54772。[Ref。]
Antoniou AC，Easton DF（2003）《乳腺癌的多基因遗传：关联研究设计的意义》，Genet Epidemiol 25:190-202[Ref。]
Southey MC, Park DJ, Nguyen-Dumont T, Campbell I, Thompson E, et al. (2013) COMPLEXO:通过下一代合作确定乳腺癌缺失的遗传性。乳腺癌研究15:402。[Ref。]
Claus EB, Risch N, Thompson WD(1994)早发型乳腺癌常染色体显性遗传。对风险预测的影响。癌症73:643 - 651。[Ref。]
Gail MH、Brinton LA、Byar DP、Corle DK、Green SB等（1989年）预测每年接受检查的白人女性患乳腺癌的个体化概率。《国家癌症研究所学报》81:1879-1886。[Ref。]
Costantino JP，Gail MH，Pee D，Anderson S，Redmond CK等人。（1999）探讨突出侵袭性和乳腺癌癌症发病风险的模型的验证研究。J Natl Cancer Inst 91：1541-1548。[Ref。]
Gail MH，Costantino JP（2001）验证和改进预测乳腺癌绝对风险的模型。国家癌症研究所杂志93:334-335[Ref。]
Rockhill B，Spiegelman D，Byrne C，Hunter DJ，Colditz GA（2001）对Gail等人乳腺癌风险预测模型的验证和对化学预防的影响，《国家癌症研究所杂志》93:358-366[Ref。]
Euhus DM，Leitch AM，Huth JF，Peters GN（2002）专门乳腺癌风险评估诊所中gail模型的局限性。乳腺杂志8:23-27[Ref。]
Antoniou AC，Hardy R，Walker L，Evans DG，Shenton A等。（2008）预测携带BRCA1或BRCA2突变的可能性：使用英国遗传学诊所的数据验证BOADICEA，BRCAPRO，IBIS，Myriad和曼彻斯特评分系统。J Med Genet 45:425-431[Ref。]
Parmigiani G，Chen S，Iversen ES，Friebel TM，Finkelstein DM等。（200）预测BRCA1和BRCA2突变模型的有效性。安实习医师147:441-450。[Ref。]
Saslow D，Boetes C，Burke W，Harms，Leach MO，et al.（2007）美国癌症协会乳腺筛查指南，将MRI作为乳腺X光摄影术的辅助手段。C德赢vwin首页网址A癌症临床杂志57:75-89[Ref。]
Murphy CD，Lee JM，Drohan B，Euhus DM，Kopans DB等。（2008）美国癌症协会磁共振成像乳腺筛查指南：基因检测的论点。癌症113:3116-312德赢vwin首页网址0[Ref。]
亨德森CR（1975）选择模型下的最佳线性无偏估计和预测。生物特征31:423-447[Ref。]
Speed D，Balding DJ（2014）MultiBLUP：复杂性状的改进SNP预测。基因组研究29:1550-1557[Ref。]
Vazquez AI，de los Campos G，Klimentidis YC，Rosa GJM，Gianola D等。（2012）改进人类皮肤癌风险预测的综合遗传方法。遗传学192:1493-1502[Ref。]
Sellers TA，King RA，Cerhan JR，Chen PL，Grabrick DM，et al.（1999）明尼苏达州乳腺癌家族历史队列中癌症发病率的50年随访。癌症流行病学生物标记物Prev 8:1051-1057。[Ref。]
Grabrick DM、Cerhan JR、Vierkant RA、Therneau TM、Cheville JC等（2003）明尼苏达州乳腺癌家族研究中乳腺癌和前列腺癌家族聚集性的评估。癌症检测预测27:30-36。[Ref。]
Sinnwell JP, Therneau TM, Schaid DJ(2014)谱系数据的亲属关系2 R包。哼这里78:91-93。[Ref。]
R开发核心团队（2013）R：统计计算的语言和环境。R基金会统计计算，维也纳，奥地利。[Ref。]
Hadfield J（2010）MCMC用于多响应通用线性混合模型的方法：MCMCGLMM R包。j stat softw 33：1-22。
Stekhoven DJ，Bühlmann P（2012）混合型数据的Missforest非参数缺失值插补。生物信息学28:112-118[Ref。]
Sing T, Sander O, Beerenwinkel N, Lengauer T (2005) ROCR: R.生物信息学中的可视化分类器性能21:3940-3941。[Ref。]
费舍尔·拉（1918）《孟德尔遗传假设下的亲属关系》，爱丁堡社会科学院学报52:399-433。
Malécot G（1948年）《高等教育的数学模型》，巴黎国际教育学院编辑。
García-Cortés LA, Cabrillo C, Moreno C, Varona L(2001)数量性状遗传背景的假设检验。Genet Sel Evol 33: 3-16。[Ref。]
Sorensen D，Andersen S，Gianola D，Korsgaard I（1995）使用Gibbs抽样的阈值模型中的贝叶斯推断。Genet Sel Evol 27:229-249[Ref。]
Heidelberger, P Welch P(1981)模拟中置信区间生成和运行长度控制的谱方法。Comm ACM 24: 233-245。[Ref。]
Falconer DS，Mackay TFC（1998）《数量遗传学导论》，第四版。英国埃塞克斯：朗文集团有限公司。
Forni S，Aguilar I，Misztal I（2011）使用表型、系谱和基因组信息进行单步分析的不同基因组关系矩阵。Genet Sel Evol 43:1[Ref。]
Luan T，Yu X，Dolezal M，Baganto A，Meuwissen T（2014）基于纯合性运行的基因组预测。Genet Sel Evol 46:64[Ref。]
沈X，Alam M，Fikse F，Rönnegård L（2013）一种新的数量遗传学广义岭回归方法。遗传学193:1255-1268[Ref。]
Endelman JB（2011）Ride回归和其他内核与R包RRBLUP进行基因组选择。植物基因组J 4：250-255。[Ref。]
Kastrinos F，Steyerberg EW，Mercado R，BalmañaJ，Holters S等人。（2011）Premm1,2,6模型预测了基于癌症历史的MLH1，MSH2和MSH6种系突变的风险。胃肠学140：73-81。[Ref。]
Lee AJ，Cunningham AP，Kuchenbaecker KB，Mavaddat N，Easton DF等。（2014）BOADICEA乳腺癌风险预测模型：癌症发病率、肿瘤病理学和网络界面的更新。Br癌症杂志110:535-545。[Ref。]

在此下载临时PDF

PDF

条信息

物品类型：研究文章

引用:Martínez-Ávila JC，Guillén-Ponce C，Earl J，García-Cortés LA（2016）遗传性终身癌症风险评估模型：乳腺癌的案例研究。Int J Mol Genet and Gene Ther 2（1）：doihttp://dx.doi.org/10.16966/2471-4968.106

出版历史：

收到日期：2016年8月17日

接受日期:2016年9月28日

发表日期:2016年10月4日

全文

数据