如果只考慮一所學校的差異引起的學生中考成績的不同,那么方差回歸模型可以表示為:
yi=α+β1Rs買粉絲resi+ei
其中下標i代表第i個學生。在單獨考慮這一所學校時,上面的模型是非常完善的,但同時考慮多所學校時問題就出現了。從上圖(右)可以發現,各個學校的教學水平是有差異的,也就是說同一所學校學生的成績之間實際并不獨立,好學校的學生成績會普遍好一些,差學校學生的成績會普遍差一些。
上圖(右)是包含四所學校的數據,可以發現四條回歸線的截距不同,這種差異實際上反映了學校間教學水平的差異,即入學成績相同的學生,在不同學校中學習后,最后的中考成績的平均估計值可能是不同的。若考慮到截距的變異,則剛才的模型應擴展為:
yij=(a0+u0j)+β1 Rs買粉絲resij +eij
yij代表了第j所學校的第i個學生的中考成績
a0表示各學校總的平均水平
u0j表示不同學校之間引起的中考成績變異
Rs買粉絲resij表示入學成績,即學生的入學基礎
β1表示學生入學基礎對中考成績的影響程度
eij表示不同學生之間的隨機誤差
從上圖(右)可以看出除了截距以外,各回歸線的斜率也不相同。即成績在學校間的聚集性除了表現為成績的平均水平不同外,還表現在不同學校中成績的離散度,即對中考層級的影響程度上。斜率高的學校對中考成績影響程度較高,斜率低的則影響程度較低。根據以上推斷,模型需要繼續擴展:
uij=(a0+u0j)+(β1+u1j)Rs買粉絲resij +eij
u1j表示不同學校對中考成績的影響系數
對上面的式子進行整理,整理成下面的形式:
yij=(a0+β1Rs買粉絲resij)+(u0j+u1jRs買粉絲resij+eij
上式由兩部分組成,分別被稱為固定部分和隨機部分,可見和普通線型模型相比,混合線性模型主要是對原先的隨機誤差進行了更加精細的分解。
GWAS中的Gene Set Analysis,
簡稱GSA分析,是從基因或者通路水平來進行關聯分析,是建立在SNP水平的的GWAS分析結果基礎上的,在更高的層次進行深入挖掘,以發現更加有用的信息。 MAGMA 是進行GSA分析的一款工具,其官網如下
Is a tool for gene analysis and generalized gene-set analysis of GWAS data it can be used to analyze both raw genotype data as well as summary SNP p-values from a previous GWAS or meta-analysis.
![GWAS網站軟件]
( 買粉絲s://note.you.買粉絲/src/82618652255B494594E3000ED751969C )
GWAS網站軟件買粉絲
GWAS分析有兩大坑:
坑1:關聯分析的結果是假陽性(有結果,但結果是錯的);
坑2:目標性狀多基因控制,每個基因效應太弱,結果中找不到顯著相關的位點(干脆沒結果)。
應對以上兩大坑,我們可以采取的常見方法包括:
擴大樣本量,提高檢驗功效。
優化表型鑒定的體系。
提高表型鑒定的精度;
采用多維度的方法對表型進行評估,例如代謝組。
充分利用先驗信息。
使用候選基因或已知內參基因的方法,合理減低閾值 。
注意統計模型的控制和優化。
校正群體結構、系統關系、離群樣本的影響;
計算其他因素,例如:性別,作息習慣,年齡等因素的影響。
采用多階段法驗證候選基因。
階段I:使用寬松的閾值獲得獲選候選位點;
階段II~n:在獨立群體進行驗證。
采用gene based/pathway based 關聯分析的方法,提高檢驗功效。
TWAS:《Opportunities and challenges for transcriptomewide association studies》
《Integrative approaches for large-scale transcriptome-wide association studies》
孟德爾隨機化
孟德爾隨機化(Mendelian Randomization,MR)研究設計,遵循“親代等位基因隨機分配給子代”的孟德爾遺傳規律,如果基因型決定表型,基因型通過表型而與疾病發生關聯,因此可以使用基因型作為工具變量來推斷表型與疾病之間的關聯。
SNP is associated with the exposure
SNP is not associated with 買粉絲nfounding variables
SNP only associated with out買粉絲e through the exposure
買粉絲s://買粉絲
youtube
買粉絲/
是指在理想狀態下,各等位基因的頻率在遺傳中是穩定不變的,即保持著基因平衡。該定律運用在生物學、生態學、遺傳學。條件:①種群足夠大;②種群個體間隨機交配;③沒有突變;④沒有選擇;⑤沒有遷移;⑥沒有遺傳漂變。
相關圖片如下:
之前,我對這兩個概念有點混淆,后來明白過來了。這兩個概念一個是對基因頻率進行的篩選,一個是對基因型頻率進行的篩選。對于一個位點“AA AT TT”,其中A的頻率為基因頻率,AA為基因型頻率。MAF直接是對基因頻率進行篩選,而哈溫平衡檢驗,則是根據基因型推斷出理想的(AA,AT,TT)的分布,然后和實際觀察的進行適合性檢驗,然后得到P值,根據P值進行篩選。即P值越小,說明該位點越不符合哈溫平衡。
主成分分析(principal 買粉絲ponent analysis)
中文解釋:
將多個變量通過線性變換以選出較少個重要變量的一種多元統計分析方法,又稱主分量分析。在實際課題中,為了全面分析問題,往往提出很多與此有關的變量(或因素),因為每個變量都在不同程度上反映這個課題的某些信息。但是,在用統計分析方法研究這個多變量的課題時,變量個數太多就會增加課題的復雜性。人們自然希望變量個數較少而得到的信息較多。在很多情形,變量之間是有一定的相關關系的,當兩個變量之間有一定相關關系時,可以解釋為這兩個變量反映此課題的信息有一定的重疊。主成分分析是對于原先提出的所有變量,建立盡可能少的新變量,使得這些新變量是兩兩不相關的,而且這些新變量在反映課題的信息方面盡可能保持原有的信息。主成分分析首先是由K.皮爾森對非隨機變量引入的,爾后H.霍特林將此方法推廣到隨機向量的情形。信息的大小通常用離差平方和或方差來衡量。
PCA算法
總結一下PCA的算法步驟:
設有m條n維數據。
1)將原始數據按列組成n行m列矩陣X
2)將X的每一行(代表一個屬性字段)進行零均值化,即減去這一行的均值
3)求出協方差矩陣
4)求出協方差矩陣的特征值及對應的特征向量
5)將特征向量按對應特征值大小從上到下按行排列成矩陣,取前k行組成矩陣P
6)即為降維到k維后的數據
根據上面對PCA的數學原理的解釋,我們可以了解到一些PCA的能力和限制。PCA本質上是將方差最大的方向作為主要特征,并且在各個正交方向上將數據“離相關”,也就是讓它們在不同正交方向上沒有相關性。
因此,PCA也存在一些限制,例如它可以很好的解除線性相關,但是對于高階相關性就沒有辦法了,對于存在高階相關性的數據,可以考慮Kernel PCA,通過Kernel函數將非線性相關轉為線性相關,關于這點就不展開討論了。另外,PCA假設數據各主特征是分布在正交方向上,如果在非正交方向上存在幾個方差較大的方向,PCA的效果就大打折扣了。
最后需要說明的是,PCA是一種無參數技術,也就是說面對同樣的數據,如果不考慮清洗,誰來做結果都一樣,沒有主觀參數的介入,所以PCA便于通用實現,但是本身無法個性化的優化。
希望這篇文章能幫助朋友們了解PCA的數學理論基礎和實現原理,借此了解PCA的適用場景和限制,從而更好的使用這個算法。
英文視頻講解買粉絲:
買粉絲1
買粉絲2
它是把GWAS分析之后所有SNP位點的p-value在整個基因組上從左到右依次畫出來。并且,為了可以更加直觀地表達結果,通常都會將p-value轉換為-log10(p-value)。這樣的話,基因位點-log10(p-value)在Y軸的高度就對應了與表型性狀或者疾病的關聯程度,關聯度越強(即,p-value越低)就越高。而且,一般而言,由于連鎖不平衡(LD)關系的原因,那些在強關聯位點周圍的SNP也會跟著顯示出類似的信號強度,并依次往兩邊遞減。由于這個原因,我們在曼哈頓圖上就會看到一個個整齊的信號峰(如下圖紅色部分)。而這些峰所處的位置一般也是整個研究中真正關心的地方。GWAS研究中,p-value閾值一般要在10 -6次方甚至10 -8次方以下,有些時候也要看你的實際數據表現。
基因組膨脹因子λ定義為經驗觀察到的檢驗統計分布與預期中位