基因cluster都亲人相聚在一起的句子吗

 上传我的文档
 下载
 收藏
该文档贡献者很忙,什么也没留下。
 下载此文档
正在努力加载中...
Gen_Cluster_一个基因表达数据的高维聚类算法
下载积分:1900
内容提示:Gen_Cluster_一个基因表达数据的高维聚类算法,聚类算法,谱聚类算法,fcm聚类算法,聚类算法分类,基于密度的聚类算法,k均值聚类算法,层次聚类算法,蚁群聚类算法,kmeans聚类算法,文本聚类算法
文档格式:PDF|
浏览次数:0|
上传日期: 01:49:11|
文档星级:
该用户还上传了这些文档
Gen_Cluster_一个基因表达数据的高维聚类算法
官方公共微信你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!
在《Genome sequencing reveals insights into physiology and longevity of the naked mole rat》文章中,找human、 mouse 、 rat和naked mole rat的Gene family clusters 的时候,首先把预测到naked mole rat的蛋白序列和下载到human、 mouse 和rat蛋白序列合成一个“大的蛋白序列”文件,然后用此文件同时作为query和database做blastp,生成一个m8格式的 alighment file,然后把alighment file用Solar软件conjoined fragmental alignments for each gene pair,然后用Hcluster_sg提取Gene family clusters,我顺利的做完了前两步; 但是用Hcluster_sg 提取Gene family clusters的时候,不知Hcluster_sg怎么运行?不明白它的输入文件的第三列到底是什么意思,有的说是similarity,有的说是identity,我搞了很久也没弄明白,这个输入文件是用solar生成的结果怎么转化得到的,希望大侠们指点,附件为我做solar生成的结果和Hcluster_sg软件包以及Treefam methodology 在 NMR 基因组中方法,谢谢!
Treefam_methodology_used_in_NMR_genome.docx
For two genes, G1 and G2, the Hscore was defined as a
score (G1G2)/max (score (G1G1),
score (G2G2)) (the score here is the raw Blast score).
这样算出来得Hscore是不是小于1的?因为自身比较的话分值高啊。为啥文献中都是取大于5的。
你好,我从华大没有下下来Solar软件,你能帮我传一份吗?可以的话,能把聚类参数帮我附加一份吗?谢谢!邮箱
你好,请问Hcluster_sg怎么编译错误呢?
这个原始的blast score 和solar得到的score好像不一样,但是算的时候,如果比对上了两段,我该怎么办呢?这时有两个分值,我该用哪个G1/G2的分值作为计算的值呢?
要回复问题请先或
浏览: 3154
关注: 8 人君,已阅读到文档的结尾了呢~~
Gen-Cluster:一个基因表达数据的高维聚类算法算法,聚类,一个,Gen,一个基因,聚类算法,基因聚类的,高维数据
扫扫二维码,随身浏览文档
手机或平板扫扫即可继续访问
Gen-Cluster:一个基因表达数据的高维聚类算法
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由:
将文档分享至:
分享完整地址
文档地址:
粘贴到BBS或博客
flash地址:
支持嵌入FLASH地址的网站使用
html代码:
&embed src='/DocinViewer-4.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布,请您等待!
3秒自动关闭窗口英国《自然,Nature》杂志刊登了文章:   “Genetic Evidence Supports Demic Diffusion of Han Culture”。   这里,对这篇文章做简单的介绍。     (一)中华远古大迁移   根据远古大迁移理论,三万年前非洲人进入中国的南方,然后向北方迁移。   参加中华北上大迁移的部族,只是南方部族的一部分。   江南的一些部族没有北上,江北缺少某些Y基因类型。但是后来,一些江南人来到北方。   所以至今江南的那些Y基因类型仍然比江北多。   (参见:Y-Chromosome Evidence for a Northward Migration of Modern   Humans into Estern Asia During the Last Ice Age   作者:来自复旦大学、上海二医大、中科院等单位。   Am. J. Genet. 65:99)     (二)血统问题(Lineages)   mtDNA比较简单,在人类学中人们用mtDNA研究母系。   在讨论晋、唐、宋大迁移中,光用Y基因就不灵了。   把Y基因与mtDNA结合起来的数据,存在一些明显差异,基因学家用之分析中国古代的迁移。   这个问题牵涉到的名词术语太多,有兴趣者最好去阅读论文的原文。     (三)晋、唐、宋大迁移   基因科学家对Y基因和mtDNA进行分析,估算出古代大迁移的规模。   文章指出,晋朝是第一个迁移高潮,江北向江南移民大约九十万,是当时江南人口的六分之一。   唐朝是江北向江南的第二个移民高潮,人数比晋朝要多。   宋朝是第三个江北向江南的移民高潮,人数达五百万。   论文在中国地图中,标示出了三次大迁移的运动方向。     (四)江南人,你的祖宗是谁?   文章指出,82%江南汉族人,父系血统来自江北。各省不一样。     下面抄录一些省、市人口血统的百分比。   例如,浙江(75,63)表示:   浙江汉族人中,父系是江北人者为75%,母系是江北人者为63%。     安徽(86,81)、广东(67,14)、广西(54,45)、湖北(98,94)、湖南(72,56)、   江苏(78,81)、江西(80,37)、上海(81,84)、四川(75,50)、云南(93,73)     (四)语言学问题     汉文化源于北方华夏,商、周形成山东方言和西部方言。   北方人向江南迁移,形成了吴语、闽语、粤语(Canton)、河洛(Hoklo)、客家(Hakka)等等。   而北方的古代汉语受到满、蒙等民族的影响,形成了普通话。   古代的江南语,保留在江南少数民族的语言中。   ---------   “Genetic Evidence Supports Demic Diffusion of Han Culture”。   作者:金力等。   作者来自:   Fudan University,   Chinese National Human Genome Center,University of Cincinnati,   The Chinese Academy of Science,Kunming etc.   《Nature》,16,September,2004
楼主发言:1次 发图:0张
  上面所说的文章的PDF文件:/nature02878.pdf    Supplementary Table 1
/nature02878-s1.doc  This table provides the general information of the Han populations studied, including the names of population, locations, sample sizes and references. (DOC; 69KB)    Supplementary Table 2 /nature02878-s2.doc  This table gives the Y chromosome haplogroup distribution in the Han populations. (DOC; 79KB)    Supplementary Table 3 /nature02878-s3.doc  This table gives the mtDNA haplogroup distribution in the Han populations. (DOC; 124KB)     ===      Nature 431, 302 - 305 (16 September 2004); doi:10.1038/nature02878    Genetic evidence supports demic diffusion of Han culture    BO WEN1,2, HUI LI1, DARU LU1, XIUFENG SONG1, FENG ZHANG1, YUNGANG HE1, FENG LI1, YANG GAO1, XIANYUN MAO1, LIANG ZHANG1, JI QIAN1, JINGZE TAN1, JIANZHONG JIN1, WEI HUANG2, RANJAN DEKA3, BING SU1,3,4, RANAJIT CHAKRABORTY3 & LI JIN1,3    1 State Key Laboratory of Genetic Engineering and Center for Anthropological Studies, School of Life Sciences and Morgan-Tan International Center for Life Sciences, Fudan University, Shanghai 200433, China  2 Chinese National Human Genome Center, Shanghai 201203, China  3 Center for Genome Information, Department of Environmental Health, University of Cincinnati, Cincinnati, Ohio 45267, USA  4 Key Laboratory of Cellular and Molecular Evolution, Kunming Institute of Zoology, the Chinese Academy of Sciences, Kunming 650223, China    Correspondence and requests for materials should be addressed to L.J. (lijin@ or li.jin@uc.edu).  The mtDNA HVS-1 sequences of 711 individuals from 15 Han populations were submitted to GenBank with accession numbers AY594701–AY595411.    The spread of culture and language in human populations is explained by two alternative models: the demic diffusion model, which involves mas and the cultural diffusion model, which refers to cultural impact between populations and involves limited genetic exchange between them1. The mechanism of the peopling of Europe has long been debated, a key issue being whether the diffusion of agriculture and language from the Near East was concomitant with a large movement of farmers1-3. Here we show, by systematically analysing Y-chromosome and mitochondrial DNA variation in Han populations, that the pattern of the southward expansion of Han culture is consistent with the demic diffusion model, and that males played a larger role than females in this expansion. The Han people, who all share the same culture and language, exceed 1.16 billion (2000 census), and are by far the largest ethnic group in the world. The expansion process of Han culture is thus of great interest to researchers in many fields.    According to the historical records, the Hans were descended from the ancient Huaxia tribes of northern China, and the Han culture (that is, the language and its associated cultures) expanded into southern China—the region originally inhabited by the southern natives, including those speaking Daic, Austro-Asiatic and Hmong-Mien languages—in the past two millennia4, 5. Studies on classical genetic markers and microsatellites show that the Han people, like East Asians, are divided into two genetically differentiated groups, northern Han and southern Han6-8, separated approximately by the Yangtze river9. Differences between these groups in terms of dialect and customs have also been noted10. Such observations seem to support a mechanism involving primarily cultural diffusion and assimilation (the cultural diffusion model) in Han expansion towards the south. However, the substantial sharing of Y-chromosome and mitochondrial lineages between the two groups11, 12 and the historical records describing the expansion of Han people5 contradict the cultural diffusion model hypothesis of Han expansion. In this study, we aim to examine the al that is, that substantial population movements occurred during the expansion of Han culture (the demic diffusion model).    To test this hypothesis, we compared the genetic profiles of southern Hans with their two parental population groups: northern Hans and southern natives, which include the samples of Daic, Hmong-Mien and Austro-Asiatic speaking populations currently residing in China, and in some cases its neighbouring countries. Genetic variation in both the non-recombining region of the Y chromosome (NRY) and mitochondrial DNA (mtDNA)13-16 were surveyed in 28 Han populations from most of the provinces in China (see Fig. 1 and Supplementary Table 1 for details).      Figure 1 Geographic distribution of sampled populations. Shown are the three waves of north-to-south migrations according to historical record. The identifications of populations are given in Supplementary Table 1. Populations 1–14 are northern Hans, and 15–28 are southern Hans. The solid, dashed and dotted arrows refer to the first, second and third waves of migrations, respectively. The first wave involving 0.9 million (approximately one-sixth of the southern population at that time) occurred during the Western Jin Dynasty (AD 265–316); the second migration, more extensive than the first, took place during the Tang Dynasty (AD 618–907); and the third wave, including 5 million immigrants, occurred during the Southern Song Dynasty (AD ).      On the paternal side, southern Hans and northern Hans share similar frequencies of Y-chromosome haplogroups (Supplementary Table 2), which are characterized by two haplogroups carrying the M122-C mutations (O3-M122 and O3e-M134) that are prevalent in almost all Han populations studied (mean and range: 53.8%, 37–71%; 54.2%, 35–74%, for northern and southern Hans, respectively). Haplogroups carrying M119-C (O1* and O1b) and/or M95-T (O2a* and O2a1) (following the nomenclature of the Y Chromosome Consortium) which are prevalent in southern natives, are more frequent in southern Hans (19%, 3–42%) than in northern Hans (5%, 1–10%). In addition, haplogroups O1b-M110, O2a1-M88 and O3d-M7, which are prevalent in southern natives17, were only observed in some southern Hans (4% on average), but not in northern Hans. Therefore, the contribution of southern natives in southern Hans is limited, if we assume that the frequency distribution of Y lineages in southern natives represents that before the expansion of Han culture that started 2,000 yr ago5. The results of analysis of molecular variance (AMOVA) further indicate that northern Hans and southern Hans are not significantly different in their Y haplogroups (FST = 0.006, P & 0.05), demonstrating that southern Hans bear a high resemblance to northern Hans in their male lineages.    On the maternal side, however, the mtDNA haplogroup distribution showed substantial differentiation between northern Hans and southern Hans (Supplementary Table 3). The overall frequencies of the northern East Asian-dominating haplogroups (A, C, D, G, M8a, Y and Z) are much higher in northern Hans (55%, 49–64%) than are those in southern Hans (36%, 19–52%). In contrast, the frequency of the haplogroups that are dominant lineages (B, F, R9a, R9b and N9a) in southern natives12, 14, 18 is much higher in southern (55%, 36–72%) than it is in northern Hans (33%, 18–42%). Northern and southern Hans are significantly different in their mtDNA lineages (FST = 0.006, P & 10-5). Although the FST values between northern and southern Hans are similar for mtDNA and the Y chromosome, FST accounts for 56% of the total among-population variation for mtDNA but only accounts for 18% for the Y chromosome.    A principal component analysis is consistent with the observation based on the distribution of the haplogroups in Han populations. For the NRY, almost all Han populations cluster together in the upper right-hand part of Fig. 2a. Northern Hans and southern natives are separated by the second principal component (PC2) and southern Hans' PC2 values lie between northern Hans and southern natives but are much closer to northern Hans (northern Han, 0.58 0.01; southern Han, 0.46 0.03; southern native, -0.32 0.05), implying that the southern Hans are paternally similar to northern Hans, with limited influence from southern natives. In contrast, for mtDNA, northern Hans and southern natives are distinctly separated by PC2 (Fig. 2b), and southern Hans are located between them but are closer to southern natives (northern Han, 0.56 0.02; southern Han, 0.09 0.06; southern native, -0.23 0.04), indicating a much more substantial admixture in southern Hans' female gene pool than in its male counterpart.      Figure 2 Principal component plot. a, b, Plots are of Y-chromosome (a) and mtDNA (b) haplogroup frequency. Population groups: H-M, Hmong-M DAC, D A-A, Austro-A SH, southern H NH, northern Han.              The relative contribution of the two parental populations (northern Hans and southern natives) in southern Hans was estimated by two different statistics19, 20, which are less biased than other statistics for single-locus data21 (Table 1). The estimations of the admixture coefficient (M, proportion of northern Han contribution) from the two methods are highly consistent (for the Y chromosome, r = 0.922, P & 0.01; for mtDNA, r = 0.970, P & 0.01). For the Y chromosome, all southern Hans showed a high proportion of northern Han contribution (MBE: 0.82 0.14, range from 0.54 to 1; MRH: 0.82 0.12, range from 0.61 to 0.97) (see refs 20 and 19 for definitions of MBE and MRH, respectively) indicating that males from the northern Hans are the primary contributor to the gene pool of the southern Hans. In contrast, northern Hans and southern natives contributed almost equally to the southern Hans' mtDNA gene pool (MBE: 0.56 0.24 [0.15, 0.95]; MRH: 0.50 0.26 [0.07, 0.91]). The contribution of northern Hans to southern Hans is significantly higher in the paternal lineage than in the maternal lineage collectively (t-test, P & 0.01) or individually (11 out of 13 populations for MBE, and 13 out of 13 populations for MRH: P & 0.01, assuming a null binomial distribution with equal male and female contributions), indicating a strong sex-biased population admixture in southern Hans. The proportions of northern Han contribution (M) in southern Hans showed a clinal geographic pattern, which decreases from north to south. The Ms in southern Hans are positively correlated with latitude (r2 = 0.569, P & 0.01) for mtDNA, but are not significant for the Y chromosome (r2 = 0.072, P & 0.05), because the difference of Ms in the paternal lineage among southern Hans is too small to create a statistically significant trend.    We provide two lines of evidence supporting the demic diffusion hypothesis for the expansion of Han culture. First, almost all Han populations bear a high resemblance in Y-chromosome haplogroup distribution, and the result of principal component analysis indicated that almost all Han populations form a tight cluster in their Y chromosome. Second, the estimated contribution of northern Hans to southern Hans is substantial in both paternal and maternal lineages and a geographic cline exists for mtDNA. It is noteworthy that the expansion process was dominated by males, as is shown by a greater contribution to the Y-chromosome than the mtDNA from northern Hans to southern Hans. A sex-biased admixture pattern was also observed in Tibeto-Burman-speaking populations22.    According to the historical records, there were continuous southward movements of Han people due to warfare and famine in the north, as illustrated by three waves of large-scale migrations (Fig. 1). Aside from these three waves, other smaller southward migrations also occurred during almost all periods in the past two millennia. Our genetic observation is thus in line with the historical accounts. The massive movement of the northern immigrants led to a change in genetic makeup in southern China, and resulted in the demographic expansion of Han people as well as their culture. Except for these massive population movements, gene flow between northern Hans, southern Hans and southern natives also contributed to the admixture which shaped the genetic profile of the extant populations.    Methods  Samples Blood samples of 871 unrelated anonymous individuals from 17 Han populations were collected across China. Genomic DNA was extracted by the phenol-chloroform method. By integrating the additional data obtained from the literatures on the Y chromosome and on mtDNA variation, the final sample sizes for analysis expanded to 1,289 individuals (23 Han populations) for the Y chromosome and 1,119 individuals (23 Han populations) for mtDNA. These samples encompass most of the provinces in China (Fig. 1 and Supplementary Table 1).    Genetic markers Thirteen bi-allelic Y-chromosome markers, YAP, M15, M130, M89, M9, M122, M134, M119, M110, M95, M88, M45 and M120 were typed by polymerase chain reaction-restriction-fragment length polymorphism methods11. These markers are highly informative in East Asians23 and define 13 haplogroups following the Y Chromosome Consortium nomenclature24.    The HVS-1 of mtDNA and eight coding region variations, 9-bp deletion, 10397 AluI, 5176 AluI, 4831 HhaI, 13259 HincII, 663 HaeIII, 12406 HpaI and 9820 HinfI were sequenced and genotyped as in our previous report22. Both the HVS-1 motif and the coding region variations were used to infer haplogroups following the phylogeny of East Asian mtDNAs18.    Data analysis Population relationship was investigated by principal component analysis, which was conducted using mtDNA and Y-chromosome haplogroup frequencies and SPSS10.0 software (SPSS Inc.). The genetic difference between northern and southern Hans was tested by AMOVA25, using ARLEQUIN software26. ADMIX 2.0 (ref. 27) and LEADMIX21 software were used to estimate the level of admixture of the northern Hans and southern natives in the southern Han populations, using two different statistics19, 20. The selection of parental populations is critical for appropriate estimation of admixture proportion28, 29 and we were careful to minimize bias by using large data sets across East Asia. In this analysis, the average haplogroup frequencies (for Y-chromosome or mtDNA markers, respectively) of northern Hans (arithmetic mean of 10 northern Hans) were taken for the northern parental population. The frequency of southern natives was estimated by the average of three groups including Austro-Asiatic (NRY, 6 mtDNA, 5 populations), Daic (NRY, 22 mtDNA, 11 populations) and Hmong-Mien (NRY, 18 mtDNA, 14 populations). The geographic pattern of Han populations was revealed by the linear regression analysis of admixture proportion against the latitudes of samples1, 3.    PDF文件:/nature02878.pdf  
  而北方的古代汉语受到满、蒙等民族的影响,形成了普通话。     古代的江南语,保留在江南少数民族的语言中。   _______________________________  我也是南方人普通话虽不很好,但是知道你小子加私货。  而且像你们这种没教养的蠢货,就喜欢加私货。如:改人家语言学家王力的著作,大量的在书中加私货传到网。中国人的根在北方这点不容置疑.
  接着讨论啊
  那又如何?不都是中国人?唧唧歪歪的弄这些有什么用?
  坐等待会一群爱国主义者打口水仗...
  中国汉族血统还是很纯的,现代基因学研究证明历史上北方的民族融合几乎不存在  我们先做一个假设,如果中国北方真的发生了大规模的民族融合,那么突厥语民族(匈奴、突厥)、蒙古语民族(鲜卑、契丹、蒙古)、满语民族(女真、满州),应该和汉族有相同的共有Y染色体类型分布。   但我们研究R1a1、C3c、O2b三个染色体类型,却发现,汉族人中找不到这三种类型的Y染色体。   首先说C3c,复旦大学生命科学院数据库里有560多个北方汉族样本、1200多个南方汉族样本(2004年时),里面居然没有一个C3c,而在外蒙地区的蒙古人中,这个比例为17%,在哈萨克族人中为12%,在图瓦人中24%,也就是在突厥语和蒙古语民族人口中出现频率都特别高!而560多个汉族和1200多个南方汉族人群样本中,竟然没有一个是C3c,基本排除了历史上突厥语、蒙古语民族和汉语人群的大规模融合,至少在父系上的Y染色体中找不到证据。   其次再说R1a1,这个是中亚突厥语民族特有基因,在乌兹别克人中为20.1%,在Hkoton人中为80%以上,而在汉族人中,没有发现R1a1,汉族人中有将近1%的R1和P,但不是R1a1,而是他们在1.5万年前的远亲,中亚突厥人的R1a1出现在年,对汉族的Y染色体类型多样性的贡献为0!   最后说O2,O2在560个北方汉族人出现的频率为零,一个也没有找到,而在满族人中,为23%,在中国朝鲜族中为44%,在韩国朝鲜族中为32%,在riben人中为30%。完全可以排除北方汉族和满语民族、朝鲜语民族的融合可能。在南方汉族人1200个样本中,有非常少的O2,但不是O2b,虽然可以检测到,但是也应该看到,在泰国O2(不是O2b)为63%,在壮族中,O2为36%,南方汉族的O2必然是来自这些民族,而不能隔着北方汉族来自东北亚地区。   简单说,汉族有R1没有其子类型R1a1(M15),不可能来自突厥语民族!!   有C3(M217)但没有其子类型C3c(M48,这个是成吉思汗的基因,已经通过测定其后代而确定),不可能来自蒙古语民族!!  不要说O2b、O2a,就是其总括类型O2(M95)北方汉族都没有,不可能来自满语、朝鲜语、泰语、马来语民族。   所以历史上基本上可以排除发生过大规模民族融合的可能!   另外,我们还可以从另外一个方面论证,汉族、藏族、羌族、白族、彝族、土家族等民族,有一种特别奇特的标志性Y染色体类型O3e,也就是M134,各地都超过了30%,,出现时间95%的置信区间为年,概率峰值年,这个必然是汉藏语系年前共有的基因,而不可能来自任何一个其他民族。从另一个角度论证了汉族的基因在年前汉藏语分化时就没有发生过大规模的变化,也就从根本上否定了北方地区的大规模融合。因为从概率上看,小概率不会在短短50~100代系内发生。  成吉思汗基因C3c(M48),已经通过对辽宁阜新、内蒙通辽地区的“包”“宝”等其父系后裔蒙古人的实体证实,在外蒙地区为17%,是比较高的   概率峰值出现在年,是成吉思汗家族Borjijin的,蒙古文意思是“灰色眼睛”的。   在C3中,还有一个新的簇,人口比例超过了成吉思汗的后代,不知道是谁的,年代95%置信区间在500~25000年间,估计来自古代突厥语民族的   在汉族、日本、朝鲜等民族中,都没有C3c,汉族的C全部是C3(M217),主要是C3a。   O的,其中O3e(M134)是汉藏的,其中M117在汉族和畲族人都很多,虽然畲族不是汉藏的。   当然,我这个的假设前提是现代蒙古语、突厥语民族和古代蒙古语、突厥语民族是血统继承的,而不是取代过程,我觉得这个应该是没有问题的   东北地区和riben地区的D是D2,汉藏语很多民族是有D的,但基本都是D1(M15),藏族、彝族、白族等等,非Sino-T的也有瑶族的勉人中,超过50%的人是D1(M15),而汉族D1的频率特别低,这点从汉藏分化起可能就形成了,后期东北和riben、琉球的D2对中原地区没有影响。   印度洋安达曼人、维达人,南洋的苏门达拉、达雅克、沙捞越的马来人的D是D,更古老些,和北边的D1、D2都不同   汉族人中的K是有M9而不具有M214、45、20、5四个点的,也就是说不是O、N、P、Q、R、L、M的但有M9点的,因为人数少而不单独列出来了   汉族有11%的K,新几内亚(伊里安岛)人的K、意大利人7%的K,格鲁吉亚15%的K,各不相同,不是一类。   我知道新几内亚的是M230,汉族和彝族的是M147,意大利和格鲁吉亚那边的是什么就不知道了。   汉族没有O2(M95)的,同意楼上中原的说法,O是有M175但没有M119、M95、M122的,这个类型还不少呢。   O不是只分那三种的,南方汉族人中O比北方高,类型多,显示了他们的多样性,可能是O的起源地,而远端的地区,比如中亚的民族中,全部都是O3,单一所以不可能是O的起源地 。   汉族人中还有一种有M214而没有M175(O)或者M178(N)的,也就是不属于O或者N而是两者之外的第三种类型,这个在彝族、白族、纳西族都有,在riben人中也有,表示为ON联合型,在北边是没有的   我知道“乐家”和羌氐人指的是什么了,你们说的一定是H5(K)里的那个,看的是复旦的那个   其实标记的里有O2的,是H11、H12,在北方汉族中没有的,在南方有的,尤其是H12(M111),H5不是O2的 。   如果历史上汉族和蒙古,突厥,匈奴,满族等民族发生过大规模融合,那么在遗传基因中就会显示出来,会有大量的基因特征和蒙古,突厥,匈奴,满族等民族的基因相同,而实际结果是完全不同。   倒是南北方汉人的基因完全一致   好了,现在我们知道了。中国史学界最SB的结论就是“ 民族融合论”。  在复旦提取的20万份汉族人样本(从南到北)中,M122的比例是200:1,这就说,汉族主体血统太过鲜明,根本不存在民族大融合的问题。  现代分子生物学的研究表明[1],汉族是世界所有主要民族里血统相对最纯的[1][2].  在汉族中,北方汉族和岭南以北的南方汉族,无论是父系,还是母系,血统都十分接近,都很纯.岭南以南,福建的父系血统跟北方汉族完全一致,但母系却有高达70%来自南方当地土著,所以说客家人或福建人是汉族相对最纯的缺乏科学依据,因为这种结论没有考虑母系大量混血的情况.  汉族男子和非洲人生了孩子,能算纯种汉族吗?显然不能,虽然从父系遗传上是纯种汉族。  汉族,在岭南以北,可以算遗传学的北方汉族,基因高度接近,无论哪里的汉族,相似度在80%以上。  岭南以北的南方汉族:  父系跟北方汉族 85%接近  母系根北方汉族 80%接近  由于北方汉族也不能算就认定是纯种汉族,因此岭南以北的南方汉族,基本上可以算跟北方汉族一样纯的汉族,谁也不比谁更纯,都多少融入微量的异族血统(当然比亚洲其他民族的血统还是纯得多)。  而在岭南以南的汉族:  广东:  父系跟北方汉族65%接近,母系跟北方汉族只有20%相似[1],广东汉族的母系绝大部分(80%左右)应该来自南方当地的壮,傣,越南等百越民族。  广西:  父系和母系都跟北方汉族有大概50%相似,另外根据最新的广西医学院的Rui-Jing Gan[2]等人的研究,广西平话汉族,实际应该没什么汉族血统,只能算文化上的汉族,在血统上,与壮/傣/百越等少数民族血统基本一致[3]。  福建:  父系跟北方汉族100%接近(看来福建人还真是南下的汉族,父系根本没有任何民族融合),母系则跟北方汉族只有30%相似[1][2]。  资料出处:  1,复旦大学的文波,李辉等人2004nia年发表了对中国汉族基因的最新研究,发表在世界最重要的学报,NATURE(自然)上:  2, 复旦大学的Xue教授在2008年的最新关于中国人种血统的论文,研究再次证实了[1]的结论,论文采用了数量惊人的样本,同时覆盖了少数民族。  3,广西医学院2008年的最新研究,发表在Journal of Human Genetics, 证明平话广西汉族实际没有多少汉族血统,只是文化意义的汉族而已,血统基本跟壮族,傣族,越南等东南亚人种一致。
  英国《自然》2004年9月杂志刊登了复旦大学金力研究员的文章,通过对南方各省汉人的基因研究,得出的结论和史籍记载基本吻合,证明汉民族的散播方式主要是通过人口迁徙传播(也就是说,维系汉族内部感情的第一位因素还是血缘联系),而不是政治文化扩张。比如福建省男性的Y基因和北方汉族具有100%的相似性,亲子鉴定的结果证实了福建人源自中原的历史记载。这也颠覆了台独分子前些年叫嚣什么台湾人源自南岛人,是一个独立的血缘民族的说法了。  我觉得现在基因研究水平尚不能揭示人种问题的全部谜团。比如说中国汉人至少经历几次自南向北,自北向南的数次反复迁徙。汉人血系比较典型而肯定的迁徙有:史前时代由南向北迁徙,秦朝-元朝由北向南的几度迁徙,明朝初年由南向北的迁徙(补充人口)等等。所以经历这几次反复,汉族的标准基因在哪儿已经很难说清楚了,不过基因学研究所表现出来的汉族Y基因(父系)高度的一致性确实也可以证实汉族血缘数千年来的稳定性,这一点和史学家的猜测有一定的出入,也似乎提示了黄帝始祖的存在。  再就是,除开迁徙的原因,北方少数民族确实几度在历史上在中原人口中占有一定比例,过去一般认为这些少数民族融入了汉族,但是基因表现不太支持这种印象。事实上,北方大部分汉人的血统其实还是比较纯的,我推测原因大概有几个:  第一个原因少数民族血统的人在汉族统治期间受到歧视和迫害,我最近读《刘禹锡传》,刘禹锡是匈奴刘氏的后裔,但他声称是中山靖王刘胜的后裔,而唐以后拓跋、宇文、长孙这些鲜卑姓氏日见稀少,也都可能说明这个问题;  第二个原因可能是基因差异较大的民族之间通婚出来的后代生存能力劣于同种通婚者(这是我的猜测),或者汉人男性先天生殖能力就远远超出北方胡人;  第三个原因任何时代汉族人群在中原一带在人口数目上都占有较大优势,由于古代人口统计不是很准确,我认为可能即使在南北朝,汉人仍在中原占有压倒性的人口优势;  第四个原因可能是由于某些意识到自己胡人血统的人对中原政权并不忠诚,最后迁徙外境或者叛逃;  第五个原因可能是在朱元璋迁南补北的过程中,元末明初,北方因战乱人口剧减,大量南方汉人被迁到北方,北方的胡人血统被稀释。  附全文:省去图表和引文。  研究单位:  1. 复旦大学现代人类学研究中心遗传工程国家重点实验室生命科学学院摩尔根—谈国际生命科学中心,上海200433,中国  2. 国家人类基因组南方研究中心,上海201203,中国  3. 辛辛纳提大学环境健康系基因组信息中心,辛辛纳提,俄亥俄州45267,美国  4. 中国科学院昆明动物研究所细胞与分子进化重点实验室,昆明650223,中国  语言和文化在人群间的扩散有两种不同的模式:一种是人口扩张、人群迁徙模式;另一种是文化传播模式,人群之间有文化传播,而基因交流却很有限。同一语系的欧洲人群的形成机制争议颇多,争论的焦点在于来自近东的农业文明和语言的扩散是否伴随着大量的农业人口的迁移[1-3]。  有着共同的文化和语言的汉族,人口超过了十一亿六千万(根据2000年的人口统计),无疑是全世界最大的民族。因此汉文化的扩散过程广受各领域研究者的关注。通过系统地对汉族群体的Y 染色体和线粒体DNA 多态性进行分析,我们发现汉文化向南扩散的格局符合人口扩张模式,而且在扩张过程中男性占主导地位。  史载汉族源于古代中国北方的华夏部落,在过去的两千多年间,汉文化(汉语和相关的文化传统)扩散到了中国南方,而中国南方原住民族则是说侗台、南亚和苗瑶语的人群(百越、百濮和荆蛮)[4-5]。经典遗传标记和微卫星位点研究显示,汉族和其他东亚人群一样都可以以长江为界分为两个遗传亚群,南方汉族和北方汉族[6-9]。两个亚群之间的方言和习俗差异也很显著[10]。这些现象看似支持文化传播模式,即汉族向南扩张主要是文化传播和同化的结果。然而,两个亚群之间有着许多共同的Y 染色体和线粒体类型[11-12],历史记载的汉族移民史[5]也与汉族的文化传播模式假说相矛盾。本研究对这两种假说进行了检验,证实汉文化的扩散中的确发生了大规模的人群迁徙(人口扩张模式)。  为了验证这些假说,我们把南方汉族的遗传结构与两个亲本群体作比较,其一是北方汉族,其二是南方原住民族,即现居于中国境内和若干邻国的侗台、苗瑶和南亚语群体。我们分析了来自中国28 个地区汉族群体的Y 染色体非重组区 (NRY) 和线粒体DNA (mtDNA) 遗传多态[13-16],这些样本覆盖了中国绝大部分的省份(详见图1 和补充信息表1)。  父系方面,南方汉族与北方汉族的Y 染色体单倍群频率分布非常相近(见补充信息表2),尤其是具有M122-C 突变的单倍群 (O3-M122 和O3e-M134) 普遍存在于我们研究的汉族群体中(北方汉族在37-71%之间,平均53.8%;南方汉族在35-74%之间,平均54.2%)。南方原住民族中普遍出现的单倍群 M119-C(O1) 和 M95-T(O2a) 在南方汉族中的频率(3-42%,平均19%)高于北方汉族(1-10%,平均5%)。而且,南方原住民族中普遍存在的单倍群O1b-M110, O2a1-M88 和 O3d-M7[17], 在南方汉族中低频存在(平均4%),而北方汉族中却没观察到。如果我们假定起始于两千多年前的汉文化扩散[5]之前南方原住民族的Y 类型频率与现在基本一致的话,南方汉族中南方原住民族的成分应该是不多的。分子方差分析(AMOVA)进一步显示北方汉族和南方汉族的Y 染色体单倍群频率分布没有显著差异(Fst=0.006,P&0.05), 说明南方汉族在父系上与北方汉族非常相似,也即南方汉人与北方汉人的血统很相似。  母系方面,北方汉族与南方汉族的线粒体单倍群分布非常不同(补充信息表3)。东亚北部的主要单倍群 (A, C, D, G, M8a, Y, Z)在北方汉族中的频率(49-64%,平均55%)比在南方汉族中(19-52%,平均36%)高得多。另一方面,南方原住民族的主要单倍群(B, F, R9a, R9b, N9a)[12,14,18]在南方汉族中的频率(36-72%,平均55%)要比在北方汉族(18-42%,平均33%)高得多。线粒体类型的分布在南北汉族之间有极显著差异(Fst=0.006,P&10-5)。虽然南北汉族之间线粒体和Y 染色体的Fst 值相近,但线粒体的南北差异Fst 值占群体间总方差的56%,而Y 染色体仅仅占18%。  用汉族群体的单倍群频率数据所做的主成分(PC)分析与以上结果相一致。对NRY 分析发现,几乎所有的汉族群体都聚在图2a 的右上方。北方汉族和南方原住民族在第2 主成分上分离,南方汉族的第2 主成分值处于北方汉族和南方原住民族之间,但是更接近于北方汉族(北方汉族0.58±0.01;南方汉族0.46±0.03;南方原住民族-0.32±0.05),这表明南方汉族在父系上与北方汉族相近,受到南方原住民族的影响很小。  就mtDNA 而言,北方汉族和南方原住民族仍然被第2 主成分分开(图2b),南方汉族也在两者之间但稍微接近南方原住民族(北方汉族0.56±0.02;南方汉族0.09±0.06;南方原住民族-0.23±0.04),表明南方汉族的女性基因库比男性基因库有更多的混合成分。
  我们进一步用两种不同的统计方法[19-20]来估计两个亲本(北方汉族和南方原住民)对南方汉族基因库的相对贡献(表1),这两个统计量用于单位点(single-locus)分析时比其它的方法更为准确[21]。两种方法得到的混合系数估计值(M,北方汉族的贡献比例)高度一致(Y染色体,r=0.922,P&0.01;线粒体,r=0.970,P&0.01)。就Y 染色体而言,所有的南方汉族都包含很高比例的北方汉族混合比率(MBE:0.82 ± 0.14, 范围0.54-1 ;MRH:0.82 ± 0.12,范围0.61-0.97)(MBE 和MRH 的定义分别见参考文献20 和19),这表明南方汉族男性基因库的主要贡献成分来自北方汉族,也即南方汉族的主要血统源自古代的北方汉人。  相反,南方汉族的线粒体基因库中北方汉族和南方原住民族的贡献比例几乎相等(MBE:0.56±0.24[0.15,0.95]; MRH:0.50±0.26[0.07,0.91])。总体上北方汉族对南方汉族的遗传贡献父系比母系高得多( t-test,P&0.01);各群体分别看也是这样:绝大部分南方汉族群体中北方汉族的贡献在父系上大于母系(MBE ,11/13, MRH,13/13,P&0.01,零假设为男女的贡献相等为二项式分布),这表明南方汉族的群体混合过程有很强的性别偏向。  南方汉族中北方汉族贡献的比例(M)呈现出由北向南递减的梯度地理格局。南方汉族线粒体的M 值与纬度正相关(r2=0.569,P&0.01),但Y 染色体的相关性不显著(r2=0.072,P&0.05),因为南方汉族父系的M 值差异太小,不足以导致统计上的显著性。  表1 南方汉族中的北方汉族混合比例  群体   Y 染色体          线粒体DNA  MBE(±s.e.m)  MRH    MBE(±s.e.m)  MRH  安徽   .868±.119    .929   .816 ±.214   .755  浙江   .751 ±.084   .763   .631 ±.180   .540  福建   1        .966   .341 ±.206   .248  广东1  .677 ±.121   .669    .149 ±.181   .068  广东2  ND        ND     .298 ±.247   .312  广西   .543 ±.174   .608   .451 ±.263   .249  湖北   .981 ±.122   .949   .946 ±.261   .907  湖南   .732 ±.219   .657   .565 ±.297   .490  江苏   .789 ±.078   .821   .811 ±.177   .786  江西   .804 ±.113   .829   .374 ±.343   .424  上海   .819 ±.087   .902   .845 ±.179   .833  四川   .750 ±.118   .713   .509 ±.166   .498  云南1  1        .915   .376 ±.221   .245  云南2  .935 ±.088   .924   .733 ±.192   .645  平均   .819       .819   .560       .500  注:MBE 和MRH 分别为参考文献20 和19 所描述的统计量。MBE 的标准误通过1000 次自展(Bootstrap)获得。把南方原住民族和北方汉族作为南方汉族的亲本群体估计北方汉族的遗传贡献比例,假定2000 多年前开始的混合过程前后南方原住民族的等位基因频率基本不变,并且南北汉族之间的遗传交流不多。实际上,从北方汉族到南方原住民族的基因流动比反向的流动大得多,所以表中的估计值在没有适当调整前是低估的。因而汉族实际的人口扩张程度应该大于本项研究得出的数值。  综上所述,我们提出了两项证据支持汉文化扩散的人口扩张假说。首先,几乎所有的汉族群体的Y 染色体单倍群分布都极为相似,Y 染色体主成分分析也把几乎所有的汉族群体都集合成一个紧密的聚类。再有,北方汉族对南方汉族的遗传贡献无论父系方面还是母系方面都是可观的,在线粒体DNA 分布上也存在地理梯度。北方汉族对南方汉族的遗传贡献在父系(Y 染色体)上远大于母系(线粒体),表明这一扩张过程中汉族男性处于主导地位;换个角度看,在汉族和南方原住民的融合过程中有相对较多的当地女性融入南方汉族中。性别偏向的混合格局也同样存在于藏缅语人群中[22]。  方法  样本  采集中国各地的17 个汉族群体871 个随机不相关个体的血样。用酚-氯仿法抽提基因组DNA。结合文献报道的Y 染色体和线粒体多态性数据,总共分析的样本量是:Y 染色体23 个群体1289 人,线粒体23 个群体1119 人。这些样本涉及了中国的大部分省份(图1 和补充材料表1)。  遗传标记  通过聚合酶链式反应—限制性片断长度多态性(PCR-RFLP)的方法[11]分型Y 染色体上的13 个双等位标记:YAP, M15, M130, M89, M9, M122, M134, M119, M110,M95, M88, M45, M120。根据Y 染色体委员会的命名系统(YCC)[24],这些标记构成13 个单倍群,在东亚人群中具有较高的信息量[23]。  线粒体上,对高变1 区(HVS-1)进行测序,对编码区8 个多态位点作了分型(9-bp 缺失, 10397 AluI, 5176 AluI, 4831 HhaI, 13259 HincII, 663 HaeIII, 12406 HpaI , 9820 HinfI),有关方法已有报道[22]。根据东亚线粒体系统树[18],用高变1 区突变结构和编码区多态性构建单倍群。  数据分析  根据线粒体和Y 染色体单倍群频率,用SPSS10.0 软件(SPSS 公司)作主成分分析,研究群体间关系。南北汉族的遗传差异用ARLEQUIN 软件[26]做AMOVA 检验[25]。南方汉族中北方汉族和南方原住民族的混合比例估计用两种不同的统计方法[19-20]:ADMIX 2.0[27]和LEADMIX[21]软件。亲本群体的选择对混合比例的适当估计很重要[28-29],我们通过扩大东亚的参考数据来减小偏差。分析中,10 个北方汉族群体的各单倍群频率(Y染色体和线粒体标记分别分析)的算术平均作为北方亲本群体。南方原住民族的频率平均了三个族群:侗台语群(NRY,22 群体;线粒体,11 群体),南亚语群(NRY,6 群体;线粒体,5 群体),苗瑶语群(NRY,18 群体;线粒体,14 群体)。通过样本的混合比例与纬度[1,3]的线性回归分析揭示汉族群体的地理格局。  2004 年4 月28 日收稿;7 月20 日定稿;doi:10.1038/nature02878.
请遵守言论规则,不得违反国家法律法规

我要回帖

更多关于 cluster聚类分析 的文章

 

随机推荐