烂头何
1,测序与序列比(Sequence Alignment) 测序物信息基础主要数据源类数据其数据序列比基本问题比较两或两符号序列相似性或相似性.物初衷看,问题包含几意义:相互重叠序列片断重构DNA完整序列.各种试验条件探测数据(probe data)决定物理基图存贮,遍历比较数据库DNA序列比较两或序列相似性数据库搜索相关序列序列寻找核苷酸(nucleotides)连续产模式找蛋白质DNA序列信息序列比考虑DNA序列物特性,序列局部发插入,删除(前两种简称indel)替代,序列目标函数获序列间突变集距离加权或相似性,齐包括全局齐,局部齐,代沟惩罚等.两序列比采用态规划算,种算序列度较适用,于海量基序列(DNA序列高达109bp),太适用,甚至采用算复杂性线性难奏效.,启发式引入势必,著名BALSTFASTA算及相应改进均前提发.2, 蛋白质结构比预测基本问题比较两或两蛋白质空间结构相似性或相似性.蛋白质结构与功能密切相关,般认,具相似功能蛋白质结构般相似.蛋白质由氨基酸组链,度501000~3000AA(Amino Acids),蛋白质具种功能,酶,物质存贮运输,信号传递,抗体等等.氨基酸序列内决定蛋白质3维结构.般认,蛋白质四级同结构.研究蛋白质结构预测理由:医药理解物功能,寻找dockingdrugs目标,农业获更农作物基工程,工业利用酶合.直接蛋白质结构进行比原由于蛋白质3维结构比其级结构进化更稳定保留,同包含较AA序列更信息.蛋白质3维结构研究前提假设内氨基酸序列与3维结构应(定全真),物理用能量解释.观察总结已知结构蛋白质结构规律发预测未知蛋白质结构.同源建模(homology modeling)指认(Threading)属于范畴.同源建模用于寻找具高度相似性蛋白质结构(超30%氨基酸相同),者则用于比较进化族同蛋白质结构.,蛋白结构预测研究现状远远能满足实际需要. 3, 基识别,非编码区析研究.基识别基本问题给定基组序列,确识别基范围基组序列精确位置.非编码区由内含组(introns),般形蛋白质丢弃,实验,除非编码区,能完基复制.显,DNA序列作种遗传语言,既包含编码区,隐含非编码序列.析非编码区DNA序列目前没般性指导.类基组,并非所序列均编码,即某种蛋白质模板,已完编码部仅占类基总序列3~5%,显,手工搜索基序列难想象.侦测密码区包括测量密码区密码(codon)频率,阶二阶马尔夫链,ORF(Open Reading Frames),启(promoter)识别,HMM(Hidden Markov Model)GENSCAN,Splice Alignment等等.4, 进化比较基组进化利用同物种同基序列异同研究物进化,构建进化树.既用DNA序列用其编码氨基酸序列做,甚至于通相关蛋白质结构比研究进化,其前提假定相似种族基具相似性.通比较基组层面发现哪些同种族共同,哪些同.早期研究采用外素,,肤色,肢体数量等等作进化依据.近较模式物基组测序任务完,整基组角度研究进化.匹配同种族基,般须处理三种情况:Orthologous: 同种族,相同功能基;Paralogous: 相同种族,同功能基;Xenologs: 机体间采用其式传递基,病毒注入基.领域采用构造进化树,通基于特征(即DNA序列或蛋白质氨基酸碱基特定位置)基于距离(齐数)些传统聚类(UPGMA)实现.5, 序列重叠群(Contigs)装配根据现行测序技术,每反应能测500 或更些碱基序列,类基测量采用短枪(shortgun),要求量较短序列全体构重叠群(Contigs).逐步拼接起形序列更重叠群,直至完整序列程称重叠群装配.算层看,序列重叠群NP-完全问题. 6, 遗传密码起源通遗传密码研究认,密码与氨基酸间关系物进化历史偶事件造,并固定现代物共同祖先,直延续至今.同于种"冻结"理论,曾别提选择优化,化历史等三种说解释遗传密码.随着各种物基组测序任务完,研究遗传密码起源检验述理论真伪提供新素材.7, 基于结构药物设计类基工程目要解体内约10万种蛋白质结构,功能,相互作用及与各种类疾病间关系,寻求各种治疗预防,包括药物治疗.基于物结构及结构药物设计物信息极重要研究领域.抑制某些酶或蛋白质性,已知其蛋白质3级结构基础,利用齐算,计算机设计抑制剂,作候选药物.领域目发现新基药物,着巨经济效益.8.物系统建模仿真随着规模实验技术发展数据累积全局系统水平研究析物系统揭示其发展规律已经基组代另外研究 热点-系统物目前看其研究内容包括物系统模拟(Curr Opin Rheumatol2007463-70)系统稳定性析(Nonlinear Dynamics Psychol Life Sci2007413-33)系统鲁棒性析(Ernst Schering Res Found Workshop 200769-88)等面SBML(Bioinformatics20071297-8)代表建模语言迅速发展布尔网络 (PLoS Comput Biol2007e163)、微程(Mol Biol Cell20043841-62)、随机程(Neural Comput20073262-92)、离散态事件系统等(Bioinformatics2007336-43)系统析已经应 用模型建立借鉴电路其物理系统建模研究试图信息流、熵能量流等宏观析思想解决系统复杂性问题(Anal Quant Cytol Histol2007296-308)建立物系统理论模型需要间努力现实验观测数据虽海量增加物系统模型辨 识所需要数据远远超目前数据产能力例于间序列芯片数据采点数量足使用传统间序列建模巨实验代价目前系 统建模主要困难系统描述建模需要创性发展9.物信息技术研究物信息仅仅物知识简单整理、数、物理、信息科等科知识简单应用海量数据复杂背景导致机器习、统 计数据析系统描述等需要物信息所面临背景迅速发展巨计算量、复杂噪声模式、海量变数据给传统统计析带巨困难 需要像非参数统计(BMC Bioinformatics2007339)、聚类析(Qual Life Res20071655-63)等更加灵数据析技术高维数据析需要偏二乘(partial least squaresPLS)等特征空间压缩技术计算机算发需要充考虑算间空间复杂度使用并行计算、网格计算等技术拓展算 实现性10, 物图像没血缘关系像呢外貌像点组像点愈重合两愈像两没血缘关系像点重合物基础基相似我知道希望专家解答11, 其基表达谱析,代谢网络析;基芯片设计蛋白质组数据析等,逐渐物信息新兴重要研究领域;科面,由物信息衍科包括结构基组,功能基组,比较基组,蛋白质,药物基组,药基组,肿瘤基组,流行病环境基组,系统物重要研究.现发展难看,基工程已经进入基组代.我应与物信息密切相关机器习,数能存误导清楚认识.