RESUMEN
The objectives of this study were (1) to quantify imputation accuracy and to assess the factors affecting it; and (2) to evaluate the accuracy of threshold BayesA (TBA), Bayesian threshold LASSO (BTL) and random forest (RF) algorithms to analyze discrete traits. Genomic data were simulated to reflect variations in heritability (h2 = 0.30 and 0.10), number of QTL (QTL = 81 and 810), number of SNP (10 K and 50 K) and linkage disequilibrium (LD=low and high) for 27 chromosomes. For real condition simulating, we randomly masked markers with 90% missing rate for each scenario; afterwards, hidden markers were imputed using FImpute software. In imputed genotypes, a wide range of accuracy was observed for RF (0.164-0.512) compared to TBA (0.283-0.469) and BTL (0.272-0.504). Comparing to original genotypes, using imputed genotypes decreased the average accuracy of genomic prediction about 0.0273 (range of 0.024 to 0.036). Comparing to Bayesian threshold, using RF was improved rapidly accuracy of genomic prediction with increase in the marker density. Despite the higher accuracy of BTL and TBA at different levels of LD and heritability, the increase in accuracy was greater for RF. Furthermore, the best method for prediction of genomic accuracy depends on genomic architecture of population.(AU)
Os objetivos deste estudo foram (1) quantificar a precisão de imputação e acessar os fatores que as afetam; e (2) avaliar a precisão do princípio de BayesA (TBA), do modelo Bayesiano LASSO (BTL), e o algoritmo Random Forest para analisar as características distintas. Dados genômicos foram simulados para indicar variações na herdabilidade (h2 = 0.30 e 0.10), número de QTL (QTL = 81 e 810), número de SNP (10 k e 50 k) e desequilíbrio de ligação (LD = baixo e alto) para 27 cromossomos. Para uma simulação mais realista, nós cobrimos os marcadores aleatoriamente com 90% da taxa ausente para cada cenário, depois, os marcadores foram imputados usando o software FImpute. Nos genótipos imputados uma grande oscilação de precisão foi observada pelo modelo RF (0.164-0.512) comparado com TBA (0.283 - 0.469) e BTL (0.272 - 0.504). Comparando com os genótipos originais, os genótipos imputados decaíram a precisão média da predição genômica em cerca de 0.0273 (oscilação de 0.024 para 0.036). Comparando-se ao princípio Bayesiano, o uso de RF melhorou a precisão de predição com o aumento da densidade do marcador. Além disso, o melhor método para predição de precisão genômica depende da arquitetura genômica da sua população.(AU)
Asunto(s)
Teorema de Bayes , Estudio de Asociación del Genoma Completo/métodos , Genotipo , Técnicas de Genotipaje/veterinariaRESUMEN
The objectives of this study were (1) to quantify imputation accuracy and to assess the factors affecting it; and (2) to evaluate the accuracy of threshold BayesA (TBA), Bayesian threshold LASSO (BTL) and random forest (RF) algorithms to analyze discrete traits. Genomic data were simulated to reflect variations in heritability (h2 = 0.30 and 0.10), number of QTL (QTL = 81 and 810), number of SNP (10 K and 50 K) and linkage disequilibrium (LD=low and high) for 27 chromosomes. For real condition simulating, we randomly masked markers with 90% missing rate for each scenario; afterwards, hidden markers were imputed using FImpute software. In imputed genotypes, a wide range of accuracy was observed for RF (0.164-0.512) compared to TBA (0.283-0.469) and BTL (0.272-0.504). Comparing to original genotypes, using imputed genotypes decreased the average accuracy of genomic prediction about 0.0273 (range of 0.024 to 0.036). Comparing to Bayesian threshold, using RF was improved rapidly accuracy of genomic prediction with increase in the marker density. Despite the higher accuracy of BTL and TBA at different levels of LD and heritability, the increase in accuracy was greater for RF. Furthermore, the best method for prediction of genomic accuracy depends on genomic architecture of population.
Os objetivos deste estudo foram (1) quantificar a precisão de imputação e acessar os fatores que as afetam; e (2) avaliar a precisão do princípio de BayesA (TBA), do modelo Bayesiano LASSO (BTL), e o algoritmo Random Forest para analisar as características distintas. Dados genômicos foram simulados para indicar variações na herdabilidade (h2 = 0.30 e 0.10), número de QTL (QTL = 81 e 810), número de SNP (10 k e 50 k) e desequilíbrio de ligação (LD = baixo e alto) para 27 cromossomos. Para uma simulação mais realista, nós cobrimos os marcadores aleatoriamente com 90% da taxa ausente para cada cenário, depois, os marcadores foram imputados usando o software FImpute. Nos genótipos imputados uma grande oscilação de precisão foi observada pelo modelo RF (0.164-0.512) comparado com TBA (0.283 - 0.469) e BTL (0.272 - 0.504). Comparando com os genótipos originais, os genótipos imputados decaíram a precisão média da predição genômica em cerca de 0.0273 (oscilação de 0.024 para 0.036). Comparando-se ao princípio Bayesiano, o uso de RF melhorou a precisão de predição com o aumento da densidade do marcador. Além disso, o melhor método para predição de precisão genômica depende da arquitetura genômica da sua população.