Pesquisa | Portal de Pesquisa da BVS Veterinária

1.

Identification of patterns related to linkage groups or disequilibrium by factor analysis / Identificação de padrões relacionados a grupos de ligação ou de desequilíbrio por análise de fatores

Oliveira, Cristiano Ferreira de; Teixeira, Gabriely; Temoteo, Alex da Silva; Nascimento, Moysés; Cruz, Cosme Damião.

Ci. Rural ; 51(5)2021. ilus, graf

Artigo em Inglês | VETINDEX | ID: vti-31132

Resumo

Empirical patterns of linkage disequilibrium (LD) can be used to increase the statistical power of genetic mapping. This study was carried out with the objective of verifying the efficacy of factor analysis (AF) applied to data sets of molecular markers of the SNP type, in order to identify linkage groups and haplotypes blocks. The SNPs data set used was derived from a simulation process of an F2 population, containing 2000 marks with information of 500 individuals. The estimation of the factorial loadings of FA was made in two ways, considering the matrix of distances between the markers (A) and considering the correlation matrix (R). The number of factors (k) to be used was established based on the graph scree-plot and based on the proportion of the total variance explained. Results indicated that matrices A and R lead to similar results. Based on the scree-plot we considered k equal to 10 and the factors interpreted as being representative of the bonding groups. The second criterion led to a number of factors equal to 50, and the factors interpreted as being representative of the haplotypes blocks. This showed the potential of the technique, making it possible to obtain results applicable to any type of population, helping or corroborating the interpretation of genomic studies. The study demonstrated that AF was able to identify patterns of association between markers, identifying subgroups of markers that reflect factor binding groups and also linkage disequilibrium groups.(AU)

Padrões empíricos de desequilíbrio de ligação (LD) podem ser utilizados para aumentar o poder estatístico do mapeamento genético. Este trabalho foi realizado com o objetivo de verificar a eficácia da análise de fatores (AF) aplicada a conjuntos de dados de marcadores moleculares do tipo SNP, visando identificar grupos de ligação e blocos de haplótipos. O conjunto de dados SNPs utilizado foi oriundo de um processo de simulação de uma população F2, contendo 2000 marcas com informações de 500 indivíduos. A estimação das cargas fatoriais (loadings) da AF foi feita de duas formas, considerando a matriz de distâncias entre os marcadores (A) e considerando a matriz de correlação (R). O número de fatores (k) a ser utilizado foi estabelecido com base no gráfico scree-plot e com base na proporção da variância total explicada. Os resultados indicam que as matrizes A e R conduzem a resultados similares. Com base no scree-plot considerou-se k igual a 10 e os fatores interpretados como sendo representativos dos grupos de ligação. O segundo critério conduziu a um número de fatores igual a 50, e os fatores interpretados como sendo representativos dos blocos de haplótipos. Isto mostra o potencial da técnica que permite obter resultados aplicáveis a qualquer tipo de população, corroborando a interpretação de estudos genômicos. O trabalho demonstrou que a AF foi capaz de identificar padrões de associação entre marcadores, identificando subgrupos de marcadores que refletem grupos de ligação fatorial e também grupos de desequilíbrio de ligação.(AU)

Assuntos

Técnicas Genéticas , Marcadores Genéticos

2.

Evaluation of imputed genomic data in discrete traits using Random forest and Bayesian threshold methods / Avaliação de dados genômicos imputados em características distintas usando os métodos de Random Forest e de limiares Bayesianos

Sadeghi, Saadat; Rafat, Seyed Abbas; Alijani, Sadegh.

Acta sci., Anim. sci ; 40: e39007-e39007, 2018. ilus, graf, tab

Artigo em Inglês | VETINDEX | ID: vti-738834

Resumo

The objectives of this study were (1) to quantify imputation accuracy and to assess the factors affecting it; and (2) to evaluate the accuracy of threshold BayesA (TBA), Bayesian threshold LASSO (BTL) and random forest (RF) algorithms to analyze discrete traits. Genomic data were simulated to reflect variations in heritability (h2 = 0.30 and 0.10), number of QTL (QTL = 81 and 810), number of SNP (10 K and 50 K) and linkage disequilibrium (LD=low and high) for 27 chromosomes. For real condition simulating, we randomly masked markers with 90% missing rate for each scenario; afterwards, hidden markers were imputed using FImpute software. In imputed genotypes, a wide range of accuracy was observed for RF (0.164-0.512) compared to TBA (0.283-0.469) and BTL (0.272-0.504). Comparing to original genotypes, using imputed genotypes decreased the average accuracy of genomic prediction about 0.0273 (range of 0.024 to 0.036). Comparing to Bayesian threshold, using RF was improved rapidly accuracy of genomic prediction with increase in the marker density. Despite the higher accuracy of BTL and TBA at different levels of LD and heritability, the increase in accuracy was greater for RF. Furthermore, the best method for prediction of genomic accuracy depends on genomic architecture of population.(AU)

Os objetivos deste estudo foram (1) quantificar a precisão de imputação e acessar os fatores que as afetam; e (2) avaliar a precisão do princípio de BayesA (TBA), do modelo Bayesiano LASSO (BTL), e o algoritmo Random Forest para analisar as características distintas. Dados genômicos foram simulados para indicar variações na herdabilidade (h2 = 0.30 e 0.10), número de QTL (QTL = 81 e 810), número de SNP (10 k e 50 k) e desequilíbrio de ligação (LD = baixo e alto) para 27 cromossomos. Para uma simulação mais realista, nós cobrimos os marcadores aleatoriamente com 90% da taxa ausente para cada cenário, depois, os marcadores foram imputados usando o software FImpute. Nos genótipos imputados uma grande oscilação de precisão foi observada pelo modelo RF (0.164-0.512) comparado com TBA (0.283 - 0.469) e BTL (0.272 - 0.504). Comparando com os genótipos originais, os genótipos imputados decaíram a precisão média da predição genômica em cerca de 0.0273 (oscilação de 0.024 para 0.036). Comparando-se ao princípio Bayesiano, o uso de RF melhorou a precisão de predição com o aumento da densidade do marcador. Além disso, o melhor método para predição de precisão genômica depende da arquitetura genômica da sua população.(AU)

Assuntos

Teorema de Bayes , Estudo de Associação Genômica Ampla/métodos , Genótipo , Técnicas de Genotipagem/veterinária

3.

Evaluation of imputed genomic data in discrete traits using Random forest and Bayesian threshold methods / Avaliação de dados genômicos imputados em características distintas usando os métodos de Random Forest e de limiares Bayesianos

Sadeghi, Saadat; Rafat, Seyed Abbas; Alijani, Sadegh.

Acta sci., Anim. sci ; 40: 39007-39007, 2018. ilus, graf, tab

Artigo em Inglês | VETINDEX | ID: biblio-1459819

Resumo

The objectives of this study were (1) to quantify imputation accuracy and to assess the factors affecting it; and (2) to evaluate the accuracy of threshold BayesA (TBA), Bayesian threshold LASSO (BTL) and random forest (RF) algorithms to analyze discrete traits. Genomic data were simulated to reflect variations in heritability (h2 = 0.30 and 0.10), number of QTL (QTL = 81 and 810), number of SNP (10 K and 50 K) and linkage disequilibrium (LD=low and high) for 27 chromosomes. For real condition simulating, we randomly masked markers with 90% missing rate for each scenario; afterwards, hidden markers were imputed using FImpute software. In imputed genotypes, a wide range of accuracy was observed for RF (0.164-0.512) compared to TBA (0.283-0.469) and BTL (0.272-0.504). Comparing to original genotypes, using imputed genotypes decreased the average accuracy of genomic prediction about 0.0273 (range of 0.024 to 0.036). Comparing to Bayesian threshold, using RF was improved rapidly accuracy of genomic prediction with increase in the marker density. Despite the higher accuracy of BTL and TBA at different levels of LD and heritability, the increase in accuracy was greater for RF. Furthermore, the best method for prediction of genomic accuracy depends on genomic architecture of population.

Os objetivos deste estudo foram (1) quantificar a precisão de imputação e acessar os fatores que as afetam; e (2) avaliar a precisão do princípio de BayesA (TBA), do modelo Bayesiano LASSO (BTL), e o algoritmo Random Forest para analisar as características distintas. Dados genômicos foram simulados para indicar variações na herdabilidade (h2 = 0.30 e 0.10), número de QTL (QTL = 81 e 810), número de SNP (10 k e 50 k) e desequilíbrio de ligação (LD = baixo e alto) para 27 cromossomos. Para uma simulação mais realista, nós cobrimos os marcadores aleatoriamente com 90% da taxa ausente para cada cenário, depois, os marcadores foram imputados usando o software FImpute. Nos genótipos imputados uma grande oscilação de precisão foi observada pelo modelo RF (0.164-0.512) comparado com TBA (0.283 - 0.469) e BTL (0.272 - 0.504). Comparando com os genótipos originais, os genótipos imputados decaíram a precisão média da predição genômica em cerca de 0.0273 (oscilação de 0.024 para 0.036). Comparando-se ao princípio Bayesiano, o uso de RF melhorou a precisão de predição com o aumento da densidade do marcador. Além disso, o melhor método para predição de precisão genômica depende da arquitetura genômica da sua população.

Assuntos

Estudo de Associação Genômica Ampla/métodos , Genótipo , Teorema de Bayes , Técnicas de Genotipagem/veterinária

4.

QUANTITATIVE GENETICS AND GENOMIC TOOLS APPLIED TO AQUACULTURE BREEDING

BALTASAR FERNANDES GARCIA NETO.

Tese em Inglês | VETTESES | ID: vtt-218354

Resumo

A procura por animais mais uniformes frente as adversidades ambientais e a aplicação de ferramentas genômicas são exemplos de novas estratégias para tornar o melhoramento genético em espécies aquícolas mais eficiente. No intuito de avaliar a efetividade destas estratégias, os objetivos do presente trabalho foram: i) estimar os componentes genéticos da uniformidade de peso a despesca (PD) e investigar se o PD e sua uniformidade (PDu) podem afetar a sobrevivência (SOB) em camarões; ii) estimar o desequilíbrio de ligação (LD) em uma população de camarões cultivados usando um novo painel de 50k polimorfismos de nucleotídeos únicos (SNPs) e iii) avaliar a viabilidade da imputação ao nível de sequência em tilápia do Nilo e os impactos do tamanho e origem da população de referência na acurácia. Para i), foram utilizados 149.919 registros de PD e 164.023 de SOB de uma larvicultura de camarões mexicana. Os dados foram agrupados em três conjuntos de acordo com o tipo de produção: viveiros escavados com baixa densidade (S1), tanques de concreto com recirculação em alta densidade (S2) e juntando ambos conjuntos de dados (S1+S2). Um modelo linear generalizado hierárquico duplo foi aplicado para estimar os componentes de (co)variância de PD-PDu e um modelo bivariado linear misto foi utilizado para estimar os componentes referentes a PD-SOB. As correlações genéticas (rg) para estas características foram estimadas, além da correlação entre valores genéticos (VG) para PDu-SOB. Para ii), 96 camarões (40 machos e 56 fêmeas) reprodutores originários de uma larvicultura do Equador foram genotipados utilizando um novo painel de 50k SNPs. Posteriormente, o LD foi estimado usando três controles de qualidade distintos com diferentes filtros de frequência de alelo menor: 0,1 (CQ1); 0,05 (CQ2) e 0,01 (CQ3). Para iii), amostras de DNA de 326 tilápias provenientes de três populações de origens distintas (PA, PB e PC) foram extraídas e sequenciadas. Após o controle de qualidade dos dados de sequência foram obtidos 4,6 milhões de SNPs em comum para todas as populações. A imputação foi feita em quatro cenários distintos: dois tamanhos (10 ou 90% dos animais de cada população) e duas origens de referência (apenas duas populações diferentes ou todas as três populações). Os animais de validação tiveram seus genótipos ocultados mantendo somente 50k SNPs para a imputação a nível de sequência. Foi utilizado o software FImpute3 e a acurácia de imputação foi avaliada através da correlação entre o genótipo imputado e observado (r²). No estudo de uniformidade, uma proporção significativa de variância genética foi detectada na variância residual de PD, revelando que existe a possibilidade de selecionar para uniformidade desta característica em camarões (coeficiente de variação genética variando de 17 a 35%). As rg entre PD e SOB foram diferentes em sinal e magnitude com base no sistema de produção, sendo iguais a 0,36, -0,59 e -0,02 para S1, S2 e S1+S2, respectivamente. Os coeficientes de correlação entre o VG de PDu e SOB foram significativos apenas para S1 (-0,32), sugerindo que a seleção para famílias mais uniformes também pode aumentar as taxas de sobrevivência em um ambiente de menor densidade. Para os dados genômicos de camarões, foram obtidos 34.425, 39.091 e 42.789 SNPs após CQ1, CQ2 e CQ3, respectivamente, exibindo alto grau de polimorfismo e validando a aplicação deste painel de SNPs para esta população de camarões cultivados. O LD decaiu rapidamente nos primeiros 30 KB de distância de 0,2 para 0,07 e depois diminuiu para 0,02 para distancias mais longas (>80 KB). Esses resultados sugerem v incorporação recente de animais de diferentes populações ou linhagens neste grupo de reprodutores e que a seleção genômica e estudos de associação amplo do genoma são viáveis em camarões usando este painel de SNP como ferramenta. Para a imputação, no geral, o r² por animal mostrou resultados intermediários variando de 0,37 a 0,56 para PA e 0,43 a 0,58 para PB e Pc. Entretanto, os resultados mostraram que foi possível imputar de 50k a aproximadamente 680k com alta acurácia usando dados de sequência de tilápia. Foi observado um aumento de 31,5% para PA e 24,6% para PB e PC no r², quando 90% dos animais da mesma população foram usados como referência em comparação a 10%. Não houve diferenças significativas para r² entre os cenários que usaram 90% dos animais da mesma população e usaram animais das três populações como referência, mostrando que a estratégia de usar informações de outra população para aumentar a população de referência teve pouco efeito na acurácia de imputação.

The search for more uniform animals in the face of environmental adversities and the application of genomic tools are examples of new strategies to make genetic improvement in aquaculture species more efficient. In order to evaluate the effectivity of these strategies, the aims of the present study were: i) to estimate the genetic components of uniformity of harvest weight (HW) and investigate whether the HW and its uniformity (HWv) may affect the survival (SUR) in shrimp; ii) to estimate linkage disequilibrium (LD) in a population of farmed shrimp using a new 50k single-nucleotide polymorphisms (SNPs) panel and; iii) to assess the feasibility of genotype imputation to sequence level in Nile tilapia and the impacts of size and origin of population reference on accuracy of imputation. For i), 149,919 records of HW and 164,023 of SUR were obtained from a Mexican shrimp hatchery. The data were grouped into three sets according to the system of production: excavated ponds with low density (S1), concrete recirculation tanks with high density (S2) and joining both sets of data (S1+S2). A double hierarchical generalized linear model was applied to estimate the (co)variance components of HW-HWv and a bivariate mixed linear model was used to estimate the components referring to HW-SUR. The genetic correlations (rg) for these traits were estimated, in addition to the correlation between the estimated breeding values (EBV) for HWv-SUR. For ii), 96 broodstock shrimp (40 males and 56 females) from a commercial hatchery from Ecuador were genotyped using a new 50k SNPs panel. Then, the LD was estimated using three distinct quality controls with different minor allele frequency filters: 0.1 (QC1); 0.05 (QC2) and 0.01 (QC3). For iii), DNA samples from 326 tilapia from three populations (PA, PB and PC) were extracted and sequenced. After quality control of sequence data, 4.6 million of SNPs were obtained in common for all populations. The imputation was performed in four different scenarios: two sizes (10 or 90% of animals from each population) and two origins of population reference (only two different populations or all three populations). The validation animals had their genotypes masked keeping only 50k SNPs for imputation to the sequence level. The FImpute3 software was used and the imputation accuracy was evaluated through the correlation between the imputed and observed genotypes (r²). In the uniformity study, a significant proportion of genetic variance was detected in the residual variance of HW, revealing that there is possibility to select for uniformity of this trait in shrimp (genetic coefficient of variation ranging between 17 and 35%). The genetic correlations between HW and SUR were different in sign and magnitude based on the production system, being equal to 0.36, -0.59 and -0.02 for S1, S2 and S1+S2, respectively. The correlation coefficients between the EBV of HWv and SUR were significant only for S1 (-0.32), suggesting that selection for more uniform families may also increase survival rates in a lower density environment. For shrimp genomic data, 34,425, 39,091 and 42,789 SNPs were obtained after QC1, QC2 and QC3, respectively, showing high polymorphism and validating the application of this panel of SNPs to this farmed shrimp population. The LD declined rapidly in the first 30 KB of distance from 0.2 to 0.07 and then decreased to 0.02 for longer distances (>80 KB). These results suggest recent incorporation of animals from different populations or strains into this breeding population and that genomic selection and genome-wide association studies are feasible in shrimp using this SNP panel as tool. For the imputation using tilapia sequence data, in general, the r² per animal showed intermediate results ranging from 0.37 to 0.56 for PA and 0.43 to 0.58 for PB and PC. vii However, the results showed that it was possible to impute from 50k to approximately 680k with high accuracy. An increase in r² of 31.5% for PA and 24.6% for PB and PC was observed, when 90% of animals from the same population were used as reference. There were no significant differences for r² between the scenarios that used 90% of animals from the same population and used animals from the three populations as a reference, showing that the strategy of using information from another population to increase the reference population had minor effect on the accuracy of imputation.

5.

ESTUDO GENÔMICO EM CAPRINOS LEITEIROS DA RAÇA SAANEN

DIEGO RODRIGUES DE SOUSA.

Tese em Português | VETTESES | ID: vtt-219589

Resumo

Painéis comerciais com milhares de marcadores do tipo polimorfismos de nucleotídeo único (SNP) a custo acessível revolucionaram os estudos genéticos na pecuária, principalmente por meio da seleção genômica e análise de associação genômica ampla. A seleção genômica tem um aspecto prático, por ser diretamente aplicada aos programas de melhoramento, o que pode possibilitar aumento de acurácia das avaliações genéticas para as características quantitativas. Com base nisso, objetivou se calcular o desequilíbrio de ligação (DL) dos segmentos cromossômicos no genoma de caprinos da raça Saanen e comparar diferentes modelos para avaliação genômica, com diferentes distribuições a priori para o efeito dos marcadores. Dessa forma, foi avaliado o DL e estimado o tamanho efetivo populacional a partir de marcadores de um painel Axiom_OviCap (Caprine), array customizado da Affimetrix com 62.557 SNPs. Foram genotipados 24 machos e 916 fêmeas que também participaram das avaliações genômicas. O valor médio do DL, expresso pela estimativa do r2, entre marcadores adjacentes (~52 kb), foi de 0,04±0,06. Níveis moderados de DL (r2>0,20), em uma escala de 0 a 1, foram observados em classes de distâncias genéticas até 20 kb. A amplitude dos valores entre os cromossomos variou de 0,03±0,06 a 0,05±0,08. A densidade do painel não foi considerada suficiente para proporcionar DL entre os segmentos cromossômicos para a predição de valores genéticos genômicos. As estimativas do tamanho efetivo populacional diminuíram ao longo do tempo, variando de 42 animais, 19 gerações no passado, para 15 animais na geração atual. Os níveis de diversidade genética nesta população Saanen representam uma ameaça e devem ser monitorados rotineiramente para garantir viabilidade para seleção em longo prazo. As avaliações genômicas para duração da lactação, produção média diária de leite até 305 dias de lactação, produções de leite, gordura, proteína, extrato seco total e lactose até 305 dias de lactação, e contagem de células somáticas até 305 dias de lactação foram realizadas pelos métodos BLUP genômico (GBLUP), Bayes C e LASSO Bayesiano (BLASSO). Os valores genéticos estimados (EBV, do inglês, Estimated Breeding Values) e os valores genéticos estimados deregredidos (dEBV, do inglês, Deregressed Estimated Breeding Values) foram utilizados como variaríeis resposta para predições genômicas. As médias das acurácias de predição, de todas as características, quando o EBV foi utilizado com variável de resposta, foram de aproximadamente 0,682, 0,676 e 0,674 para GBLUP, Bayes C e BLASSO, respectivamente. Quando a variável de resposta utilizada foi o dEBV, as médias das acurácias de predição foram de aproximadamente 0,501, 0,499 e 0,500 para GBLUP, Bayes C e BLASSO, respectivamente. Nenhum dos métodos se destacou em termos de habilidade de predição. No entanto, o método GBLUP foi o mais adequado, por apresentar o menor custo computacional.

Affordable commercial panels containing thousands of single nucleotide polymorphisms (SNPs) markers have revolutionized genetic studies in livestock, mainly through genomic selection and genome wide association analysis. Genomic selection has a practical aspect, as it is directly applied to breeding programs, which may allow increase of the accuracy of genetic evaluations for quantitative traits. Based on that, the objective of this study was to calculate the linkage disequilibrium (LD) of chromosomal segments in the Saanen goats genome and to compare different models for genomic evaluation, with different a priori distributions for the effect of markers. Thus, the LD was evaluated and the effective population size was estimated through markers of an Axiom_OviCap (Caprine) panel, and array customized by Affimetrix with 62,557 SNPs. Twenty four male and 916 were genotyped which also participated in the genomic evaluations. The average LD value, expressed by the estimate of r2, between adjacent markers (~ 52 kb), was 0.04 ± 0.06. Moderate levels of LD (r2>0.20), on a scale of 0 to 1, were observed in genetic distance classes up to 20 kb. The range of values between the chromosomes varied from 0.03 ± 0.06 to 0.05 ± 0.08. The panel density was not sufficient to provide LD between chromosomal segments to predict genomic genetic values. The estimates of effective population size decreased over time, ranging from 42 animals, 19 generations in the past, to 15 animals in the current generation. The levels of genetic diversity in this Saanen population represent a threat and should be routinely monitored to ensure viability for long term selection. The genomic evaluations for lactation length, average daily milk yield, milk, fat, protein, total dry extract and lactose yields up to 305 days of lactation, as well as somatic cell count up to 305 days of lactation were performed by the methods genomic BLUP (GBLUP), Bayes C and Bayesian LASSO (BLASSO). The estimated breeding values (EBV) and deregressed estimated breeding values (dEBV) were used as response variables for genomic predictions. The averages of prediction accuracies of all traits when EBV was used as a response variable, were approximately 0.682, 0.676 and 0.674 for GBLUP, Bayes C and BLASSO, respectively. When the response variable was dEBV, the averages of prediction accuracies were approximately 0.501, 0.499 and 0.500 for GBLUP, Bayes C and BLASSO, respectively. None of the methods stood out in terms of prediction ability. However, the GBLUP method was the most appropriate, for presenting the lowest computational cost.

6.

ANÁLISE GENÔMICA DA ESTRUTURA POPULACIONAL EM CAVALOS DA RAÇA BRASILEIRA MANGALARGA MARCHADOR

BRUNA APARECIDA DOS SANTOS.

Tese em Português | VETTESES | ID: vtt-212423

Resumo

O Mangalarga Marchador é o cavalo de sela brasileiro, possui dois tipos de andamentos característicos, a marcha batida e a marcha picada, que proporcionam maior comodidade ao cavaleiro durante a cavalgada e o trabalho. É principalmente utilizado para trabalho em fazendas de gado de corte e vem se destacando em diferentes modalidades de esportes hípicos. Este estudo teve como objetivo caracterizar, por meio da genotipagem de SNP em larga escala, o desequilíbrio de ligação (LD), calculado por r², de equinos da raça brasileira Mangalarga Marchador criados no Brasil. Também foi investigado o tamanho efetivo (Ne) da população, bem como as suas estruturas e relações. Foram utilizados 240 equinos Mangalarga Marchador, de ambos os sexos, e registrados na associação brasileira de criadores da raça (ABCCMM). O número de SNP informativos foi de 377.308. Análises de componentes principais mostraram que cavalos Mangalarga Marchador de marcha batida e de marcha picada pertencem a uma mesma população, ou seja, estes grupos não segregaram de forma significativa dentro da raça, o que deve ser levado em consideração nos estudos genético-populacionais. O r² genômico calculado foi de 0,096±0,166. O LD decaiu consideravelmente a partir de distâncias superiores a 15 e 20 Kb, apresentando valores inferiores a 0,3 e 0,2, respectivamente. O Ne atual foi de 99 animais. Houve acentuada redução neste parâmetro ao se tomar as estimativas de 16 gerações passadas, em que o Ne estimado foi de 650 animais. Estes resultados podem estar ligados à uma base genética ampla e parcialmente aberta e à pressões de seleção crescentes na raça. Por fim, observou-se subestruturas populacionais definidas relacionadas mais à importantes reprodutores da raça do que propriamente ao tipo de marcha.

The Mangalarga Marchador is the Brazilian saddle horse, has two types of characteristic movements, the batida and the picada gait, that provide greater comfort to the rider during the cavalcade and the work. It is mainly used for work on beef cattle farms and has been emphasizing different modalities of equestrian sports. The objective of this study was to characterize, by means of large scale SNP genotyping, the linkage disequilibrium (LD), calculated by r², of Brazilian Mangalarga Marchador breed horses raised in Brazil. We also investigated the effective size (Ne) of the population, as well as their structures and relationships. A total of 240 Mangalarga Marchador horses, of both sexes, and registered in the Brazilian association of breeders (ABCCMM) were used. The number of informative SNPs was 377,308. Principal component analyzes showed that Mangalarga marchador of the two diferente gaits belong to the same population, that is, these groups did not segregate significantly within the breed, which should be taken into account in the genetic-population studies. The calculated r² genomic was 0.096 ± 0.166. The LD declined considerably from distances greater than 15 and 20 Kb, presenting values lower than 0.3 and 0.2, respectively. The current Ne was 99 animals. There was a marked reduction in this parameter when taking the estimates of 16 generations passed, in which the estimated Ne was 650 animals. These results may be linked to a broad and partially open genetic basis and to increasing selection pressures in the breed. Finally, we observed defined population substructures related to the breed's important breeders rather than to the type of gait.

7.

Estrutura genética e associação genômica ampla para características de tamanho corporal em ovinos da raça Santa Inês

AURINO DE ARAUJO REGO NETO.

Tese em Português | VETTESES | ID: vtt-207551

Resumo

O conhecimento da estrutura genética de uma população permite identificar fatores que podem interferir na eficiência do progresso genético pela seleção. Objetivou-se com este estudo avaliar a estrutura genética por meio de analise tradicional e genômica, bem como associações entre regiões cromossômicas com características de tamanho corporal de animais da raça Santa Inês utilizando metodologia de passo único (ssGWAS). Para tanto, foram utilizadas informações de 428 animais criados nos estados do Piauí e Maranhão com registro na Associação Brasileira de Criadores de Ovinos, dos quais foram genotipados 271, utilizando-se SNPs chip de alta densidade Ovine 50K da Illumina. Após o controle de qualidade, foram utilizados 51.874 SNPs. No Capitulo 1, foram utilizados dois métodos para calcular o parentesco entre os animais, matriz de numeradores do coeficiente de parentesco de Wright (A), com base na informação de pedigree, e a matriz de relacionamento genético genômico (G), com base nos marcadores SNPs. Quatro critérios foram utilizados e comparados para estimar a endogamia, informações pedigree (FPED); corridas de homozigose (FROH), frequência de homozigose observada e esperada (FHOM) e a matriz de relacionamento genômico (FGRM). Com a estatística r2estimou-se a extensão do desequilíbrio de ligação entre pares de SNPs adjacentes presentes nos cromossomos autossômicos. A identificação dos segmentos de homozigose (ROH) nos cromossomos autossômicos foi realizada considerando pelo menos 50 SNPs homozigotos em um segmento mínimo de 1.000 Kb por animal. O desequilíbrio de ligação (LD) com base na estimativa de r² foi de 0,4443. Os coeficientes de endogamia médios estimados FPED, FROH, FHOM, FGRM, foram 0,0004 0,035, 0,025, e 0,552, respectivamente. As estimativas de parentesco médio com base em A e G foram, respectivamente, 0,02 e 0,255. Foram identificados 4.022 seguimentos de homozigose no genoma, dos quais se destacam três regiões no cromossomo 16 que foram compartilhadas por mais de 50% da população, o que pode indicar a ocorrência de seleção intensa para características cuja expressão está regulada por genes localizados neste cromossomo. No Capitulo 2, para verificar a associação de marcadores SNPs com características de tamanho corporal, realizou-se análise de associação genômica ampla (GWAS) por meio da metodologia GWAS de passo único (ssGWAS) para estimar os efeitos de marcadores e associá-los às características peso a idade adulta (PA), comprimento corporal (CC), altura da cernelha (AC), circunferência torácica (CT), comprimento da perna (CP) e perímetro da perna(PP). Observaram-se associações com PA, CP e PP no cromossomo 6, com CT nos cromossomos 4, 7 e 13 e com AC e CC no cromossomo 4. As regiões identificadas neste estudo apresentam vários genes com conhecimento biológico descrito que poderão auxiliar na melhor compreensão da expressão destas características, assim como, poderão auxiliar nas tomadas de decisões em programas de seleção da raça Santa Inês.

Knowledge on the genetic structure of a population allows for the identification of factors that may affect the efficiency of genetic progress caused by selection. In this study we aimed to evaluate the genetic structure of Santa Inês sheep, by means of traditional and genomic analyzes, and detect associations of cromosomal regions with body size traits using the single-step (ssGWAS) methodology. Therefore, information of 428 animals raised in the states of Piauí and Maranhão, and registered with the Brazilian Association of Sheep Breeders, was used. From those animals, 271 were genotyped using the high density Illumina Ovine SNP50K BeadChip. After quality control, 51,874 SNPs were used for genomic analysis. In chapter 1, the traditional genetic relationship matrix (A, based on pedigree information) and the genomic relationship matrix (G, based on SNP markers) were used to calculate kinship between animals. Four criteria were used and compared in order to estimate the inbreeding coefficient: pedigree information (FPED); runs of homozygosity (FROH); observed and expected frequency of homozygosity (FHOM); and the genomic relationship matrix (FGRM). The extent of linkage disequilibrium was estimated between all adjacent pairs of SNPs present in autosomal chromosomes by means of r2. Identification of runs of homozygosity (ROH) in autosomal chromosomes was performed by considering at least 50 homozygous SNPs in a minimal segment of 1,000 Kb by animal. Linkage disequilibrium (LD): r2=0.4443. The estimated average inbreeding coefficients FPED, FROH, FHOM, and FGRM were 0.0004, 0.035, 0.025, and 0.552, respectively. The estimates of average relationship based on A and G were 0.02 and 0.255, respectively. A total of 4,022 runs of homozigosity were identified throughout the genome, where three regions on chromosome 16 stand out, because they were shared by more than 50% of the population. This is probably an indicative that intensive selection is occurring for traits of which the expression is controlled by genes located in chromosome 16. In chapter 2, a genome-wide association (GWA) analysis was performed using the single-step GWAS (ssGWAS) method, in order to estimate markers effects and associate them with adult body weight (PA), body length (CC), height at whiters (AC), thoracic circumference (CT), leg length (CP), and leg perimeter (PP). Associations with PA, CP, and PP (on chromosome 6), with CT (on chromosomes 4, 7 and 13), and with AC and CC (on chromosome 4) were observed. The regions identified in this study showed several genes biologically described which would help in the better understanding on the expression of the traits in study, and would help in decision-making in Santa Inês selection programs.

8.

Feed efficiency traits in Santa Inês sheep under genomic approaches

AMANDA BOTELHO ALVARENGA.

Tese em Inglês | VETTESES | ID: vtt-207628

Resumo

A seleção com base nos valores genéticos genômicos preditos pode aumentar substancialmente a taxa de ganho genético em animais por meio do aumento da acurácia de predição e redução do intervalo de gerações, especialmente para características de difícil e/ou onerosa mensuração, como eficiência alimentar. A eficiência alimentar é uma das características mais importantes na produção animal devido principalmente aos seus impactos econômicos e ambientais. Muitas métricas representam a eficiência alimentar, por exemplo: a relação do ganho de peso e consumo alimentar (EA), a proporção do consumo alimentar e ganho de peso (CA) e o consumo alimentar residual (CAR). Em ovinos, nenhum estudo com o objetivo de buscar variantes genéticas ou verificar a acurácia do valor genético genômico estimado para eficiência alimentar foi publicado. Adicionalmente, antes de aplicar a informação genômica, é necessário compreender e caracterizar a estrutura da população, como por meio do desequilíbrio de ligação (LD). O estudo de associação genômica (GWAS) e seleção genômica (GS) consideram o LD entre marcador e a mutação causal. Com base nas considerações acima, o objetivo deste estudo foi mapear o LD em ovinos, caracterizado pela raça ovina Santa Inês; localizar variantes genéticas para as características de eficiência alimentar (EA, CA e CAR) utilizando a abordagem GWAS; e verificar a acurácia da estimação dos valores genéticos genômico para o CAR. No total, foram coletadas 396 amostras (animais) do músculo Longissimus dorsi, para posterior genotipagem utilizando o painel de alta densidade (Illumina High-Density Ovine SNP BeadChip®), compreendendo 54.241 SNPs. O banco fenotípico é composto por 387 animais. O LD médio entre marcadores adjacentes para duas métricas de LD, r2 e /D'/, foram 0,166 e 0,617, respectivamente. O grau de LD estimado foi menor que o relatado em outras espécies e foi caracterizado por blocos de haplótipos curtos. Consequentemente, para as análises genômicas são recomendados painéis de marcadores de alta densidade. No GWAS, foram encontrados muitos marcadores associados aos fenótipos, em especial, à característica CAR. Alguns genes candidatos foram relatados neste estudo, destacando-se o NRF-1 (fator respiratório nuclear 1), que controla a biossíntese mitocondrial, o processo mais importante responsável por grande parte da produção de energia. Finalmente, verificamos a acurácia do valor genético genômico estimado para o CAR usando modelos de regressão Bayesiana, e encontramos baixos valores para acurácia (0,033 a 0,036) o que pode ser explicado pelo baixo grau de relacionamento entre os indivíduos e tamanho reduzido da população de treinamento.

The selection on genetic values predicted from markers could substantially increase the rate of genetic gain in animals by increasing accuracy of prediction and reducing generation interval, especially for difficult to measure traits, such as feed efficiency. Feed efficiency is the most important trait in animal production due to its impacts on cost of production and environmental factors. Many metrics measure the feed efficiency, such as ratio of gain to feed (FER), the ratio of feed to gain (FCR) and residual feed intake (RFI). Nevertheless, in ovine, no study with the aim of understand the genetic variants or the accuracy of genomic estimated breeding value (GEBV) for feed efficiency traits was published yet. Moreover, before to apply the genomic information, it is necessary to understand and characterized the population structure, for instance, by linkage disequilibrium (LD). Both genome-wide association studies (GWAS) and genomic selection (GS) leverage LD between marker and causal mutation. Based on the above considerations, the aim of this study was to map LD in ovine, characterized by Brazilian Santa Inês sheep; to search genetic variants for feed efficiency traits (FER, FCR and RFI) through GWAS; and to verify the accuracy of GEBV for RFI. In total, 396 samples (animals) of Longissimus dorsi muscle were collect. A high-density panel of SNP (Illumina High-Density Ovine SNP BeadChip®) comprising 54,241 SNPs was used to obtain the genotyping data. The phenotype data was comprised of 387 animals. The average LD between adjacent markers for two LD metrics, r2 and /D/, were 0.166 and 0.617, respectively. The degree of LD estimated was lower than reported in other species and it was characterized by short haplotype blocks. Consequently, for genomic analyses, high-density panels of marker are recommended. Many markers were associated to feed efficiency traits in GWAS, mainly to RFI trait. Few candidate genes were reported in this study, highlighting NRF-1 (nuclear respiratory factor 1), which controls mitochondrial biosynthesis, the most important process responsible by a great fraction of the produced energy. Finally, we verified the accuracy of GEBV for RFI using few Bayesian regression models, and we found low accuracy, ranging from 0.033 (BayesB with =0.9912) to 0.036 (BayesA), which might be explained by the low relationship among animals and small training population.

9.

Soluções computacionais para a coleta e análise de dados em programas de melhoramento genético animal

WILLIAN DOMINGUES COELHO.

Tese em Português | VETTESES | ID: vtt-206931

Resumo

Diferentes programas de melhoramento genético animal estão surgindo e se consolidando ao redor do mundo. Com isso, técnicas para análise de dados coletados são constantemente aprimoradas para aumentar a eficácia dos resultados. Contudo, com os avanços da tecnologia na área computacional e com a popularização dos dispositivos móveis (smartphones e tablets) e plataformas web, surgiram diversas oportunidades de modernizar e automatizar ainda mais o processo de avaliação e seleção animal. Este trabalho apresenta o desenvolvimento de dois softwares que visam aprimorar a forma como dados são analisados e, para um programa de melhoramento animal específico, como são coletados. No primeiro, é apresentado um aplicativo para dispositivos móveis que facilita a busca e o envio de dados sobre bovinos avaliados geneticamente no programa de melhoramento animal PampaPlus. Esse programa é realizado em parceria entre a Associação Brasileira de Hereford e Braford e a Embrapa Pecuária Sul na região Sul do Brasil. O segundo trata-se da integração entre uma ferramenta em linguagem R, que calcula o Desequilíbrio de Ligação entre populações (LD Estimate) para o ambiente do Galaxy Project com intuito de simplificar e popularizar o seu uso.

Different animal breeding programs are emerging and consolidating around the world. Thus, techniques for analyzing collected data are constantly improved to increase the effectiveness of the results. However, with advances in computer technology and the popularization of mobile devices (tablets and cell phones), emerged several opportunities to modernize and automate the process of animal selection. This work presents the development of two softwares that aim to improve the way data are analyzed and, for a specific animal breeding program, how they are collected. In the first, a mobile application is presented that facilitates the search and submission of data on genetically evaluated cattle in the PampaPlus animal breeding program. This program is carried out in partnership between the Brazilian Association of Hereford and Braford and Embrapa Pecuária Sul in the southern region of Brazil. The second one is the integration between an R-language tool, which calculates the linkage disequilibrium between populations (LD Estimates) for the Galaxy Project environment in order to simplify and popularize its use.

10.

PROSPECÇÃO DE ASSINATURAS DE SELEÇÃO EM REGIÕES DE QTL ASSOCIADAS COM CARACTERÍSTICAS REPRODUTIVAS EM NOVILHAS NELORE

DONICER EDUARDO MONTES VERGARA.

Tese em Português | VETTESES | ID: vtt-205169

Resumo

Características reprodutivas, como a ocorrência de prenhez precoce, são mais importantes economicamente ao comparar-se com as características de crescimento. Desta forma, o aumento da taxa de fertilidade e emprego de animais geneticamente superiores é determinante no progresso da produtividade nas fazendas comerciais de produção de carne bovina. A seleção modifica as frequências alélicas de uma população ao transmitir as variantes gênicas mais interessantes. Considerando o desequilíbrio de ligação, alguns locosadjacentes às mutações favoráveis são transmitidos ao longo das gerações. Estessão conhecidos como assinaturas de seleção e podem ser identificados com o uso de chips de SNP e metodologias estatísticas adequadas. Com o objetivo de identificar assinaturas de seleção recentes em QTL previamente mapeados para características reprodutivas de fêmeas bovinas ligadas à precocidade sexual, foram genotipadas 2.035 fêmeas da raça Nelore (Bos taurus indicus) com o chip IlluminaBovineHDBeadChip. Posteriormente foi inferida a fase de ligação dos SNPs e a reconstrução dos haplótipos. A detecção de assinaturas de seleção foi realizada por meio da aplicação da metodologia Relative Extended HaplotypeHomozygosity (REHH).A identificação degenes que contribuem para a importância da característica nestas regiões foi feita com a ferramenta MapViewer do National Center for BiotechnologyInformation- NCBI e GBrowse carregada com o genoma bovino versão UMD 3.1. Foram detectadas 2.756 regiões núcleo, com tamanho médio 27,6 ± 29,1 Kb, abrangendo 70,1 Mb dos 25 cromossomos estudados. Dos SNPs utilizados, 17.312 participaram da formação das regiões núcleo, com o mínimo de 10 no BTA27 e o máximo de 20 SNPs nos cromossomos 1, 3-7, 9-15,18-21, e 23-24. Foram identificadas 40assinaturas de seleção recentes com diferentes níveis de significância e 56 genes A maioria dos genes localizados nas regiões de assinaturas de seleção tem relação com os processos biológicos de metabolismo mitocondrial, desenvolvimento pós-embrionário, regulação da taxa de ovulação e fertilidade, resposta imune, metabolismo de triglicerídeo, proliferação celular e neurônios receptores olfativos.A investigação de mecanismos regulatórios da expressão dos genesassociados aos processos biológicos descritos pode oferecer conhecimentos sobre os mecanismos moleculares que afetam a característica ocorrências de prenhez precoce, na raça Nelore.

Some reproductive traits such as early pregnancy are more profitable than those related to growth. Increasing fertility rate and using genetically superior animals are crucial in productivity of meat commercial farms. Artificial selection modifies allele frequencies of a cattle population by transmitting the most significant gene variants. Considering linkage disequilibrium, some loci adjacent to favorable mutations are transmitted across generations. Known as signatures of selection, such locations can be identified by the SNP chips, and appropriate statistical methods. To determine recent selection signature in quantitative trait loci (QTL) previously mapped for reproductive cow features linked to sexual precocity, 2,035 Nelore (Bos taurus indicus) females were genotyped by Illumina Bovine chip. After, inferring the connection phase of SNPs allowed haplotype reconstruction. Selection signatures were detected by Relative Extended Haplotype Homozygosity (REHH) method. Genes supposedly important were recognized by Map Viewer from the National Center for Biotechnology Information (NCBI), and also through a loaded GBrowse with bovine genome UMD, version 3.1. A total of 2,756 core regions were detected, with an average size of 27.6 ± 29.1 Kb, covering 70.1 Mb of 25 chromosomes. 17,312 SNPs are involved in the formation of core regions with at least 10 on BTA27, and a maximum of 20 SNPs on 1, 3-7, 9-15, 18-21, and 23-24chromosomes. We identify 40 possible recent selection signatures, with different levels of significance, and 56 positional candidate genes. Most of genes located in selection signature regions are related to biological processes of mitochondrial metabolism, post-embryonic development, ovulation rate regulation and fertility, immune response, triglyceride metabolism, cell proliferation, and olfactory receptor neurons.The investigation of regulatory mechanisms of gene expression associated with biological processes described can provide knowledge on the molecular mechanisms affecting characteristic of early pregnancy occurrences in Nellore.

11.

MODELOS LALDA PARA PREDIÇÃO GENÔMICA DE CARACTERÍSTICAS DE CRESCIMENTO E DE CONVERSÃO ALIMENTAR EM SUÍNOS

ELCER ALBENIS ZAMORA JEREZ.

Tese em Português | VETTESES | ID: vtt-201430

Resumo

Recentemente, as duas principais fontes de informações para estudos genéticos via marcadores moleculares (LA - linkage analysis, e LDA - linkage disequilibrium analysis) foram combinadas (originando o termo LALDA) para fins de seleção genômica (SG). Os resultados foram satisfatórios, inclusive superando o modelo LDA (tradicional de SG) em termos de capacidade preditiva em diferentes aplicações a dados simulados e reais. A característica conversão alimentar (CA), e seus componentes (consumo de ração-CR e ganho de peso diário-GPD), são de grande importância econômica para a suinocultura moderna, uma vez que os custos com alimentação representarem a maior parte do custo total de produção. Desta forma, a utilização da SG para tais características se justifica e deve ser motivo de pesquisas na área de Melhoramento Genético Animal. Neste sentido, objetivou-se propor uma metodologia para implementação dos modelos LALDA para predição genômica utilizando softwares livres, bem como aplicar a referida proposta a dados reais de GPD, CR e CA em uma população F2 (Piau x comercial) de suínos. A proposta foi implementada em dois passos distintos. No primeiro, foram identificados efeitos significativos de QTL em posições específicas do genoma para as características GPD, CR e CA via ajuste de modelos que consideraram o efeito aleatório de QTL via matriz IBD (identity by descent) genotípica. No segundo, estas matrizes calculadas nas posições em questão foram utilizadas para inserir o efeito aleatório genotípico de QTL adicionalmente aos feitos aleatórios de marcadores SNPs e poligênico aditivo (baseado em matriz de parentesco tradicional) nos modelos Bayesianos de predição genômica (Bayesian Ridge Regression - BRR, Bayes A - BA, Bayes B - BB, Bayes C BC e Bayesian LASSO - BL). Foram realizadas análises de qualidade de ajuste e de capacidade preditiva a fim de comprovar a eficiência dos modelos propostos. Em síntese, o modelo LALDA via BA mostrou a melhor qualidade de ajuste via DIC (Deviance Information Criterion) e maior capacidade preditiva quando comparado com os demais modelos LALDA (BRR, BB, BC e BL) para todas características estudadas. Embora de forma discreta, esta superioridade também se verificou ao comparar o modelo em questão com modelos alternativos que não contemplaram o efeito aleatório de QTL (modelos LDA tradicionais de SG), ou seja, o modelo LALDA proposto mostrou-se eficiente e plausível de ser implementado por meio de softwares livres (QXPAK e R).

Recently, the two main sources of information for genetic studies via molecular markers (LA - linkage analysis, and LDA - linkage disequilibrium analysis) has been combined (emerging the term "LALDA") for genomic selection (GS) purposes. The results were satisfactory, even outperforming LDA model (traditional GS) in terms of predictive capacity in different applications to simulated and real data in animal breeding. The trait feed conversion ratio (FCR) and its components (feed intake FI, weight daily gain WDG) are very important for the modern pig industry, since the feed costs represent the largest part of the total production costs. Thus, the use of GS for these traits can be justified and represents an interesting research topic into the area of Animal Breeding. In this context, we aimed to propose a LALDA methodology for genomic prediction using free software, as well as to apply the proposed model to real data of WDG, FI and FCR from an F2 pig population (Piau x commercial). LALDA methodology was implemented in two different steps. At the first one, significant QTLs were identified for all traits by using mixed models that considered the QTL random effect via genotypic IBD (identity by descent) matrix. At the second, these matrices calculated at the positions of significant QTLs were used to insert the genotypic QTL random effect additionally to random SNPs markers (traditional GS model) and polygenic additive (based on traditional pedigree relationship matrix) effects in Bayesian models of genomic prediction (Bayesian Ridge Regression - BRR, Bayes a - BA, Bayes B - BB Bayes C - BC and Bayesian LASSO - BL). The goodness of fit and predictive capacity analyses was realized to test the efficiency of the proposed LALDA models. In summary, the LALDA model via BA showed the best fitting through DIC (Deviance Information Criterion) and higher predictive capacity when compared to other LALDA models (BRR, BB, BC and BL) for all traits. Although slightly, the superiority of the LALDA models was verified in relation to alternative models that did not included the genotypic QTL random effect (traditional LDA models for GS). In summary, the proposed LALDA model was efficient and available to be implemented through free software (QXPAK e R).

12.

ESTRUTURA GENÔMICA DE UMA POPULAÇÃO DE SUÍNOS BASE LANDRACE.

LETICIA BORGES JOAQUIM.

Tese em Português | VETTESES | ID: vtt-205216

Resumo

Os painéis de marcadores de alta densidade têm demonstrado a sua funcionalidade nos estudos de estrutura da população e conservação genética. Esses painéis permitem avaliar similaridades no padrão do desequilíbrio de ligação em toda população, assim como informações sobre parentesco da população. Segmentos de homozigose são utilizados como indicativo da estrutura da população e fornecem informações sobre o histórico demográfico e eventos de endogamia da mesma. O objetivo deste trabalho foi estudar a estrutura genômica de uma linhagem sintética base Landrace por meio de (i) análises de desequilíbrio de ligação; (ii) estimação do coeficiente de endogamia utilizando dados genômicos e de pedigree; (iii) análise do número e tamanho de segmentos de homozigose; e (iv) determinação da estratificação da população. Foram utilizados registros de 300 fêmeas e 25 machos de uma linhagem fêmea sintética base Landracegenotipados com o painel IlluminaPorcineSNP60 v2 BeadChip. A edição dos dados foi realizada no programa PLINK v.1.9 para remoção de marcadores SNPs (Single NucleotidePolymorphism) que falharam em mais de 10% das amostras (call rate) e amostras que falharam em mais de 10% dos marcadores. A extensão do desequilíbrio de ligação foi avaliada entre todos os pares SNPs adjacentes presentes nos cromossomos autossômicos por meio da medida r2. O coeficiente de endogamia foi calculado usando registros de pedigree e de dados genômicos. Os segmentos de homozigose foram detectados para os cromossomos autossômicos com o programa computacional PLINK v.1.9, considerando pelo menos 50 SNPs homozigotos dentro de tamanho mínimo de 1.000 Kb por animal, permitindo um SNP heterozigoto e um SNP faltante/perdido dentro de uma janela de 50 SNPs. Os segmentos de homozigose detectados foram utilizados para cálculo do coeficiente de endogamia genômica e como indicativo do histórico da população. A estratificação da população foi avaliada utilizando análises de componentes principais e pelo modelo de ancestralidade por metodologia bayesiana aplicado no programa STRUCTURE. Na análise de ancestralidade foram testados valores de K (número de clusters) variando de um a oito usando período de burn-in de 1.000 iterações e Cadeia de Markov e Monte Carlo de 10.000 iterações. As análises foram repetidas dez vezes para cada K e a determinação do melhor número para K foi estimada utilizando a estatística Delta K. O valor médio de r² encontrado para todos os SNPs adjacentes que estão a uma distância menor que 100 Kb foi de 0,291 ± 0,312. Os coeficientes de endogamia médios obtidos a partir dos segmentos de homozigose e de registros de pedigree foram de 0,119 e 0,00011, respectivamente. A baixa correlação (r<0,04) encontrada entre os coeficientes de endogamia pode ser explicada pelo efeito da variação da recombinação gênica que não é considerada nas estimativas obtidas à partir de registros de pedigree e devido aos erros de identificação dos animais no pedigree. A identificação de um grande número de longos segmentos de homozigose pode ser indicativa de endogamia recente na população estudada. O estudo da estratificação da amostra indicou que a mesma estaria dividida em duas populações (k=2), sendo que a separação pode ser explicada pelo cruzamento entre as raças ocidentais e orientais utilizadas na formação da linhagem. Os dados de genotipagem permitiram concluir que a população estudada possui endogamia recente, sugerindo-se que seja priorizado acasalamento entre indivíduos menos aparentados para assegurar a manutenção da diversidade genética.

High-density single nucleotide polymorphism (SNP) panels have been used in genomic studies, such as population structure and conservation genetic studies. These panels allow to assess similarities in the patterns of linkage disequilibrium across populations and to estimate relatedness between populations. Runs of homozygosity are used as indicative of population structure and it provides information about demographic history and recent inbreeding. The aim of this study was to describe the genomic structure of a synthetic Landrace line by (i) linkage disequilibrium (LD) analyses; (ii) inbreeding estimates through pedigree and genomic data; (iii) analysing the number and length of runs of homozygosity (ROH); and (iv) determination of population structure. A total of 300 females and 25 males from synthetic Landrace line were genotyped using Illumina PorcineSNP60 v2 BeadChip. Data editing was performed using PLINK v.1.9. The SNPs and samples with a call rate lower than 0.90 were excluded from the data set.Only the autosomal chromosomes were considered for LD an ROH analyses. The LD between all pairs of SNPs were measured by the means of the genotype correlation coefficient (r²) and it determined the decay of LD with physical distance. The coefficient of inbreeding was calculated using genomic and pedigree data. ROH were detected using PLINK v.1.9 considering the follow parameters: a minimum ROH of 50 SNPs with a minimum length of 1000 (Kb), one heterozygous SNP and one missing SNP were allowed within the sliding window of 50 SNPs.The individual genomic inbreeding and population history were identified from estimated ROH. The population structure was evaluated using principal component analysis and Bayesian admixture model. The number of clusters (K) was tested from two to eight considering a burning period of 1,000 followed by 10,000 Markov chain Monte Carlo repetitions and replicated ten times for each K. The best K was estimated using the Delta K statistic. For all SNPs adjacent less than 100 kilobase (kb) apart, the average r2 was 0.291 ± 0.312. The average inbreeding coefficient, calculated by ROH and pedigree analyses, were0.119 and 0.00011, respectively. The low correlation between the inbreeding coefficients can be justified by the genetic recombination because just ROH analyses identified the genetic recombination variation. The high number of long ROH is an evidence of recent inbreeding in this population. The population structure analysis revealed K=2 was the best number of clusters and separation. This result can be explained by the crossbreeding between the Eastern and Western breeds used in the formation of the line.The genotyping data helped confirm that the inbreeding in the studied population is recent, which suggests that mating between individuals less related occurred to ensure the maintenance of genetic diversity.

13.

ESTUDO GENÔMICO DA PRODUÇÃO DE LEITE E SEUS CONSTITUINTES EM BOVINOS DA RAÇA GUZERÁ

DANIEL JORDAN DE ABREU SANTOS.

Tese em Português | VETTESES | ID: vtt-204915

Resumo

Painéis comerciais contendo milhares de SNPs a custo acessível revolucionaram os estudos genéticos na pecuária, principalmente por meio das análises de associação ampla e seleção genômica. A seleção genômica tem um aspecto prático, por ser diretamente aplicado aos programas de melhoramento, possibilitando aumento de acurácia das avaliações para as características quantitativas, como a produção de leite e seus constituintes. Como base nisso objetivou-se com esta tese verificar a distribuição das frequências dos polimorfismos e calcular o desequilíbrio de ligação (DL) dos segmentos cromossômicos no genoma de bovinos da raça Guzerá; estudar a associação dos marcadores com a produção de leite e seus constituintes; e comparar diferentes modelos para avaliação genômica com diferentes distribuições a priori para o efeito dos marcadores. Dessa forma, foi avaliado o DL entre marcadores de um painel de 50 k da Illumina® e estimado o tamanho efetivo populacional. Para isto foram utilizados 50 touros e 853 vacas Guzerá que também participaram dos estudos de associação e seleção genômica. A média de r2 foi de 0,16 para a distância 100 kb no genôma destes animais. A densidade do painel de 50 k foi considerada suficiente para proporcionar DL entre os segmentos cromossômicos para a predição de valores genéticos genômicos. Já as estimativas do tamanho efetivo populacional foram reduzidas com o decorrer das gerações, indicando aumento da intensidade de seleção para a raça ao longo das gerações. O baixo tamanho efetivo observado para as gerações recentes (137) indicaram a importância de se considerar a endogamia nas decisões de acasalamentos para manter a diversidade genética da raça. As avaliações genômicas foram realizadas pelos métodos GBLUP, BayesC, BayesC, Lasso e por meio de dois modelos multicaracterística para a produção de leite (PL), gordura (PG) e proteína (PP). As acurácias das predições variaram de 0,65 a 0,80. As metodologias de predição bayesianas, GBLUP e os modelos de avaliação genômica multicaracterística foram equivalentes para a predição dos valores genômicos dos animais desta população. No entanto, o GBLUP é a melhor opção considerando um ajuste global, além de exigir menor demanda computacional e facilidade em convergência em relação aos outros modelos. As predições genômicas foram adequadas para a orientação de seleção de animais da raça, quando estas foram baseadas nos efeitos dos marcadores e poligênico. Também foram calculadas as porcentagens de variâncias explicadas para cada SNP. Janelas composta por sete SNPs adjacentes que desviaram substancialmente das demais regiões genômicas foram investigadas. Foram observados dois sinais fortes relacionados à explicação da variância fenotípica no cromossomo 8 e 28 para PL, PG e PP. Nestas regiões foram encontrados 30 genes, sendo que alguns deles tinham alta expressão no tecido mamário, ou estavam relacionado à fisiologia de excreção e ao metabolismo glicídico. Dentro destas duas regiões, haviam cinco candidatos à QTLs que foram reportadas para PL e PP na literatura. Um quarto estudo adicional objetivando avaliar o desempenho do Axiom® Genome-Wide BOS 1 Array da Affymetrix e o BovineHD BeadChip da Illlumina® foi realizado, considerando quarenta e oito touros com representividade genética da população. Ambos os painéis apresentaram vii cobertura genômica adequada, possuindo alta densidade de marcadores espalhados pelo genoma, sendo que parte destes, apresentou cobertura genética direta (direta nos genes). Apesar das estimativas do DL terem sido maiores com o painel da Illumina, foram observados níveis altos e moderados de DL para pequenas distâncias com os dois painéis. Estes níveis podem ser adequados para auxiliar na obtenção de valores genéticos genômicos para animais da raça Guzerá. No entanto, a combinação destes dois painéis comerciais não indicou viabilidade.

Commercial panels containing thousands of SNPs revolutionized genetic studies in livestock, especially with the genome-wide association study and genomic selection. The genomic selection is also directly applied to breeding programs enabling increasing on accuracy of the genetic evaluation for quantitative traits such as milk yield and its constituents. Thus, the aim of this thesis was to study the distribution of frequencies of polymorphisms and the linkage disequilibrium (LD) in the Guzerá cattle; was also to study the association of the markers with the dairy traits and to compare different models for genomic evaluation with different prior distributions for the effect of markers. The LD and the effective size were estimated using a 50 k Illumina® panel for 50 sires and 853 cows. For 100 kb the average of r2 was 0.16. The density of this 50 k panel was considered sufficient to provide LD between chromosomal segments for estimation of genomic breeding values. The effective size was reduced over the course of generations, indicating increase intensity of selection. The low estimate for effective size for recent generations indicated the importance of considering inbreeding for mating to maintain the genetic diversity of this breed. Genomic evaluations were performed by GBLUP, BayesC, BayesC, Lasso and two multi-trait models for milk yield (MY), fat (MF) and protein (MP). The accuracies for predictions ranged from 0.65 to 0.80. Bayesian prediction, GBLUP and multi-traits models were equivalent for predict the genomic breeding values. However, the best option was GBLUP considering overall fit, lower computational requirement and facility of convergence. The results indicated that genomic predictions were adequate to assist animal selection. In other study, the percentages of explained variance for each SNP were calculated. Windows, composed of seven adjacent SNPs deviated substantially from the other genomic regions were investigated. Two strong signals were observed and related to the explanation of phenotypic variance in BTA8 and BTA28 for MY, MF and MP. In these regions were found 30 genes and some of them had high expression in mammary tissue, or were related to the metabolism of glucose and excretion physiology. Within these regions, were reported five candidates to QTLs for MY and MP in the literature. An additional study for evaluate the performance of Axiom® Genome-Wide BOS 1 Array from Affymetrix and the BovineHD BeadChip from Illlumina® was performed using forty eight sires. These sires had genetic representation for this population. Both panels had adequate genomic coverage, high density of markers distributed in the genome. Some markers showed also direct genetic coverage (directly inside the genes). The LD estimates were higher with the Illumina panel. But we observed high and moderate levels of LD for short distances with both panels. It may be suitable to obtaining genomic breeding values for these animals. However, the combination of both panels indicated no viability.

14.

ANÁLISE AMPLA DO GENOMA PARA DETECÇÃO DE ERROS DE MONTAGEM NO GENOMA DE REFERÊNCIA BOVINO E PARA DETECÇÃO DE LOCOS RELACIONADOS A CARACTERÍSTICAS DE PRODUÇÃO E REPRODUÇÃO DA RAÇA GIR

ADAM TAITI HARTH UTSUNOMIYA.

Tese em Português | VETTESES | ID: vtt-204916

Resumo

A base genética que rege os processos fisiológicos para expressão dos fenótipos de produção de leite ainda não está completamente compreendida, pois poucos genes causais ou marcadores associados com a variação na expressão desses fenótipos foram relatados e espera-se que mais genes estejam envolvidos. Com o surgimento da era genômica, os esforços para identificar polimorfismos de sítio único (Single Nucleotide Polymorphisms - SNPs) foram expressivos. Os SNPs permitem estabelecer uma forte relação entre a expressão de características economicamente importantes e regiões específicas do genoma de um indivíduo. Tal relação é confirmada por estudos de associação ampla do genoma (GWAS), gerando conhecimento a cerca dos genes e fragmentos cromossômicos ligados a características importantes, os quais são posteriormente explorados na biologia dos sistemas. Qualquer inferência acerca de segmentos cromossômicos que possam estar associados a fenótipos de interesse utiliza uma montagem de um genoma de referência, onde todos os genes estão ancorados. Porém, o processo de montagem de um genoma é complexo e erros quanto ao posicionamento de sequências são esperados. Desta forma, este trabalho propõe avaliar a montagem de referência do genoma bovino produzido pelo grupo de pesquisa da universidade de Maryland e a aplicação do GWAS na raça Gir (Bos indicus) aos fenótipos de produção de leite, proteína e gordura, porcentagem de proteína e gordura e idade ao primeito parto, com o intuito de identificar regiões cromossômicas que possam estar relacionadas com aspectos importantes da produção de leite e fertilidade, contribuindo para a melhor compreensão dos fenômenos que regem tais aspectos.

The genetic basis of physiological processes underlying milk production traits are not completely understood, and few causal genes and markers associated with these traits have been reported to date. The emergence of the genomics era, efforts for the discovery of single nucleotide polymorphisms (SNPs) are numerous. These markers allow for establishing relationships between differences in economically important traits and specific genomic coordinates. These relationships are confirmed in genome-wide association studies (GWAS), which provide knowledge about genes and chromosomal segments affecting traits of interest that can be further explored in systems biology. Inferences about genomic localtions that are potentially implicated in phenotypic differences rely on a reference genome assembly where genes are annotated. However, genome assembly is a complex task that is prone to errors, and cases of wrong positioning of nucleotide sequences are not rare. Therefore, this thesis aimed at assessing candidate mis-assembled regions in the reference bovine genome assembly and performing a GWAS for milk traits in Gir cattle (Bos indicus), including milk, protein and fat yield, percentage of protein and fat, and age at first calving, targeting the identication of genomic regions that are potentially related to important aspects of fertility and milk production.

Resumo

Assuntos

Resumo

Assuntos

Resumo

Assuntos

Resumo

Resumo

Resumo

Resumo

Resumo

Resumo

Resumo

Resumo

Resumo

Resumo

Resumo

ENVIAR RESULTADO:

SELEÇÃO DE REFERÊNCIAS

DETALHE DA PESQUISA