Información

¿Puede un nuevo dominio de proteína surgir de novo en la naturaleza o todos los dominios de proteína evolucionaron a partir de un único ancestro?


Sé que hay una extensa investigación sobre la taxonomía y la evolución de los dominios de proteínas y muchas conexiones se encuentran, y continúan encontrándose, entre numerosos dominios. Sin embargo, por lo que puedo ver, los nuevos dominios siempre surgen de los preexistentes. No he visto ningún artículo, en ningún campo, que muestre el desarrollo de un nuevo dominio de proteína a partir de una pieza aleatoria de ADN que simplemente muta un codón de inicio y sintetiza una nueva proteína sin función aparente. Se que esto es teóricamente posible pero alguien ha visto alguna evidencia de que ha sucedido en cualquier forma de vida en cualquier período de tiempo geológico? ¿O existen otros mecanismos que podrían generar nuevos dominios a partir de ADN no codificante que he pasado por alto al buscar en las revistas?

Mi pensamiento es que, si de novo La generación de dominios de proteínas no ocurre, ¿significa que todos los dominios de proteínas son una especie de "progenie" de un solo dominio que surgió al inicio de la vida como la conocemos (o tal vez incluso fue la primera forma de vida en la Tierra)? Me parece muy extraño que esto no se haya señalado hasta ahora, ya que es una deducción relativamente simple. Por lo tanto, estoy pidiendo un documento de referencia que muestre evidencia de la evolución de de novo dominios de proteínas de una pieza aleatoria de ADN que de alguna manera logró convertirse en un gen o para una referencia a un artículo que discute la idea de que todas las proteínas se originan a partir de un ancestro común que existe al inicio de la vida e incluso, posiblemente, un solo dominio tan antiguo como la vida misma?


Si. Los nuevos dominios proteicos pueden surgir de novo en la naturaleza. La evidencia es bastante sólida, ya que esos nuevos dominios muestran todos los patrones de mutación esperados y las propiedades estadísticas (esperadas para algo que evoluciona a partir del ADN que aún no codifica un dominio). Por ejemplo: ver el siguiente metanálisis, que también describe cómo se comportan esos nuevos dominios en relación con los más antiguos, y cómo se integran en las proteínas: Toll-Riera et Mar Alba 2013, BMC Evolutionary Biology, "Emergencia de nuevos dominios en proteínas": https://bmcevolbiol.biomedcentral.com/articles/10.1186/1471-2148-13-47

Si además está interesado en nuevos genes, consulte la siguiente mini revisión: http://www.sciencedirect.com/science/article/pii/S0960982214001547#bib20.

Si además está interesado en la evolución in vitro, que es directamente observable dentro de la vida útil de los seres humanos, la siguiente revisión: http://www.sciencedirect.com/science/article/pii/S0022175904001309


¿Puede un nuevo dominio de proteína surgir de novo en la naturaleza o todos los dominios de proteína evolucionaron a partir de un único ancestro? - biología

Los genes sin similitud entre especies (huérfanos) aparecen en todos los genomas secuenciados.

Algunos huérfanos se establecen en linajes posteriores.

A medida que los huérfanos maduran, tienden a volverse más complejos, conectados y funcionales.

Muchos huérfanos funcionan en situaciones de estrés biótico / abiótico y rasgos específicos de linaje.

Algunos huérfanos vinculan las respuestas metabólicas a los cambios ambientales.

Algunos huérfanos son funcionales cuando se introducen en especies evolutivamente distantes.

Minorías importantes de genes que codifican proteínas de cada genoma eucariota y procariota secuenciado son exclusivas de la especie. Estos denominados "genes huérfanos" pueden evolucionar de novo a partir de una secuencia no codificante o derivar de un material codificante más antiguo. A menudo se asocian con respuestas al estrés ambiental y rasgos o patrones regulatorios específicos de la especie. Sin embargo, las dificultades en el estudio de genes donde el análisis comparativo es imposible, y un sesgo hacia genes ampliamente conservados, han resultado en una subestimación de su importancia. Revisamos aquí la identificación, los posibles orígenes, las tendencias evolutivas y las funciones de los huérfanos con énfasis en su papel en la biología vegetal. Ejemplificamos varias tendencias evolutivas con un análisis de Arabidopsis thaliana y presente QQS como gen huérfano modelo.


Resultados

Hemos identificado un posible caso de evolución de un nuevo gen y una nueva función mediante la sobreimpresión en E. coli K12. Los genes superpuestos son el gen del regulador positivo del promotor de choque térmico sigma 32 (htgA) [UniProtKB: P28697] y el gen yaaW [UniProtKB: P75617], cuyo producto proteico hipotético ha sido clasificado como una Familia de Proteínas No Identificada 0174 en la base de datos Pfam [Pfam: UPF0174] (Figura 1). Los genes están codificados en la fase 123/213 (htgA en la hebra (+), y yaaW en la cadena (-)), lo que significa que el tercer nucleótido del codón (+) se superpone con los 3 nucleótidos del codón (-). La superposición comprende los 591 nucleótidos del total htgA gene.

Genes superpuestos en E. coli. Superpuesto yaaW [UniProtKB: P75617] y htgA [UniProtKB: P28697] genes en E. coli. Los números indican residuos de nucleótidos para yaaW gene. El codón de iniciación de hgtA se ha predicho que está en el nucleótido 632 [14], y más recientemente en 527 [23]. Un cuadro gris indica la región donde hemos detectado una disminución en la tasa de evolución de yaaW secuencias con un htgA gen superpuesto.

Aunque las tablas de anotación de genes del NCBI proporcionan coordenadas para la posición de los genes en los genomas, se debe tener precaución, ya que los errores de secuenciación y sobreanotación pueden inducir a error en la identificación de genes verdaderos. Mientras haya in vitro evidencia experimental de la existencia de htgA [14], esto no es cierto para yaaW. Por lo tanto, hemos buscado evidencia indirecta de su existencia preguntando si hay: a) yaaW homólogos en otros genomas b) fusiones de dominios de homólogos con el yaaW producto proteico con otros dominios proteicos yc) sesgos detectables en la proporción de sinónimos (PD) versus no sinónimos (pn) sustituciones, es decir, desviaciones de la neutralidad (PDpn) entre yaaW secuencias que sugerirían la acción de la selección natural.

Distribución filogenética de htgA y yaaW genes

Según las tablas de anotación de genes del NCBI, htgA está presente en tres E. coli y uno Shigella flexneri son. Además, basado en I) similitud de secuencia ii) Predicción ORF por ORF Finder y iii) redujo las tasas de evolución de la secuencia de yaaW secuencias que contienen superpuestas htgA genes (ver más abajo), sugerimos que los homólogos a htgA también están presentes en todos los demás E. coli y Shigella sp. genomas analizados aquí, sumando un total de nueve htgA secuencias (Figura 2). Por otra parte, yaaW tiene una distribución filogenética más amplia. Este gen está presente en 16 γ-proteobacterias y tres ε-proteobacteria. yaaW puede identificarse como una secuencia muy divergente en Nostoc sp PCC7120 una cianobacteria filamentosa y en una fusobacteria. En contraste con htgA, que está presente como una sola copia, algunos de los genomas analizados aquí tienen copias parálogas de yaaW homólogos. Hay dos genomas dotados de más de una copia de yaaW Helicobacter pylori J99 tiene dos copias, mientras que H. pylori 26695 tiene tres copias. En total, detectamos 24 homólogos de yaaW. Dado que hay tres pares de secuencias idénticas a nivel de nucleótidos (cada par está codificado en diferentes cepas de la misma especie), solo hay 21 códigos UniProtKB (Figura 2). Alineación de secuencia múltiple de yaaW genes codificadores de proteínas se muestra en el archivo adicional 1. La distribución filogenética más amplia de yaaW sugiere que htgA originado por sobreimpresión en una copia ancestral de existente yaaW secuencias (los nombres completos de las proteínas se dan en el archivo adicional 2).

Distribución filogenética de yaaW y htgA genes superpuestos. Distribución filogenética, marcos de lectura abiertos de genes superpuestos y organización de dominios de proteínas de secuencias de proteínas codificadas según la base de datos Pfam. Estructura ORF: marco de lectura abierto de yaaW Las secuencias se muestran usando flechas de color gris oscuro orientadas a la izquierda anotadas por el genoma htgA secuencias que utilizan flechas negras orientadas a la derecha predichas htgA genes en este estudio flechas gris pálido orientadas a la derecha marcos de lectura abiertos que no codifican flechas sombreadas orientadas a la derecha. Dominios Pfam: Se indican casillas de color gris pálido [Pfam: UPF0174] Dominio Pfam presente en yaaW productos proteicos recuadros de color gris oscuro indican el dominio GTPasa de función desconocida [Pfam: MMR_HSR1]. En el yaaW gen que codifica [UniProtKB: Q8FLC7] el predicho htgA El gen es más corto debido a una mutación sin sentido. Los nombres completos de las proteínas se dan en el archivo adicional 3.

No detectamos homólogos entre virus con el producto proteico de htgA en la base de datos no redundante. Además de una pequeña similitud de la proteína DnaC [UniProtKB: Q9AZV4] de Lactococcus fago bIL286 (41 aminoácidos identidades a lo largo de 152 residuos, y BLAST e-valor de 1,7) a la yaaW producto proteico. Esto parece ser un falso positivo ya que la base de datos de Pfam no confirmó la similitud. Estos resultados negativos sugieren fuertemente, pero no prueban, que yaaW y htgA no se originó en un genoma viral.

Identificación del dominio proteico de yaaW y htgA proteínas codificadas

los yaaW proteínas codificadas coinciden con el perfil [Pfam: UPF0174] en la base de datos Pfam, la única excepción es la proteína hipotética alr3689 [UniProtKB: Q8YQX2] de Nostoc sp. PCC 7120 que exhibe un valor E marginal de HMMER de 0.048, que comprende 156 aminoácidos de 185 (0.01 se considera significativo en Pfam). Sin embargo, una búsqueda RÁPIDA de E. coli yaaW La secuencia de proteína codificada [UniProtKB: P75617] a nuestra base de datos de proteínas de genomas completos coincide con la secuencia de proteína cianobacteriana alr3689 con un valor e significativo de 2e-05 BLAST a un tramo de 86 aminoácidos de la proteína. La proteína alr3689 parece ser un homólogo muy divergente de yaaW tener el dominio UPF0174. yaaW se ha fusionado con un dominio GTPase [Pfam: MMR_HSR1] en Shewanella sp. y Campylobacter coli, que tiene una amplia distribución filogenética pero función desconocida. yaaW también se fusiona con una fracción de este dominio en la γ-proteobacteria Idiomarina loihiensis (Figura 2). Este dominio GTPasa se fusiona en otras proteínas con un dominio de función desconocida: [Pfam: DUF933] relacionado con la ubiquitina y con otro dominio GTPasa [Pfam: GTP1_OBG] que han demostrado ser importantes en el metabolismo celular normal en Schizosaccharomyces pombe [15]. La fusión de algunos yaaW homólogos a un dominio GTPasa sugiere que yaaW códigos para una proteína funcional. Por otro lado, no hay un dominio Pfam disponible para el htgA gen en ese momento.

Análisis filogenético

Con la excepción de la secuencia de Nostoc sp. que se ramifica entre las proteobacterias, la filogenia de yaaW Las proteínas codificadas se ajustan aproximadamente al árbol canónico basado en ARNr (Figura 3).

Análisis filogenético de yaaW secuencias codificadas por proteínas. Árbol de Evolución Mínima de yaaW secuencias de codificación de proteínas (el número en las ramas indica 1000 bootstraps). Una barra vertical gris indica la rama donde htgA gen superpuesto hipotéticamente originado. Una estrella indica la ubicación de la raíz según el método de raíz de punto medio. A, B y O denotan los grupos de secuencias que se utilizan para detectar los cambios en la evolución de la velocidad de yaaW secuencias que tienen y se superponen htgA gene. El nodo C es una secuencia ancestral hipotética. Las ramas más oscuras indican aquellas secuencias que tienen el mayor número de pruebas de tasa relativa estadísticamente significativas cuando se utilizan como grupos externos. Los números que siguen a los nombres de las proteínas indican lo siguiente: número de comparaciones estadísticamente significativas / del número total de comparaciones, nivel de significación (número de aminoácidos implicados en la tasa relativa de sabor). NS significa: no significativo.

Sustituciones sinónimos versus no sinónimos

La relación entre sinónimos (PD) versus no sinónimos (pn) sustituciones entre todos los pares de yaaW Las secuencias se muestran en la Figura 4a. El óvalo punteado indica comparaciones entre las secuencias del grupo A y B (como se define en la Figura 3). En la figura 4b, los valores de pn y PD se trazan contra las distancias de Kimura para cada par de yaaW secuencias. Como se muestra, el exceso de sustituciones sinónimos frente a no sinónimos sugiere una selección purificadora. Este exceso es especialmente importante entre las secuencias pertenecientes al grupo A y al grupo B (Figura 4c), lo que indica un mayor grado de restricción a los cambios no sinónimos impuestos por htgA sobre yaaW secuencias. La selección de purificación es estadísticamente significativa para todos yaaW secuencias (Tabla 1).

Sustituciones sinónimos versus no sinónimos. a) Proporción de sinónimos (pn) versus no sinónimos (PD) sustituciones de yaaW secuencias. El óvalo punteado indica comparaciones entre las secuencias del grupo A y B (y = 0,649x - 0,045 r 2 = 0,578) b) Distribución de PD (puntos negros) y pn (puntos blancos) contra la distancia de Kimura para yaaW genes. Las flechas indican comparaciones entre las secuencias del grupo A y B c) Número de pn versus PD valores de yaaW secuencias entre grupos (A, B y O), las barras indican la desviación estándar.

El patrón de sustituciones sinónimos y no sinónimos entre htgA Las secuencias también sugieren una selección purificadora (Tabla 1). Sin embargo, este patrón podría ser el reflejo de la acumulación de mutaciones purificadoras entre yaaW genes y la fase 123/213 de la superposición. Por lo tanto, mutaciones sinónimos y no sinónimos en yaaW afectará de manera similar a htgA. Este es un patrón inesperado para una secuencia nueva, ya que se ha demostrado que los nuevos genes que se originan a través de la sobreimpresión en virus muestran un exceso de sustituciones no sinónimos, lo que indica la acción de la selección natural positiva [8].

Menor tasa de evolución de yaaW secuencias con superposiciones htgA genes

Se espera que las secuencias de ADN que codifican genes superpuestos evolucionen a un ritmo menor que las secuencias de ADN que codifican solo un gen [6, 7]. En consecuencia, hemos analizado las tasas de sustitución de yaaW genes con y sin superposición htgA utilizando una prueba de velocidad relativa no paramétrica [16] para todas las combinaciones de tres secuencias que constan de una secuencia fuera del grupo (O) y dos secuencias dentro del grupo (A y B) (véanse los métodos y la Figura 3).

En grupo yaaW Las secuencias que carecen de superposición (secuencias B en la Figura 3) han acumulado más mutaciones exclusivas (cambios de m2 en la Figura 5) en los primeros 409 nucleótidos que las del grupo. yaaW genes dotados de la superposición (secuencias A en la Figura 3 y cambios de m1 en la Figura 5). Esto sugiere que htgA ejerce una presión evolutiva para yaaW en sus primeros 409 nucleótidos. En consecuencia, hemos subdividido el yaaW alineación en dos secciones. El primero comprende los nucleótidos 1 a 408, mientras que el segundo incluye los nucleótidos 409 a 714. A continuación, aplicamos la prueba de Tajima [16] a ambas secciones de forma independiente. Como se ve en la Figura 6, muchas de las diferencias son significativas en α = 0.05 para los primeros 408 nucleótidos, y para algunas comparaciones incluso en el nivel α = 0.01. Esto es particularmente cierto para los genes que codifican las secuencias de proteínas [UniProtKB: O26107] y [UniProtKB: Q9ZJ24] (también se alinean mejor con las secuencias A y B). Sin embargo, no todas las comparaciones dan resultados estadísticamente significativos. Es probable que la erosión de la señal en las secuencias que han experimentado más sustituciones pueda explicar en parte la falta de resultados estadísticamente significativos en algunas pruebas de tasa relativa, ya que parece haber una tendencia de valores de Chi-cuadrado más bajos hacia una mayor distancia genética (Figura 6).

Diferencias en la sustitución de tasas entre yaaW secuencias. Número de mutaciones exclusivas de secuencias del grupo A (mutaciones m1) versus número de mutaciones exclusivas de secuencias del grupo B (mutaciones m2) en yaaW genes en ventanas de 102 nucleótidos. Los valores X denotan la posición media de cada ventana en E. coli yaaW secuencia. Las ventanas contiguas se superponen con 51 nucleótidos. Las líneas gruesas indican el número medio de mutaciones exclusivas para los cambios de m1 y m2. Las líneas discontinuas indicaban el número de cambios de m1 y m2 para las secuencias que mostraban los valores más extremos. Cada punto va acompañado de su desviación estándar.

Análisis estadístico. Distribución de los valores de chi-cuadrado de las pruebas de tasa relativa frente a la distancia de la secuencia fuera del grupo (O) al nodo C.Los puntos negros corresponden a los primeros 408 nucleótidos de yaaW y los cruces corresponden al resto del gen. Los niveles de significación de 0,005 y 0,001 se indican con líneas de puntos.


Panorama genómico del SARS-CoV-2

Para comprender la implicación clínica de las mutaciones del SARS-CoV-2 y para desarrollar vacunas y anticuerpos neutralizantes contra el virus, necesitamos conocer el panorama genómico y el comportamiento biológico de las proteínas clave del SARS-CoV-2. Los coronavirus pertenecen a la familia Coronaviridae (1, 2). El SARS-CoV-2 es un virus de ARN de sentido positivo, monocatenario y envuelto. El virión del SARS-CoV-2 consta de cuatro proteínas principales, incluidas la espiga (S), la envoltura (E), la membrana (M) y el nucleocápido (N). Entre ellas, la proteína espiga juega un papel clave en la unión, fusión, entrada y transmisión viral (3 & # x020135). La proteína de pico tiene dos partes funcionales conocidas como S1 y S2. El dominio S1 media la unión del receptor y el S2 media la fusión de la membrana aguas abajo. La subunidad S1 juega un papel crítico en la unión del receptor del virus y la subunidad S2 es responsable de la fusión de las células del virus (Figura 1). La proteína espiga del SARS-CoV-2 se une al receptor ACE2 (3 & # x020135, 26).

Figura 1. Paisaje genómico del virus SARS-CoV-2. (A) El dominio de unión al receptor (RBD) en la proteína de pico es la parte más variable del genoma. Se ha demostrado que seis aminoácidos son fundamentales para la unión a los receptores ACE2. Los residuos clave en la proteína de pico que hacen contacto con el receptor ACE2 se muestran con recuadros azules. (B) El sitio de escisión polibásico (PRAR) en la unión de la subunidad S1 y S2 es una característica relevante del genoma viral. Esto permite la escisión eficaz por furina y otras proteasas y tiene un papel en la determinación de la infectividad viral (3).

Se han informado dos características genómicas relevantes del SARS-CoV-2:

(a) El dominio de unión al receptor (RBD) ubicado en la subunidad S1 se ha comprometido específicamente con los receptores ACE2. La subunidad S2 media la fusión de las membranas viral y celular.

(b) El SARS-CoV-2 contiene un sitio de escisión polibásico funcional en la unión S1 & # x02013S2 (3).

El RBD en la proteína de pico es la parte más variable del genoma del coronavirus. Seis aminoácidos RBD tienen un papel crítico en la unión a los receptores ACE2 y en la determinación del rango de hospedadores de virus similares al SARS-CoV (Figura 2). Son Y442, L472, N479, D480, T487 e Y4911. Se ha demostrado que cinco de los seis residuos son diferentes entre el SARS-CoV-2 y el SARS-CoV. Tanto los estudios estructurales como los experimentos bioquímicos demostraron que el SARS-CoV-2 tiene un RBD que se une con alta afinidad a ACE2 (3, 5, 27).

Figura 2. Ciclo de vida de los coronavirus. Las partículas de coronavirus se unen al receptor ACE2. TMPRSS2 promueve la absorción y fusión viral en la membrana celular o endosomal. Después de la entrada, la liberación y el descubrimiento del ARN genómico lo someten a la traducción inmediata de los dos grandes marcos de lectura abiertos, ORF1a y ORF1b. Durante el ciclo de vida celular, los coronavirus expresan y replican su ARN genómico para producir copias completas que se incorporan a las partículas virales recién producidas (8).


Anotaciones y datos de secuencia sin procesar para el S. cerevisiae El genoma de la cepa S228C se descargaron del SGD el 18 de octubre de 2009 [85]. La historia evolutiva reconstruida entre S. cerevisiae y un antepasado pre-WGD derivado por Gordon et al. [39] se descargó de Yeast Gene Order Browser (YGOB) Versión 3 [86, 87]. Las familias de genes pronosticadas y las proteínas homólogas correspondientes se descargaron de la base de datos de ortología de proteínas de Princeton [40, 41] el 18 de octubre de 2009. La base de datos PPOD incluye predicciones de OrthoMCL [88], MultiParanoid [89] y un enfoque basado en clústeres de Jaccard . Para la clasificación de genes subteloméricos no incluidos en la reconstrucción de YGOB, las alineaciones de secuencia de S. cerevisiae proteínas con ortólogos pronosticados de siete hongos relacionados se descargaron de SGD el 24 de noviembre de 2009 [85].

Los datos de interacción física se extrajeron de la publicación del 26 de enero de 2009 de interacciones en la Base de datos de proteínas que interactúan (DIP) [57]. Al explorar la solidez de nuestras conclusiones, también consideramos las redes de interacción física de Kim y Marcotte [54], que fueron extraídas de BioGRID [83]. Para la red DIP, las proteínas con más de 50 interacciones físicas se filtraron iterativamente para eliminar los artefactos experimentales debidos a proteínas "pegajosas". Las redes utilizadas por Kim y Marcotte [54] se filtraron como se describe en Batada et al. [90] esto produjo redes que se dividieron fácilmente en un conjunto de interacción curado por la literatura y un conjunto determinado por métodos experimentales de alto rendimiento. Las conclusiones informadas se mantienen en todas estas redes (Sección S1.2 en el archivo adicional 1), lo que sugiere que el sesgo en el estudio de ciertos tipos de interacción no es responsable de los patrones observados.

Consideramos varias fuentes de información funcional sobre genes y proteínas. Primero, la esencialidad de un gen se tomó de los datos de viabilidad reportados en SGD [47, 85]. Esto incluye datos de una pantalla de alto rendimiento de mutantes knockout de casi todos los ORF en S. cerevisiae [46] y muchos estudios a pequeña escala. Consideramos que un gen es esencial si se determina que es esencial en alguno de los estudios. El conocimiento de la función de una proteína se tomó de la base de datos de Gene Ontology [48] mantenida en SGD. El enriquecimiento de funciones entre conjuntos de proteínas se probó utilizando la herramienta GO: TermFinder [61]. Los dominios conocidos presentes en cada proteína se tomaron de la liberación 24 de Pfam-A [45]. La importancia de las diferencias observadas en estas propiedades entre grupos de proteínas fue evaluada por un Mann-Whitney U prueba. La realización de un ANOVA bidireccional en los grupos también arrojó resultados similares.

Clasificación de genes por edad y mecanismo de origen

Asignamos una edad (pre-WGD, WGD o post-WGD) y un mecanismo de origen (duplicado o nuevo) a cada no dudoso S. cerevisiae ORF en SGD. Primero describimos el esquema basado en la familia utilizado en el cuerpo principal del artículo, y luego describimos brevemente enfoques alternativos que produjeron conclusiones similares.

Para cada gen, se asignó un mecanismo de origen en función de la presencia o ausencia de un parálogo en S. cerevisiae. Genes encontrados en una familia homóloga con más de un miembro en S. cerevisiae según lo definido por el método de agrupación Jaccard en PPOD [40] se clasificaron como duplicados, y aquellos sin otros miembros de la familia en S. cerevisiae fueron clasificados como novedosos. La clasificación de genes en grupos de edad se vio facilitada en gran medida por la reciente reconstrucción de la historia evolutiva de S. cerevisiae hasta justo antes del GTD [39]. Esta reconstrucción se llevó a cabo a mano y consideró la similitud de secuencia y la sintencia de todos los genes en las especies enumeradas en la Figura 1. Si un gen estaba presente en el antepasado pre-WGD predicho, se asignó al grupo pre-WGD. Los pares de genes duplicados creados por el WGD se asignaron a WGD / duplicate. Aunque determinar la escala de la duplicación de genes es un desafío [91], los duplicados de genes mantenidos del WGD tienen una firma distinta cuando se comparan sus contextos genómicos en la reconstrucción. Solo una copia estará presente en el antepasado pre-WGD, y este gen se mapeará en dos regiones distintas en S. cerevisiae que ambos mantienen sinntenía con el antepasado [31, 39]. Se fusionaron familias homólogas que contenían parálogos de WGD conocidos. Un gen cuyo antepasado no se encuentra en el antepasado pre-WGD fue asignado a post-WGD.

La reconstrucción ancestral del YGOB no incluye las regiones subteloméricas del genoma de la levadura porque la sintenia se descompone en estas regiones altamente específicas de especies. Los subtelómeros son de considerable interés en este estudio porque contienen casi 300 genes, muchos con una similitud de secuencia limitada más allá S. cerevisiae. Para extender nuestro análisis a estos genes, consideramos la distribución filogenética de genes subteloméricos en las alineaciones de ortólogos de SGD de siete especies completamente secuenciadas (S. cerevisiae, Saccharomyces paradoxus, Saccharomyces mikatae, Saccharomyces bayanus, Saccharomyces kudriavzevii, Naumovia castellii, Lachancea kluyveri). Estas alineaciones se basan en los datos y el análisis de Cliften et al. [92] y Kellis et al. [93] nótese que incluyen un conjunto de especies diferente a las utilizadas en la reconstrucción ancestral. Los genes con un ortólogo en una especie que divergió antes del WGD se asignaron a pre-WGD. Todos los demás fueron asignados a post-WGD. Dado que estas predicciones se obtuvieron utilizando una estrategia diferente de las del YGOB, repetimos nuestro análisis excluyendo todos los genes subteloméricos. Nuestras conclusiones generales se mantienen (Sección S1.1.3 en el archivo adicional 1).

Gordon et al. [39] analizaron 124 genes creados desde el WGD. Los genes posteriores a WGD adicionales en nuestra clasificación provienen de dos fuentes. Como se describió anteriormente, asignamos casi 200 genes subteloméricos que quedaron fuera de su reconstrucción al grupo post-WGD. Los genes adicionales restantes se incluyeron en los datos descargados del Navegador de órdenes de genes de levadura, pero no se consideraron en Gordon. et al. Muchos de estos genes no fueron clasificados como dudosos por SGD y tenían interacciones físicas, por lo que los incluimos en nuestro análisis. Dejando fuera cada uno de estos grupos de genes a su vez y volviendo a ejecutar nuestros análisis arrojó resultados similares (Sección S1.1.3 en el archivo adicional 1).

La clasificación de conjuntos de genes en grupos de edad y origen es un problema desafiante. Probamos la sensibilidad de nuestras conclusiones a varios métodos diferentes de inferencia de la historia familiar y evolutiva. En particular, tomando familias de MultiParanoid [89] u OrthoMCL [88] (consulte la Sección 1.1.2 en el archivo adicional 1). También consideramos una clasificación de origen basada en árboles de genes y grupos ortólogos definidos por el algoritmo de sinergia [25, 42, 94] para cada gen en S. cerevisiae. Si un gen tenía una duplicación prevista en cualquier punto del camino hacia su antepasado en su árbol genético o un ortogrupo homólogo, se le asignó para duplicarse; de ​​lo contrario, se asignó a novela. Este enfoque y el método familiar coincidieron en el 76% de sus predicciones, y nuestras principales conclusiones se mantuvieron con esta definición de origen. Esto apoya nuestra interpretación de que, aunque la pérdida de genes y la rápida evolución pueden introducir errores en las clasificaciones individuales, el mecanismo de creación de grupos se enriquece con genes del origen relevante. Estos resultados se presentan en la Sección S1.1.1 en el archivo adicional 1.

Los enfoques de clasificación descritos anteriormente designan todos los genes de una familia de proteínas homólogas como duplicados y no intentan distinguir un solo gen como progenitor de la familia. Adoptamos este enfoque, porque seleccionar qué gen entre un conjunto de duplicados es la copia ancestral es a menudo muy difícil, en particular en el caso de duplicados en tándem [38]. De hecho, no hay garantía de que el miembro inicial de la familia todavía esté presente en el genoma. Para explorar el efecto de esta elección en nuestros resultados, probamos otra estrategia en la que seleccionamos el gen más antiguo de cada familia homóloga (o al azar entre los más antiguos si existía más de uno) para que sirviera como progenitor de la familia. El gen más antiguo se definió como el gen de la familia con el ortólogo más distante según el YGOB. Para los genes subteloméricos, utilizamos las alineaciones SGD, cada una de las cuales contiene un único S. cerevisiae gen, para determinar el ortólogo más distante. Por tanto, este gen se asignó a un grupo nuevo. Nuestras conclusiones se sostuvieron sobre esta clasificación adaptada (Sección S1.1.3 en el archivo adicional 1).

Análisis de las propiedades de la red de interacción

La integración de una proteína en la red de interacción física se cuantificó por su grado (es decir, el número de interacciones en las que participa) y su centralidad de intermediación (es decir, la fracción de todos los caminos más cortos entre pares de otros nodos en la red). que lo atraviesan) [95, 96]. Las proteínas sin datos de interacción no se consideraron en el cálculo de las estadísticas de la red.

Se calculó el número de interacciones entre proteínas en todos los pares de grupos de edad / origen. La importancia del número observado de interacciones se cuantificó comparándolo con el número de interacciones entre los mismos grupos en 1000 redes aleatorias que mantienen la distribución de grados dentro de los grupos, pero aleatorizan las interacciones. Un empirico pagEl valor de un número observado de interacciones se estimó mediante la proporción de redes aleatorias en las que se observaron al menos la misma cantidad de interacciones [97]. Se realizaron aleatorizaciones con conservación de grados utilizando un algoritmo de reconexión de cables [98]. El tamaño del efecto de la diferencia observada se cuantificó usando Δ de Glass: la diferencia entre el número de interacciones observado y promedio en las redes aleatorias dividido por la desviación estándar del número visto en las redes aleatorias.


Introducción

Las proteínas son componentes esenciales en cualquier organismo biológico, incluidas las plantas. Cada proteína puede ensamblarse a partir de unidades más pequeñas, denominadas dominios, y una proteína puede constar de uno o varios dominios [1]. Existen varias bases de datos para el repositorio de dominios de proteínas que se encuentran en organismos biológicos [2]. Pfam, por ejemplo, tiene actualmente 19.179 entradas ([3] Pfam v.34.0, lanzado en marzo de 2021). Durante la evolución del organismo, los dominios de proteínas pueden combinarse pero también evolucionar. de novo. Estas de novo Los dominios se pueden combinar con otros de novo o dominios existentes para crear nuevas proteínas [1]. Durante la evolución de las plantas, se ha sugerido que han surgido al menos 500 nuevos dominios proteicos exclusivos de este linaje evolutivo [4]. Una búsqueda de Arabidopsis thaliana proteomas sugirió que el 75% de sus proteínas tienen dominios registrados en Pfam [5]. Esto indica que todavía existe una cantidad significativa de dominios de proteínas desconocidos o combinaciones de dominios incluso en plantas bien estudiadas, y mucho menos en plantas en general. La combinación de dominios es quizás una forma rentable para que los organismos creen nuevas proteínas [1], y en A. thaliana, al menos el 25% de las proteínas tienen múltiples dominios [5].

Las proteínas de membrana integrales que median los flujos de iones en respuesta a tensiones mecánicas, incluido el tacto, el viento, el flujo de agua, la presión osmótica, la gravedad y las fuerzas generadas por la división y expansión celular, se denominan canales mecanosensibles. Hasta la fecha, en las plantas se encuentran cinco grupos de canales mecanosensibles [6]. Uno de ellos es un grupo de proteínas de ACTIVIDAD COMPLEMENTARIA MID1 (MCA), que se ha demostrado que funcionan como canales mecanosensibles permeables al Ca 2+ [7, 8]. Los genes que codifican los MCA se encuentran exclusivamente en el reino vegetal [7, 9], mientras que los genes que codifican otros grupos de canales mecanosensibles se encuentran en procariotas y / o eucariotas. Por lo tanto, los MCA son únicos en términos de evolución molecular y es interesante investigar cuándo y dónde MCA aparecieron genes durante la evolución de las plantas.

En A. thaliana, dos parálogos MCA genes, AtMCA1 y AtMCA2 han sido aislados y sus funciones examinadas con gran detalle. La proteína AtMCA1 participa en la detección del tacto en la punta de la raíz y en un aumento inducido por el choque hipoosmótico en la concentración de Ca 2+ libre citosólico [7]. Se informó que AtMCA2 participa en la absorción de Ca 2+ en las raíces [10]. Además, AtMCA1 y AtMCA2 responden al estiramiento de la membrana para generar corrientes catiónicas cuando se expresan en Xenopus laevis ovocitos [8]. Además, los canales MCA parecen tener funciones comunes en las plantas, según estudios sobre Oryza sativa OsMCA1 [11-13], Nicotiana tabacum NtMCA1, NtMCA2 [14], Zea mays CNR13 [15], y Streptocarpus MCA-como gen (como Saintpaulia en [16] ver [17]).

Los MCA son proteínas multidominio de aproximadamente 420 aminoácidos (aa) de longitud. Conservan el dominio ARPK defendido provisionalmente (dominio amino-terminal de las supuestas proteínas quinasas de arroz 1-143 aa) [7], superponiéndose con la región EF similar a una mano en la región N-terminal (136-180 aa) (InterPro: IPR002048 ) y dominio PLAC8 bien curado (Pfam ID: PF04749) en la región C-terminal (Apéndice S1). Un motivo en espiral se encuentra en el medio de las proteínas. An approximately 170 aa region at the N-terminus, covering the ARPK and the EF hand-like domains, has Ca 2+ influx activity and is proposed to be a functional domain of MCAs [18]. In this study, we defined the N-terminal region as the MCA functional (MCA func ) domain.

In previous work, an MCA Neighbor-Joining tree was published that included only a limited number of plants, I.mi. one moss, one lycophyte, one gymnosperm, and eight angiosperms. The unrooted tree showed that MCA proteins were mostly grouped following the tree of life (mi.gramo. tolweb.org/tree/), except for Picea sitchensis (gymnosperm) and Linum usitatissimum (angiosperm) [9]. However, information from this tree is insufficient to elucidate the evolutionary history of the protein family or their domains. To better understand the origin and evolution of MCA proteins in plants, a more comprehensive study is required. Thus, in the present study, wide-ranging phylogenetic analyses of MCA proteins were carried out on 25 viridiplantae proteomes and full MCA proteins of 55 streptophyte species. Here, for ranks, we followed the definition by Leliaert et al. [19] and NCBI Taxonomy Browser (https://www.ncbi.nlm.nih.gov/guide/taxonomy/), where viridiplantae include green algae (chlorophytes) and streptophytes, streptophytes include charophytes and embryophytes, and embryophytes (also termed as “land plants”) include bryophytes (Hornworts, Liverworts, Mosses), lycophytes, ferns, gymnosperms and angiosperms. Since MCA is a multidomain protein, we focused on the evolution, origin and fate of each domain (MCA func and PLAC8) as well as the full MCA protein. Comprehensive domain searches were carried out against the viridiplantae proteomes that included two chlorophytes and two charophytes. The study represents an example for the evolutionary dynamics of a multidomain protein in plants.


Notas al pie

Author contributions: M.W.G., N.L.D., V.A.K., and S.B.C. designed research M.W.G., N.L.D., S.G., V.A.K., and J.E.S. performed research M.W.G. and N.L.D. analyzed data and M.W.G. and S.B.C. escribió el periódico.

Reviewers: N.R.C., Liverpool School of Tropical Medicine and C.-H.C.C., University of Illinois at Urbana–Champaign.

The authors declare no competing interest.

Data deposition: The assembled sequences have been deposited in GenBank accession numbers are presented in Dataset S1, column E. Raw reads for BAC clones have been deposited in the National Center for Biotechnology Information (NCBI) database under BioProject ID PRJNA613473.


Authors’ contributions

AK, MM, SD, and RCR planned, performed, and analyzed experiments. AK and RCR prepared the manuscript. All authors read and approved the final manuscript.

Agradecimientos

We thank Dr. Robert Angerer for his careful reading and editing of the manuscript and Dr. Federico Hoffman for his assistance with the phylogenetic analysis. Support for this project was provided to RCR by NIH R15HD088272-01 as well as the Office of Research and Development, and Department of Biological Sciences at Mississippi State University.

Conflicto de intereses

The authors declare that they have no competing interests.

Availability of data and materials

The datasets used and/or analyzed during the current study are available from the corresponding author on reasonable request.

Consent for publication

Ethics approval and consent to participate

Publisher’s Note

Springer Nature permanece neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.


Expresiones de gratitud

We are very grateful to our funding agencies, principally the Wellcome Trust and an NSERC Discovery grant to JBD who have made this work possible. We also thank members of our laboratories and colleagues who have contributed unpublished data or insights.

Acceso abierto

Este artículo se distribuye bajo los términos de la Licencia de Reconocimiento No Comercial de Creative Commons que permite cualquier uso, distribución y reproducción no comercial en cualquier medio, siempre que se acredite la fuente y el autor original.


Ver el vídeo: Estructura secundaria de las proteínas (Enero 2022).