Información

¿Cómo se codifican las proteínas que contienen otros elementos?


Si entiendo correctamente, las proteínas se forman asociando cada secuencia de ADN de tres letras a un determinado aminoácido. Sin embargo, parece haber proteínas que contienen elementos como el cobre, que no está presente en ninguno de los aminoácidos. ¿Cómo se codifican?


Usemos un ejemplo, un caso puntual: el más conocido y abundante sería la hemoglobina. Es una proteína formada a través de la asociación de péptidos de alfa y beta globina en dímeros o tetrámeros. La forma es en gran parte el resultado de la secuencia (el plegamiento de péptidos es reproducible, especialmente con la ayuda de chaperones que pueden ayudar al proceso de plegado correcto) y cumplen su función haciendo uso de un átomo de hierro que capturan permiten su capacidad de transporte de oxígeno. El hierro no está codificado (ya que no es un aminoácido) pero la secuencia ciertamente determina la capacidad de las globinas para unirse y secuestrar hierro. Si lo desea, puede mutar la secuencia para producir globinas que habrían reducido (o una incapacidad total) para usar hierro en sus núcleos. El organismo estaría anémico y, dependiendo de la magnitud del efecto, se deterioraría o moriría.

Citando la página del gen de la beta-globina:

Se ha descubierto que más de 10 mutaciones en el gen HBB causan metahemoglobinemia, tipo beta-globina, que es una condición que altera la hemoglobina dentro de los glóbulos rojos. Estas mutaciones a menudo afectan la región de la proteína que se une al hemo [hierro].

Por último, una nota rápida sobre cómo encaja exactamente el hierro en la imagen ... el hierro inorgánico no puede ser simplemente secuestrado por la proteína hemoglobina. El átomo de hierro primero debe unirse covalentemente para formar un compuesto orgánico llamado grupo hemo (ver Foto 1 a continuación) que luego actúa como un 'grupo protésico' para la proteína hemoglobina. Cuando tanto la proteína enzimática como el grupo protésico se unen, los llamamos conjuntamente holoenzima, la unidad completa que realiza la función de captura, transporte y liberación de oxígeno dentro de los glóbulos rojos (ver imagen 2 debajo).


Retrotransposón

Retrotransposones (también llamado Elementos transponibles de clase I o transposones a través de intermedios de ARN) son un tipo de componente genético que se copia y se pega en diferentes ubicaciones genómicas (transposón) al convertir el ARN de nuevo en ADN a través del proceso de transcripción inversa utilizando un intermedio de transposición de ARN. [1]

A través de la transcripción inversa, los retrotransposones se amplifican rápidamente para volverse abundantes en genomas eucariotas como el maíz (49-78%) [2] y los seres humanos (42%). [3] Sólo están presentes en eucariotas, pero comparten características con retrovirus como el VIH, por ejemplo, recombinación extracromosómica discontinua mediada por transcriptasa inversa. [4] [5]

Hay dos tipos principales de retrotransposones, repeticiones terminales largas (LTR) y repeticiones terminales no largas (no LTR). Los retrotransposones se clasifican según la secuencia y el método de transposición. [6] La mayoría de los retrotransposones en el genoma del maíz son LTR, mientras que en los humanos son en su mayoría no LTR. Los retrotransposones (principalmente del tipo LTR) pueden transmitirse a la próxima generación de una especie huésped a través de la línea germinal.

El otro tipo de transposón es el transposón de ADN. Los transposones de ADN se insertan en diferentes ubicaciones genómicas sin copiarse a sí mismos, lo que puede causar mutaciones dañinas (ver transferencia horizontal de genes). Por lo tanto, los retrotransposones pueden considerarse replicativos, mientras que los transposones de ADN no son replicativos. Debido a su naturaleza replicativa, los retrotransposones pueden aumentar el tamaño del genoma eucariota rápidamente y sobrevivir en genomas eucariotas de forma permanente. Se cree que permanecer en genomas eucariotas durante períodos tan prolongados dio lugar a métodos de inserción especiales que no afectan drásticamente la función del gen eucariota. [7]


Conceptos clave y resumen

  • En traducción, los polipéptidos se sintetizan utilizando secuencias de ARNm y maquinaria celular, incluidos los ARNt que coinciden con el ARNm codones a aminoácidos y ribosomas específicos compuestos de ARN y proteínas que catalizan la reacción.
  • los codigo genetico es degenerar porque varios codones de ARNm codifican los mismos aminoácidos. El código genético es casi universal entre los organismos vivos.
  • Los ribosomas procarióticos (70S) y eucarióticos citoplásmicos (80S) están compuestos cada uno por una subunidad grande y una subunidad pequeña de diferentes tamaños entre los dos grupos. Cada subunidad está compuesta de ARNr y proteína. Los ribosomas de orgánulos en las células eucariotas se parecen a los ribosomas procariotas.
  • En las bacterias existen entre 60 y 90 especies de ARNt. Cada tRNA tiene tres nucleótidos anticodón así como un sitio de unión para un aminoácido afín. Todos los ARNt con un anticodón específico llevarán el mismo aminoácido.
  • Iniciación de traducción ocurre cuando la subunidad ribosómica pequeña se une con factores de iniciación y un ARNt iniciador en el codón de inicio de un ARNm, seguido de la unión al complejo de iniciación de la subunidad ribosómica grande.
  • En las células procariotas, el codón de inicio codifica la N-formil-metionina transportada por un ARNt iniciador especial. En las células eucariotas, el codón de inicio codifica la metionina transportada por un ARNt iniciador especial. Además, mientras que la unión ribosómica del ARNm en procariotas se ve facilitada por la secuencia de Shine-Dalgarno dentro del ARNm, los ribosomas eucariotas se unen al casquete 5 y rsquo del ARNm.
  • Durante el alargamiento etapa de la traducción, una ARNt cargado se une al ARNm en el Un sitio del ribosoma se cataliza un enlace peptídico entre los dos aminoácidos adyacentes, rompiendo el enlace entre el primer aminoácido y su ARNt el ribosoma mueve un codón a lo largo del ARNm y el primer ARNt se mueve desde el Sitio P del ribosoma al E sitio y abandona el complejo ribosómico.
  • Terminación de traducción ocurre cuando el ribosoma encuentra un codón de parada, que no codifica un ARNt. Los factores de liberación provocan la liberación del polipéptido y la disociación del complejo ribosómico.
  • En procariotas, la transcripción y la traducción se pueden acoplar, y la traducción de una molécula de ARNm comienza tan pronto como la transcripción permite suficiente exposición de ARNm para la unión de un ribosoma, antes de la terminación de la transcripción. La transcripción y la traducción no están acopladas en eucariotas porque la transcripción ocurre en el núcleo, mientras que la traducción ocurre en el citoplasma o en asociación con el retículo endoplásmico rugoso.
  • Los polipéptidos a menudo requieren uno o más modificaciones postraduccionales volverse biológicamente activo.

Contenido

Encode fue lanzado por el Instituto Nacional de Investigación del Genoma Humano (NHGRI) de EE. UU. En septiembre de 2003. [2] [3] [4] [5] [6] El proyecto ENCODE, que pretende ser un seguimiento del Proyecto Genoma Humano, tiene como objetivo identificar todos los elementos funcionales del genoma humano.

El proyecto involucra a un consorcio mundial de grupos de investigación, y se puede acceder a los datos generados a partir de este proyecto a través de bases de datos públicas. El proyecto inició su cuarta fase en febrero de 2017 [7].

Se estima que los seres humanos tienen aproximadamente 20.000 genes codificadores de proteínas, que representan aproximadamente el 1,5% del ADN del genoma humano. El objetivo principal del proyecto ENCODE es determinar el papel del componente restante del genoma, gran parte del cual se consideraba tradicionalmente como "basura". La actividad y expresión de genes que codifican proteínas pueden ser moduladas por el reguloma, una variedad de elementos de ADN, como promotores, secuencias reguladoras de la transcripción y regiones de estructura de cromatina y modificación de histonas. Se cree que los cambios en la regulación de la actividad genética pueden interrumpir la producción de proteínas y los procesos celulares y provocar enfermedades. Determinar la ubicación de estos elementos reguladores y cómo influyen en la transcripción de genes podría revelar vínculos entre las variaciones en la expresión de ciertos genes y el desarrollo de enfermedades. [8]

ENCODE también pretende ser un recurso integral que permita a la comunidad científica comprender mejor cómo el genoma puede afectar la salud humana y "estimular el desarrollo de nuevas terapias para prevenir y tratar estas enfermedades". [3]

El Consorcio ENCODE está compuesto principalmente por científicos que fueron financiados por el Instituto Nacional de Investigación del Genoma Humano (NHGRI) de EE. UU. Otros participantes que contribuyen al proyecto se incorporan al Consorcio o al Grupo de Trabajo de Análisis.

La fase piloto estuvo compuesta por ocho grupos de investigación y doce grupos que participaron en la Fase de Desarrollo Tecnológico ENCODE. Después de 2007, el número de participantes se amplió a 440 científicos con base en 32 laboratorios en todo el mundo cuando la fase piloto terminó oficialmente. Actualmente el consorcio está formado por diferentes centros que realizan diferentes tareas.

ENCODE se implementa actualmente en cuatro fases: la fase piloto y la fase de desarrollo tecnológico, que se iniciaron simultáneamente [10] y la fase de producción. La cuarta fase es una continuación de la tercera e incluye la caracterización funcional y un análisis integrador adicional para la enciclopedia.

El objetivo de la fase piloto era identificar un conjunto de procedimientos que, en combinación, pudieran aplicarse de forma rentable y con un alto rendimiento para caracterizar de forma precisa y completa grandes regiones del genoma humano. La fase piloto tenía que revelar lagunas en el conjunto actual de herramientas para detectar secuencias funcionales, y también se pensó que revelaría si algunos métodos utilizados en ese momento eran ineficientes o inadecuados para su utilización a gran escala. Algunos de estos problemas tuvieron que ser abordados en la fase de desarrollo de la tecnología ENCODE, que tenía como objetivo idear nuevos métodos de laboratorio y computacionales que mejorarían nuestra capacidad para identificar secuencias funcionales conocidas o para descubrir nuevos elementos genómicos funcionales. Los resultados de las dos primeras fases determinaron el mejor camino a seguir para analizar el 99% restante del genoma humano en una fase de producción rentable y completa. [3]

El proyecto ENCODE fase I: el proyecto piloto Editar

La fase piloto probó y comparó los métodos existentes para analizar rigurosamente una parte definida de la secuencia del genoma humano. Se organizó como un consorcio abierto y reunió a investigadores con diversos antecedentes y experiencia para evaluar los méritos relativos de cada una de un conjunto diverso de técnicas, tecnologías y estrategias. La fase de desarrollo de tecnología concurrente del proyecto tenía como objetivo desarrollar nuevos métodos de alto rendimiento para identificar elementos funcionales. El objetivo de estos esfuerzos era identificar un conjunto de enfoques que permitieran la identificación completa de todos los elementos funcionales del genoma humano. A través del proyecto piloto ENCODE, el Instituto Nacional de Investigación del Genoma Humano (NHGRI, por sus siglas en inglés) evaluó las capacidades de diferentes enfoques para ser ampliados en un esfuerzo por analizar todo el genoma humano y encontrar brechas en la capacidad de identificar elementos funcionales en la secuencia genómica.

El proceso del proyecto piloto ENCODE implicó interacciones cercanas entre científicos computacionales y experimentales para evaluar una serie de métodos para anotar el genoma humano. Un conjunto de regiones que representan aproximadamente el 1% (30 Mb) del genoma humano se seleccionó como el objetivo para el proyecto piloto y fue analizado por todos los investigadores del proyecto piloto ENCODE. Todos los datos generados por los participantes de ENCODE en estas regiones se publicaron rápidamente en bases de datos públicas. [5] [11]

Selección de destino Editar

Para su uso en el proyecto piloto ENCODE, se seleccionaron regiones definidas del genoma humano, correspondientes a 30 Mb, aproximadamente el 1% del genoma humano total. Estas regiones sirvieron como base para probar y evaluar la efectividad y eficiencia de un conjunto diverso de métodos y tecnologías para encontrar varios elementos funcionales en el ADN humano.

Antes de embarcarse en la selección del objetivo, se decidió que el 50% de los 30 Mb de secuencia se seleccionaría manualmente mientras que la secuencia restante se seleccionaría al azar. Los dos criterios principales para las regiones seleccionadas manualmente fueron: 1) la presencia de genes bien estudiados u otros elementos de secuencia conocidos, y 2) la existencia de una cantidad sustancial de datos de secuencia comparativa. Se seleccionó manualmente un total de 14,82 Mb de secuencia utilizando este enfoque, que consta de 14 objetivos que varían en tamaño de 500 kb a 2 Mb.

El 50% restante de los 30 Mb de secuencia se componía de treinta regiones de 500 kb seleccionadas de acuerdo con una estrategia de muestreo aleatorio estratificado basada en la densidad de genes y el nivel de conservación no exónica. La decisión de utilizar estos criterios particulares se tomó con el fin de asegurar un buen muestreo de regiones genómicas que varían ampliamente en su contenido de genes y otros elementos funcionales. El genoma humano se dividió en tres partes - 20% superior, 30% medio y 50% inferior - a lo largo de cada uno de los dos ejes: 1) densidad genética y 2) nivel de conservación no exónica con respecto a la secuencia genómica del ratón ortólogo ( ver más abajo), para un total de nueve estratos. De cada estrato, se eligieron tres regiones aleatorias para el proyecto piloto. Para aquellos estratos subrepresentados por las selecciones manuales, se eligió una cuarta región, lo que resultó en un total de 30 regiones. Para todos los estratos, se designó una región de "respaldo" para su uso en caso de problemas técnicos imprevistos.

Con mayor detalle, los criterios de estratificación fueron los siguientes:

    densidad: La puntuación de densidad genética de una región fue el porcentaje de bases cubiertas por genes en la base de datos Ensembl o por alineaciones de ARNm humano mejores BLAT (herramienta de alineación similar a BLAST) en la base de datos UCSC Genome Browser.
  • Conservación no exónica: La región se dividió en subventanas no superpuestas de 125 bases. Se descartaron las subventanas que mostraban menos del 75% de alineación de bases con la secuencia del ratón. Para las subventanas restantes, el porcentaje con al menos un 80% de identidad de base con el ratón, y que no se correspondía con los genes Ensembl, las alineaciones GenBankmRNA BLASTZ, las predicciones del gen Fgenesh ++, las predicciones del gen TwinScan, las alineaciones EST empalmadas o las secuencias repetidas (ADN), fue utilizado como puntuación de conservación no exónica.

Las puntuaciones anteriores se calcularon dentro de ventanas de 500 kb no superpuestas de secuencia terminada en todo el genoma y se utilizaron para asignar cada ventana a un estrato. [12]

Resultados de la fase piloto Editar

La fase piloto finalizó con éxito y los resultados se publicaron en junio de 2007 en Naturaleza [5] y en un número especial de Investigación del genoma [13] los resultados publicados en el primer artículo mencionado avanzaron en el conocimiento colectivo sobre la función del genoma humano en varias áreas importantes, incluidas en los siguientes aspectos destacados: [5]

  • El genoma humano se transcribe de forma generalizada, de modo que la mayoría de sus bases están asociadas con al menos una transcripción primaria y muchas transcripciones enlazan regiones distales con loci codificadores de proteínas establecidos.
  • Se han identificado muchas transcripciones novedosas que no codifican proteínas, con muchos de estos loci que codifican proteínas superpuestos y otros ubicados en regiones del genoma que antes se pensaba que eran transcripcionalmente silenciosas.
  • Se han identificado numerosos sitios de inicio de la transcripción no reconocidos previamente, muchos de los cuales muestran la estructura de la cromatina y propiedades de unión a proteínas específicas de secuencia similares a los promotores bien entendidos.
  • Las secuencias reguladoras que rodean los sitios de inicio de la transcripción están distribuidas simétricamente, sin sesgo hacia las regiones aguas arriba. los patrones de accesibilidad y modificación de histonas son altamente predictivos tanto de la presencia como de la actividad de los sitios de inicio de la transcripción.
  • Los sitios hipersensibles a la DNasaI distal tienen patrones característicos de modificación de histonas que los distinguen de manera confiable de los promotores. Algunos de estos sitios distales muestran marcas consistentes con la función aislante. el tiempo se correlaciona con la estructura de la cromatina.
  • Un total del 5% de las bases en el genoma puede identificarse con seguridad como bajo restricción evolutiva en mamíferos para aproximadamente el 60% de estas bases restringidas, hay evidencia de función sobre la base de los resultados de los ensayos experimentales realizados hasta la fecha.
  • Aunque existe una superposición general entre las regiones genómicas identificadas como funcionales por ensayos experimentales y aquellas bajo restricción evolutiva, no todas las bases dentro de estas regiones definidas experimentalmente muestran evidencia de restricción.
  • Los diferentes elementos funcionales varían mucho en su variabilidad de secuencia a través de la población humana y en su probabilidad de residir dentro de una región estructuralmente variable del genoma.
  • Sorprendentemente, muchos elementos funcionales aparentemente no están restringidos a lo largo de la evolución de los mamíferos. Esto sugiere la posibilidad de una gran cantidad de elementos neutros que son bioquímicamente activos pero que no brindan ningún beneficio específico al organismo. Este grupo puede servir como un 'almacén' para la selección natural, actuando potencialmente como la fuente de elementos específicos de linaje y elementos funcionalmente conservados pero no ortólogos entre especies.

El proyecto ENCODE Fase II: El proyecto de la fase de producción Editar

En septiembre de 2007, el Instituto Nacional de Investigación del Genoma Humano (NHGRI) comenzó a financiar la fase de producción del proyecto ENCODE. En esta fase, el objetivo era analizar todo el genoma y realizar "estudios adicionales a escala piloto". [14]

Como en el proyecto piloto, el esfuerzo de producción se organiza como un consorcio abierto. En octubre de 2007, NHGRI otorgó subvenciones por un total de más de $ 80 millones durante cuatro años. [15] La fase de producción también incluye un Centro de Coordinación de Datos, un Centro de Análisis de Datos y un Esfuerzo de Desarrollo Tecnológico. [16] En ese momento, el proyecto se convirtió en una empresa verdaderamente global, en la que participaron 440 científicos de 32 laboratorios de todo el mundo. Una vez que se completó la fase piloto, el proyecto se "amplió" en 2007, beneficiándose enormemente de las máquinas secuenciadoras de nueva generación. Y los datos fueron, de hecho, los grandes investigadores generaron alrededor de 15 terabytes de datos sin procesar.

En 2010, el proyecto ENCODE había producido más de 1.000 conjuntos de datos de todo el genoma. En conjunto, estos conjuntos de datos muestran qué regiones se transcriben en ARN, qué regiones probablemente controlen los genes que se utilizan en un tipo particular de célula y qué regiones están asociadas con una amplia variedad de proteínas. Los ensayos principales utilizados en ENCODE son ChIP-seq, Hipersensibilidad a la DNasa I, RNA-seq y ensayos de metilación del ADN.

Resultados de la fase de producción Editar

En septiembre de 2012, el proyecto publicó un conjunto de resultados mucho más extenso, en 30 artículos publicados simultáneamente en varias revistas, incluidos seis en Naturaleza, seis en Biología del genoma y un número especial con 18 publicaciones de Investigación del genoma. [17]

Los autores describieron la producción y el análisis inicial de 1,640 conjuntos de datos diseñados para anotar elementos funcionales en todo el genoma humano, integrando resultados de diversos experimentos dentro de tipos de células, experimentos relacionados que involucran 147 tipos de células diferentes y todos los datos ENCODE con otros recursos, como como regiones candidatas de estudios de asociación de genoma completo (GWAS) y regiones con limitaciones evolutivas. Juntos, estos esfuerzos revelaron características importantes sobre la organización y función del genoma humano, que se resumieron en un documento general de la siguiente manera: [18]

  1. La gran mayoría (80,4%) del genoma humano participa en al menos un evento bioquímico asociado a ARN y / o cromatina en al menos un tipo de célula. Gran parte del genoma se encuentra cerca de un evento regulador: el 95% del genoma se encuentra dentro de los 8 kb de una interacción ADN-proteína (según lo analizado por motivos de ChIP-seq unidos o huellas de ADNasaI), y el 99% está dentro de 1,7 kb de al menos uno de los eventos bioquímicos medidos por ENCODE.
  2. Los elementos específicos de primates, así como los elementos sin restricciones de mamíferos detectables, muestran, en conjunto, pruebas de selección negativa, por lo que se espera que algunos de ellos sean funcionales.
  3. La clasificación del genoma en siete estados de cromatina sugiere un conjunto inicial de 399,124 regiones con características de potenciadores y 70,292 regiones con características de promotores, así como cientos de miles de regiones inactivas. Los análisis de alta resolución subdividen aún más el genoma en miles de estados estrechos con distintas propiedades funcionales.
  4. Es posible correlacionar cuantitativamente la producción y el procesamiento de secuencias de ARN con las marcas de cromatina y la unión del factor de transcripción (TF) en los promotores, lo que indica que la funcionalidad del promotor puede explicar la mayor parte de la variación de la expresión de ARN.
  5. Muchas variantes no codificantes en secuencias de genomas individuales se encuentran en regiones funcionales anotadas ENCODE, este número es al menos tan grande como las que se encuentran en genes codificantes de proteínas. asociados con enfermedades por GWAS se enriquecen con elementos funcionales no codificantes, y la mayoría reside en o cerca de las regiones definidas por ENCODE que están fuera de los genes codificadores de proteínas. En muchos casos, los fenotipos de la enfermedad se pueden asociar con un tipo celular específico o TF.

El hallazgo más sorprendente fue que la fracción de ADN humano que es biológicamente activo es considerablemente más alta que incluso las estimaciones previas más optimistas. En un artículo general, el Consorcio ENCODE informó que sus miembros pudieron asignar funciones bioquímicas a más del 80% del genoma. [18] Se descubrió que gran parte de esto está involucrado en el control de los niveles de expresión del ADN codificante, que constituye menos del 1% del genoma.

Los elementos nuevos más importantes de la "enciclopedia" incluyen:

  • Un mapa completo de los sitios hipersensibles a la ADNasa 1, que son marcadores del ADN regulador que normalmente se encuentra adyacente a los genes y permite que los factores químicos influyan en su expresión. El mapa identificó casi 3 millones de sitios de este tipo, incluidos casi todos los que se conocían anteriormente y muchos que son nuevos. [19]
  • Léxico de secuencias cortas de ADN que forman motivos de reconocimiento para proteínas de unión a ADN. Se encontraron aproximadamente 8,4 millones de tales secuencias, que comprenden una fracción del ADN total aproximadamente el doble del tamaño del exoma. Se encontró que miles de promotores de la transcripción hacen uso de una única huella estereotipada de 50 pares de bases. [20]
  • Un bosquejo preliminar de la arquitectura de la red de factores de transcripción humanos, es decir, factores que se unen al ADN para promover o inhibir la expresión de genes. Se encontró que la red era bastante compleja, con factores que operan a diferentes niveles, así como numerosos circuitos de retroalimentación de varios tipos. [21]
  • Una medida de la fracción del genoma humano que se puede transcribir en ARN. Se estimó que esta fracción sumaba más del 75% del ADN total, un valor mucho más alto que las estimaciones anteriores. El proyecto también comenzó a caracterizar los tipos de transcripciones de ARN que se generan en varios lugares. [22]

Gestión y análisis de datos Editar

Capturar, almacenar, integrar y mostrar los diversos datos generados es un desafío. El Centro de Coordinación de Datos ENCODE (DCC) organiza y muestra los datos generados por los laboratorios en el consorcio y asegura que los datos cumplan con estándares de calidad específicos cuando se divulgan al público. Antes de que un laboratorio envíe datos, el DCC y el laboratorio redactan un acuerdo de datos que define los parámetros experimentales y los metadatos asociados. El DCC valida los datos entrantes para garantizar la coherencia con el acuerdo. También garantiza que todos los datos se anoten utilizando las ontologías adecuadas. [23] Luego carga los datos en un servidor de prueba para una inspección preliminar y se coordina con los laboratorios para organizar los datos en un conjunto consistente de pistas. Cuando las pistas están listas, el equipo de garantía de calidad de DCC realiza una serie de verificaciones de integridad, verifica que los datos se presenten de manera consistente con otros datos del navegador y, quizás lo más importante, verifica que los metadatos y el texto descriptivo adjunto se presenten en un formato. forma que sea útil para nuestros usuarios. Los datos se publican en el sitio web público de UCSC Genome Browser solo después de que se hayan cumplido todas estas comprobaciones. Paralelamente, los datos son analizados por el Centro de Análisis de Datos ENCODE, un consorcio de equipos de análisis de los distintos laboratorios de producción más otros investigadores. Estos equipos desarrollan protocolos estandarizados para analizar datos de ensayos novedosos, determinar las mejores prácticas y producir un conjunto coherente de métodos analíticos, como llamadores de picos estandarizados y generación de señales a partir de acumulaciones de alineación. [24]

El Instituto Nacional de Investigación del Genoma Humano (NHGRI) ha identificado a ENCODE como un "proyecto de recursos comunitarios". Este importante concepto fue definido en una reunión internacional celebrada en Ft. Lauderdale en enero de 2003 como un proyecto de investigación diseñado e implementado específicamente para crear un conjunto de datos, reactivos u otro material cuya utilidad principal será como recurso para la amplia comunidad científica. En consecuencia, la política de publicación de datos de ENCODE estipula que los datos, una vez verificados, se depositarán en bases de datos públicas y estarán disponibles para que todos los utilicen sin restricciones. [24]

Con la continuación de la tercera fase, el Consorcio ENCODE se ha involucrado en proyectos adicionales cuyos objetivos corren paralelos al proyecto ENCODE. Algunos de estos proyectos fueron parte de la segunda fase de ENCODE.

Proyecto modENCODE Editar

El proyecto MODel organismo ENCyclopedia Of DNA Elements (modENCODE) es una continuación del proyecto ENCODE original que tiene como objetivo la identificación de elementos funcionales en genomas de organismos modelo seleccionados, específicamente Drosophila melanogaster y Caenorhabditis elegans. [25] La extensión a organismos modelo permite la validación biológica de los hallazgos computacionales y experimentales del proyecto ENCODE, algo que es difícil o imposible de hacer en humanos. [25] La financiación para el proyecto modENCODE fue anunciada por los Institutos Nacionales de Salud (NIH) en 2007 e incluyó a varias instituciones de investigación diferentes en los Estados Unidos. [26] [27] El proyecto completó su trabajo en 2012.

A finales de 2010, el consorcio modENCODE dio a conocer su primer conjunto de resultados con publicaciones sobre anotación y análisis integrador de los genomas de gusanos y moscas en Ciencias. [28] [29] Los datos de estas publicaciones están disponibles en el sitio web modENCODE. [30]

modENCODE se ejecutó como una red de investigación y el consorcio estaba formado por 11 proyectos primarios, divididos entre gusano y mosca. Los proyectos abarcaron lo siguiente:

  • Estructura genética
  • Perfiles de expresión de mRNA y ncRNA
  • Sitios de unión del factor de transcripción
  • Modificaciones y reemplazo de histonas
  • Estructura de cromatina
  • Inicio y sincronización de la replicación del ADN
  • Variación del número de copias. [31]

MODERN Editar

MODERN, abreviatura de la enciclopedia de organismos modelo de redes reguladoras, derivada del proyecto modENCODE. El proyecto ha fusionado los grupos de C. elegans y Drosophila y se centra en la identificación de sitios de unión de factores de transcripción adicionales de los respectivos organismos. El proyecto comenzó al mismo tiempo que la Fase III de ENCODE, y tiene previsto finalizar en 2017. [32] Hasta la fecha, el proyecto ha publicado 198 experimentos, [33] con alrededor de 500 experimentos presentados y actualmente en proceso por el DCC.

Genómica de la regulación genética Editar

A principios de 2015, el NIH lanzó el programa Genomics of Gene Regulation (GGR). [34] El objetivo del programa, que tendrá una duración de tres años, es estudiar las redes y vías de genes en diferentes sistemas del cuerpo, con la esperanza de comprender mejor los mecanismos que controlan las expresiones de los genes. Aunque el proyecto ENCODE es independiente de GGR, ENCODE DCC ha alojado datos de GGR en el portal ENCODE. [35]

Hoja de ruta editar

En 2008, los NIH comenzaron el Roadmap Epigenomics Mapping Consortium, cuyo objetivo era producir “un recurso público de datos epigenómicos humanos para catalizar la biología básica y la investigación orientada a enfermedades”. [36] En febrero de 2015, el consorcio publicó un artículo titulado "Análisis integrador de 111 epigenomas humanos de referencia" que cumplió con el objetivo del consorcio. El consorcio integró información y anotó elementos regulatorios en 127 epigenomas de referencia, 16 de los cuales formaban parte del proyecto ENCODE. [37] Los datos del proyecto Roadmap pueden encontrarse en el portal Roadmap o en el portal ENCODE.

Proyecto fruitENCODE Editar

FruitENCODE: una enciclopedia de elementos de ADN para la maduración de frutas es un proyecto ENCODE de plantas que tiene como objetivo generar metilación de ADN, modificaciones de histonas, DHS, expresión génica, conjuntos de datos de unión de factores de transcripción para todas las especies de frutas carnosas en diferentes etapas de desarrollo. Los datos de la versión preliminar se pueden encontrar en el portal fruitENCODE.

Aunque el consorcio afirma que está lejos de haber terminado con el proyecto ENCODE, muchas reacciones a los artículos publicados y la cobertura de noticias que acompañó al lanzamiento fueron favorables. Los editores de Nature y los autores de ENCODE "colaboraron durante muchos meses para causar el mayor impacto posible y captar la atención no solo de la comunidad de investigadores sino también del público en general". [38] La afirmación del proyecto ENCODE de que el 80% del genoma humano tiene función bioquímica [18] fue rápidamente recogida por la prensa popular que describió los resultados del proyecto como conducentes a la muerte del ADN basura. [39] [40]

Sin embargo, la conclusión de que la mayor parte del genoma es "funcional" ha sido criticada con el argumento de que el proyecto ENCODE utilizó una definición liberal de "funcional", es decir, todo lo que se transcribe debe ser funcional. Se llegó a esta conclusión a pesar de la opinión ampliamente aceptada, basada en estimaciones de conservación genómica de genómica comparativa, de que muchos elementos del ADN, como los pseudogenes que se transcriben, no son funcionales. Además, el proyecto ENCODE ha enfatizado la sensibilidad sobre la especificidad, lo que posiblemente condujo a la detección de muchos falsos positivos. [41] [42] [43] La elección un tanto arbitraria de líneas celulares y factores de transcripción, así como la falta de experimentos de control apropiados, fueron críticas importantes adicionales de ENCODE, ya que el ADN aleatorio imita el comportamiento "funcional" similar a ENCODE. [44]

En respuesta a algunas de las críticas, otros científicos argumentaron que la transcripción y el empalme generalizados que se observan en el genoma humano directamente mediante pruebas bioquímicas es un indicador más preciso de la función genética que las estimaciones de conservación genómica porque las estimaciones de conservación son todas relativas y difíciles de calcular. alinearse debido a variaciones increíbles en los tamaños del genoma incluso de especies estrechamente relacionadas, es parcialmente tautológico, y estas estimaciones no se basan en pruebas directas de funcionalidad en el genoma. [45] [46] Las estimaciones de conservación pueden usarse para proporcionar pistas para identificar posibles elementos funcionales en el genoma, pero no limita ni limita la cantidad total de elementos funcionales que posiblemente podrían existir en el genoma. [46] Además, gran parte del genoma que los críticos disputan parece estar involucrado en la regulación epigenética, como la expresión génica, y parece ser necesario para el desarrollo de organismos complejos. [45] [47] Los resultados de ENCODE no fueron necesariamente inesperados ya que los aumentos en las atribuciones de funcionalidad fueron presagiados por décadas anteriores de investigación. [45] [47] Además, otros han señalado que el proyecto ENCODE desde el principio tenía un alcance que se basaba en buscar elementos funcionales biomédicamente relevantes en el genoma, no elementos funcionales evolutivos, que no son necesariamente lo mismo ya que la selección evolutiva es ni suficiente ni necesario para establecer una función. Es un proxy muy útil para funciones relevantes, pero imperfecto y no el único. [48]

In response to the complaints about the definition of the word "function" some have noted that ENCODE did define what it meant and since the scope of ENCODE was seeking biomedically relevant functional elements in the genome, then the conclusion of the project should be interpreted "as saying that 80 % of the genome is engaging in relevant biochemical activities that are very likely to have causal roles in phenomena deemed relevant to biomedical research." [48] The issue of function is more about definitional differences than about the strength of the project, which was in providing data for further research on biochemical activity of non-protein coding parts of DNA. Though definitions are important and science is bounded by the limits of language, it seems that ENCODE has been well received for its purpose since there are now more research papers using ENCODE data than there are papers arguing over the definition of function, as of March 2013. [49] Ewan Birney, one of the ENCODE researchers, commented that "function" was used pragmatically to mean "specific biochemical activity" which included different classes of assays: RNA, "broad" histone modifications, "narrow" histone modifications, DNaseI hypersensitive sites, Transcription Factor ChIP-seq peaks, DNaseI Footprints, Transcription Factor bound motifs, and Exons. [50]

In 2014, ENCODE researchers noted that in the literature, functional parts of the genome have been identified differently in previous studies depending on the approaches used. There have been three general approaches used to identify functional parts of the human genome: genetic approaches (which rely on changes in phenotype), evolutionary approaches (which rely on conservation) and biochemical approaches (which rely on biochemical testing and was used by ENCODE). All three have limitations: genetic approaches may miss functional elements that do not manifest physically on the organism, evolutionary approaches have difficulties using accurate multispecies sequence alignments since genomes of even closely related species vary considerably, and with biochemical approaches, though having high reproducibility, the biochemical signatures do not always automatically signify a function. They concluded that in contrast to evolutionary and genetic evidence, biochemical data offer clues about both the molecular function served by underlying DNA elements and the cell types in which they act and ultimately all three approaches can be used in a complementary way to identify regions that may be functional in human biology and disease. Furthermore, they noted that the biochemical maps provided by ENCODE were the most valuable things from the project since they provide a starting point for testing how these signatures relate to molecular, cellular, and organismal function. [46]

The project has also been criticized for its high cost (

$400 million in total) and favoring big science which takes money away from highly productive investigator-initiated research. [51] The pilot ENCODE project cost an estimated $55 million the scale-up was about $130 million and the US National Human Genome Research Institute NHGRI could award up to $123 million for the next phase. Some researchers argue that a solid return on that investment has yet to be seen. There have been attempts to scour the literature for the papers in which ENCODE plays a significant part and since 2012 there have been 300 papers, 110 of which come from labs without ENCODE funding. An additional problem is that ENCODE is not a unique name dedicated to the ENCODE project exclusively, so the word 'encode' comes up in many genetics and genomics literature. [52]

Another major critique is that the results do not justify the amount of time spent on the project and that the project itself is essentially unfinishable. Although often compared to Human Genome Project (HGP) and even termed as the HGP next step, the HGP had a clear endpoint which ENCODE currently lacks.

The authors seem to sympathize with the scientific concerns and at the same time try to justify their efforts by giving interviews and explaining ENCODE details not just to the scientific public, but also to mass media. They also claim that it took more than half a century from the realization that DNA is the hereditary material of life to the human genome sequence, so that their plan for the next century would be to really understand the sequence itself. [52]


Additional open reading frames in LTR retrotransposons

Although retrotransposon mordaza y pol genes are believed to be necessary and sufficient for transposition, a number of retrotransposon families with aberrant genomic organizations have now been identified (Figure 3). One frequent structural change is the addition of coding information.

Retrotransposons with 'env-like' genes

One of the main differences between retrotransposons (with a wholly intracellular life-cycle) and their infectious retrovirus cousins is the presence of an envelope (env) gene in the latter, which allows a virus particle to infect another cell. A number of retroelements have an extra ORF in the same position as the env gene found in retrovirus genomes (Figure 3). The best characterized examples of env-containing retroelements are the Drosophila errantiviruses, including gitano y ZAM [9, 10]. The life-cycle of these elements has been examined in detail, and gitano has been shown to be infectious [11, 12].

The presence of an env gene within a retroelement is not limited to the errantiviruses genomic studies have revealed that env-like ORFs are widespread among retrotransposons in both the Pseudoviridae (sireviruses) and Metaviridae (errantiviruses, metaviruses and semotiviruses) [13, 14]. Elements contaning an env-like ORF in each of these lineages also originate from diverse host species. The retroelement most recently shown to have an env-like ORF, Boudicca, is a metavirus from a human blood fluke [15]. Other examples of metaviruses include the Athila elements, which represent a large proportion of the retroelements in Arabidopsis [dieciséis]. In a related element in barley, Bagy-2, los env-like transcript is spliced, similarly to the env transcripts of retroviruses [17]. Members of the sirevirus group make up half of the approximately 400 Pseudoviridae sequences present in GenBank, and of these, about one third have an env-like ORF (X.G. and D.V., unpublished observation). Semotiviruses (also called BEL retrotransposons) with env-like ORFs have also been described in nematode genomes as well as in pufferfish and Drosophila [18, 19].

Do Env-like proteins enable these diverse retroelements to become infectious? In a few cases, the env-like genes have been shown to be significantly similar in sequence to genes of different viruses, suggesting that they were acquired by retrotransposons through transduction of a cellular gene [13]. Except for some errantiviruses, where the Env-like protein has been implicated in infection, the function of the Env-like proteins remains unclear. The amino-acid sequences of these proteins are highly divergent, making it difficult to assess whether or not they have a common function. That said, many Env-like proteins have predicted transmembrane domains (like retroviral Env proteins), although this is not a universal feature. It is possible that retroviral activity has evolved several times in the history of retrotransposons, or that these genes may confer novel function(s), such as movement between tissues of an organism (as suggested for the gitano elements) or movement within cells (such as between the cytoplasm and the nucleus). Alternatively, the Env-like proteins could serve as chaperone proteins to facilitate replication. Functional studies are required to discern the biological roles of these interesting genes.

Other additional ORFs

Other novel coding regions have also been identified within various retrotransposons, but it is unclear how broadly these coding sequences are conserved. Por ejemplo, RIRE2 of rice - a metavirus - has a small ORF of unknown function upstream of its mordaza gene [20]. Some plant retrotransposons carry ORF(s) that are antisense to the genomic RNA transcript (Figure 3), including the metaviruses RIRE2 of rice and Grande1 of maize [21, 22]. The functions of the antisense ORFs are also unknown. In a few cases, retrotransposons have acquired sequences that probably do not have any role in the life cycle of the elements. los Bs1 retrotransposon of maize, for example, has transduced a cellular gene sequence - in this case a part of a gene encoding an ATPase [23, 24].


Archivos de datos adicionales

Additional data file 1 contains a table listing software used for gene prediction and annotation. The programs are categorized according to the sources of information utilized and each listing includes a literature reference and URL where the software may be obtained. This list is meant to be representative rather than comprehensive. Additional data file 2 contains a figure showing novel transcripts discovered through a combination of directed RACE and hybridization onto tiling arrays.


OsDREB4 Genes in Rice Encode AP2-Containing Proteins that Bind Specifically to the Dehydration-Responsive Element

Supported by the State Key Basic Research and Development Plan of China (G1999011703), the National Special Program for Research and Industrialization of Transgenic Plants (AY03A-10-02), and the High-Tech Research and Development (863) Program of China (2002AA2Z1001-14).

Abstracto

Abstracto: Most dehydration-responsive element-binding (DREB) factors interact specifically with the dehydration-responsive element (DRE) and control the expression of many stress-inducible genes in Arabidopsis. In rice (Oryza sativa L. cv. Lansheng), we cloned three DREB homologs: OsDREB1-1, OsDREB4-1, y OsDREB4-2. The deduced amino acid sequences revealed that each protein contained a potential nuclear localization signal, an AP2 DNA-binding domain, and a possible acidic activation domain. The yeast one-hybrid assay indicated that both OsDREB4-1 y OsDREB4-2 proteins specifically bound to DRE and activated expression of the dual reporter genes of histidine (HIS3) and galactosidase (LacZ). In rice seedlings, expression of OsDREB4-1 was induced by dehydration and high salt, whereas OsDREB1-1 y OsDREB4-2 were expressed constitutively. Under normal growth conditions, OsDREB1-1 was expressed strongly in the leaf, sheath, and spike, was expressed relatively weak in the stem and only faintly expressed in the roots, whereas expression of transcripts of OsDREB4-1 y OsDREB4-2 was higher in the roots, stem, and spike, lower in the leaf, and undetectable in the sheath. Together, these results imply that expression of the OsDREB genes could be controlled by specific aspects of differentiation or development. Por lo tanto, OsDREB4-1 could function as a trans -acting factor in the DRE/DREB regulated stress-responsive pathway.


Regulación genética

M.W. White , . J.R. Radke , in Toxoplasma Gondii , 2007

16.6 CONCLUSIONS

We now have sufficient knowledge of global mRNA expression in Plasmodium y Toxoplasma to conclude that transcriptional mechanisms play a major role in regulating the developmental program of these parasites. The observations that co-regulated genes are dispersed across parasite chromosomes, along with the presence of much of the conventional eukaryotic transcriptional machinery in the Apicomplexa genomes including chromatin remodelers, is consistent with growing evidence that promoter structures in these parasites contain cis-elements that are regulated by trans-acting factors. The details of these mechanisms remain to be worked out, and we anticipate that this will be forthcoming in the next few years. Apicomplexa protozoa are evolutionarily distinct from other eukaryotes, and the unique enrichment of parasite-specific genes in their mRNA pools suggests that transcriptional regulatory mechanisms in these parasites will have unique characteristics. Transcription factor conservation appears to be a function of evolutionary distance ( Coulson and Ouzounis, 2003 ), indicating that the structural constraints required to preserve the basic core mechanisms are flexible with respect to protein sequence. Thus, future dissection of transcriptional mechanisms in Toxoplasma and other Apicomplexa will require the use of biochemical approaches that have been well developed in other eukaryotic models.


Cloning of the cDNA encoding an RNA regulatory protein--the human iron-responsive element-binding protein

Iron-responsive elements (IREs) are stemloop structures found in the mRNAs encoding ferritin and the transferrin receptor. These elements participate in the iron-induced regulation of the translation of ferritin and the stability of the transferrin receptor mRNA. Regulation in both instances is mediated by binding of a cytosolic protein to the IREs. High-affinity binding is seen when cells are starved of iron and results in repression of ferritin translation and inhibition of transferrin receptor mRNA degradation. The IRE-binding protein (IRE-BP) has been identified as an approximately 90-kDa protein that has been purified by both affinity and conventional chromatography. In this report we use RNA affinity chromatography and two-dimensional gel electrophoresis to isolate the IRE-BP for protein sequencing. A degenerate oligonucleotide probe derived from a single peptide sequence was used to isolate a cDNA clone that encodes a protein containing 13 other sequenced peptides obtained from the IRE-BP. Consistent with previous characterization of the IRE-BP, the cDNA encodes a protein of 87 kDa with a slightly acidic pI, and the corresponding mRNA of approximately 3.6 kilobases is found in a variety of cell types. The encoded protein contains a nucleotide-binding consensus sequence and regions of cysteine and histidine clusters. This mRNA is encoded by a single gene on human chromosome 9, a finding consistent with previous localization by functional mapping. The protein contains no previously defined consensus motifs for either RNA or DNA binding. The simultaneous cloning of a different, but highly homologous, cDNA suggests that the IRE-BP is a member of a distinct gene family.


Información del autor

Afiliaciones

Chongqing Key Laboratory of Natural Product Synthesis and Drug Research, School of Pharmaceutical Sciences, Chongqing University, Shapingba, Chongqing, China

Department of Chemistry and Applied Biosciences, Swiss Federal Institute of Technology (ETH Zürich), Zürich, Switzerland

Yizhou Li, Roberto De Luca, Samuele Cazzamalli, Davor Bajic, Jörg Scheuermann & Dario Neri

Philochem AG, Otelfingen, Switzerland

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

Contribuciones

Y.L., J.S. and D.N. designed the project. Y.L. constructed the library. R.D.L. provided target proteins. Y.L. designed and performed the selections. Y.L. y J.S. analysed high-throughput DNA screening data. Y.L. performed synthesis and hit validation experiments and performed the photo-crosslinking experiments. Y.L. and F.P. performed the immunofluorescence experiments. Y.L. and S.C. performed in vivo experiments. D.B. performed the biotinylation of target proteins. Y.L., J.S. and D.N. wrote the manuscript.

Autores correspondientes


Ver el vídeo: Proteínas. Biología. Biomoléculas. V4. Egg Educación (Enero 2022).