#!/perl/bioinfo: 2017

27 de diciembre de 2017

más one-liners Perl

Hola,
antes de que se acabe el año aprovecho para compartir con vosotros un excelente tutorial de one-liners de Perl, esos comandos que en una línea permiten ejecutar complejas operaciones en el terminal de Linux, el símbolo del sistema de Windows, o, mejor aún, desde dentro de una ventana de MobaXterm.
El tutorial se aloja e:

https://github.com/learnbyexample/Command-line-text-processing/blob/master/perl_the_swiss_knife.md

y tiene ejemplos tan útiles como:

# 1) calcula máximo de una lista de números separados por comas

$ echo '34,17,6' | perl -MList::Util=max -F, -lane 'print max @F'
34

# 2) valida y expande un one-liner a un programa completo más comprensible

$perl -MO=Deparse -ne 'if(!$#ARGV){$h{$_}=1; next} print if $h{$_}'
LINE: while (defined($_ = )) {
    unless ($#ARGV) {
        $h{$_} = 1;
        next;
    }
    print $_ if $h{$_};
}
-e syntax OK

El tutorial tiene también recetas para usar el resto de herramientas del terminal Linux, como grep, sed y muchas otras, en

https://github.com/learnbyexample/Command-line-text-processing

Feliz año!
Bruno

12 de diciembre de 2017

Secuencia de referencia para experimento TagSeq

Hola,
cada vez se van publicando más trabajos donde se emplea TagSeq, una versión low cost de RNAseq que se especializa en secuenciar el máximo número de transcritos posibles, pero sólo unos cuantos cientos de bases de su extremo 3', contando desde la cola poliA. Un tamaño típico de librería TagSeq es 500b.

Protocolo TagSeq, tomado de https://tinyurl.com/y9yc4u5a.

Cuando obtenemos lecturas o reads de este tipo y las queremos alinear contra los transcritos anotados del genoma de referencia puede ser útil, con vistas a posibles normalizaciones posteriores que consideren la longitud original del gen, recortar las secuencias de referencia. Os pongo un ejemplo en Perl:

zcat primaryTranscriptOnly.fa.gz | \
     perl -lne 'if(/^(>.*)/){$h=$1}else{$fa{$h} .= $_} END{ foreach $s (sort keys(%fa)){ print "$s\n".substr($fa{$s},-500)."\n" }}' > \     
     primaryTranscriptOnly.TagSeq500b.fa

Hasta luego,
Bruno

1 de diciembre de 2017

Docker image of GET_HOMOLOGUES + GET_PHYLOMARKERS

Dear all,
Pablo Vinuesa and me we have recently built a Docker image of GET_HOMOLOGUES bundled with a new pipeline, meant to be used downstream, called GET_PHYLOMARKERS. This software will be described in detail in a forthcoming publication. The image, and instructions on how to run it, are available at https://hub.docker.com/r/csicunam/get_homologues :

By packing them in a ready-to-use, cross-platform image, users avoid installation glitches, usually related to several extremely useful R packages required by the second pipeline. Please test it and give us feedback if possible,
cheers,
Bruno and Pablo

Note: link to docker hub updated 29Dic2017

8 de noviembre de 2017

Figuras de PowerPoint a 800dpi

Hola,
ayer Rubén necesitaba aumentar la resolución de varias figuras incluídas en un artículo aceptado en la revista New Phytologist, que requiere resoluciones mínimas de 300dpi (ppp) o 800dpi, para fotos o gráficos respectivamente. En este caso se trataba de varios gráficos generados en PowerPoint.

Con el siguiente protocolo de Carlos Cantalapiedra lo lograron:

1- Aumentar el tamaño de las figuras en PowerPoint, al menos el doble de lo que será en la realidad.
2- Guardar figura desde en formato EMP
3- En http://www.zamzar.com pasarla a formato BMP
4- con paint.net abrir el BMP e ir a: Imagen --> cambiar tamaño --> aumentar resolución hasta 800 ppp
5- Guardar como TIFF

Los tamaños de los ficheros aumentan considerablemente, pasando de Kb a Mb,
hasta luego,
Bruno

24 de octubre de 2017

SOAP interface of footprintDB

Hi,
this entry shows how to query footprintDB from a Perl script.
First, make sure you have module SOAP::lite, which you can install with: $ sudo cpan -i SOAP::Lite. The following Perl5 code shows how to make all dna, protein and text queries, obtaining XML output in all cases.
Note that if you register you can query also your private databases (see details in documentation). Also note that protein searches are time consuming, and if you wish to annotate a large number of proteins it is advised that BLASTP searches are done in your own hardware, with the appropriate FASTA files., as explained in a previous post. Cheers, Bruno.

#!/usr/bin/perl -w
use strict;
use SOAP::Lite;

my $footprintDBusername = ''; # type your username if registered
my ($result,$sequence,$sequence_name,$datatype,$keyword) = ('','','','','');
my $server = SOAP::Lite
-> uri('footprintdb')
-> proxy('http://floresta.eead.csic.es/footprintdb/ws.cgi');

## sample protein sequence
$sequence_name = 'test';
$sequence = 'IYNLSRRFAQRGFSPREFRLTMTRGDIGNYLGLTVETISRLLGRFQKSGMLAVKGKYITIEN';

$result = $server->protein_query($sequence_name,$sequence,$footprintDBusername);
unless($result->fault()){
 print $result->result(); 
}else{
 print 'error: ' . join(', ',$result->faultcode(),$result->faultstring());
}

## sample regulatory motif sequence
#$sequence = 'TGTGANNN'; # possible format
#$sequence = "TGTGA\nTGTGG\nTGTAG"; # another format
#transfac format for position weight matrices can be used as heredoc
$sequence= <<EOM;
DE 1a0a_AB
01 1 93 0 2
02 0 96 0 0
03 58 33 3 2
04 8 78 6 4
05 8 5 75 8
06 1 2 47 46
07 1 2 84 9
XX
EOM

$result = $server->DNA_motif_query($sequence_name,$sequence,$footprintDBusername);
unless($result->fault()){
 print $result->result();
}else{
 print 'error: ' . join(', ',$result->faultcode(),$result->faultstring());
}

$keyword = "myb";
$datatype = "site";
$result = $server->text_query($keyword,$datatype,$footprintDBusername);
unless($result->fault()){
 print $result->result();
}else{
 print 'error: ' . join(', ',$result->faultcode(),$result->faultstring());
}

23 de octubre de 2017

BLASTP: diferentes versiones dan diferentes alineamientos de secuencias de baja complejidad

El alineamiento de secuencias repetitivas o regiones de baja complejidad en la version ncbi-blast-2.2.27+ muestra diferentes "Best hits" en los alineamientos comparado con las versiones más recientes de blast como la version ncbi-blast-2.2.30+ y la versión ncbi-blast-2.6.0+ a pesar de mantener los mismos parámetros en ambos casos y la misma base de datos.

Ejemplo de query: proteína de la familia PE de Mycobacterium tuberculosis asociada con virulencia y caracterizada por presentar regiones de baja complejidad.

>UT08
MSLVIATPQLLATAALDLASIGSQVSAANAAAAMPTTEVVAAAADEVSAAIAGLFGAHARQYQALSVQVAAFHEQFVQALTAAAGRYASTEAA
VERSLLGAVNAPTEALLGRPLIGNGADGTAPGQPGAAGGLLFGNGGNGAAGGFGQTGGSGGAAGLIGNGGNGGAGGTGAAGGAGGNG
GWLWGNGGNGGVGGTSVAAGIGGAGGNGGNAGLFGHGGAGGTGGAGLAGANGVNPTPGPAASTGDSPADVSGIGDQTGGDGGTGGH
GTAGTPTGGTGGDGATATAGSGKATGGAGGDGGTAAAGGGGGNGGDGGVAQGDIASAFGGDGGNGSDGVAAGSGGGSGGAGGGAFVHI
ATATSTGGSGGFGGNGAASAASGADGGAGGAGGNGGAGGLLFGDGGNGGAGGAGGIGGDGATGGPGGSGGNAGIARFDSPDPEAEPDV
VGGKGGDGGKGGSGLGVGGAGGLLFGNGGNGGNAGAGGDGGAGVAGGVGGNGGGGGTATFHEDPVAGVWAVGGVGGDGGSGGSSLG
VGGVGGAGGVGGKGGASGMLIGNGGNGGSGGVGGAGGVGGAGGDGGNGGSGGNASTFGDENSIGGAGGTGGNGGNGANGGNGGAG
GIAGGAGGSGGFLSGAAGVSGADGIGGAGGAGGAGGAGGSGGEAGAGGLTNGPGSPGVSGTEGMAGAPG

Versión ncbi-blast-2.2.27+:
Empleando los parametros por defecto para enmascarar las secuencias de baja complejidad:

Linea de ejecución:

~ncbi-blast-2.2.27+/bin/blastp -query UT08.fasta -db UT105.fa -outfmt 7 -max_target_seqs 5 -seg yes -soft_masking true

Alineamiento:

Fields: query id, subject id, % identity, alignment length, mismatches, gap opens, q. start, q. end, s. start, s. end, evalue, bit score
# 5 hits found
UT08    BNAKEEDD_03025    65.12    129    42    1    1    126    1    129    4e-45    167
UT08    BNAKEEDD_02663    72.80    125    31    1    1    122    1    125    2e-43    166
UT08    BNAKEEDD_01601    61.48    122    40    1    1    115    1    122    8e-36    141
UT08    BNAKEEDD_02274    63.89    144    49    3    1    141    1    144    5e-34    130
UT08    BNAKEEDD_00693    64.75    122    41    2    1    121    1    121    4e-33    134

Versión ncbi-blast-2.2.30+

Linea de ejecución:

~ncbi-blast-2.2.30+/bin/blastp -query UT08.fasta -db UT105.fa -outfmt 7 -max_target_seqs 5 -seg yes -soft_masking true

Alineamiento:
Fields: query id, subject id, % identity, alignment length, mismatches, gap opens, q. start, q. end, s. start, s. end, evalue, bit score
# 5 hits found
UT08    BNAKEEDD_02661    98.27    694    0    1    1    682    1    694    0.0    1116
UT08    BNAKEEDD_03025    65.12    129    42    1    1    126    1    129    4e-45    167
UT08    BNAKEEDD_02663    74.82    139    32    1    1    136    1    139    1e-40    157
UT08    BNAKEEDD_01601    61.48    122    40    1    1    115    1    122    8e-36    141
UT08    BNAKEEDD_02274    63.89    144    49    3    1    141    1    144    5e-34    130

Versión ncbi-blast-2.6.0+

Linea de ejecución:

~ncbi-blast-2.6.0+/bin/blastp -query UT08.fasta -db UT105.fa -outfmt 7 -max_target_seqs 5 -seg yes -soft_masking true

Alineamiento:

Fields: query id, subject id, % identity, alignment length, mismatches, gap opens, q. start, q. end, s. start, s. end, evalue, bit score
# 5 hits found
UT08    BNAKEEDD_02661    98.271    694    0    1    1    682    1    694    0.0    1116
UT08   BNAKEEDD_03025    65.116    129    42    1    1    126    1    129    3.79e-45    167
UT08    BNAKEEDD_02663    74.820    139    32    1    1    136    1    139    1.34e-40    157
UT08    BNAKEEDD_01601    61.475    122    40    1    1    115    1    122    7.24e-36    141
UT08    BNAKEEDD_02274    63.889    144    49    3    1    141    1    144    1.85e-34    130

Al realizar el alineamiento de la proteína query UT08 con la versión de blast 2.2.30 o 2.6.0 toma como segundo mejor hit el alineamiento que es el hit número uno para la versión 2.2.27. Sin embargo, al realizar la busqueda, para el alineamiento de UT08 usando en la versión 2.2.27 no fue posible identificar el hit número uno (BNAKEEDD_02661) de las versiónes 2.2.30 o 2.6.0 en los primeros 20 hits, siendo las que tuvieron el mayor procentaje de identidad (98.27%), mejor evalue y bit score para estas dos ultimas versiones.

Lo anterior indica que el alineamiento de secuencias en regiones de baja complejidad fue optimizado a partir de la versión ncbi-blast-2.2.30+ (ver Bug fixed https://www.ncbi.nlm.nih.gov/books/NBK131777/) . Esta es una de las varias razónes que dan importancia a realizar periodicamente las actualizaciónes a las versiones más recientes de software para análisis de datos biológicos como Blast, sobre todo para corregir los posibles errores que traen las antiguas versiones, como en este caso paticular asociado a los alineamientos en secuencias repetitivas o de baja complejidad.

6 de octubre de 2017

formato PDBx/mmCIF del Protein Data Bank

Hola,
aunque el formato PDB sea probablemente todavía el estándar de facto para intercambiar información de macromoléculas biológicas, se ha quedado pequeño para representar grandes complejos moleculares y por esa razón desde 2014 el formato oficial del Protein Data Bank es el PDBx/mmCIF. Hay además otro formato en liza, el PDBML, pero tiene la desventaja de ocupar mucho más espacio.


Complejo proteína-ADN 1LFU, tomado de http://www.rcsb.org/pdb/explore/explore.do?structureId=1lfu

Repasemos cómo pasan a ser los campos ATOM de un fichero PDB, los más relevantes. Veamos el siguiente ejemplo en el vetusto formato PDB, tomado de la estructura 1LFU, con columnas de ancho fijo:

ATOM      1  O5'  DA C 100      31.258  -2.296  76.212  1.00 81.62           O  
ATOM      2  C5'  DA C 100      29.867  -2.121  76.367  1.00 69.89           C  
ATOM      3  C4'  DA C 100      28.980  -3.049  77.172  1.00 67.21           C  
ATOM      4  O4'  DA C 100      29.376  -3.145  78.557  1.00 64.58           O  
ATOM      5  C3'  DA C 100      27.626  -2.376  77.196  1.00 64.41           C  
ATOM      6  O3'  DA C 100      26.569  -3.309  77.165  1.00 66.18           O  
ATOM      7  C2'  DA C 100      27.647  -1.527  78.451  1.00 63.85           C  
ATOM      8  C1'  DA C 100      28.739  -2.123  79.322  1.00 56.01           C  
ATOM      9  N9   DA C 100      29.771  -1.142  79.635  1.00 49.13           N  
ATOM     10  C8   DA C 100      30.533  -0.428  78.740  1.00 48.58           C  
ATOM     11  N7   DA C 100      31.429   0.348  79.306  1.00 43.14           N  
ATOM     12  C5   DA C 100      31.218   0.141  80.664  1.00 40.35           C  
ATOM     13  C6   DA C 100      31.837   0.679  81.794  1.00 42.42           C  
ATOM     14  N6   DA C 100      32.826   1.571  81.750  1.00 48.24           N  
ATOM     15  N1   DA C 100      31.393   0.262  82.998  1.00 42.81           N  
ATOM     16  C2   DA C 100      30.397  -0.626  83.046  1.00 45.83           C  
ATOM     17  N3   DA C 100      29.734  -1.195  82.054  1.00 41.14           N  
ATOM     18  C4   DA C 100      30.197  -0.765  80.875  1.00 41.62           C  
ATOM     19  P    DG C 101      25.116  -2.785  76.764  1.00 78.33           P  
ATOM     20  OP1  DG C 101      24.278  -3.977  76.501  1.00 74.57           O

En formato PDBx/mmCIF esto mismo se expresa así, con columnas separadas con espacios en blanco y cabeceras auto-explicativas, incluyendo una para la carga:

loop_
_atom_site.group_PDB 
_atom_site.id 
_atom_site.type_symbol 
_atom_site.label_atom_id 
_atom_site.label_alt_id 
_atom_site.label_comp_id 
_atom_site.label_asym_id 
_atom_site.label_entity_id 
_atom_site.label_seq_id 
_atom_site.pdbx_PDB_ins_code 
_atom_site.Cartn_x 
_atom_site.Cartn_y 
_atom_site.Cartn_z 
_atom_site.occupancy 
_atom_site.B_iso_or_equiv 
_atom_site.pdbx_formal_charge 
_atom_site.auth_seq_id 
_atom_site.auth_comp_id 
_atom_site.auth_asym_id 
_atom_site.auth_atom_id 
_atom_site.pdbx_PDB_model_num 
ATOM   1    O  "O5'" . DA  A 1 1  ? 31.258 -2.296 76.212  1.00 81.62  ? 100 DA  C "O5'" 1 
ATOM   2    C  "C5'" . DA  A 1 1  ? 29.867 -2.121 76.367  1.00 69.89  ? 100 DA  C "C5'" 1 
ATOM   3    C  "C4'" . DA  A 1 1  ? 28.980 -3.049 77.172  1.00 67.21  ? 100 DA  C "C4'" 1 
ATOM   4    O  "O4'" . DA  A 1 1  ? 29.376 -3.145 78.557  1.00 64.58  ? 100 DA  C "O4'" 1 
ATOM   5    C  "C3'" . DA  A 1 1  ? 27.626 -2.376 77.196  1.00 64.41  ? 100 DA  C "C3'" 1 
ATOM   6    O  "O3'" . DA  A 1 1  ? 26.569 -3.309 77.165  1.00 66.18  ? 100 DA  C "O3'" 1 
ATOM   7    C  "C2'" . DA  A 1 1  ? 27.647 -1.527 78.451  1.00 63.85  ? 100 DA  C "C2'" 1 
ATOM   8    C  "C1'" . DA  A 1 1  ? 28.739 -2.123 79.322  1.00 56.01  ? 100 DA  C "C1'" 1 
ATOM   9    N  N9    . DA  A 1 1  ? 29.771 -1.142 79.635  1.00 49.13  ? 100 DA  C N9    1 
ATOM   10   C  C8    . DA  A 1 1  ? 30.533 -0.428 78.740  1.00 48.58  ? 100 DA  C C8    1 
ATOM   11   N  N7    . DA  A 1 1  ? 31.429 0.348  79.306  1.00 43.14  ? 100 DA  C N7    1 
ATOM   12   C  C5    . DA  A 1 1  ? 31.218 0.141  80.664  1.00 40.35  ? 100 DA  C C5    1 
ATOM   13   C  C6    . DA  A 1 1  ? 31.837 0.679  81.794  1.00 42.42  ? 100 DA  C C6    1 
ATOM   14   N  N6    . DA  A 1 1  ? 32.826 1.571  81.750  1.00 48.24  ? 100 DA  C N6    1 
ATOM   15   N  N1    . DA  A 1 1  ? 31.393 0.262  82.998  1.00 42.81  ? 100 DA  C N1    1 
ATOM   16   C  C2    . DA  A 1 1  ? 30.397 -0.626 83.046  1.00 45.83  ? 100 DA  C C2    1 
ATOM   17   N  N3    . DA  A 1 1  ? 29.734 -1.195 82.054  1.00 41.14  ? 100 DA  C N3    1 
ATOM   18   C  C4    . DA  A 1 1  ? 30.197 -0.765 80.875  1.00 41.62  ? 100 DA  C C4    1 
ATOM   19   P  P     . DG  A 1 2  ? 25.116 -2.785 76.764  1.00 78.33  ? 101 DG  C P     1 
ATOM   20   O  OP1   . DG  A 1 2  ? 24.278 -3.977 76.501  1.00 74.57  ? 101 DG  C OP1   1

La diferencia más notable, además de que las columnas no son de ancho fijo, es que cada átomo tiene ahora nuevas etiquetas (label) identificativas, además de las asignadas originalmente por los autores. En el ejemplo, la desoxiadenina 100 para a llevar el número 1. Otra diferencia notable es que en estructuras de NMR, como este caso, el número de modelo se indica también para cada átomo (entity_id).

Hasta luego,
Bruno

3 de octubre de 2017

Plant Genome Evolution 2017 (y III)

Hola,
termino esta serie con las del último día de este congreso. El próximo en dos años.

Edit09102017
Our poster "Pan-genomes: estimating the true genomic diversity of plant species" is available at https://digital.csic.es/handle/10261/156147

Pamela Soltis habla de los genomas de los helechos, que tienen muchos cromosomas y pueden haber sufrido varias rondas de poliploidización y por tanto experimentan silenciamiento genómico a gran escala. Encuentran que los individuos estudiados han perdido al menos un alelo, pero no son pérdidas fijadas en la población. Han estudiado la expresión específica de genes homeólogos en tetraploides y ven que aproximadamente la mitad muestran un sesgo hacia uno de los parentales. Después habla de la aneuploidía compensada, donde los individuos de una población conservan el número de cromosomas pero no el patrón aditivo de los parentales, con trisomías y monosomías por ejemplo. Luego pasa a hablar de que no siempre coinciden en el tiempo la producción de duplicaciones genómicas (WGD) con la radiación de especies. Mientras las Asteraceas sí coinciden, en muchos otros ejemplos hay un retraso (http://www.sciencedirect.com/science/article/pii/S1369526612000465).

Jeffrey Chen continúa la sesión de poliploides, que normalmente son más grandes y vigorosos y experimentan un efecto de dominancia parental epigenética, que en muchos casos es heredable y reversible. Ellos trabajan con Arabidopsis suecica y hacen híbridos inter-específicos con A. thaliana y A. arenosa para estudiar cómo se modifican los ritmos circadianos y la fotosíntesis. También estudian el algodón tetraploide, porque hasta ahora no tienen el genoma de arenosa y en Gossypium hay más recursos genómicos. En estos materiales están estudiando como los subgenomas A y D tienen diferentes marcas en histonas que explican la dominancia de uno sobre el otro (https://genomebiology.biomedcentral.com/articles/10.1186/s13059-017-1229-8). Entre los genes con silenciamiento específico hay genes de domesticación, floración y dormancia. Termina con un repaso de los efectos de la poliploidización en diferentes espeicies, donde hay cambios genéticos (Brassica), epigenético (A. thaliana, algodón) o ambos (trigo).

Michael Barker habla precisamente de poliploides del género Brassica. Empeiza recordando que un tercio de las plantas son poliploides, y que incluso muchas diploides son derivadas de eventos de poliploidización antiguos. Recuerda también que la poliploidización ha sido en general previa a la domesticación. Su pregunta es si los paleólogos, genes de poliploidizaciones ancestrales, están enriquecidos entre los genes de domesticación y sus datos en Brassica apuntan en esa dirección. En general sus datos indican que la edad del evento de duplicación más reciente de una especie determina su variabilidad genética.

Arp Schnittger explica como la poliploidización inducida con colchicina se usa en mejora y como, en general, para generar gametos aneuploides debe fallar algo en el control del huso en la meiosis (splindle checkpoint). Encuentran que a diferencia de los animales, la formación del huso en plantas se aborta muchos antes en caso de estrés y eso podría explicar la facilidad de formación de poliploides (https://www.ncbi.nlm.nih.gov/pubmed/27816818).

Toni Gabaldón explica las herramientas desarrolladas en su grupo que en este caso usaron para el estudio filogenómico del olivo (Lamiales). Muestra datos de profundidad de sintenia con respecto al café. Muestra como definen eventos de duplicación sobre árboles de genes con el algoritmo de solapamiento de especies (https://academic.oup.com/bioinformatics/article/27/1/38/201693/Assigning-duplication-events-to-relative-temporal). Explica en detalle como genes de un híbrido aparecerán en un árbol como parálogos, pero se pueden distinguir porque la topología resultante tendrá menos copias ancestrales que las esperadas para una duplicación. Le preguntan si ha cruzado sus datos de árboles génicos con datos de sintenia, y dice que todavía no, porque su ensamblaje y el de las especies vecinas están fragmentados todavía.

Steve Maere también habla de duplicaciones genómicas y de cómo se retienen o pierden genes después. Destaca que los TFs parecen preferir multiplicarse por duplicaciones completas antes que por cambios a menor escala (http://www.pnas.org/content/102/15/5454.full). Relaciona estos patrones con el balance de dosis, que se preserva en el primer caso, pero no en el segundo. Se pregunta si balance de dosis realmente está detrás de estos patrones y quieren responder mirando familias de proteínas en diferentes especies. Encuentran que ninguna familia se retiene por completo, y que hay un rango amplio de pérdida, cuando mapean los genes sobre bloques sinténicos. Las familias más conservadas tienen anotaciones relacionadas con regulación y señalización, y destacan los TFs. Cuando miran a familias de TFs, los WRKY y F-box aparecen mucho más conservados que los MADS-box. Además, las familias más retenidas divergen menos en secuencia. Finalmente muestra que las familias con más retención, candidatas a ser más sensibles al balance de dosis, contienen genes que tienen fenotipos sensibles a dosis.

Pat Edger habla de dominancia en los genomas híbridos y alopoliploides estudiando dos especies parentales del género Mimulus y su híbrido, comparando después la expresión de genes de ambos subgenomas, observando una dominancia clara de M. luteus en la mayor parte de los casos. (http://www.plantcell.org/content/early/2017/08/16/tpc.17.00010). Luego introduce su trabajo sobre Fragaria vesca, todavía sin publicar.

Olivier Panaud empieza hablando sobre la variabilidad de tamaños genómicos de angiospermas, con una distribución con la moda en 600Mb pero llegando a superar los 5Gb (valores C). Sin embargo, los genes ocupan generalmente entre 100 y 200 Mb, lo que muestra que la diferencia es el espacio que ocupan los transposones (TEs). El modelo actual supone que el tamaño aumenta a medida que se acumulan TEs y se reduce por deleción. Por ejemplo, Oryza australiensis es 2x O. sativa a causa solamente de 3 familias de TEs. Han mirado un montón de especies del género con esta perspectiva (por ejemplo; http://www.nature.com/ng/journal/v46/n9/full/ng.3044.html). Han estimado que la vida media de transposones LTR-RT en arroz es mucho más corta que en animales, de aproximadamente 1.7Myr. Actualmente están analizando TEs en 3000 variedades de arroz y para hacerlo rápidamente indexan secuencias de TEs con la transformada BW y mapean los reads de esos genomas. Termina con una diapo donde hacen GWAS con el fenotipo de CNV de familias de TEs y encuentran un pico en el transposón en sí, lo que sugiere que son factores ambientales los que lo hacen saltar. En principio se puede GWAS usando TEs en vez de SNPs con cualquier carácter fenotípico.

Ezrha Mizrachi habla de la regulación de crecimiento secundario en leñosas, sobre todo Eucaliptus. Su trabajo reciente es sobre la identificación de genes y rutas metabólicas implicadas en la producción de xilema, sobre todo en cloroplastos y mitocondrias (http://www.pnas.org/content/114/5/1195.short). Menciona que encuentran copias casi completas de más de 100 genes cp en el genoma nuclear, pero con sus datos de RNAseq descubren que no se expresan. Tiene un artículo reciente donde ponen a punto métodos de ensamblaje de transcriptomas de novo, pero no lo encuentro todavía, creo que en PLoS ONE. Solo menciona que no le gusta SOPAdenovo.

Jen Wisecaver centra su charla en el estudio de redes de coexpresión en metabolismo secundario, en rutas especializadas, combinando datos de expresión de diferentes condiciones y especies (http://www.plantcell.org/content/early/2017/04/13/tpc.17.00009). Dice que cada genoma tiene decenas de módulos coexpresados de 10 a 40 genes, y que capturan todos los que hay descritos que se agrupen en el mismo cromosoma.

Klass Vandepoele habla de inferencia de redes de TFs en plantas. Usa datos de Y1H,ChIPseq, DNAase-seq, coexpression data (GENIE3), PBMs, phylogenetic –profile sites (http://www.plantphysiol.org/content/early/2016/06/03/pp.16.00821). Los combinan y los comparan con el conjunto de datos de AtRegNet y calculan especificidad y sensibilidad (los mejores son Y1H y ChIPseq). Entonces entrenan un predictor supervisado que es mucho mejor que todos los métodos por separado. Usan enriquecimiento como estadístico. Usando este predictor anotan TFs y sus dianas con gran acierto en A. thaliana (https://www.biorxiv.org/content/early/2017/08/09/173559).

O Tzfadia habla de TranSeq, un protocolo barato de secuenciación de extremos 3’ de transcritos, que en sus manos usaron para mejor de manera significativa los modelos de genes en el genoma de referencia de tomate. Además, observan que este tipo de lecturas capturan con precisión los patrones de expresión de genes que obtuvieron por TruSeq. Finalmente cuenta que este tipo de secuencias capturan CNV con gran precisión.

2 de octubre de 2017

Plant Genome Evolution 2017 (II)

Estas son mis notas del segundo día.

Katrin M Dlugosch habla sobre las distribuciones ecológicas de las especies y de lo difícil que es identificar qué caracteres las explican, qué caracteres definen el éxito o el fracaso ecológico. Alega que los cambios ambientales son discretos, por ejemplo al introducir por primera vez una especie fuera de su área de distribución nativa. Estudia un cardo (Centaurea solstitialis) que es una mala hierba de la alfalfa y que fue propagada con ella desde España a América. Actualmente tiene densidades mayores en América muy superiores a las de la península y han observado que las poblaciones invasoras han acumulado, por selección, genes de defensa y metabolismo secundario (http://onlinelibrary.wiley.com/doi/10.1111/mec.13998/full). Son por tanto candidatos a ser genes de adaptación, y también conocidos por ser la contraparte a los genes de crecimiento, dado que la planta debe dedicar recursos a ambas tareas a la vez. Además han observado que cambia la microbiota de la rizosfera en las áreas nativas y las introducidas. Actualmente está estudiando si las especias invasoras tienen mayor plasticidad de expresión génica que las no invasoras, muestreando 7 diferentes familias de plantas y algunas especies poliploides, comparando DE en ambiente nativo vs ambiente invadido.

Blake C Meyers habla de phasiRNA, que son siRNAs secundarios de 21b que funcionan en trans y cis (aunque hay productos secundarios de 22b). Dependen de una copia del gen Dicer (DCL). Muchos de ellos tienen como diana motivos de familias de genes NLRs, con el fin de suprimirlos. En un artículo en Medicado han visto como 5 miRNAs son suficientes para controlar el nivel de expresión de todos los NLRs. Su hipótesis es que previenen la autoactivación de estos genes. De esta manera, la evolución del repertorio de NLRs guía también la diversificación de miRNAs (https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5026261). Después habla de cómo un phasiRNA producto de DCL5 provoca esterilidad masculina en arroz con un solo SNP (http://www.plantcell.org/content/25/7/2400).

Andrew DL Nelson habla sobre la predominancia de los lncRNA en los genomas de plantas. Son de al menos 200b y tienen potencial codificante bajo. Presenta el software https://github.com/Evolinc, montado sobre http://www.cyverse.org, para la anotación de estos RNAs (https://www.ncbi.nlm.nih.gov/pubmed/28536600). Menciona que se conservan más en Fabáceas que en Poáceas por ejemplo, pero en general menos que los genes que codifican proteínas. También han mirado cómo les va a los lncRNA tras duplicaciones genómicas, y han observado que en muchos casos se convierten en pseudogenes.

R Van Velzen habla un proyecto de Wageningen sobre nodulación por parte de Rhizobium de raíces de Parasponia andersoni, una especie no leguminosa de Indonesia, y la comparan con plantas de Trema, que no nodulan. Encuentran que las Rosales han perdido la capacidad de nodular porque los genes relevantes se han perdido o convertido en pseudogenes en paralelo (https://www.biorxiv.org/content/early/2017/07/28/169706).

D Roodt explica sus resultados en torno a una duplicación del genoma de las Cicadales y también de Gingko (http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0184454).

Athanasios Zervas nos habla de los genomas de mitocondrias de plantas parasíticas, como el muérdago (Viscum album). Secuenciaron con Illumina las mitocondrias de 38 especies angiospermas y ensamblaron genes mt (no el cromosoma entero) y observan que la tasa de sustituciones por sitio es mucho mayor en el muérdago, pero no en las otras parasíticas. Su resultado más llamativo es que el parasitismo ha aparecido 11 veces en el árbol de las angiospermas. Menciona de pasada que han observado RNA editing del gen cox3 en muérdago.

Steven Kelly (presentado como Mr OrthoFinder) habla de la evolución de la eficiencia fotosintética (FS) y de cómo el coste de hacer nucleótidos, siendo las purinas más caras que las pirimidinas, y los codones con o sin purinas reflejan la cantidad de N en la dieta. Prueban esta hipótesis con bacterias y eucariotas parásitos y construyen un modelo que para estimar la presión de selección sobre la composición de codones de un proteoma (https://github.com/easeward/CodonMuSe, https://genomebiology.biomedcentral.com/articles/10.1186/s13059-016-1087-9). Luego se pasa a las plantas y compara cómo diferentes grupos de plantas necesitan diferentes [N] para fotosintetizar. Usando su modelo pueden predecir la eficiencia FS de una planta, a partir de su %GC (las más eficientes tienen más purinas, porque gastan menos en FS). Como consecuencia, ante el aumento de [CO2] atmosférico y aumento de la tasa de FS, la tasa de cambio de las secuencias de DNA de las plantas se acelera y por tanto la especiación.

P Novikova muestra sus resultados sobre polimorfismos compartidos y únicos entre diferentes especies del género Arabidopsis y concluye que las poblaciones actuales de la tetraploide (¿) A. suecica tienen alelos de al menos 4 fundadores de A. thaliana (http://dx.doi.org/10.1038/ng.3617). Muestra datos que sugieren una coincidencia entre la aparición de las especies poliploides y los periodos glaciales en Europa (escala: miles de años). Muestra las adaptaciones de las diferentes especies poliploides: fotosíntesis (suecica), kamchatica (cold), arenosa (serpentine soils), etc

Ute Kraemer habla de las plantas hiperacumuladoras de metales que viven en suelos con condiciones extremas, como la perenne Arabidopsis halleri muestreada en zonas mineras. De hecho, comprobaron que tolera Zn, Pb y Cd metales en condiciones que matan a A. thaliana. Cuando comparan el complemento génico de A. thaliana y A. halleri encuentran dos tipos de mutaciones asociadas a la hiperacumulación que se traducen en transcripción elevada: i) CNV de genes y ii) polimorfismos en elementos cis (http://dx.doi.org/10.1186/s12864-016-3319-5). Muestra datos de evidencia de selección en gen HMA4 (pi y D), presenta en varias copias conservadas por conversión génica ectópica (https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3758752). A continuación estudian la variabilidad fenotípica de casi doscientas poblaciones (K=4-6 aparentemente) de A. halleri en Europa central medida en el laboratorio (http://onlinelibrary.wiley.com/doi/10.1111/nph.14219/full). Cuando hacen GWAS con la [Cd] del suelo de origen encuentran un transportador HMA asociado de manera significativa. Usan GBS para genotipar.

G Piganeau hace genómica con picofitoplancton, los eucariotas fotosintéticos de menor tamaño. Muestrea en el golfo de León. LD se estabiliza en 20kb. Muestra haplotipos muy divergentes, que no se pueden alinear, para el cromosoma 19 ensamblado, hipervariable. pero que conservan algunos genes ortólogos. La longitud del chr19 se correlaciona con la resistencia a la infección de dsDNA virus, pero no parece contener CRISPR repeats con trozos de esos virus.

I Mayrose presenta una tubería para identificar cambios de secuencia que explican variación en caracteres discretos específicos. Recuerda que las herbáceas tienen tasas de sustitución más altas que las leñosas (https://www.ncbi.nlm.nih.gov/pubmed/18832643) como manera de introducir métodos existentes de inferencia a partir de topologías de árboles que tienen limtaciones que su nuevo método trata de superar. Para ello necesitas un carácter binario mapeado sobre un árbol de especies y desarrollan su modelo traitRate (https://www.ncbi.nlm.nih.gov/pubmed/28453644). Lo prueba con la transición a parasitismo de las orquídeas y encuentran SNPs en RPS8. Necesita como input un árbol, un FASTA de péptidos y otro con caracteres binarios.

Bob Schmitz habla de metilación de DNA en plantas (5mC), un carácter con variabilidad variable entre linajes. La enzima MET1 mantiene la metilación en sitios mCG, sobre todo en el cuerpo del gen. CMT3 mantiene los sitios mCHG, típicos de heterocromatina, y DRM1/2 los mCHH, de manera dependiente de transcritos. Hay evidencia (mutantes, filogenias) de que CMT3 es participa en la metilación del cuerpo génico, que es máxima en el centro del gen y decae hacia los extremos. Hacen epiRILs para estudiar si se recupera al cruzar mutantes cmt3 con wt, y tras 8 generaciones ven que no, a pesar de que el transcrito se expresa perfectamente. Sí observan algunos genes donde se recupera la metilación, pero es muy lento.

Claudia Kohler habla de los mecanismos epigenéticos de la especiación de plantas poliploides y de la barrera reproductiva con sus parentales, que tiene lugar en el endospermo (triploid block, https://www.ncbi.nlm.nih.gov/pubmed/20089326). Muestra ejemplos de genes paternos que se sobreexpresan solamente en los triploides y que están bajo control del mecanismo de metilación dependiente de RNA (CHH, https://www.ncbi.nlm.nih.gov/pubmed/25217506). Concluye que la poliploidización es una vía rápida para la especiación, mucho más rápida que la acumulación de mutaciones en especies diploides.

A Vidalis habla sobre epimutantes y la evolución del metiloma en plantas. La metilación es estable entre generaciones. Los epimutantes ganan o pierden su estado de metilación silvestre y hay variabilidad natural en su distribución entre individuos de la misma población (https://genomebiology.biomedcentral.com/articles/10.1186/s13059-016-1127-5).

WA Ricci estudia sitios cis lejanos en plantas, que en maíz se han descubierto con MNase-seq, desvelando el genoma activo (1% del total, https://www.ncbi.nlm.nih.gov/pubmed/27185945). Explica varios ejemplos en maíz, entre ellos un enhancer en el promotor del gen tb1 que se encuentra 11kb aguas arriba y que se confirma por su patrón de modificación de histonas H3K27. Después muestra que en maíz, usando los patrones de histonas, se pueden identificar regiones accesibles de cromatina dentro, cerca (2kb) y lejos de genes transcripcionalmente activos en proporciones similares.