seqsero2_v102: SalmID.py annotate

annotate SalmID.py @ 1:f8e2c8bc540d tip

Uploaded

author	estrain
date	Wed, 02 Oct 2019 16:59:09 -0400
parents	18c8b4d6ab1e
children

rev	line source
estrain@0	1 #!/usr/bin/env python3
estrain@0	2
estrain@0	3
estrain@0	4 import gzip
estrain@0	5 import io
estrain@0	6 import pickle
estrain@0	7 import os
estrain@0	8 import sys
estrain@0	9
estrain@0	10 from argparse import ArgumentParser
estrain@0	11 try:
estrain@0	12 from .version import SalmID_version
estrain@0	13 except ImportError:
estrain@0	14 SalmID_version = "version unknown"
estrain@0	15
estrain@0	16
estrain@0	17 def reverse_complement(sequence):
estrain@0	18 """return the reverse complement of a nucleotide (including IUPAC ambiguous nuceotide codes)"""
estrain@0	19 complement = {'A': 'T', 'C': 'G', 'G': 'C', 'T': 'A', 'N': 'N', 'M': 'K', 'R': 'Y', 'W': 'W',
estrain@0	20 'S': 'S', 'Y': 'R', 'K': 'M', 'V': 'B', 'H': 'D', 'D': 'H', 'B': 'V'}
estrain@0	21 return "".join(complement[base] for base in reversed(sequence))
estrain@0	22
estrain@0	23
estrain@0	24 def parse_args():
estrain@0	25 "Parse the input arguments, use '-h' for help."
estrain@0	26 parser = ArgumentParser(description='SalmID - rapid Kmer based Salmonella identifier from sequence data')
estrain@0	27 # inputs
estrain@0	28 parser.add_argument('-v', '--version', action='version', version='%(prog)s ' + SalmID_version)
estrain@0	29 parser.add_argument(
estrain@0	30 '-i', '--input_file', type=str, required=False, default='None', metavar='your_fastqgz',
estrain@0	31 help='Single fastq.gz file input, include path to file if file is not in same directory ')
estrain@0	32 parser.add_argument(
estrain@0	33 '-e', '--extension', type=str, required=False, default='.fastq.gz', metavar='file_extension',
estrain@0	34 help='File extension, if specified without "--input_dir", SalmID will attempt to ID all files\n' +
estrain@0	35 ' with this extension in current directory, otherwise files in input directory')
estrain@0	36
estrain@0	37 parser.add_argument(
estrain@0	38 '-d', '--input_dir', type=str, required=False, default='.', metavar='directory',
estrain@0	39 help='Directory which contains data for identification, when not specified files in current directory will be analyzed.')
estrain@0	40 parser.add_argument(
estrain@0	41 '-r', '--report', type=str, required=False, default='percentage', metavar='percentage, coverage or taxonomy',
estrain@0	42 help='Report either percentage ("percentage") of clade specific kmers recovered, average kmer-coverage ("cov"), or '
estrain@0	43 'taxonomy (taxonomic species ID, plus observed mean k-mer coverages and expected coverage).')
estrain@0	44 parser.add_argument(
estrain@0	45 '-m', '--mode', type=str, required=False, default='quick', metavar='quick or thorough',
estrain@0	46 help='Quick [quick] or thorough [thorough] mode')
estrain@0	47 if len(sys.argv) == 1:
estrain@0	48 parser.print_help(sys.stderr)
estrain@0	49 sys.exit(1)
estrain@0	50 return parser.parse_args()
estrain@0	51
estrain@0	52
estrain@0	53 def get_av_read_length(file):
estrain@0	54 """Samples the first 100 reads from a fastq file and return the average read length."""
estrain@0	55 i = 1
estrain@0	56 n_reads = 0
estrain@0	57 total_length = 0
estrain@0	58 if file.endswith(".gz"):
estrain@0	59 file_content = io.BufferedReader(gzip.open(file))
estrain@0	60 else:
estrain@0	61 file_content = open(file, "r").readlines()
estrain@0	62 for line in file_content:
estrain@0	63 if i % 4 == 2:
estrain@0	64 total_length += len(line.strip())
estrain@0	65 n_reads += 1
estrain@0	66 i += 1
estrain@0	67 if n_reads == 100:
estrain@0	68 break
estrain@0	69 return total_length / 100
estrain@0	70
estrain@0	71
estrain@0	72 def createKmerDict_reads(list_of_strings, kmer):
estrain@0	73 """Count occurence of K-mers in a list of strings
estrain@0	74
estrain@0	75 Args:
estrain@0	76 list_of_strings(list of str): nucleotide sequences as a list of strings
estrain@0	77 kmer(int): length of the K-mer to count
estrain@0	78
estrain@0	79 Returns:
estrain@0	80 dict: dictionary with kmers as keys, counts for each kmer as values"""
estrain@0	81 kmer_table = {}
estrain@0	82 for string in list_of_strings:
estrain@0	83 sequence = string.strip('\n')
estrain@0	84 if len(sequence) >= kmer:
estrain@0	85 for i in range(len(sequence) - kmer + 1):
estrain@0	86 new_mer = sequence[i:i + kmer]
estrain@0	87 new_mer_rc = reverse_complement(new_mer)
estrain@0	88 if new_mer in kmer_table:
estrain@0	89 kmer_table[new_mer.upper()] += 1
estrain@0	90 else:
estrain@0	91 kmer_table[new_mer.upper()] = 1
estrain@0	92 if new_mer_rc in kmer_table:
estrain@0	93 kmer_table[new_mer_rc.upper()] += 1
estrain@0	94 else:
estrain@0	95 kmer_table[new_mer_rc.upper()] = 1
estrain@0	96 return kmer_table
estrain@0	97
estrain@0	98
estrain@0	99 def target_read_kmerizer_multi(file, k, kmerDict_1, kmerDict_2, mode):
estrain@0	100 mean_1 = None
estrain@0	101 mean_2 = None
estrain@0	102 i = 1
estrain@0	103 n_reads_1 = 0
estrain@0	104 n_reads_2 = 0
estrain@0	105 total_coverage_1 = 0
estrain@0	106 total_coverage_2 = 0
estrain@0	107 reads_1 = []
estrain@0	108 reads_2 = []
estrain@0	109 total_reads = 0
estrain@0	110 if file.endswith(".gz"):
estrain@0	111 file_content = io.BufferedReader(gzip.open(file))
estrain@0	112 else:
estrain@0	113 file_content = open(file, "r").readlines()
estrain@0	114 for line in file_content:
estrain@0	115 start = int((len(line) - k) // 2)
estrain@0	116 if i % 4 == 2:
estrain@0	117 total_reads += 1
estrain@0	118 if file.endswith(".gz"):
estrain@0	119 s1 = line[start:k + start].decode()
estrain@0	120 line = line.decode()
estrain@0	121 else:
estrain@0	122 s1 = line[start:k + start]
estrain@0	123 if s1 in kmerDict_1:
estrain@0	124 n_reads_1 += 1
estrain@0	125 total_coverage_1 += len(line)
estrain@0	126 reads_1.append(line)
estrain@0	127 if s1 in kmerDict_2:
estrain@0	128 n_reads_2 += 1
estrain@0	129 total_coverage_2 += len(line)
estrain@0	130 reads_2.append(line)
estrain@0	131 i += 1
estrain@0	132 if mode == 'quick':
estrain@0	133 if total_coverage_2 >= 800000:
estrain@0	134 break
estrain@0	135
estrain@0	136 if len(reads_1) == 0:
estrain@0	137 kmer_Dict1 = {}
estrain@0	138 else:
estrain@0	139 kmer_Dict1 = createKmerDict_reads(reads_1, k)
estrain@0	140 mers_1 = set([key for key in kmer_Dict1])
estrain@0	141 mean_1 = sum([kmer_Dict1[key] for key in kmer_Dict1]) / len(mers_1)
estrain@0	142 if len(reads_2) == 0:
estrain@0	143 kmer_Dict2 = {}
estrain@0	144 else:
estrain@0	145 kmer_Dict2 = createKmerDict_reads(reads_2, k)
estrain@0	146 mers_2 = set([key for key in kmer_Dict2])
estrain@0	147 mean_2 = sum([kmer_Dict2[key] for key in kmer_Dict2]) / len(mers_2)
estrain@0	148 return kmer_Dict1, kmer_Dict2, mean_1, mean_2, total_reads
estrain@0	149
estrain@0	150
estrain@0	151 def mean_cov_selected_kmers(iterable, kmer_dict, clade_specific_kmers):
estrain@0	152 '''
estrain@0	153 Given an iterable (list, set, dictrionary) returns mean coverage for the kmers in iterable
estrain@0	154 :param iterable: set, list or dictionary containing kmers
estrain@0	155 :param kmer_dict: dictionary with kmers as keys, kmer-frequency as value
estrain@0	156 :param clade_specific_kmers: list, dict or set of clade specific kmers
estrain@0	157 :return: mean frequency as float
estrain@0	158 '''
estrain@0	159 if len(iterable) == 0:
estrain@0	160 return 0
estrain@0	161 return sum([kmer_dict[value] for value in iterable]) / len(clade_specific_kmers)
estrain@0	162
estrain@0	163
estrain@0	164 def kmer_lists(query_fastq_gz, k,
estrain@0	165 allmers, allmers_rpoB,
estrain@0	166 uniqmers_bongori,
estrain@0	167 uniqmers_I,
estrain@0	168 uniqmers_IIa,
estrain@0	169 uniqmers_IIb,
estrain@0	170 uniqmers_IIIa,
estrain@0	171 uniqmers_IIIb,
estrain@0	172 uniqmers_IV,
estrain@0	173 uniqmers_VI,
estrain@0	174 uniqmers_VII,
estrain@0	175 uniqmers_VIII,
estrain@0	176 uniqmers_bongori_rpoB,
estrain@0	177 uniqmers_S_enterica_rpoB,
estrain@0	178 uniqmers_Escherichia_rpoB,
estrain@0	179 uniqmers_Listeria_ss_rpoB,
estrain@0	180 uniqmers_Lmono_rpoB,
estrain@0	181 mode):
estrain@0	182 dict_invA, dict_rpoB, mean_invA, mean_rpoB, total_reads = target_read_kmerizer_multi(query_fastq_gz, k, allmers,
estrain@0	183 allmers_rpoB, mode)
estrain@0	184 target_mers_invA = set([key for key in dict_invA])
estrain@0	185 target_mers_rpoB = set([key for key in dict_rpoB])
estrain@0	186 if target_mers_invA == 0:
estrain@0	187 print('No reads found matching invA, no Salmonella in sample?')
estrain@0	188 else:
estrain@0	189 p_bongori = (len(uniqmers_bongori & target_mers_invA) / len(uniqmers_bongori)) * 100
estrain@0	190 p_I = (len(uniqmers_I & target_mers_invA) / len(uniqmers_I)) * 100
estrain@0	191 p_IIa = (len(uniqmers_IIa & target_mers_invA) / len(uniqmers_IIa)) * 100
estrain@0	192 p_IIb = (len(uniqmers_IIb & target_mers_invA) / len(uniqmers_IIb)) * 100
estrain@0	193 p_IIIa = (len(uniqmers_IIIa & target_mers_invA) / len(uniqmers_IIIa)) * 100
estrain@0	194 p_IIIb = (len(uniqmers_IIIb & target_mers_invA) / len(uniqmers_IIIb)) * 100
estrain@0	195 p_VI = (len(uniqmers_VI & target_mers_invA) / len(uniqmers_VI)) * 100
estrain@0	196 p_IV = (len(uniqmers_IV & target_mers_invA) / len(uniqmers_IV)) * 100
estrain@0	197 p_VII = (len(uniqmers_VII & target_mers_invA) / len(uniqmers_VII)) * 100
estrain@0	198 p_VIII = (len(uniqmers_VIII & target_mers_invA) / len(uniqmers_VIII)) * 100
estrain@0	199 p_bongori_rpoB = (len(uniqmers_bongori_rpoB & target_mers_rpoB) / len(uniqmers_bongori_rpoB)) * 100
estrain@0	200 p_Senterica = (len(uniqmers_S_enterica_rpoB & target_mers_rpoB) / len(uniqmers_S_enterica_rpoB)) * 100
estrain@0	201 p_Escherichia = (len(uniqmers_Escherichia_rpoB & target_mers_rpoB) / len(uniqmers_Escherichia_rpoB)) * 100
estrain@0	202 p_Listeria_ss = (len(uniqmers_Listeria_ss_rpoB & target_mers_rpoB) / len(uniqmers_Listeria_ss_rpoB)) * 100
estrain@0	203 p_Lmono = (len(uniqmers_Lmono_rpoB & target_mers_rpoB) / len(uniqmers_Lmono_rpoB)) * 100
estrain@0	204 bongori_invA_cov = mean_cov_selected_kmers(uniqmers_bongori & target_mers_invA, dict_invA, uniqmers_bongori)
estrain@0	205 I_invA_cov = mean_cov_selected_kmers(uniqmers_I & target_mers_invA, dict_invA, uniqmers_I)
estrain@0	206 IIa_invA_cov = mean_cov_selected_kmers(uniqmers_IIa & target_mers_invA, dict_invA, uniqmers_IIa)
estrain@0	207 IIb_invA_cov = mean_cov_selected_kmers(uniqmers_IIb & target_mers_invA, dict_invA, uniqmers_IIb)
estrain@0	208 IIIa_invA_cov = mean_cov_selected_kmers(uniqmers_IIIa & target_mers_invA, dict_invA, uniqmers_IIIa)
estrain@0	209 IIIb_invA_cov = mean_cov_selected_kmers(uniqmers_IIIb & target_mers_invA, dict_invA, uniqmers_IIIb)
estrain@0	210 IV_invA_cov = mean_cov_selected_kmers(uniqmers_IV & target_mers_invA, dict_invA, uniqmers_IV)
estrain@0	211 VI_invA_cov = mean_cov_selected_kmers(uniqmers_VI & target_mers_invA, dict_invA, uniqmers_VI)
estrain@0	212 VII_invA_cov = mean_cov_selected_kmers(uniqmers_VII & target_mers_invA, dict_invA, uniqmers_VII)
estrain@0	213 VIII_invA_cov = mean_cov_selected_kmers(uniqmers_VIII & target_mers_invA, dict_invA, uniqmers_VIII)
estrain@0	214 S_enterica_rpoB_cov = mean_cov_selected_kmers((uniqmers_S_enterica_rpoB & target_mers_rpoB), dict_rpoB,
estrain@0	215 uniqmers_S_enterica_rpoB)
estrain@0	216 S_bongori_rpoB_cov = mean_cov_selected_kmers((uniqmers_bongori_rpoB & target_mers_rpoB), dict_rpoB,
estrain@0	217 uniqmers_bongori_rpoB)
estrain@0	218 Escherichia_rpoB_cov = mean_cov_selected_kmers((uniqmers_Escherichia_rpoB & target_mers_rpoB), dict_rpoB,
estrain@0	219 uniqmers_Escherichia_rpoB)
estrain@0	220 Listeria_ss_rpoB_cov = mean_cov_selected_kmers((uniqmers_Listeria_ss_rpoB & target_mers_rpoB), dict_rpoB,
estrain@0	221 uniqmers_Listeria_ss_rpoB)
estrain@0	222 Lmono_rpoB_cov = mean_cov_selected_kmers((uniqmers_Lmono_rpoB & target_mers_rpoB), dict_rpoB,
estrain@0	223 uniqmers_Lmono_rpoB)
estrain@0	224 coverages = [Listeria_ss_rpoB_cov, Lmono_rpoB_cov, Escherichia_rpoB_cov, S_bongori_rpoB_cov,
estrain@0	225 S_enterica_rpoB_cov, bongori_invA_cov, I_invA_cov, IIa_invA_cov, IIb_invA_cov,
estrain@0	226 IIIa_invA_cov, IIIb_invA_cov, IV_invA_cov, VI_invA_cov, VII_invA_cov, VIII_invA_cov]
estrain@0	227 locus_scores = [p_Listeria_ss, p_Lmono, p_Escherichia, p_bongori_rpoB, p_Senterica, p_bongori,
estrain@0	228 p_I, p_IIa, p_IIb, p_IIIa, p_IIIb, p_IV, p_VI, p_VII, p_VIII]
estrain@0	229 return locus_scores, coverages, total_reads
estrain@0	230
estrain@0	231
estrain@0	232 def report_taxon(locus_covs, average_read_length, number_of_reads):
estrain@0	233 list_taxa = [ 'Listeria ss', 'Listeria monocytogenes', 'Escherichia sp.', # noqa: E201
estrain@0	234 'Salmonella bongori (rpoB)', 'Salmonella enterica (rpoB)',
estrain@0	235 'Salmonella bongori (invA)', 'S. enterica subsp. enterica (invA)',
estrain@0	236 'S. enterica subsp. salamae (invA: clade a)', 'S. enterica subsp. salamae (invA: clade b)',
estrain@0	237 'S. enterica subsp. arizonae (invA)', 'S. enterica subsp. diarizonae (invA)',
estrain@0	238 'S. enterica subsp. houtenae (invA)', 'S. enterica subsp. indica (invA)',
estrain@0	239 'S. enterica subsp. VII (invA)', 'S. enterica subsp. salamae (invA: clade VIII)' ] # noqa: E202
estrain@0	240 if sum(locus_covs) < 1:
estrain@0	241 rpoB = ('No rpoB matches!', 0)
estrain@0	242 invA = ('No invA matches!', 0)
estrain@0	243 return rpoB, invA, 0.0
estrain@0	244 else:
estrain@0	245 # given list of scores get taxon
estrain@0	246 if sum(locus_covs[0:5]) > 0:
estrain@0	247 best_rpoB = max(range(len(locus_covs[1:5])), key=lambda x: locus_covs[1:5][x]) + 1
estrain@0	248 all_rpoB = max(range(len(locus_covs[0:5])), key=lambda x: locus_covs[0:5][x])
estrain@0	249 if (locus_covs[best_rpoB] != 0) & (all_rpoB == 0):
estrain@0	250 rpoB = (list_taxa[best_rpoB], locus_covs[best_rpoB])
estrain@0	251 elif (all_rpoB == 0) & (round(sum(locus_covs[1:5]), 1) < 1):
estrain@0	252 rpoB = (list_taxa[0], locus_covs[0])
estrain@0	253 else:
estrain@0	254 rpoB = (list_taxa[best_rpoB], locus_covs[best_rpoB])
estrain@0	255 else:
estrain@0	256 rpoB = ('No rpoB matches!', 0)
estrain@0	257 if sum(locus_covs[5:]) > 0:
estrain@0	258 best_invA = max(range(len(locus_covs[5:])), key=lambda x: locus_covs[5:][x]) + 5
estrain@0	259 invA = (list_taxa[best_invA], locus_covs[best_invA])
estrain@0	260 else:
estrain@0	261 invA = ('No invA matches!', 0)
estrain@0	262 if 'Listeria' in rpoB[0]:
estrain@0	263 return rpoB, invA, (average_read_length * number_of_reads) / 3000000
estrain@0	264 else:
estrain@0	265 return rpoB, invA, (average_read_length * number_of_reads) / 5000000
estrain@0	266
estrain@0	267
estrain@0	268 def main():
estrain@0	269 ex_dir = os.path.dirname(os.path.realpath(__file__))
estrain@0	270 args = parse_args()
estrain@0	271 input_file = args.input_file
estrain@0	272 if input_file != 'None':
estrain@0	273 files = [input_file]
estrain@0	274 else:
estrain@0	275 extension = args.extension
estrain@0	276 inputdir = args.input_dir
estrain@0	277 files = [inputdir + '/' + f for f in os.listdir(inputdir) if f.endswith(extension)]
estrain@0	278 report = args.report
estrain@0	279 mode = args.mode
estrain@0	280 f_invA = open(ex_dir + "/invA_mers_dict", "rb")
estrain@0	281 sets_dict_invA = pickle.load(f_invA)
estrain@0	282 f_invA.close()
estrain@0	283 allmers = sets_dict_invA['allmers']
estrain@0	284 uniqmers_I = sets_dict_invA['uniqmers_I']
estrain@0	285 uniqmers_IIa = sets_dict_invA['uniqmers_IIa']
estrain@0	286 uniqmers_IIb = sets_dict_invA['uniqmers_IIb']
estrain@0	287 uniqmers_IIIa = sets_dict_invA['uniqmers_IIIa']
estrain@0	288 uniqmers_IIIb = sets_dict_invA['uniqmers_IIIb']
estrain@0	289 uniqmers_IV = sets_dict_invA['uniqmers_IV']
estrain@0	290 uniqmers_VI = sets_dict_invA['uniqmers_VI']
estrain@0	291 uniqmers_VII = sets_dict_invA['uniqmers_VII']
estrain@0	292 uniqmers_VIII = sets_dict_invA['uniqmers_VIII']
estrain@0	293 uniqmers_bongori = sets_dict_invA['uniqmers_bongori']
estrain@0	294
estrain@0	295 f = open(ex_dir + "/rpoB_mers_dict", "rb")
estrain@0	296 sets_dict = pickle.load(f)
estrain@0	297 f.close()
estrain@0	298
estrain@0	299 allmers_rpoB = sets_dict['allmers']
estrain@0	300 uniqmers_bongori_rpoB = sets_dict['uniqmers_bongori']
estrain@0	301 uniqmers_S_enterica_rpoB = sets_dict['uniqmers_S_enterica']
estrain@0	302 uniqmers_Escherichia_rpoB = sets_dict['uniqmers_Escherichia']
estrain@0	303 uniqmers_Listeria_ss_rpoB = sets_dict['uniqmers_Listeria_ss']
estrain@0	304 uniqmers_Lmono_rpoB = sets_dict['uniqmers_L_mono']
estrain@0	305 # todo: run kmer_lists() once, create list of tuples containing data to be used fro different reports
estrain@0	306 if report == 'taxonomy':
estrain@0	307 print('file\trpoB\tinvA\texpected coverage')
estrain@0	308 for f in files:
estrain@0	309 locus_scores, coverages, reads = kmer_lists(f, 27,
estrain@0	310 allmers, allmers_rpoB,
estrain@0	311 uniqmers_bongori,
estrain@0	312 uniqmers_I,
estrain@0	313 uniqmers_IIa,
estrain@0	314 uniqmers_IIb,
estrain@0	315 uniqmers_IIIa,
estrain@0	316 uniqmers_IIIb,
estrain@0	317 uniqmers_IV,
estrain@0	318 uniqmers_VI,
estrain@0	319 uniqmers_VII,
estrain@0	320 uniqmers_VIII,
estrain@0	321 uniqmers_bongori_rpoB,
estrain@0	322 uniqmers_S_enterica_rpoB,
estrain@0	323 uniqmers_Escherichia_rpoB,
estrain@0	324 uniqmers_Listeria_ss_rpoB,
estrain@0	325 uniqmers_Lmono_rpoB,
estrain@0	326 mode)
estrain@0	327 pretty_covs = [round(cov, 1) for cov in coverages]
estrain@0	328 report = report_taxon(pretty_covs, get_av_read_length(f), reads)
estrain@0	329 print(f.split('/')[-1] + '\t' + report[0][0] + '[' + str(report[0][1]) + ']' + '\t' + report[1][0] +
estrain@0	330 '[' + str(report[1][1]) + ']' +
estrain@0	331 '\t' + str(round(report[2], 1)))
estrain@0	332 else:
estrain@0	333 print(
estrain@0	334 'file\tListeria sensu stricto (rpoB)\tL. monocytogenes (rpoB)\tEscherichia spp. (rpoB)\tS. bongori (rpoB)\tS. enterica' + # noqa: E122
estrain@0	335 '(rpoB)\tS. bongori (invA)\tsubsp. I (invA)\tsubsp. II (clade a: invA)\tsubsp. II' + # noqa: E122
estrain@0	336 ' (clade b: invA)\tsubsp. IIIa (invA)\tsubsp. IIIb (invA)\tsubsp.IV (invA)\tsubsp. VI (invA)\tsubsp. VII (invA)' + # noqa: E122
estrain@0	337 '\tsubsp. II (clade VIII : invA)')
estrain@0	338 if report == 'percentage':
estrain@0	339 for f in files:
estrain@0	340 locus_scores, coverages, reads = kmer_lists(f, 27,
estrain@0	341 allmers, allmers_rpoB,
estrain@0	342 uniqmers_bongori,
estrain@0	343 uniqmers_I,
estrain@0	344 uniqmers_IIa,
estrain@0	345 uniqmers_IIb,
estrain@0	346 uniqmers_IIIa,
estrain@0	347 uniqmers_IIIb,
estrain@0	348 uniqmers_IV,
estrain@0	349 uniqmers_VI,
estrain@0	350 uniqmers_VII,
estrain@0	351 uniqmers_VIII,
estrain@0	352 uniqmers_bongori_rpoB,
estrain@0	353 uniqmers_S_enterica_rpoB,
estrain@0	354 uniqmers_Escherichia_rpoB,
estrain@0	355 uniqmers_Listeria_ss_rpoB,
estrain@0	356 uniqmers_Lmono_rpoB,
estrain@0	357 mode)
estrain@0	358 pretty_scores = [str(round(score)) for score in locus_scores]
estrain@0	359 print(f.split('/')[-1] + '\t' + '\t'.join(pretty_scores))
estrain@0	360 else:
estrain@0	361 for f in files:
estrain@0	362 locus_scores, coverages, reads = kmer_lists(f, 27,
estrain@0	363 allmers, allmers_rpoB,
estrain@0	364 uniqmers_bongori,
estrain@0	365 uniqmers_I,
estrain@0	366 uniqmers_IIa,
estrain@0	367 uniqmers_IIb,
estrain@0	368 uniqmers_IIIa,
estrain@0	369 uniqmers_IIIb,
estrain@0	370 uniqmers_IV,
estrain@0	371 uniqmers_VI,
estrain@0	372 uniqmers_VII,
estrain@0	373 uniqmers_VIII,
estrain@0	374 uniqmers_bongori_rpoB,
estrain@0	375 uniqmers_S_enterica_rpoB,
estrain@0	376 uniqmers_Escherichia_rpoB,
estrain@0	377 uniqmers_Listeria_ss_rpoB,
estrain@0	378 uniqmers_Lmono_rpoB,
estrain@0	379 mode)
estrain@0	380 pretty_covs = [str(round(cov, 1)) for cov in coverages]
estrain@0	381 print(f.split('/')[-1] + '\t' + '\t'.join(pretty_covs))
estrain@0	382
estrain@0	383
estrain@0	384 if __name__ == '__main__':
estrain@0	385 main()
estrain@0	386

Mercurial > repos > estrain > seqsero2_v102

annotate SalmID.py @ 1:f8e2c8bc540d tip