bioproject_to_srr_2: bio2srr.py comparison

comparison bio2srr.py @ 11:7fd0ef5842e7

planemo upload for repository https://toolrepo.galaxytrakr.org/view/jpayne/bioproject_to_srr_2/556cac4fb538

author	jpayne
date	Mon, 06 May 2024 01:42:27 -0400
parents	ccec96a537b7
children	fc77995bc4da

comparison

equal deleted inserted replaced

-:ccec96a537b7
+:7fd0ef5842e7
 "Grab SRR numbers from Bioprojects and sub-bioprojects via Eutils"
 import requests
 import sys
 import csv
+import os
 try:
 from itertools import batched
 except ImportError:
 from itertools import islice
 import logging
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger("bio2srr")
+extra_params = {}
+api_key = os.environ.get("NCBI_API_KEY")
+if api_key:
+logger.info(f"Using NCBI API key {api_key[:4]}{'*' * (len(api_key) - 8)}{api_key[-4:]}")
+extra_params["api_key"] = api_key
 def log(msg):
-logger.info(msg) # fix logging later
+if api_key:
+logger.info(msg.replace(api_key, f"{api_key[:4]}{'*' * (len(api_key) - 8)}{api_key[-4:]}")) # fix logging later
+else:
+logger.info(msg)
 def get_tag(root, tag):
 val = root.find(tag)
 if val is not None:
 return val.text
 def resolve_bioproject_ids_and_links(bioproject_id_list):
 "Recursively follow bioproject and biosample links, yield biosample UID's and biosample XML"
 for i, (bioproject, bioproject_id) in enumerate(bioproject_id_list):
 log(f"Processing {bioproject} ({bioproject_id}) {i+1}/{len(bioproject_id_list)}")
 #get bioproject to bioproject links
-response = requests.get(elink, params=dict(db="bioproject", dbfrom="bioproject", id=bioproject_id, format="json"))
+response = requests.get(elink, params=dict(db="bioproject", dbfrom="bioproject", id=bioproject_id, format="json", **extra_params))
 response.raise_for_status()
 reply = response.json()
 linksets = reply.get("linksets", [{}])[0].get("linksetdbs", [0,0,{}])
 if len(linksets) >= 3:
 for id in linksets[2].get("links", []): #third index is the up to down links
 replyy = response.json()
 biop = replyy["result"][id]["project_acc"]
 if id not in bioproject_id_list:
 bioproject_id_list.append((biop, id)) # recurse over bioproject links
 # get bioproject to biosample links
-response = requests.get(elink, params=dict(db="biosample", dbfrom="bioproject", id=bioproject_id, format="json"))
+response = requests.get(elink, params=dict(db="biosample", dbfrom="bioproject", id=bioproject_id, format="json", **extra_params))
 response.raise_for_status()
 reply = response.json()
 links = reply.get("linksets", [{}])[0].get("linksetdbs", [{}])[0].get("links", [])
 log(f"Found {len(links)} biosample links for {bioproject} ({bioproject_id})")
 for ids in batched(links, 200):
 response.raise_for_status()
 replyy = response.json()
 for field, value in replyy.get("result", {}).items():
 if "uids" not in field:
 yield bioproject, field, value["sampledata"] # this is XML, deleriously
-sleep(1)
+sleep(1 if not api_key else 0.1)
 biosample_example = """
 <BioSample access="public" publication_date="2020-12-21T00:00:00.000" last_update="2022-06-23T17:45:35.674" submission_date="2020-12-21T15:08:05.690" id="17131268" accession="SAMN17131268">
 <Ids>
 return sampledict
 def yield_sra_runs_from_sample(biosampleids):
-sleep(0.1)
+sleep(1 if not api_key else 0.1)
-response = requests.get(elink, params=dict(id=",".join(biosampleids), dbfrom="biosample", db="sra", format="json"))
+response = requests.get(elink, params=dict(id=",".join(biosampleids), dbfrom="biosample", db="sra", format="json", **extra_params))
 response.raise_for_status()
 reply = response.json()
 for ids in batched(reply.get("linksets", [{}])[0].get("linksetdbs", [{}])[0].get("links", []), 200):
-sleep(0.3)
+sleep(1 if not api_key else 0.1)
-response = requests.get(esummary, params=dict(id=','.join(ids), db="sra", format="json"))
+response = requests.get(esummary, params=dict(id=','.join(ids), db="sra", format="json", **extra_params))
 response.raise_for_status()
 replyy = response.json()
 for field, value in replyy.get("result", {}).items():
 if "uids" not in field:
 yield field, value.get("runs")
 bioproject_id = reply["esearchresult"]["idlist"][0]
 log(f"Found UID {bioproject_id} for '{starting_bioproject}'")
 except IndexError:
 logger.error(f"No results found for '{starting_bioproject}'. Error was \"{reply['esearchresult']['warninglist']['outputmessages']}\"")
 sys.exit(1)
+sleep(1 if not api_key else 0.1)
 for bioproject, biosample, biosample_xml in resolve_bioproject_ids_and_links([(starting_bioproject, bioproject_id)]):
 try:
 sampledict = flatten_biosample_xml(biosample_xml)
 except KeyError:
 log(biosample_xml)

Mercurial > repos > jpayne > bioproject_to_srr_2

comparison bio2srr.py @ 11:7fd0ef5842e7