Филогеография и геномная эпидемиология SARS-CoV-2 в Италии и Европе с недавно охарактеризованными итальянскими геномами в период с февраля по июнь 2020 г.

В общей сложности для этого исследования было создано 192 генома SARS-CoV-2-итальянского вируса. История путешествий была доступна для 137 (71,3%) пациентов. Все они сообщили об отсутствии поездок за границу в течение двух недель, предшествовавших появлению симптомов. Сообщалось об одном случае контакта с путешественником из Бангладеш. Основная информация о пациентах представлена ​​в таблице 1.

Таблица 1 Характеристики исследуемых популяций.

Анализ итальянского набора данных

Геномное разнообразие на основе классификации линий/кладов

Наиболее распространенными линиями были B.1 (n = 222, 47,7%, включая 32 линии, происходящие от B.1, такие как B.1.76, B.1.91, B.1.104, B.1.142, B.1.153, B.1.177, B.1.179, B.1.222, B.1.225, B.1.356, B.1.610) и B.1.1 (n = 141, 30,3%, включая 19 линий, происходящих от B.1.1, таких как B.1.1.28, B. 1.1.61, B.1.1.161, B.1.1.202, B.1.1.232, B.1.1.331 и B.1.1.372), за которыми следуют линии B (n = 73, 15,7%) и B. 1.1.1 (n = 29, 6,2%). Классификация Nextclade показала высокую распространенность клад 20A (n = 207, 44,5%) и 20B (n = 141, 30,3%), за которыми следуют клады 19A (n = 84, 18,1%) и 20D (n = 29, 6,2%). ).]. Только 4 штамма относились к кладке 20C (0,9%).

Географическое распределение линий/кладов SARS-CoV-2 в Италии (рис. 1) показало несколько различных эпидемиологических моделей. В некоторых регионах, главным образом в северно-центральной Италии (Фриули-Венеция-Джулия, Марке, Эмилия-Романья, Ломбардия, Лацио) была отмечена высокая распространенность B.1/20A (от 70 до 100%). В других регионах, в основном в центральной части Южной Италии (Сардиния, Сицилия, Абруццо, Апулия), наблюдалась самая высокая распространенность B.1.1/20B (от 57% до более чем 90%). Другие регионы показали равную долю обеих линий (Базиликата, Лигурия, Тоскана, Умбрия). Два региона имели уникальный образец: Венето, в котором наиболее преобладала линия B/19A (66/97, 68%), и Пьемонт, демонстрирующий 73% (27/37) линии B.1.1.1/20D.

фигура 1
фигура 1

Пространственное распределение линий и клад. (а, б) Карта Италии с указанием генеалогического распределенияа) и назначение кладыб) в каждом регионе.

Наблюдалось изменение распространенности линий SARS-CoV-2 в период с февраля по май. Наиболее часто выявляемыми линиями были B/19A и B.1/20A в феврале и первой половине марта, что составляло 88% всех геномов, полученных в этот временной период. В дальнейшем, начиная со второй половины марта, стали преобладать В.1.1/20В и другие линии (В.1.1.1/20D) (60,7% в период с 15 по 31 марта, 46,2% в апреле, 51,6% в мае).

Генетические дистанции и анализ мутаций

Общее среднее p-расстояние между всеми итальянскими изолятами составило 3,9 (SE: 0,4) с/10 000 нуклеотидов, что соответствует среднему значению 10,1 (SE: 1,01) замены на геном. Генетическая дистанция оставалась небольшой со средним значением 10,23 (SE: 1,09) замен, из которых 3,13 (SE: 0,59) были синонимичными и 6,85 (SE: 0,79) несинонимичными. Более высокая гетерогенность наблюдалась в последовательностях из Пьемонта (20,4, SE: 1,6) и Сицилии (18,4, SE: 1,2) по сравнению с другими регионами. Интересно, что с течением времени было зарегистрировано увеличение количества различий с 5,7 (SE: 0,81) в феврале до 20,1 (SE: 1,1) в мае.

Семнадцать аминокислотных замен присутствовали более чем в 10% итальянских изолятов, но только одна из них была в шиповидном белке (D614G). Никаких мутаций в рецептор-связывающем домене (RBD) во всем итальянском наборе данных последовательностей не наблюдалось. Только одиннадцать последовательностей линии B во всем наборе данных, все из Венето (клада 19A), несут T1543I в orf1a. В целом последовательности B показали мутации, отличные от мутаций других линий, включая мутации L3606F, G251V в orf1a и orf3a, соответственно. Линия B.1.1.1 представила дополнительные замены по сравнению с линиями B.1 и B.1.1, такие как T1246I в orf1a во всех изолятах. В таблице 2 показаны наиболее частые аминокислотные замены, стратифицированные по линии и кладе.

Таблица 2. Аминокислотные замены обнаружены более чем в 10% последовательностей, стратифицированных по линии и кладе.

Филогенетический анализ методами машинного обучения и байесовскими методами

Филогенетический анализ по байесовскому методу с отнесением каждого типа к его линии выявил 4 крупные высокозначимые клады, соответствующие основным циркулирующим линиям в Италии (B, B.1, B.1.1 и B.1.1.1) (рис. 2). B1, B.1.1 и B.1.1.1 были вложены друг в друга, а B разделялись независимо друг от друга. Китайские последовательности имели тенденцию к сегрегации во внешней группе итальянских клад внутри линий B и B.1. Оценка tMRCA основных клад показала, что линия B распространилась в Италию в последнюю неделю января 2020 г., линия B.1.1 возникла позже, в середине февраля, а B.1.1.1 была последней и распространилась в начале марта. Анализ ML показал аналогичные tMRCA, но с более широкими доверительными интервалами (таблица 3).

фигура 2
фигура 2

Байесовское филогеографическое дерево SARS-CoV-2 из 479 штаммов. Большие красные и фиолетовые кружки обозначают самую высокую апостериорную вероятность в диапазоне от 1 до 0,9. Ветви окрашены в соответствии с наиболее вероятным происхождением нисходящих узлов.

Таблица 3. Оценки времени появления самого последнего общего предка (tMRCA) и доверительные интервалы (ДИ) основных родословных.

Филогеография в Италии

Филогеография SARS-CoV-2 определила Китай как местонахождение корня дерева (рис. 3 и дополнительный рис. 1). Было выявлено четыре основных крупных кластера. Самые ранние кластеры были в Ломбардии и Венето, напрямую связанные с Китаем, а позже (примерно во второй половине марта) появились другие кластеры в Абруццо и Пьемонте. Объединив филогеографию с линиями SARS-CoV-2, реконструкция наследственного состояния показала, что линии B и B.1 распространились из Китая в Венето и Ломбардию соответственно. В то время как линия B, по-видимому, оставалась ограниченной Венето (и она была успешно уничтожена), линия B.1 далее распространилась из Ломбардии в другие регионы Италии (Венето, Эмилия-Романья, Абруццо, Марке, Апулия, Фриули-Венеция-Джулия и Лацио). Линия B.1.1 распространилась из центральной Италии (Абруццо) в другие регионы Италии (Венето, Ломбардия, Апулия, Сардиния). Наконец, линия B.1.1.1 возникла позже и, по-видимому, оставалась локализованной в Пьемонте без дальнейшего распространения в другие регионы.

Рисунок 3
цифра 3

Реконструкция предков линий SARS-CoV-2 B.1 с использованием итальянского набора данных. На рисунке показана сжатая визуализация, созданная PastML с использованием предельной апостериорной аппроксимации вероятности (MPPA) с моделью, подобной F81. Разные цвета соответствуют разным итальянским географическим регионам и родословным. Цифры внутри (или рядом) кружков указывают количество штаммов, присвоенных конкретному узлу.

Анализ международного набора данных

итальянские кластеры

Филогенетический анализ с помощью ML всего набора данных, включая итальянские, европейские и китайские геномы, показал, что большинство итальянских изолятов были рассеяны по всему дереву. В общей сложности 80 (из 465, 17,2%) итальянских изолятов были включены в 22 кластера с высокой поддержкой (таблица 4). Из них 12 (54,5%) относились к линии B.1, пять (22,7%) — к B.1.1/20B, трое (13,6%) — к B.1.1.1/20D и двое (9,1%) — к B/ 19А. Все кластеры B.1, кроме одного, были классифицированы как клада 20A. Кластер № 19 был единственным исключением и включал четыре итальянских штамма, классифицированных как ветвь 20C (все из Рима), показывая среднее значение tMRCA, падающее в марте 2020 года. Три кластера (13,6%) были одиночными (включая только одиночные итальянские изоляты, не связанные с другими итальянскими штаммами). последовательности), вероятно, соответствующие спорадическим интродукциям с последующей ограниченной циркуляцией, в то время как остальные 19 кластеров охватывают как минимум два итальянских изолята, что предполагает локальную передачу. Тринадцать из них (68,4%) включали только итальянские штаммы (предполагая в основном местную циркуляцию этой линии), тогда как 6 (31,6%) включали изоляты из других европейских стран, а один из них (B.1) включал также один китайский геном.

Таблица 4 Основные характеристики выявленных кластеров.

Оценка кластеров tMRCA методом ML подтвердила, что первые случаи передачи в Италии датируются примерно второй половиной января и началом февраля. Восемнадцать кластеров имели общего предка, датируемого до введения карантинных мер в нашей стране. В частности, в более ранние моменты времени (до марта) преобладали кластеры B.1/20A (10/14), тогда как в марте преобладали другие клады (20B, 20C и 20D) (6/8). Более того, вначале преобладали смешанные и одноэлементные кластеры, в то время как чисто итальянские кластеры были единственными кластерами, наблюдаемыми после блокировки. Самым ранним кластером (№1) была линия B.1/20A, датированная в среднем 20.01.2020 (CI95% 08/01–24/01/2020) и включавшая всего четыре северо-итальянских штамма: один из Лоди, два из Милана (места, где в Италии впервые были выявлены аутохтонные случаи COVID-19) и один из Пьяченцы. Первый кластер B.1.1 датирован 02.10.2020 (CI95% 28.01.2020–12.03.2020) и включал 3 итальянских изолята из Абруццо. Три кластера B.1.1.1/20D датированы 02 марта (CI95% 22/02/2020–02/03/2020). Только два небольших итальянских кластера, поддерживаемых значительными бутстрапами, наблюдались в дереве ML, включая изоляты B/19A. В частности, в единый чисто итальянский кластер вошли 11 геномов из Венето (провинция Падуя), характеризующихся заменой T1543I в orf1a, не обнаруженной ни в одном из других геномов B/19A в нашем международном наборе данных.

Филогеографический анализ в Европе

Объединяя реконструкцию наследственного состояния для местоположения с родословной (рис. 4 и дополнительная рис. 2), анализ показал, что B.1, вероятно, возник в Китае и распространился в несколько европейских стран, достигая Италии несколько раз, образуя большой кластер, который включал первоначально 59 (примерно в первую неделю марта) и, наконец, 198 геномов, а также 6 дальнейших независимых внедрений, в основном соответствующих группе геномов, характеризующихся только заменой D614G, но не имеющих других замен, в частности, P314L в RdRp, идентифицирующий линию клады 20A В.1, клада 19А).

Рисунок 4
цифра 4

Реконструкция предков линий SARS-CoV-2 B.1 с использованием европейского набора данных. На рисунке показана сжатая визуализация, созданная PastML с использованием предельной апостериорной аппроксимации вероятности (MPPA) с моделью, подобной F81. Разные цвета соответствуют разным европейским странам и линиям. Цифры внутри (или рядом) кружков указывают количество штаммов, присвоенных конкретному узлу. Совместный наследственный сценарий (Joint) и максимальный апостериорный прогноз (MAP) показаны для неопределенных узлов (показанных в виде восьмиугольных значков). Китай, Китай; IT, Италия, ЕС, Европа.

Начиная с Италии, B1/20A распространился на другие европейские страны, а затем вновь был представлен в Китае. Второй крупный итальянский кластер, включающий 138 геномов линии B.1.1, возник из итальянского кластера B.1. Многочисленные интродукции B.1.1 наблюдались из Италии в другие европейские страны. Большой кластер (n = 203 генома), соответствующий линии B.1.1.1, появился в Европе в начале марта и лишь позднее (вторая половина марта) достиг Италии (рис. 4). Всего 7 узлов остались неопределенными. Отдельный анализ, проведенный с разграничением европейских стран (а не с рассмотрением одной обобщенной группы), в целом подтвердил этот сценарий и позволил более детально реконструировать распространение эпидемии в европейских странах (дополнительный рис. 3).

Анализ линии B показал, что только 2 узла остались неопределенными между Европой и Китаем (дополнительная рис. 4). Визуализация (рис. 5) предполагает несколько интродукций из Китая в Италию, начиная с конца февраля. Наблюдался одиночный кластер, соответствующий ранее описанному кластеру № 5, в то время как остальные штаммы, по-видимому, представляют собой множественные независимые интродукции, образующие небольшие группы не более чем из 2 последовательностей. Также наблюдались две спорадические интродукции из Европы. В отличие от реконструкции предков для линии B.1, этот сценарий был другим, поскольку миграционные потоки, похоже, останавливались в Италии без дальнейшего распространения.

Рисунок 5
цифра 5

Реконструкция предков линий B SARS-CoV-2 с использованием европейского набора данных. На рисунке показана сжатая визуализация, созданная PastML с использованием предельной апостериорной аппроксимации вероятности (MPPA) с моделью, подобной F81. Разные цвета соответствуют разным европейским странам и линиям. Цифры внутри (или рядом) кружков указывают количество штаммов, присвоенных конкретному узлу. Совместный наследственный сценарий (Joint) и максимальный апостериорный прогноз (MAP) показаны для неопределенных узлов (показанных в виде восьмиугольных значков). Китай, Китай; IT, Италия, ЕС, Европа.

Анализ, проведенный среди европейских стран (дополнительный рис. 5), выявил тот же наследственный сценарий, но не выявил интродукции из Европы.

Оставьте комментарий

Ваш адрес email не будет опубликован.