Линейка смесей нан официальный сайт: Детское питание Nan 1 Optipro (Нан 1)

  • 02.01.1970

Содержание

Нутриция детское питание, детские смеси, каши, пюре — Nutricia — Nutricia Россия

¹ По данным ежемесячного мониторинга цен по России за октябрь 2013 г., ЗАО «Эй Си Нильсен».

Грудное молоко – лучшее питание для малыша. ВОЗ рекомендует кормить малыша исключительно грудным молоком в первые 6 месяцев жизни.

Компания Nutricia полностью поддерживает данные рекомендации и советует продолжать грудное вскармливание после введения прикорма.

Чтобы принимать правильные решения по питанию для Вашего малыша, мы рекомендуем обращаться к Вашему педиатру!

Nutricia заботится о здоровом и правильном питании Вашего малыша.

Молочные смеси и каши для детей с рождения до трех лет. Благодаря уникальному комплексу ингредиентов PronutriPlus молочные смеси Nutrilon® способствуют развитию иммунитета и интеллекта.

Молочные смеси и каши Малютка® для малышей с рождения до трех лет производятся из европейских ингредиентов по высочайшим стандартам качества. В состав молочных смесей Малютка® входят пребиотики ГОС/ФОС для улучшения пищеварения, а также оптимальное сочетание железа, цинка и витамина С для лучшего усвоения железа. Молочные смеси Малютка® не содержат сахара.

Малыш® — питание для детей с рождения до трех лет. У молочных смесей Малыш® долгая и успешная история на российском рынке. С 1972 года детские смеси  Малыш® обеспечивают российских детей полноценным питанием по доступной цене!¹

Состав молочных смесей Малыш® сбалансирован и подобран с учетом возраста ребенка, чтобы обеспечивать потребности детского организма в витаминах и микроэлементах, необходимых для здорового роста и развития. Смеси не содержат консервантов и искусственных красителей.

Лучшие сухие молочные смеси | Рейтинг Роскачества

О продукции

В рамках веерного исследования были изучены сухие адаптированные начальные молочные смеси (максимально приближенные по химическому составу к грудному молоку), произведенные на основе коровьего и козьего молока, предназначенные для здоровых детей от 0 до 6 месяцев (18 продуктов) и от 0 до 12 месяцев (3 продукта).

Выбор брендов определили мамы – самая активная аудитория портала Роскачества. В течение целого года они присылали названия интересующих их торговых марок. В результате специалисты протестировали продукцию 21 торговой марки по 82 показателям качества и безопасности. При этом география производства сухих молочных смесей оказалась достаточно обширной. Мы проверили сухие молочные смеси из Беларуси (1), Германии (2), Дании (3), Ирландии (1), Испании (2), Нидерландов (4), Новой Зеландии (1), России (4), Финляндии (1), Швейцарии (1) и Эстонии (1). Стоимость на момент закупки составила от 53,43 до 288,25 рубля за 100 грамм продукта.

По результатам исследования сухая молочная смесь «Беллакт оптимум 1» (Республика Беларусь) соответствовала не только требованиям действующих норм по качеству и безопасности, но и опережающим требованиям стандарта Роскачества. Тем не менее данный товар не может претендовать на российский Знак качества, так как был произведен за рубежом.

СТАНДАРТ РОССИЙСКОЙ СИСТЕМЫ КАЧЕСТВА

Стандарт Российской системы качества для сухих адаптированных молочных смесей для детей от 0 до 6 месяцев ужесточил требования к содержанию некоторых компонентов:

  • в составе смеси не допускается содержание крахмала;

  • массовая доля влаги в сухом продукте не должна превышать 3,5%;

  • показатель индекса растворимости сырого осадка (для сухих смесей) должен быть не более 0,2 см³;

  • уровень активной кислотности – 6,6–7,4 pH.

  • требуемый уровень локализации продукции для присуждения российского Знака качества составляет не менее 25%.

Данные требования не являются обязательными для производителей, однако продукция, не соответствующая указанным требованиям, не может претендовать на получение российского Знака качества.

Главное – безопасность

По данным Росстата, сегодня в стране находится на искусственном вскармливании около 40% детей. Родители этих малышей без проблем могут приобрести молочные смеси, так как на прилавках российских магазинов недостатка в них нет. На выбор потребителя предлагается как импортная, так и отечественная продукция.

Однако у потребителей существуют опасения, связанные с этим продуктом. Например, считается, что в молочных смесях могут содержаться антибиотики (из сырья), кишечная палочка, тяжелые металлы, консерванты и посторонние примеси, которые способны навредить здоровью ребенка.

Эксперты проверили адаптированные сухие молочные смеси (заменители грудного молока) на микробиологическую безопасность, на наличие консервантов и антибиотиков.

Проверили смеси и на наличие в них меламина. После того как в 2008 году в Китае детскими смесями отравились более 6 тысяч малышей (в тех смесях содержание меламина в 500 раз превышало допустимую норму), само слово «меламин» наводит на потребителей ужас.

Результаты нашего исследования позволяют утверждать, что меламина в смесях нет.

СПРАВОЧНО

Каким же образом в 2008 году химикат попал в детское питание?

– По наиболее распространенной версии, причиной китайского меламинового кризиса явилось намеренное добавление меламина в детское питание и молочные продукты, – поясняет Дмитрий Макаров, старший научный сотрудник ФГБУ «ВГНКИ», Россельхознадзор. – Это сделали для того, чтобы повысить белковую ценность продуктов. Дело в том, что общепринятый метод определения белка не различает белок и меламин. Видимо, поэтому производители надеялись, что их афера пройдет незамеченной. Однако они не учли того факта, что в больших концентрациях меламин вызывает образование кристаллов в мочевыводящих путях, что приводит к нарушению работы почек.

По результатам проверки смесей на безопасность можно сделать вывод, что вся продукция безопасна. В ее составе не обнаружено антибиотиков, тяжелых металлов и токсичных элементов. Микробиологические показатели соответствуют установленным требованиям. Консерванты (в числе которых сорбиновая, пропионовая и бензойная кислоты) в составе отсутствуют.

Особое производство

Многие думают, что сухие молочные смеси делают из обычного сухого молока, в которое добавляют различные витамины, микро- и макроэлементы. Это, конечно же, не так.

Прежде всего, нужно сказать, что все смеси делятся на адаптированные – максимально приближенные к женскому молоку, частично адаптированные и так называемые последующие формулы – смеси для вскармливания детей старше года. Также на рынке представлена категория адаптированных молочных смесей с усредненными показателями для питания детей с рождения до 12 месяцев.

Возрастные разграничения смесей таковы:

  • Приставкой «пре» в названии обозначаются смеси для недоношенных или маловесных детей.

  • «1» – для детей от рождения до 6 месяцев.

  • «2» – для малышей от 6 месяцев до 1 года.

  • «3» – для детей старше года.

  • «4» – как правило, начиная с 18 месяцев.

– Особенно сложным представляется выбор оптимального питания для детей первых месяцев жизни, потому что в желудке младенцев еще нет необходимых для переваривания пищи ферментов, – уточняет

Татьяна Буцкая, учредитель общероссийского движения «Совет матерей» и народной премии «Выбор родителей», врач-педиатр. – У таких детей нередко встречаются функциональные нарушения пищеварения, и у них высок риск развития различных форм пищевой непереносимости.

Именно поэтому врачи-педиатры настаивают на обязательной консультации с врачом, перед тем как переводить ребенка первого года жизни на полное или частичное искусственное питание.

Главный принцип, который должен соблюдаться при создании адаптированных смесей для детей первого года жизни, – их максимальное приближение (адаптация) к составу и свойствам женского молока и соответствие особенностям пищеварения и метаболизма ребенка. Чтобы достичь этого, производители постоянно улучшают смеси.

О преимуществах грудного вскармливания и о том, как оно сказывается на здоровье ребенка, читайте

ЗДЕСЬ. 

Что приближает смесь к грудному молоку?

Для здоровья младенца важно, чтобы смесь была сбалансирована по содержанию белков, жиров, углеводов, полиненасыщенных жирных кислот, аминокислот, витаминов и минералов, которые должны обязательно присутствовать в составе смеси.

Белки, жиры, углеводы

В ходе исследования эксперты выяснили, что в смесях всех торговых марок содержание белков, жиров и углеводов соответствует предъявляемым законом требованиям.

Растительные жиры и полиненасыщенные жирные кислоты

– Для улучшения липидного обмена проводится частичная или полная замена молочного жира растительными маслами (кукурузным, рапсовым, соевым, кокосовым, подсолнечным и др.), содержащими незаменимые для организма ребенка полиненасыщенные жирные кислоты, – уточняет

начальник отдела НИИ детского питания филиала ФГБУН «ФИЦ питания и биотехнологии» Елена Симоненко.

В этой связи стоит упомянуть еще два потребительских страха:

  • в смесях могут быть следы сои с ГМО;

  • в детском питании не должно быть растительных жиров, например пальмового масла.

В нашем исследовании соя с ГМО в составе смесей не обнаружена.

Кроме того, эксперты развеяли страхи потребителей о неуместности растительных жиров в детском питании.

– Основная незаменимая жирная кислота грудного женского молока – пальмитиновая. Она содержится в плодах масличной пальмы. Пальмовое масло примерно наполовину состоит из пальмитиновой кислоты. Детские молочные смеси изготавливаются максимально приближенными по составу к грудному молоку, и пальмовое масло оказывается важным компонентом. Требования к показателям сырья, используемого в производстве детских молочных смесей, установлены в техническом регламенте Таможенного союза «О безопасности пищевой продукции» (ТР ТС 021/2011), – говорит

исполнительный директор Ассоциации производителей и потребителей масложировой продукции Екатерина Нестерова.

– Следует подчеркнуть, что уровень пальмитиновой кислоты в грудном молоке составляет 25%, и, отказываясь от пальмового масла в составе детской молочной смеси, производитель должен обеспечить ее содержание на уровне, приближенном к материнскому молоку. Между тем в некоторых молочных «беспальмовых» смесях он составляет ниже 10%, – уточняет генеральный директор Национального союза производителей молока «Союзмолоко» Артем Белов.

Также ребенку в процессе роста и развития требуется энергия. Значительную ее часть организм получает из расщепления жиров.

– Очень важны полиненасыщенные жирные кислоты и для малыша. Эти вещества обеспечивают нормальное развитие органов зрения и слуха ребенка, отвечают за гармоничное физическое развитие и поведенческие функции. Жирные кислоты омега-6 и омега-3 играют особую роль в созревании и функционировании центральной нервной системы у детей и оказывают непосредственное влияние на развитие мозговой деятельности. Они участвуют в построении миелиновых оболочек головного мозга и играют критическую роль в передаче сигналов между нервными клетками. Все это исключительно важно для развития интеллекта, внимательности, памяти, психомоторной функции, – уточняет Анастасия Кириллова, педиатр Детской клиники МЕДСИ (Москва).

– Следует отметить, что полиненасыщенная линолевая кислота (семейство омега-6) не синтезируется в организме человека, относится к числу незаменимых факторов питания, в том числе для детей раннего возраста, поэтому используется в детских смесях и нормируется техническим регламентом, – уточняет Елена Симоненко.

Согласно требованиям ТР ТС 033/2013, в сухой молочной смеси линолевой кислоты должно быть от 14 до 20% от суммы жирных кислот. Исследование показало, что в молочных смесях Nutrilon Premium (Ирландия) и «MD мил SP Козочка 1» (Испания) недостаточное количество линолевой кислоты, что не соответствует требованиям ТР ТС.

Аминокислоты

Особое внимание нужно обратить на наличие в составе смеси таурина – незаменимой аминокислоты, необходимой для правильного развития детского организма, – отмечает Елена Симоненко.

Наше исследование показало, что в продукции всех торговых марок содержание таурина соответствует установленным требованиям.

Витамины и минералы

Любая адаптированная молочная смесь, согласно рекомендациям Комиссии Codex Alimentarius ФАО/ВОЗ, должна содержать как минимум 11 минеральных веществ и 15 витаминов. Мы проверили, соответствует ли установленным нормам содержание витаминов и минеральных веществ.

По результатам исследования выяснилось, что в продукте Frisolac (Нидерланды) содержание кальция и магния в разведенной смеси ниже установленных норм:

  • Согласно требованиям, содержание кальция в восстановленной смеси должно быть 330,0–700,0 мг/л, по факту – 300,31 мг/л.

  • Магния должно быть 50,0–150,0 мг/л, а по факту – 6,75 мг/л.

В продукции других торговых марок эксперты не обнаружили нарушений в части содержания минеральных веществ.

Уровень витаминов в адаптированных смесях должен быть выше, чем в женском молоке, в среднем на 15–20%, так как их усвояемость более низкая, чем из грудного молока. Согласно требованиям, в восстановленной адаптированной смеси витамина С должно быть не менее 55–150 мг/л.

Проверка показала, что в продукции девяти торговых марок витамина С меньше установленной нормы ТР ТС 033/2013: «Малыш истринский» (Россия), Bebi Premium (Дания), Frisolac Gold (Нидерланды), Frisolac (Нидерланды), Humana Expert (Германия), Nestogen (Россия), «Nutricia Малютка» (Россия), Nutrilon Premium (Ирландия), Similac (Дания). Однако к нарушениям это отнести нельзя: по причине летучести сухих компонентов некорректно утверждать, что этот показатель оказался ниже по вине производителя, содержание витамина C могло уменьшиться в процессе хранения.

Как выбирать и хранить сухие молочные смеси, читайте ЗДЕСЬ.

Вкус, цвет, запах и консистенция

Продукция всех торговых марок полностью отвечала органолептическим требованиям.

Запах – приятный, едва уловимый.

Вкус – нежный, чуть сладковатый, без посторонних привкусов.

Консистенция. Все смеси представляли собой мелкий однородный порошок без комочков (либо с незначительным количеством легко рассыпающихся при слабом надавливании комочков). В восстановленном виде жидкость однородная.

Цвет также соответствовал требованиям – от белого с легким сливочным оттенком до светлого кремово-желтого.

Проверили в смесях уровень активной кислотности (pH) и хорошо ли они растворяются в воде.

Результаты исследования показали, что продукция всех торговых марок хорошо растворяется в воде, а уровень кислотности (pH) соответствует опережающему стандарту Роскачества. Это значит, что все смеси хорошо усваиваются.

Соответствие маркировке

И, наконец, еще одно опасение: многие убеждены, что заявленные на этикетке ингредиенты сухих молочных смесей могут не соответствовать фактическому составу. Наши эксперты проверили, обоснованны ли такие опасения.

– Согласно требованию ТР ТС к маркировке продукции, производитель обязан размещать на упаковке информацию о составе микронутриентов (именно они определяют развитие ребенка), а также количестве белков, жиров и углеводов в том объеме, в котором они присутствуют в сухой молочной смеси, – рассказывает Елена Саратцева, заместитель руководителя Российской системы качества. – В то же время потребителям важно получить информацию о составе смеси в готовом (восстановленном) виде в соответствии с рекомендациями, которые указал производитель. Важно отметить, что нормирование для детских смесей происходит именно на разведенный продукт. Поэтому маркировка на смесях зачастую ставится через дробь либо двумя столбцами в таблице: на сухое вещество, которое содержится в данной упаковке, а также на готовый (разведенный) продукт.

В ходе исследования было обнаружено, что имеются те или иные расхождения в указании пребиотиков, минералов и витаминов в маркировке.

Только один производитель указал абсолютно достоверную информацию в маркировке своего товара – в смеси «Беллакт оптимум 1» (Беларусь).

– Проблема несоответствий в маркировке может быть связана с методом сухого смешивания на производстве, – уточняет Елена Саратцева. – Такой способ изготовления не позволяет достичь однородности состава. Таким образом, практически в каждой упаковке фактические концентрации микроэлементов отличаются от заявленных. Это создает неудобство при выборе детского питания, так как, например, смеси, где заявлено высокое содержание кальция или витамина С, могут на поверку не оказаться таковыми, следовательно, не будут отвечать тем ожиданиям, которые на нее возлагает потребитель.

В то же время, несмотря на отклонения от информации, заявленной в маркировке, продукция большинства торговых марок обеспечит здорового ребенка необходимым количеством всех веществ, содержание которых нормируется в молочных смесях.

МАМАКО® – детское питание на козьем молоке

1 Н. Б. Кузьменко, А. Н. Кузина. Роль бета-казеина в питании детей первых лет жизни. Лечащий врач, 01/16

2 Vazquez-Flores F., Montaldo H.H., Torres-Vazquea J.A. et al. Addittive and dominance effects of the alpha(s1)-casein locus on milk yierld and composition traits in dairy goats. J Dairy Res 2012; 79:367-374

3 Захарова И.Н., Холодова И.Н., Нечаева В.В.. Смеси на основе козьего молока: есть ли преимущества? Медицинский совет 2016/№16

4 И.Я. Конь. Современные представления о роли каротиноида лютеина в питании детей раннего возраста. Педиатрия/2012/Том 91/No 1

5 Bronwyn Eisenhauer, Sharon Natoli, Gerald Liew, and Victoria M. Flood. Lutein and Zeaxanthin—Food Sources, Bioavailability and Dietary Variety in Age-Related Macular Degeneration Protection. Nutrients. 2017 Feb; 9(2):120.

6 И. Я. Конь, Н. М. Шилина, С. Б. Вольфсон, О. В. Георгиева. Использование полиненасыщенных жирных кислот в питании здоровых детей. Лечащий врач, 01/06

7 Mora-Gutierrez A, Attaie R, Núñez de González MT, Jung Y, Woldesenbet S, Marquez SA. Complexes of lutein with bovine and caprine caseins and their impact on lutein chemical stability in emulsion systems: Effect of arabinogalactan. J Dairy Sci. 2018 Jan; 101(1):18-27

8 Stiverson J, Williams T, Chen J, Adams S, Hustead D3, Price P, Guerrieri J, Deacon J, Yu Z Prebiotic Oligosaccharides: Comparative Evaluation Using In Vitro Cultures of Infants’ Fecal Microbiomes/Appl Environ Microbiol. 2014 Dec; 80(23):7388-97

9 Carver JD, Walker A. The role of nucleotides in human nutrition. Nutr Biochem. 1995; 6:58-72

10 Quanb R, Barness L.A., Uauy R. Do infants need nucleotide supplemented formula for optimal nutrition? J. Pediatr Gastroentero; Nutr. 1990; 11:429-437.

Детская смесь | Nestlé Global

Грудное молоко — идеальное питание для обеспечения наилучшего начала жизни младенцев. Он обеспечивает младенцев правильными питательными веществами, развивает толерантность и обеспечивает защиту, в то время как для матерей он способствует укреплению связи и стимулирует выработку важных гормонов.

К сожалению, не все матери могут кормить грудью: есть несколько заболеваний, которые несовместимы с грудным вскармливанием. Кроме того, такие ситуации, как негибкий график работы или работа вне дома, могут помешать матери кормить ребенка грудью.Они просто не находятся в благоприятной среде для грудного вскармливания.

Исследования показали, что младенцам, не находящимся на грудном вскармливании, часто предлагаются альтернативы, не обеспечивающие необходимого питания. Поэтому крайне важно, чтобы младенцы, не находящиеся на грудном вскармливании, получали высококачественные, научно проверенные альтернативы грудному молоку под соответствующим руководством своих медицинских работников. Для нас приоритет номер один — обеспечить всем детям максимально возможное питание.

Мы впервые разработали детскую смесь 150 лет назад, чтобы удовлетворить острую потребность в безопасной альтернативе грудному молоку.С тех пор мы постоянно совершенствуем наши продукты, чтобы создать наилучшие заменители грудного молока, всегда придерживаясь самых высоких стандартов безопасности и качества.

«Нестле» предлагает матерям и младенцам в первые 1000 дней жизни высококачественные, сбалансированные по питанию и научно обоснованные продукты, закладывающие основы здоровья на протяжении всей жизни. Мы ценим доверие наших потребителей к нам, и мы обязаны уважать это доверие, всегда действуя в их интересах.

Вот почему мы стремимся не препятствовать желанию матерей кормить грудью и защищать их от ненадлежащей маркетинговой практики, активно поддерживая грудное вскармливание. Мы делаем это, облегчая нашим сотрудникам кормление грудью, предоставляя отпуск по беременности и родам до 14 недель или создавая комнаты для грудного вскармливания в наших учреждениях и общественных местах.

Загрузите нашу Политику защиты существенности (pdf, 1Mb)

Мы также внедрили ведущие в отрасли политику и процедуры (pdf, 5 МБ), основанные на Кодексе маркетинга заменителей грудного молока ВОЗ, которые отражают сильную культуру соблюдения требований Nestlé.

Качество и безопасность

В компании «Нестле» здоровье и безопасность младенцев являются нашим приоритетом, и мы стремимся использовать только ингредиенты высочайшего качества и применять самые строгие стандарты безопасности для наших продуктов, даже если они выходят за рамки требований местного законодательства.

Мы разрабатываем наши продукты с учетом всех этапов здорового роста и развития ребенка, и мы используем только сырье, происхождение которого можно отследить. Вся наша продукция соответствует нашим строгим спецификациям, а также международным и местным стандартам качества и безопасности.Используемые нами материалы выращиваются опытными фермерами, которые были специально отобраны, обучены применять передовые методы ведения сельского хозяйства и регулярно проходят аудит, чтобы гарантировать их соответствие.

Мы проводим проверки качества наших ингредиентов и готовой продукции до 200 раз на протяжении всего производственного процесса, используя современные лаборатории, в соответствии с нашей миссией по воспитанию более здорового поколения с помощью безопасных, питательных и высококачественных продуктов.

Загрузите нашу инфографику о качестве и безопасности (pdf, 250 КБ)

Ой! Эта страница не существует или является частной.

Зарегистрироваться Авторизоваться Авторизоваться

Популярное

Выборка из вложенных моделей Вопросы Выбор подходящей модели для времени реакции Вопросы Как устранить неполадки «RuntimeWarning: разделить на ноль, обнаруженное в журнале» Вопросы Хотите рекламную копию Think Bayes? Бэмби 0.5.0 вышла Внедрение моделей PyMC3 в производственные системы машинного обучения Вы когда-нибудь использовали выборку SMC и / или SMC-ABC в PyMC3? Почему (нет)? Понимание наших авторов — Опрос NumFOCUS — Мы ценим ваш вклад PSA: имеет значение расширение файлов netCDF Ошибка Бэмби — я или ограничение Бэмби? Вопросы Более…

Последние

Иерархическая модель и фреймворк pandas Сравнение моделей и подбор по «весу» арвиза.сравнитьВопросы Почему Метрополис оценивает модель дважды за шаг? Вопросы Как заставить SunODE работатьВопросы Как использовать наблюдаемый параметр и в чем его смысл? Вопросы ConnectionResetError при использовании многопроцессорной обработки с более чем одним ядром в Linux Вопросы Среднее изменение каждой точки данных Вопросы Не удается заставить sample_prior_predictive работать с отсутствующими значениями Вопросы Различия апостериорного PyMC3 по сравнению с пакетами переосмысления Numpyro и R Вопросы Функция прогнозирования GPQuestions Более…

Поиск по сайту

Поиск

Оценка одноклеточных классификаторов для наборов данных секвенирования одноклеточной РНК | Брифинги по биоинформатике

Абстрактные

Секвенирование одноклеточной РНК (scRNA-seq) быстро развивается и широко применяется в биологических и медицинских исследованиях.Идентификация типов клеток в наборах данных scRNA-seq является важным шагом перед углубленным исследованием их функциональной и патологической роли. Однако обычный рабочий процесс, основанный на кластеризации и маркерных генах, не масштабируется для все большего количества наборов данных scRNA-seq из-за сложных процедур и ручного аннотирования. Поэтому недавно был разработан ряд инструментов для прогнозирования типов ячеек в новых наборах данных с использованием эталонных наборов данных. Эти методы, как правило, не были адаптированы из-за отсутствия сравнительного анализа инструментов и руководства пользователя.В этой статье мы провели всестороннюю и беспристрастную оценку девяти программных инструментов классификации, специально разработанных для наборов данных scRNA-seq. Результаты показали, что Seurat на основе случайного леса, SingleR на основе корреляционного анализа и CaSTLe на основе XGBoost показали лучшие результаты. Простое ансамблевое голосование всех инструментов может повысить точность прогнозов. В неидеальных ситуациях, таких как малоразмерные и несбалансированные по классам наборы эталонных данных, инструменты, основанные на сходстве на уровне кластера, имеют превосходную производительность.Однако даже с функцией присвоения «неназначенных» меток по-прежнему сложно отловить новые типы ячеек, используя только один из одноклеточных классификаторов. Эта статья представляет собой руководство для исследователей по выбору и применению подходящих инструментов классификации в своих рабочих процессах анализа и проливает свет на потенциальное направление будущего улучшения инструментов классификации.

Введение

Категоризация клеточной идентичности — важный шаг на пути к всестороннему знанию состава человеческих органов и тканей, что также является основой для дальнейшего изучения клеточной основы человеческих болезней.Обычно для идентификации типов клеток используются такие методы, как иммуногистохимия [1], сортировка клеток с активацией флуоресценции (FACS) [2, 3] и морфологические методы [4]. В связи с быстрым развитием технологий разделения и секвенирования отдельных клеток [5–11], исследователи теперь могут легко получить крупномасштабные профили экспрессии генов отдельных клеток, тем самым беспристрастно характеризуя типы и функции отдельных клеток [12 ].

Типичный рабочий процесс анализа секвенирования РНК одной клетки (scRNA-seq) реализует кластеризацию клеток, а затем идентификацию типа клеток на основе кластеров с использованием маркеров канонических типов клеток.Однако у этой стратегии есть несколько ограничений. Во-первых, результаты кластеризации, такие как количество кластеров, во многом зависят от инструментов анализа и выбранных параметров, используемых для каждого инструмента. Исследователям, возможно, придется протестировать несколько инструментов кластеризации и несколько параметров для каждого набора данных, чтобы получить согласованный результат. Во-вторых, результаты кластеризации чувствительны к количеству ячеек в наборах данных. Между тем, время и потребление памяти увеличиваются экспоненциально с увеличением количества ячеек.В-третьих, это требует экспертных знаний о маркерах канонических типов клеток, чтобы можно было идентифицировать типы клеток. Наконец, процесс ручного аннотирования трудоемок. Иногда даже требуется итеративный процесс между настройкой параметров кластеризации и назначением типа ячейки.

По мере того, как публикуется все больше и больше исследований и становятся доступными крупномасштабные обзорные исследования мышей [10, 13] и человека [14], типы клеток как в нормальных, так и в болезненных тканях [15, 16] накапливаются в больших количествах.Постепенно дизайн исследований scRNA-seq смещается от открытия новых типов клеток к анализу с высоким разрешением для профилирования тонких изменений пропорций типов клеток и сигнатур экспрессии конкретных типов клеток, например, различных реакций на лечение между подгруппами пациентов [17] . Следовательно, теперь возможно и неизбежно применять методы классификации для категоризации отдельных ячеек по известным типам ячеек на основе аннотированных наборов общедоступных данных. Аннотации типов ячеек на основе эталонных данных не требуют знания предметной области о типах ячеек, а потребление времени линейно увеличивается с увеличением масштаба наборов тестовых данных с возможным распараллеливанием.

За последние 2 года специально для данных scRNA-seq был разработан быстро растущий список инструментов классификации отдельных клеток [18]. Эти инструменты можно условно разделить на две категории. Один назначает типы клеток на основе их ближайших соседей, используя измерения сходства, такие как scMCA [10], используя корреляцию Пирсона и scmap [19], принимая косинусное сходство. Этот тип инструментов обычно имеет предустановленную модель с настраиваемыми параметрами, а соседи могут быть либо на уровне ячейки, либо на уровне кластера.Другой разработан с использованием алгоритмов контролируемого обучения, таких как scPred [20] на основе машины опорных векторов (SVM) по умолчанию и Seurat [7, 21] на основе случайного леса (RF). Оба типа инструментов предсказывают метки типов ячеек нового набора данных на основе набора справочных данных. Предсказание метки отдельной ячейки — относительно новый подход, в отличие от других компонентов анализа в рабочем процессе scRNA-seq, таких как дифференциальное выражение [22, 23], кластеризация [24, 25], вывод траектории [26] и вменение [27] и систематической и всесторонней оценки не проводилось.В некоторых опубликованных отчетах показан сравнительный анализ различных инструментов классификации, таких как CellFishing, и scmap [28], но результаты все еще ограничены. Без эталонного исследования для сравнения всех доступных инструментов исследователям сложно выбрать подходящий инструмент и включить его в свой рабочий процесс.

В этой статье систематически сравниваются девять инструментов, перечисленных в категории «классификация» на scrna-tools.org [18]. Созданные внутри компании смешанные наборы данных о линиях клеток и несколько общедоступных наборов данных с различной степенью сложности, все с хорошо аннотированными метками типов клеток, используются для тестирования их производительности.Сначала мы протестировали эти инструменты на восьми парах наборов эталонных / тестовых данных с параметрами по умолчанию, чтобы оценить их базовые характеристики. Затем мы оценили стабильность характеристик, изменив количество эталонных ячеек и произвольно отобрав эталонные ячейки из того же набора данных. Затем мы исследовали баланс риска и пользы, когда эти инструменты позволяют идентифицировать новые типы клеток. Наконец, мы проанализировали производительность всех инструментов, когда контрольные типы ячеек имеют несбалансированное количество ячеек.Мы применили широко используемые метрики оценки, такие как точность, кривые характеристик оператора приемника (ROC) и площадь под кривыми ROC (AUC), для оценки производительности инструментов классификации. Мы считаем, что эта работа предоставит руководство по выбору инструментов классификации контролируемых типов клеток для наборов данных scRNA-seq при различных пользовательских сценариях. Мы также представили предложения по потенциальным направлениям развития инструментов классификации в будущем.

Методы

Данные

Наборы данных

scRNA-seq с хорошо аннотированными метками ячеек необходимы для всесторонней и систематической оценки инструментов классификации отдельных ячеек, поскольку расчеты большинства показателей оценки основываются на наборе меток истинности.Поэтому мы включили только наборы данных scRNA-seq с очень надежными метками типов клеток. В этой статье использовались следующие три источника наборов данных scRNA-seq.

Смешанные сотовые линии

Клеточные линии представляют собой довольно однородные популяции. Подходы, основанные на кластеризации, могут генерировать метки, близкие к истине, для смешанных данных клеточных линий, когда известно количество кластеров [25]. Мы создали два набора данных scRNA-seq для смешанных клеточных линий, как описано ниже. Три линии клеток человека, K562, HEK293T и A431, и одна линия клеток мыши, L929, культивировали отдельно в среде DMEM (Thermo Fisher Gibco) с 10% фетальной бычьей сывороткой (Thermo Fisher Gibco) и 1% пенициллин-стрептомицином (Beyotime Biotechnology. ) в инкубаторе с 5% углекислым газом при 37 ° C.Готовили суспензии единичных клеток с концентрацией 1 × 10 5 клеток / мл в фосфатно-солевом буфере (HyClone). Было проведено два эксперимента. Один назван Mix3, где суспензии клеток K562, 293T и L929 были смешаны в соотношении 1: 1: 1. Другой называется Mix4, где суспензии всех четырех клеточных линий были смешаны в соотношении 1: 1: 1: 1. Смешанные суспензии отдельных клеток затем загружали на микрофлюидные устройства, и библиотеки scRNA-seq были сконструированы в соответствии с протоколом Singleron GEXSCOPE ™ [29] с использованием набора GEXSCOPE ™ Single-Cell RNA Library Kit (Singleron Biotechnologies).Секвенирование выполняли на Illumina HiSeq X со спаренными концевыми считываниями 150 пар оснований для получения глубины секвенирования приблизительно 6,5 К считываний на ячейку.

Необработанные считывания были обработаны для создания профилей экспрессии генов с использованием внутреннего конвейера. Вкратце, после фильтрации считывания 1 без хвостов polyT были извлечены штрих-код ячейки и уникальный идентификатор молекулы (UMI). Адаптеры и хвосты полиА были обрезаны перед тем, как считывание 2 было картировано с эталонным геномом GRCh48 и mm10 с аннотацией гена ансамбля версии 92.Считывания с одним и тем же штрих-кодом клетки, UMI и геном были сгруппированы вместе, чтобы вычислить количество UMI на ген на клетку. Затем количество клеток определяли методом «колена». Мы использовали Seurat для выполнения кластерного анализа для наборов данных Mix3 и Mix4 отдельно, используя функцию FindCluster с разрешением, равным 0,1, для создания трех и четырех кластеров соответственно. Кластеры хорошо разделены, как показано на графиках t-распределенного стохастического встраивания соседей (t-SNE) [30] (дополнительный рисунок S1A и C).Анализ дифференциальной экспрессии с параметрами по умолчанию был проведен для поиска маркерных генов на кластер. 10 основных маркерных генов на кластер показаны на дополнительных рисунках S1B и D. Клетки A431 были идентифицированы по гену KRT7. Клетки HEK293T были идентифицированы с помощью SOX4, а клетки K562 были идентифицированы с помощью HBA1. Линия клеток мыши L929 была идентифицирована по названиям генов мыши. Количество клеток каждой клеточной линии в двух экспериментах показано в дополнительной таблице S1.

Мононуклеарные клетки периферической крови

Пробы мононуклеарных клеток периферической крови (PBMC) человека легко получить и регулярно изучаются в таких областях, как иммунология и инфекционные болезни.Это чрезвычайно разнородные популяции, содержащие смесь иерархической структуры типов и подтипов клеток. Здесь мы использовали наборы данных PBMC scRNA-seq, созданные с помощью протокола 10 × Genomics GemCode [9]. Авторы очистили 10 субпопуляций PBMC путем обогащения гранул на основе антител и дополнительно подтвердили идентичность клеток с помощью сортировки FACS. Затем 10 популяций были индивидуально обработаны для создания профилей экспрессии их одноклеточных генов. В этой статье были загружены подсчеты UMI на ячейку из 10 предварительно отсортированных и отфильтрованных типов клеток PBMC (подробная информация в дополнительной таблице S2).Позже мы объединили их в разные наборы данных для разных целей оценки.

Наборы данных о поджелудочной железе человека

Три общедоступных набора данных scRNA-seq поджелудочной железы человека были использованы в этой статье для оценки инструментов классификации (дополнительные таблицы S3 и S4). Они были созданы с использованием разных экспериментальных протоколов в разных лабораториях и взяты из одного и того же органа у разных людей. Они широко использовались в публикациях многих инструментов одноклеточной классификации [19, 20, 28].Следовательно, мы использовали их для моделирования наиболее реалистичной ситуации, когда новый набор данных проецируется на аннотированный набор данных из той же ткани. Мы загрузили объекты класса Bioconductor SingleCellExperiment этих наборов данных, преобразованных лабораторией Герберга с аннотациями типов клеток [19]. Клетки с низким качеством или неизвестными клеточными метками были удалены, такие как «неясные» в наборе данных Muraro и «alpha.contaminated», «beta.contaminated», «gamma.contaminated» и «delta.contaminated» в наборе данных Xin. .

Инструменты классификации

В этом исследовании мы стремились оценить все инструменты в категории классификации веб-сайтов scrna-tools.org [18] до 31 декабря 2018 г. (Таблица 1 и Дополнительная таблица S5). В некоторых инструментах используются широко используемые алгоритмы контролируемого обучения, такие как K-Nearest Neighbor (KNN), RF и SVM. Другие инструменты основаны на измерениях сходства на уровне кластера, таких как корреляция Пирсона в scMCA и корреляция Спирмена в SingleR [31], которые вычисляют сходство между ячейками запроса и одной репрезентативной экспрессией гена для каждого типа ячейки в наборах справочных данных. Все инструменты требуют как матрицы экспрессии генов, так и соответствующих аннотаций типов ячеек для ввода справочных данных и только первых для ввода тестовых данных.

Таблица 1

Инструменты классификации, выбранные для оценки в этой статье, и их информация

scmap 9010 * Да 11/109 # 46
Инструменты . (Предварительно) опубликовано
дата .
Элемент
выбор .
Алгоритм . Формат данных . «Неназначенная»
функция .
Scmap scmapc2c 02.04.2018 Да # k — Средние и приблизительные значения KNN, косинусное расстояние Нормализованные числа / логарифм 900c9 медиана на уровне кластера
выражение, косинусное расстояние
scMCA 22.02.2018 Нет Среднее выражение на уровне кластера, корреляция Пирсона Логарифмические значения Нет
90 scPred 90 / 14/2018 * Да SVM Нормализованные отсчеты → cpm Да
SingleR 14.01.2019 Да # Медианное выражение на уровне кластера, корреляция Спирмена 10 (нормализованная ) count Нет
Seurat 13.04.2015 Да RandomForest 90 109 (нормализованные) отсчетов Нет
CaSTLe 10.10.2018 Да XGBoost Журнал отсчетов Нет
scID Двухкомпонентное распределение Гаусса
Counts → norm counts (со встроенной функцией) Yes
AltAnalyze 31.08.2016 Yes # Нет описания для алгоритма Нормальное количество Нет
CellFishing 29.11.2018 Да # приблизительное значение k-NN, Locality-
чувствительное хеширование и расстояние Хэмминга
Исходное количество Нет
Инструменты . (Предварительно) опубликовано
дата . Элемент
выбор . Алгоритм . Формат данных . «Неназначенная»
функция . Scmap scmapc2c 02.04.2018 Да # k — Средние и приблизительные значения KNN, косинусное расстояние Нормализованные числа / логарифм 900c9 scmap медиана на уровне кластера
выражение, косинусное расстояние scMCA 22.02.2018 Нет Среднее выражение на уровне кластера, корреляция Пирсона Логарифмические значения Нет 90 scPred 90 / 14/2018 * Да SVM Нормализованные отсчеты → cpm Да SingleR 14.01.2019 Да # Медианное выражение на уровне кластера, корреляция Спирмена 10 (нормализованная ) count Нет Seurat 13.04.2015 Да RandomForest 90 109 (нормализованные) отсчетов Нет CaSTLe 10.10.2018 Да XGBoost Журнал отсчетов Нет scID 9010 * Да 11/109 # Двухкомпонентное распределение Гаусса
Counts → norm counts (со встроенной функцией) Yes AltAnalyze 31.08.2016 Yes # Нет описания для алгоритма Нормальное количество Нет CellFishing 29.11.2018 Да # приблизительное значение k-NN, Locality-
чувствительное хеширование и расстояние Хэмминга Исходные значения Нет Таблица 1 9246 Инструменты классификации, выбранные для оценки в этой статье, и их информация

scmap 9010 * Да 11/109 # 46
Инструменты . (Предварительно) опубликовано
дата .
Элемент
выбор .
Алгоритм . Формат данных . «Неназначенная»
функция .
Scmap scmapc2c 02.04.2018 Да # k — Средние и приблизительные значения KNN, косинусное расстояние Нормализованные числа / логарифм 900c9 медиана на уровне кластера
выражение, косинусное расстояние
scMCA 22.02.2018 Нет Среднее выражение на уровне кластера, корреляция Пирсона Логарифмические значения Нет
90 scPred 90 / 14/2018 * Да SVM Нормализованные отсчеты → cpm Да
SingleR 14.01.2019 Да # Медианное выражение на уровне кластера, корреляция Спирмена 10 (нормализованная ) count Нет
Seurat 13.04.2015 Да RandomForest 90 109 (нормализованные) отсчетов Нет
CaSTLe 10.10.2018 Да XGBoost Журнал отсчетов Нет
scID Двухкомпонентное распределение Гаусса
Counts → norm counts (со встроенной функцией) Yes
AltAnalyze 31.08.2016 Yes # Нет описания для алгоритма Нормальное количество Нет
CellFishing 29.11.2018 Да # приблизительное значение k-NN, Locality-
чувствительное хеширование и расстояние Хэмминга
Исходное количество Нет
Инструменты . (Предварительно) опубликовано
дата . Элемент
выбор . Алгоритм . Формат данных . «Неназначенная»
функция . Scmap scmapc2c 02.04.2018 Да # k — Средние и приблизительные значения KNN, косинусное расстояние Нормализованные числа / логарифм 900c9 scmap медиана на уровне кластера
выражение, косинусное расстояние scMCA 22.02.2018 Нет Среднее выражение на уровне кластера, корреляция Пирсона Логарифмические значения Нет 90 scPred 90 / 14/2018 * Да SVM Нормализованные отсчеты → cpm Да SingleR 14.01.2019 Да # Медианное выражение на уровне кластера, корреляция Спирмена 10 (нормализованная ) count Нет Seurat 13.04.2015 Да RandomForest 90 109 (нормализованные) отсчетов Нет CaSTLe 10.10.2018 Да XGBoost Журнал отсчетов Нет scID 9010 * Да 11/109 # Двухкомпонентное распределение Гаусса
Counts → norm counts (со встроенной функцией) Yes AltAnalyze 31.08.2016 Yes # Нет описания для алгоритма Нормальные подсчеты Нет CellFishing 29.11.2018 Да # приблизительное значение k-NN, Locality-
чувствительное хеширование и расстояние Хэмминга Необработанные подсчеты Нет [19] пакет содержит два варианта: scmapCluster и scmapCell.scmapCluster сначала создает виртуальное представление каждого типа ячеек в наборе справочных данных, извлекая медианное значение каждого признака (а именно гена). Затем он вычисляет сходство между каждой ячейкой запроса и всеми виртуальными ячейками для конкретных типов ячеек. Метка ячейки запроса назначается как тип ячейки виртуальной ячейки с наибольшим сходством. scmapCell напрямую вычисляет сходство между ячейкой запроса и всеми ссылочными ячейками. Затем он маркирует ячейку запроса, если сходство превышает пороговое значение и k ближайших соседей принадлежат к тому же типу ячейки.scmapCluster и scmapCell, называемые scmapc2clus и scmapc2c, в этой статье рассматриваются как отдельные инструменты. Опубликованная версия scMCA [10] не поддерживает наборы справочных данных, предоставленные пользователем. Поэтому мы добавили параметр «ref.data» в scMCA, чтобы импортировать среднее значение экспрессии каждого типа клеток для набора контрольных данных, аналогично его внутренней функции для прогнозирования типов клеток мыши. scPred [20] предоставляет возможность вызывать все модели, включенные в пакет каретки [32], и по умолчанию вызывается SVM с ядром радиальной базовой функции.Seurat реализует классификацию типов ячеек с помощью своей функции ClassifyCells, которая является интерфейсом для пакета randomForest [33]. CaSTLe [34] использует XGBoost и требует количества журналов объектов SingleCellExperiment в качестве формата данных. scID [35] сначала выполняет этап выбора признаков для каждого типа эталонной ячейки с помощью функции FindMarker Сера, а затем выводит соответствующий тип эталонной ячейки для целевых ячеек, используя классификатор линейного дискриминантного анализа Фишера. AltAnalyze [36] — это интегрированный конвейер для анализа наборов данных scRNA-seq, который реализует классификацию выборок с помощью своего LineageProfilerIterate.py скрипт как инструмент командной строки. Для этого требуется одна или несколько моделей генов, а именно списки генов в качестве одного из входных файлов. Если не указан, он вернет пересечение экспрессированных генов между эталонными и тестовыми наборами данных. Объединенный набор генов эталонных и тестовых наборов принят в качестве списка генов в этой статье. CellFishing [28] похож на scmapc2c, но использует хеширование с учетом локальности для хеширования профилей выражения в битовые векторы. Затем он оценивает косинусное сходство между двумя ячейками на основе их расстояния Хэмминга.CellFishing специально сравнивается с scmapc2c в опубликованной статье из-за их сходства. Во всех инструментах scmap, scPred и scID имеют возможность предсказывать определенные ячейки как «неназначенные», когда сходство / вероятность / оценка ниже определенного порога или не возвращаются моделью. В scmapc2c ячейка также помечается как «неназначенная», если ее ближайшие k соседей не принадлежат к тому же типу ячейки. Основные параметры и значения инструментов по умолчанию в таблице 1 показаны в дополнительной таблице S6.

Некоторые инструменты были исключены из этой оценки по разным причинам (дополнительная таблица S5). Например, celaref и MetaNeighbor [37] требуют кластеризации тестовых данных перед классификацией, и, таким образом, их производительность частично зависит от кластеризации. DistMap [38] предназначен для клеточной классификации трехмерной экспрессии генов. Моана [39] предоставляет только предварительно обученный классификатор для PBMC по состоянию на 31 декабря 2018 г.

Стратегии оценки эффективности

Построение пар эталонных и тестовых данных

Чтобы получить оценку производительности инструментов классификации в различных сценариях, мы создали восемь пар наборов эталонных и тестовых данных, все сгенерированные из трех источников, описанных выше (Таблица 2).Тестовые пары предназначены для оценки трех уровней эффектов с возрастающей вариабельностью производительности инструментов: (1) Наборы эталонных и тестовых данных были случайным образом выбраны из одного и того же набора данных scRNA-seq (самопроецирование). Самопроекция представляет собой идеальную, но нереалистичную ситуацию. (2) Наборы эталонных и тестовых данных были получены из двух разных экспериментов по scRNA-seq на одной и той же платформе, взятых из образца биологического материала. Этот сценарий имитирует вариант использования, когда лаборатория хочет увеличить размер выборки на основе небольшого предварительного исследования.Пакетные эффекты между экспериментами могут потенциально повлиять на точность прогнозов. (3) Наборы эталонных и тестовых данных были получены из одной и той же ткани, но были получены от разных биологических лиц с использованием разных платформ в разных лабораториях. Кроме того, наборы данных обрабатывались различными конвейерами вычислительного анализа. Это наиболее реалистичная настройка и представляет собой наиболее подходящий вариант использования, предсказывающий типы клеток для любого нового эксперимента scRNA-seq на основе существующих общедоступных наборов данных scRNA-seq.

Таблица 2

Восемь пар наборов данных, используемых при оценке производительности всех инструментов

88 901% Тест *

Наборы данных . PBMC . Смешайте клеточные линии . Поджелудочная железа человека .
Ссылка 500 * 10 80% Mix4 Mix4 Mix3 Baron Baron Muraro Muraro
901 Muraro
Mix3 Mix4 Muraro Xin Baron Xin
Ситуация Самопроекция Проекция из одного набора данных в другой из разных наборов данных
7 .

88 901% Muraro

88 901% Тест *

9024 Eight наборы данных, используемые при оценке производительности всех инструментов

PBMC . Смешайте клеточные линии . Поджелудочная железа человека .
Артикул 500 * 10 80% Mix4 Mix4 Mix3 Baron Baron Muraro Muraro
Mix3 Mix4 Muraro Xin Baron Xin
Ситуация Самопроецирование Проекция из одного набора данных в другой из различных пар экспериментов 2

88 901% Тест *

Наборы данных . PBMC . Смешайте клеточные линии . Поджелудочная железа человека .
Ссылка 500 * 10 80% Mix4 Mix4 Mix3 Baron Baron Muraro Muraro
901 Muraro
Mix3 Mix4 Muraro Xin Baron Xin
Ситуация Самопроекция Проекция из одного набора данных в другой из разных наборов данных
7 .

88 901% Muraro

88 901% Тест *

9024 -7 смешанных клеточных линий, мы случайным образом разделили набор данных Mix4 на 80%: 20% в качестве контрольных и тестовых наборов данных соответственно.Для самопроецирования PBMC из каждого набора данных очищенных типов клеток случайным образом отбирали 500 клеток без замены и объединяли в эталонный набор данных. Затем пятьдесят ячеек были выбраны случайным образом без замены из оставшихся ячеек каждого набора данных и объединены в набор тестовых данных. Чтобы иметь справедливое сравнение инструментов с функцией «не назначено», мы также протестировали сценарии, в которых набор тестовых данных содержит новые типы ячеек, не представленные в наборе справочных данных. В действительности, хотя открытие нового типа клеток не может быть основной целью экспериментов с scRNA-seq, нет никакой гарантии, что все типы клеток в наборе тестовых данных включены в эталонный набор данных при использовании методов классификации.Таким образом, мы использовали Mix3 с тремя типами ячеек в качестве ссылки для прогнозирования Mix4 с четырьмя типами ячеек. Точно так же мы использовали набор данных Xin, который имеет только четыре типа ячеек, чтобы предсказать набор данных Muraro, который имеет девять типов ячеек. Что еще более важно, все инструменты классификации были исследованы с параметрами по умолчанию или рекомендованными параметрами для обеспечения справедливости оценки. Характеристики инструментов с параметрами по умолчанию отражают их надежность и применимость, что является важным критерием для исследователей, не имеющих достаточного опыта в области биоинформатики, чтобы определить, использовать ли его в качестве готового решения.

Влияние партии на характеристики классификации

Существует значительный пакетный эффект между наборами данных Baron и Muraro для четырех типов клеток: альфа, бета, гамма и дельта (дополнительный рисунок S2). Ячейки этих четырех типов ячеек из наборов данных Baron и Muraro извлекаются как пара эталонных и тестовых наборов данных для оценки влияния пакетных эффектов на классификаторы.

Влияние количества опорных ячеек на производительность

Номера ссылочных ячеек могут потенциально повлиять на производительность инструментов, как это наблюдается в других контролируемых оценках классификатора.Пятьдесят, 100, 250, 500, 1000 и 2000 клеток для каждого типа клеток PBMC были выбраны случайным образом и объединены для формирования наборов контрольных данных . Мы последовательно осуществили понижающую выборку контрольных ячеек, при этом больший набор справочных данных всегда содержит все ячейки в меньшем наборе справочных данных. Мы использовали один и тот же набор тестовых данных с 50 ячейками на тип ячейки во всех прогнозах в этом разделе.

Стабильность работы

Различные выборки потенциально могут повлиять на результаты.Чтобы добиться объективных оценок и изучить стабильность всех инструментов, мы сгенерировали 100 наборов пар данных для самопроецирования как PBMC, так и Mix4. Для PBMC 500 клеток были выбраны в качестве эталонного набора данных и 50 клеток в качестве теста для каждого типа клеток в каждой выборке. Набор данных Mix4 был случайным образом разделен на пять равных групп 100 раз. Для каждого подразделения одна из групп была выбрана в качестве набора тестовых данных, а остальные — в качестве эталонного набора данных. Между тем, были использованы 10-кратные 10-кратные перекрестные проверки (CV), чтобы увидеть, подвержен ли он внесению смещения из-за случайного определения наборов для обучения и тестов для наборов данных Mix4 и PBMC.

Влияние параметров классификатора на производительность

Чтобы понять связь между параметрами и производительностью инструментов, scmapc2c, scPred и scID были оценены путем настройки их параметров на наборах данных PBMC. В scmapc2c мы варьировали два параметра: количество центроидов и порог. Центроиды — это контрольные точки, вычисленные с помощью k — означает кластеризацию ячеек, используемую для оценки сходства между ячейками. Порог — это порог, позволяющий определить, достаточно ли убедительны доказательства для определения типа клетки.Для scPred был настроен порог, который аналогичен параметру threshold в scmapc2c. Что касается scID, настраивается один параметр, называемый «загрязнение», который влияет на количество ячеек, принадлежащих к определенному типу ячеек.

Испытания на несбалансированность классов

Четыре типа клеток PBMC, CD19 + B-клетки, CD56 + естественных киллеров (NK), CD4 + -хелперные Т-клетки и CD4 + CD25 + регуляторных T-клеток (Treg) с различными уровнями сходства, в свою очередь, были выбраны для формирования несбалансированных по классам наборов данных.Мы сравнили производительность наборов данных с несбалансированным классом с контрольной ссылкой. В группе с несбалансированным классом ячейки четырех типов ячеек были выбраны случайным образом без замены и с номерами ячеек 10 000, 10, 10 000 и 10 для формирования набора контрольных данных. Затем 50 ячеек были выбраны случайным образом без замены из оставшихся ячеек по типу ячеек и объединены в набор тестовых данных. В контрольной группе 500 клеток каждого из четырех типов клеток PBMC были случайным образом выбраны без замены и объединены для формирования набора контрольных данных, а набор тестовых данных аналогичен таковому для группы с несбалансированным классом, и ячейки в ней не перекрываются. с эталонным набором данных.

Оценочные показатели

Мы извлекли точность и отзыв из матриц путаницы [40] с помощью пакета Caret R. Они определены следующим образом:

$$ \ mathrm {Accuracy} = \ frac {\ mathrm {TP} + \ mathrm {TN}} {\ mathrm {TP} + \ mathrm {TN} + \ mathrm {FP} + \ mathrm {FN}} $$

$$ \ mathrm {Recall} / \ mathrm {FPR} = \ frac {\ mathrm {TP}} {\ mathrm {TP} + \ mathrm {FN}} $$

ROC и AUC используются для оценки стабильности и надежности классификаторов. В этой статье пакеты R pROC и multipleROC использовались для расчета кривых ROC с чувствительностью и специфичностью 1 в качестве оси.

$$ \ mathrm {Чувствительность} = \ frac {\ mathrm {TP}} {\ mathrm {TP} + \ mathrm {FN}} $$

$$ \ mathrm {Специфичность} = \ frac {\ mathrm {TP }} {\ mathrm {TP} + \ mathrm {FN}} $$

Кроме того, коэффициент корреляции Мэтьюза (MCC) учитывает как истинные, так и ложные положительные и отрицательные результаты, что считается сбалансированной мерой для несбалансированных по классам данных. устанавливает [41, 42] и определяется как следующая формула:

$$ \ mathrm {MMC} = \ frac {\ mathrm {TP} \ ast \ mathrm {TN} + \ mathrm {FP} \ ast \ mathrm {FN} } {\ sqrt {\ left (\ mathrm {TP} + \ mathrm {FP} \ right) \ ast \ left (\ mathrm {TP} + \ mathrm {FN} \ right) \ ast \ left (\ mathrm {TN } + \ mathrm {FP} \ right) \ ast \ left (\ mathrm {TP} + \ mathrm {TN} \ right)}} $$

MCC рассчитывается с использованием пакета R ratestick.

Результаты

Общая оценка производительности

На рисунке 1 показаны точности классификации и AUC всех инструментов для восьми тестовых случаев. Что касается точности в пределах одного набора данных, предсказания самопроекции смешанных клеточных линий почти идеальны, что соответствует ожиданиям. scID показал худшие результаты при автопроектировании Mix4 с самой низкой точностью. Напротив, точность, полученная в самопроектировании PBMC, ниже, чем точность в самопроектировании смешанных клеточных линий для всех инструментов, что связано с более высокой сложностью PBMC.Чтобы выяснить точную причину общей низкой точности, мы выполнили ROC-анализ, чтобы оценить, различаются ли возможности классификации инструментов для разных типов клеток. Для Сёра (рис. 2А) значения AUC типов ячеек, за исключением различных подтипов Т-ячеек, равны или близки к 1, что указывает на сильные возможности прогнозирования. Все Т-клетки показывают более низкие значения AUC, а CD4 + вспомогательные Т-клетки и CD4 + CD25 + Treg имеют самые низкие значения AUC. Аналогичные результаты наблюдались для scPred (рис. 2В).Корреляционный анализ типов клеток PBMC между эталонными и тестовыми наборами данных (дополнительный рисунок S3A ) показал, что типы Т-клеток имеют очень высокую корреляцию друг с другом. Два подтипа T с самыми низкими значениями AUC, CD4 + T-хелпер и CD4 + Tregs, имеют парную корреляцию 0,99, даже выше, чем корреляция моноцитов между контрольными и тестовыми наборами данных. Если аналогичные Т-клетки с маркерами CD4 + или CD8 + рассматривались как клетки одного и того же типа (дополнительный рисунок S4), особенно когда все Т-клетки рассматривались как клетки одного и того же типа, точность прогнозов выше, чем предсказание. Подтипы T индивидуально.Следовательно, подтипы Т-клеток может быть трудноразрешимой проблемой для классификации, в то время как отдельные типы клеток легче классифицировать.

Рисунок 1

Производительность всех инструментов по восьми проекциям. Верхнее и нижнее названия на оси x представляют наборы контрольных и тестовых данных соответственно. Пары наборов данных, помеченные знаком «*», означают, что наборы тестовых данных содержат новые типы ячеек, не включенные в эталонный набор данных. (A) Точность всех инструментов по восьми тестам. (B) AUC макро-кривых ROC всех инструментов, кроме scmapc2c, scmapc2clus, CellFishing и AltAnalyze для восьми пар наборов данных. Эти четыре инструмента не выводят вероятность или значение оценки для каждого класса и не могут быть оценены с помощью кривых ROC.

Рисунок 1

Производительность всех инструментов по восьми проекциям. Верхнее и нижнее названия на оси x представляют наборы контрольных и тестовых данных соответственно. Пары наборов данных, помеченные знаком «*», означают, что наборы тестовых данных содержат новые типы ячеек, не включенные в эталонный набор данных. (A) Точность всех инструментов по восьми тестам. (B) AUC макро-кривых ROC всех инструментов, кроме scmapc2c, scmapc2clus, CellFishing и AltAnalyze для восьми пар наборов данных. Эти четыре инструмента не выводят вероятность или значение оценки для каждого класса и не могут быть оценены с помощью кривых ROC.

Рисунок 2

Анализ точности предсказания типа клеток подтипов PBMC. Кривые ROC Seurat (A) и scPred (B) на 10 типах клеток набора данных PBMC.

Рисунок 2

Анализ точности предсказания типов клеток для подтипов PBMC. Кривые ROC Seurat (A) и scPred (B) на 10 типах клеток набора данных PBMC.

При проецировании из Mix3 в Mix4 точность аналогична точности самопроецирования в Mix4, и все инструменты работают хорошо. Проекция от Mix4 до Mix3 показала, что почти все значения точности находятся между 0,7 и 0,8 (рис. 1A). Поскольку Mix4 имеет один тип ячеек A431, не включенный в Mix3, инструменты без «неназначенной» функции (подробности см. В разделе «Методы») классифицируют A431 как другие типы ячеек в Mix4.После дальнейшего анализа мы обнаружили, что все значения точности, не считая A431, выше 0,95 (данные не показаны). Предполагается, что большинство ячеек A431 будут иметь размер 293T, поскольку A431 наиболее похож на 293T среди трех типов ячеек в Mix3 (дополнительный рисунок S3B). Таким образом, все инструменты демонстрируют хорошие характеристики классификации на смешанных наборах данных клеточных линий. Он показал, что пакетные эффекты между экспериментами, основанными на одном и том же протоколе, незначительны для наборов данных с низкой сложностью и имеют незначительное влияние на предсказания типов клеток.

В прогнозах четырех пар наборов данных о поджелудочной железе человека, которые близки к реальным ситуациям и практическим потребностям, производительность инструментов различается. Точность прогнозов, в которых Xin является тестовым набором, в целом выше, чем у двух других, поскольку набор данных Xin содержит только четыре типа ячеек, и разница между этими четырьмя типами ячеек значительна (дополнительный рисунок S3C). Два других прогноза между наборами данных Baron и Muraro показали худшую точность в диапазоне 0,7–0.8, для всех инструментов, за исключением еще более низкой точности для scmapc2clus, scPred и scID. Одна из причин заключается в том, что наборы данных Baron и Muraro содержат восемь общих типов ячеек, а некоторые типы ячеек уникальны в каждом наборе данных. Подобно проецированию из Mix4 в Mix3, эти уникальные типы ячеек могли быть назначены только с неправильной меткой или «неназначенными». Кроме того, мезенхимальные клетки, представленные только в Muraro, и покоящиеся звездчатые клетки, представленные только в Baron, являются высокосвязными типами клеток, которые часто предсказывают как друг друга.Стоит отметить, что scmapc2clus показал худшие результаты по сравнению с другими группами, когда в качестве эталонного набора использовался Muraro. В ходе дальнейшего исследования мы обнаружили, что точность заметно увеличивалась с уменьшением параметра «порог» (дополнительный рисунок S5). Это указывало на то, что ранги сходства между ячейками запроса и типами ссылочных ячеек верны, но некоторые из ячеек были предсказаны как неназначенные из-за несоответствующего порогового значения. scmapc2clus построил репрезентативный профиль экспрессии гена для каждого типа клеток, используя медианное значение экспрессии каждого гена.Низкое количество клеток определенных типов в Мураро может привести к тому, что профили экспрессии генов на уровне клеток не будут репрезентативными. Следовательно, меньшее сходство возникло между эталонными типами ячеек в Мураро и соответствующими им типами тестовых ячеек. Для проецирования от Мураро к Барону, поскольку количество ячеек общих эталонных типов ячеек достаточно велико, производительность scmapc2clus улучшилась.

По сравнению с другими инструментами, инструмент с лучшей точностью отличается при различных стратегиях тестирования.Seurat, scMCA, SingleR и CaSTLe показали более высокую точность (более 0,7 для всех наборов данных), чем другие инструменты, для всех восьми пар наборов данных. Кроме того, их точность прогнозов более стабильна для восьми пар наборов данных. Таким образом, эти четыре инструмента лучше подходят для различных наборов данных. scmap, включая scmapc2c и scmapc2clus, имеет нестабильную производительность со своими параметрами по умолчанию. scmapc2c имеет самую низкую точность самопроецирования PBMC, а scmapc2clus имеет худшую производительность в группе поджелудочной железы, где Baron — это тестовый набор, а Muraro — эталонный набор.scPred и scID в целом имеют низкую производительность; scPred особенно показал худшие результаты, чем другие инструменты, на всех наборах данных, кроме смешанных клеточных линий. Это связано с тем, что эти два инструмента ошибочно спрогнозировали множество ячеек как «неназначенные», хотя некоторые типы ячеек в наборе тестовых данных уже включены в эталонный набор данных. Более высокая точность достигается, когда вычисления не включают неназначенные метки. Между тем, значения AUC (рис. 1B) инструментов, основанных на обучении с учителем, выше, чем у других инструментов.Несмотря на то, что scPred имеет более низкую общую точность, кривые ROC предполагают, что у него есть потенциал для улучшения. SingleR показал худшие результаты, чем инструменты контролируемого обучения, но лучше, чем scID и scMCA с точки зрения AUC. AUC scID также низка, что согласуется с его низкой точностью. Мы провели дальнейший анализ scmapc2c, scPred и scID, чтобы оценить влияние «неназначенной» функции (см. Раздел «Параметры настройки»).

Таким образом, производительность инструментов частично зависит от сложности наборов данных, и не существует универсального лучшего инструмента при любых обстоятельствах.Результаты прогнозов между двумя наборами данных смешанных клеточных линий и между тремя наборами данных по поджелудочной железе предполагают, что эффекты партии, экспериментальные протоколы и биологические вариации имеют незначительное влияние на прогнозирование хорошо разделенных типов клеток. Кроме того, все инструменты плохо работали с набором данных PBMC с более низкой точностью по сравнению с другими наборами данных, что связано с близкородственными типами клеток, сосуществующими в PBMC. Следовательно, мы использовали наборы данных PBMC в следующем процессе оценки. Более того, ансамблевое голосование инструментов на наборе данных PBMC показало немного лучшую точность (дополнительный рисунок S6), что дает новую идею для правильной классификации отдельных ячеек с высоким сходством.

Пакетные эффекты

Пакетные эффекты являются общими для экспериментов scRNA-seq, особенно когда наборы данных взяты из разных экспериментальных платформ или протоколов. Они сложны для комбинированного анализа с использованием методов кластеризации и пакетной коррекции [43–45]. Следовательно, могут быть полезны инструменты классификации, нечувствительные к пакетным эффектам. Чтобы проверить влияние пакетных эффектов на классификаторы, используются ячейки четырех типов ячеек, альфа, бета, дельта и гамма, из наборов данных Baron и Muraro, чтобы оценить, как пакетные эффекты влияют на характеристики классификации.В соответствии с точностью каждого инструмента (рис. 3A) scmapc2c, scCMA, SingleR, Seurat и CaSTLe не чувствительны к пакетным эффектам наборов данных. Значительная разница в точности между двумя тестовыми сценариями в scmapc2clus была связана с меньшим количеством контрольных ячеек в Muraro, чем в Baron. Как описано выше, точность повысится за счет снижения пороговых значений scmapc2clus (дополнительный рисунок S4). В целом, scmapc2c, scCMA, SingleR, Seurat и CaSTLe устойчивы к пакетным эффектам между эталонными и тестовыми наборами данных.

Рисунок 3

Точность всех инструментов с пакетными эффектами и различными размерами эталонного набора: (A) влияние пакетных эффектов на точность и (B) точность при разных размерах наборов эталонных данных. Пунктирные линии представляют тенденции точности инструментов машинного обучения.

Рисунок 3

Точность всех инструментов с пакетными эффектами и различными размерами эталонного набора: (A) влияние пакетных эффектов на точность и (B) точность при разных размерах наборов эталонных данных.Пунктирные линии представляют тенденции точности инструментов машинного обучения.

Влияние количества контрольных ячеек на производительность инструментов

Чтобы выяснить, влияет ли количество эталонных ячеек на производительность инструментов классификации, мы создали серию эталонных наборов данных PBMC с различным количеством эталонных ячеек (см. Подробности в разделе «Методы»). На рис. 3B показаны профили точности всех инструментов на наборах справочных данных с разными размерами выборки.Точность инструментов классификации, основанных на обучении с учителем, таких как scPred, Seurat и CaSTLe, постепенно увеличивается с увеличением количества контрольных клеток на каждый тип клеток PBMC. Напротив, точность других инструментов практически не меняется при изменении количества эталонных ячеек, особенно точность scMCA и SingleR на основе расстояний на уровне типов ячеек. Было высказано предположение, что, когда размер набора ссылок невелик, может быть полезно использовать инструменты, основанные на сходстве на уровне кластера. Кроме того, мы обнаружили, что, когда количество ячеек каждого типа составляет 500 или более, точность достигает насыщения для всех инструментов классификации наборов данных PBMC.При увеличении опорных ячеек потребление времени и памяти инструментами теоретически возрастет в разной степени. Для инструментов, основанных на сходстве на уровне кластера, таких как scmapc2clus и SingleR, время и потребление памяти будут линейно увеличиваться с увеличением размера справочных данных при вычислении среднего / медианного профилей экспрессии для каждого типа ячеек. Однако инструментам алгоритмов контролируемого обучения потребуется больше времени для обучения модели, таких как scPred и Seurat, с временной сложностью более O (⁠ | $ {n} ^ 2 $ | ⁠) и CaSTLe с этим значением больше O (⁠ | $ \ log n $ | ⁠) (⁠ | $ n $ | представляет количество обучающих выборок).Следовательно, это указывает на то, что может быть целесообразно субдискретизировать каждый тип ячеек с размером выборки 500, когда доступно больше ячеек, чтобы сэкономить вычислительные ресурсы и время при достижении сопоставимой точности.

Тест начальной загрузки и 10-кратное резюме инструментов в самопроекции

При самопроецировании Mix4 scID работал нестабильно на случайно выбранных справочных данных, что может случиться с другими инструментами. Выше мы продемонстрировали, что размер контрольной выборки из 500 клеток на каждый тип клеток PBMC является хорошим выбором с точки зрения баланса между точностью и эффективностью.Таким образом, мы выполнили 100 выборок наборов данных PBMC и Mix4 и 10-кратные 10-кратные CV (см. Подробную информацию в разделе «Методы») и оценили их точность. На рисунке 4 показано распределение точности всех инструментов на 100 выборках и 10 кратных 10-кратных CV. Различия в точности одного инструмента очень малы, за исключением scID. scID показал нестабильную точность даже в самопроектировании Mix4. Между тем, это указывает на то, что образцы с начальной загрузкой имеют меньшее влияние на прогнозы для всех инструментов, когда количество контрольных ячеек на тип ячеек превышает 500 для PBMC.

Рисунок 4

Коробчатые диаграммы точности всех инструментов, протестированных на 100 выборках Mix4 (A) и PBMC (B) , а также 10-кратные 10-кратные CV, протестированные на наборах данных Mix4 и PBMC.

Рисунок 4

Коробчатые диаграммы точности всех инструментов, протестированных на 100 выборках Mix4 (A) и PBMC (B) , а также 10-кратные 10-кратные CV, протестированные на наборах данных Mix4 и PBMC.

Параметры настройки

Три инструмента, scmapc2c, scPred и scID, показали гораздо худшие результаты, чем другие инструменты, в тесте начальной загрузки и тесте размера обучающей выборки, точность которых меньше 0.5 (Рисунки 3В и 4 ) . Метки « неназначенные » появляются, когда инструменты решают, что ячейки недостаточно близки к какому-либо типу ячеек в наборе справочных данных или когда ячейка не может быть классифицирована с достаточной степенью уверенности, что, вероятно, происходит с ячейками новых типов ячеек, не существующих в наборе справочных данных. . Следовательно, «неназначенная» функция может иметь решающее значение для выявления новых типов ячеек, не представленных в наборе справочных данных. В этом исследовании мы считали предсказанные «неназначенные» метки, которые являются действительно новыми типами ячеек, не включенными в набор справочных данных, как истинные «неназначенные», а в противном случае — как ошибочные «неназначенные».Более того, точность и количество «неназначенных» меток зависят от параметров этих инструментов, как показано выше для scmapc2clus (дополнительный рисунок S4). Поэтому мы протестировали производительность этих инструментов с переменными параметрами (см. Подробности в разделе «Методы») на том же наборе данных, чтобы увидеть, будет ли увеличена истинная «неназначенная» скорость и уменьшится ли ошибочная «неназначенная» метка. Мы ожидали не только повысить точность идентификации ячеек типов ячеек, существующих в эталонном наборе данных, но также точно идентифицировать ячейки тех типов ячеек, которые не включены в эталонный набор данных, уменьшая долю ошибочных «неназначенных».

Для scmapc2c, с уменьшающимся значением w в scmapc2c, которое определяет количество ближайших соседей, точность становится выше, а отношение «неназначенных» меток к общему количеству типов ячеек при прогнозировании уменьшается (рисунок 5A). Это указывает на то, что параметр w имеет большое влияние на предсказание scmapc2c путем изменения количества «неназначенных» ячеек. Принимая во внимание, что с увеличением порога подобия (рис. 5B) точность начинает резко снижаться с точки, где порог равен 0.5, значение по умолчанию в scmap [19]. Для scPred порог по умолчанию 0,9 определяет минимальную вероятность того, что одна ячейка будет предсказана как ячейка определенного типа вместо «неназначенной». Рисунок 5C показывает, что с увеличением порога точность снижается, а неназначенное отношение увеличивается. Что касается scID (рис. 5D), который соответствует смеси двух гауссовых распределений в классификаторе линейного дискриминантного анализа Фишера, параметр «загрязнение» представляет собой процент клеток, которые расположены в области перекрытия между популяционными распределениями определенного типа клеток и другие.С увеличением значения «загрязнения» точность повышалась, а неназначенный коэффициент снижался. Точность обычно остается стабильной, когда «загрязнение» превышает 0,05.

Рисунок 5

Производительность инструментов с «неназначенной» функцией с различным выбором параметров: (A) параметр w scmapc2c, (B) параметр пороговое значение scmapc2c, (C) параметр пороговое значение scPred и (D) загрязнение параметров scID.Accuracy_without_unassigned означает точность, рассчитанную без учета «неназначенных» меток. Unassigned_ratio означает соотношение «неназначенных» меток во всех предсказанных метках.

Рисунок 5

Производительность инструментов с «неназначенной» функцией с различным выбором параметров: (A) параметр w scmapc2c, (B) пороговое значение параметра scmapc2c, (C) параметр пороговое значение scPred и (D) параметр загрязнения scID.Accuracy_without_unassigned означает точность, рассчитанную без учета «неназначенных» меток. Unassigned_ratio означает соотношение «неназначенных» меток во всех предсказанных метках.

Рисунок 6

Кривые отзыва и ROC четырех типов клеток PBMC в группе с несбалансированным классом и контрольной группе. (A) Вызов четырех типов клеток PBMC в группе с несбалансированным классом и контрольной группе. (B и C) ROC-кривые четырех типов клеток в группе с несбалансированным классом и контрольной группе в Сёра. (D и E) Кривые ROC четырех типов ячеек в двух группах в SingleR. Кривые ROC показали более низкую устойчивость Seurat к группе с несбалансированным классом, чем SingleR.

Рисунок 6

Кривые отзыва и ROC четырех типов клеток PBMC в несбалансированной по классам и контрольной группе. (A) Вызов четырех типов клеток PBMC в группе с несбалансированным классом и контрольной группе. (B и C) ROC-кривые четырех типов клеток в группе с несбалансированным классом и контрольной группе в Сёра. (D и E) Кривые ROC для четырех типов ячеек в двух группах в SingleR.Кривые ROC показали более низкую устойчивость Seurat к группе с несбалансированным классом, чем SingleR.

Рисунок 7

Потребление времени и памяти всеми инструментами. (A) Потребление времени и (B) пиковое использование памяти для всех классификаторов с учетом их логарифмической базы 10 с увеличением числа тестовых ячеек. Включено девять типов клеток PBMC, за исключением моноцитов CD14 + (из-за недостаточного количества клеток). В наборе тестовых данных содержалось пятьдесят, 500 и 5000 представленных тестовых клеток на каждый тип клеток PBMC.«Остаток» представляет собой общий остаток клеток, за исключением контрольных клеток, на каждый тип клеток PBMC, всего около 90 000 клеток.

Рисунок 7

Потребление времени и памяти всеми инструментами. (A) Потребление времени и (B) пиковое использование памяти для всех классификаторов с учетом их логарифмической базы 10 с увеличением числа тестовых ячеек. Включено девять типов клеток PBMC, за исключением моноцитов CD14 + (из-за недостаточного количества клеток). В наборе тестовых данных содержалось пятьдесят, 500 и 5000 представленных тестовых клеток на каждый тип клеток PBMC.«Остаток» представляет собой общий остаток клеток, за исключением контрольных клеток, на каждый тип клеток PBMC, всего около 90 000 клеток.

Мы определили показатель, называемый неназначенным соотношением, как отношение ячеек с меткой «неназначенные» ко всем целевым ячейкам. Поскольку пара наборов данных PBMC имеет одинаковые типы ячеек, все «неназначенные» ячейки ошибочно считаются «неназначенными» ячейками. Ошибочные «неназначенные» ячейки не могут рассматриваться как неправильно предсказанные, но являются ячейками, которые требуют дальнейшего анализа для определения их типов ячеек.Поэтому мы также рассчитали точность прогнозов без «неназначенных» меток. Точности без «неназначенных» меток выше, чем точности с «неназначенными» метками для почти всех инструментов (рис. 5), что указывает на способность этих инструментов максимизировать точность прогнозов для ячеек с определенными метками типа ячеек. С другой стороны, нежелательно иметь слишком высокое соотношение ошибочно «неназначенных» меток, что может потребовать слишком много работы ниже по потоку. В заключение, после взвешивания этих трех показателей на тех же наборах эталонных и тестовых данных PBMC, scmapc2c показал наилучшие результаты с w , равным 2 или 3, и порогом между 0 и 0.7, scPred достиг лучшей производительности с порогом от 0,5 до 0,7, а scID работал лучше с «загрязнением», равным 0,05. Однако точность ячеек с окончательным назначением типа ячеек этих трех инструментов не намного выше, чем точность других инструментов (рисунки 1A и 5), если только более половины ячеек не считаются «неназначенными».

Чтобы проверить способность этих трех инструментов улавливать новые типы клеток, не включенные в эталонный набор данных, мы провели такой же анализ на наборах данных смешанных линий клеток, используя Mix3 в качестве эталона и Mix4 в качестве теста.A431 — это новый тип ячеек, которого нет в Mix3, но его доля в Mix4 составляет 22,84%. Мы обнаружили, что эти инструменты в основном предсказывали клетки A431 как неправильные типы клеток, а не «неназначенные» (рис. 5E). Доля истинных «неназначенных» ячеек во всех «неназначенных» ячейках, определяемая как истинное неназначенное соотношение, больше 0,9 в scPred, что означает, что scPred наиболее способен улавливать новые типы ячеек. Таким образом, для этих инструментов остается сложной задачей точно улавливать новые типы клеток, даже для хорошо разделенных типов клеток.В то же время эта функция вносит помехи в прогнозирование наборов данных без новых типов ячеек.

Тест на несбалансированность классов инструментов

Очень часто в одном наборе данных scRNA-seq существует несколько типов клеток с неравномерными пропорциями. Производительность в таких случаях покажет надежность инструментов классификации. В этом исследовании выбраны четыре типа клеток PBMC (то есть CD19 + B-клетки, CD56 + NK-клетки, CD4 + -хелперные Т-клетки и CD4 + CD25 + Treg).Первые два заметно отличаются друг от друга, а последние два похожи друг на друга (дополнительный рисунок S3A). Клетки четырех типов случайным образом отбирали отдельно и объединяли в две группы: группу с несбалансированным классом и контрольную группу. Контрольная группа состоит из четырех типов ячеек, имеющих равные пропорции (см. Раздел «Методы»).

Вызов четырех типов клеток PBMC, представляющих прогностическую точность каждого типа клеток, были рассчитаны для обеих групп (рис. 6A). В контрольной группе все инструменты работали хуже с более низкими показателями отзыва на аналогичных типах клеток PBMC, CD4 + хелперных Т-лимфоцитов и CD4 + CD25 + Treg, чем два других, что соответствует нашим ожиданиям и предыдущие результаты.Однако в группе с несбалансированным классом из-за меньшего количества опорных ячеек NK-клеток CD56 + инструменты, основанные на контролируемом обучении, такие как scPred, Seurat и CaSTLe, предсказывали хуже, чем другие инструменты, за исключением scmapc2c, даже если NK-клетки значительно отличается от других клеток PBMC. По сравнению с контрольной группой, из-за того, что больше CD4 + хелперных Т-клеток добавлено в контрольный набор группы с несбалансированным классом, большее количество CD4 + хелперных Т-клеток в тестовой группе было правильно предсказано большинством инструментов, даже если они похож на CD4 + CD25 + Treg и трудно точно предсказать теоретически.Между тем, худшие предсказания Treg и NK ячеек в scmapc2c указывают на то, что scmapc2c чувствителен к количеству опорных ячеек на тип ячейки. scID также показывает низкую надежность, что может быть связано с множеством факторов, например, разными выборками и сходством между типами ячеек.

Кривые

ROC (рисунок 6B – E и дополнительный рисунок S7) показали, что значения AUC для каждого типа ячеек в Seurat не были такими стабильными, как в SingleR между двумя группами. Это также означало, что лучшая производительность Seurat в контрольной группе не отражалась в чрезвычайно несбалансированных наборах данных, тогда как SingleR является относительно надежным.

Как сообщает MCC (дополнительный рисунок S8), Seurat и CaSTLe показали более низкие показатели в группе с несбалансированным классом по сравнению со сбалансированной группой, тогда как у других были почти равные значения MCC между двумя группами. Из-за неправильно предсказанных «неназначенных» меток (рис. 6A) как в сбалансированных, так и в несбалансированных тестовых случаях значения MCC в scPred низкие для обоих. Таким образом, разные метрики предполагают аналогичные выводы, и мы показали, что инструменты, основанные на контролируемом обучении, менее надежны, чем инструменты, основанные на сходстве на уровне кластера для несбалансированных по классам наборов данных.

Время работы и использование памяти

Строго говоря, количество эталонных и тестовых ячеек влияет на масштабируемость инструментов. В предыдущем разделе мы обсудили влияние увеличения числа контрольных ячеек на потребление времени и памяти в теории и показали, что набор контрольных данных, превышающий 500 для каждого типа ячеек, может оказаться нецелесообразным для достижения большей точности классификации (рис. 3B). Поэтому в этом разделе мы сосредоточимся только на влиянии увеличения количества тестовых ячеек на время и потребление памяти.Мы использовали серию наборов данных PBMC для сравнения времени работы программы и использования памяти инструментами (рисунок 7). Все анализы проводились на одном устройстве с двумя процессорами, Intel (R) Xeon (R) CPU E5-2650 v4 (2,20 ГГц) и 192 ГБ оперативной памяти (DDR4), а также с системой Ubuntu 16.04.6 LTS.

Теоретически, поскольку инструменты, оцениваемые в этом исследовании, будут предсказывать метки независимо для каждой тестовой ячейки, время работы и использование памяти должны линейно увеличиваться с увеличением тестовых ячеек. Согласно результатам, время работы и пиковое использование памяти инструментами примерно линейно увеличивались с увеличением количества тестовых ячеек (рисунок 7), но точность почти не менялась (дополнительный рисунок S9A).В частности, пакет scmap (scmapc2clus и scmapc2c) работал значительно быстрее, чем другие инструменты. Seurat, CaSTLe, AltAnalyze и CellFishing также были относительно быстрыми. В то время как для SingleR и scMCA потребовалось больше времени, около 26 и 139 часов соответственно, при прогнозировании примерно 90 000 ячеек. Что касается использования памяти, все инструменты потребляли одинаковую пиковую память с увеличением тестовых ячеек. scID, scMCA и SingleR потребляли больше памяти, особенно scID с пиковым использованием памяти около 186 ГБ при прогнозировании примерно 90 000 ячеек.Seurat, scmapc2c и scmapc2clus использовали меньше памяти, особенно scmapc2clus, сохраняя небольшое использование памяти по мере увеличения количества тестовых ячеек. В целом Seurat — относительно идеальный инструмент классификации с более высокой точностью, хорошей масштабируемостью, более высокой скоростью работы и меньшим пиковым использованием памяти. Кроме того, аналогичные тесты были выполнены на наборе данных scRNA-seq энтодермы кишечника мыши с> 100 000 клеток [46]. В соответствии с предыдущими результатами, Seurat работал лучше с точки зрения высокой производительности и низких требований к ресурсам по сравнению с другими инструментами (дополнительный рисунок S9B – D).

Обсуждение

В этом исследовании мы провели всестороннюю оценку производительности девяти программных инструментов для анализа классификации отдельных ячеек. Используя три источника наборов данных scRNA-seq с разной степенью сложности, смешанные клеточные линии в качестве золотого стандарта, PBMC как сложную систему и общедоступные наборы данных scRNA-seq поджелудочной железы человека как почти реалистичную ситуацию, мы оценили инструменты для классификации одноклеточных ярлыки по различным оценочным метрикам.

В проекциях смешанных клеточных линий и наборов данных о поджелудочной железе человека большинство инструментов точно предсказали тестовые клетки с типами клеток, существующими как в эталонных, так и в тестовых наборах данных.Однако для обнаружения новых типов ячеек, таких как A431, не включенных в Mix3, инструменты с неназначенной функцией scmapc2c, scPred и scID просто отлавливали небольшую часть нового типа ячеек. В проекциях PBMC все инструменты работали хуже, чем в других условиях испытаний, из-за существования нескольких похожих типов Т-клеток. Большинство инструментов ошибочно предсказывали аналогичные Т-клетки, а инструменты с неназначенной функцией предсказывали большинство подобных Т-клеток как «неназначенные». Объединив подтипы T в одну метку, повысилась точность инструментов.Для инструментов с неназначенной функцией большинство ячеек с окончательными метками типа ячеек правильно предсказаны и заслуживают доверия, особенно в предсказаниях scPred. Однако эти инструменты с «неназначенной» функцией не значительно превосходят другие инструменты даже с учетом точности без неназначенных меток и не предоставляют дополнительных решений для «неназначенных» меток. Здесь мы предлагаем несколько потенциальных стратегий для неназначенных ячеек. Мы классифицируем отдельные ячейки запроса на основе набора справочных данных, используя существующие контролируемые классификаторы с функцией «неназначенная».Чтобы обратиться к запрашиваемым ячейкам, предсказанным как «неназначенные», одной из возможностей является неконтролируемый анализ, чтобы кластеризовать неназначенные ячейки и идентифицировать дифференциально экспрессируемые гены (гены DE) для каждого кластера. Затем гены DE в кластере можно было сравнить с генами известных типов клеток в эталонном наборе данных. Кластеры с генами DE, подобными эталонным типам клеток, могут быть определены как соответствующие типы клеток, а кластеры с генами DE, значительно отличающимися от эталонных типов клеток, могут быть определены как новая популяция клеток.Мы также можем сгруппировать все ячейки в наборе данных запроса. Изучая долю неназначенных ячеек в каждом кластере, мы могли различать новые популяции ячеек и известные типы ячеек с шумом. Конечно, эти стратегии потребуют дополнительных проверок, чтобы лучше определять метки неназначенных клеток и обнаруживать новые популяции клеток.

Все инструменты, изученные в этой статье, сначала проводят выбор признаков перед классификацией отдельных ячеек, за исключением scMCA и AltAnalyze. И некоторые из этих инструментов также предоставляют возможность выбора пользовательских функций.Выбор функции — это общий и важный шаг в области классификации, который может в значительной степени повлиять на производительность классификаторов и время выполнения. scMCA не выполняет выбор функций и напрямую вычисляет корреляцию между тестовым и эталонным профилями экспрессии. Следовательно, scMCA потребляет больше всего времени выполнения среди всех инструментов. Из-за сложности выбора функции мы не тестировали ее влияние на производительность инструмента в этой статье. Поскольку в этой области разрабатывается все больше и больше инструментов, выбор функций может стать важным компонентом будущей оптимизации производительности.

Наша оценка предполагает, что исследователи знают свои справочные данные задолго до внедрения классификаторов типов клеток. Анализируя сходство между типами ячеек в эталонном наборе данных, мы могли бы снизить ожидания в отношении точности прогнозов сильно связанных типов ячеек. Подобные подтипы можно комбинировать для повышения точности. Seurat, SingleR и CaSTLe — лучшие инструменты, в то время как их ансамблевое голосование показало немного лучшую точность. Когда количество ячеек невелико или типы ячеек в эталонном режиме крайне несбалансированы, SingleR — лучший выбор, основанный на сходстве на уровне кластера.Если в целевых клетках могут быть новые типы клеток, комбинированная стратегия использования scPred с «неназначенной» функцией, хорошо выполненный инструмент без функции, такой как SingleR, и кластерный анализ могут дать лучший результат.

Заключение

Таким образом, разрабатывается все больше и больше инструментов для идентификации типов отдельных клеток, но исследователи все еще сталкиваются с множеством проблем. В этом исследовании мы оценили функциональность и эффективность всех доступных инструментов одноклеточной классификации.На данный момент нет инструмента, который мог бы полностью и полностью решить все проблемы. Основываясь на точности, ROC и других оценочных показателях, мы продемонстрировали, что Seurat, SingleR и CaSTLe превосходят остальные инструменты. Хотя scMCA также работает относительно лучше, это требует много времени. Инструменты, основанные на сходстве на уровне кластера, более надежны, чем инструменты, основанные на контролируемом обучении для неидеальных справочных данных. Чтобы использовать эталонный набор данных, состоящий из нескольких схожих типов ячеек, исследователи могут объединить их в один супертип для большей точности прогнозов, или следует соблюдать осторожность в отношении потенциальных перепутанных меток ячеек.Хотя новые типы клеток и близкие к ним типы клеток все еще представляют собой очень трудноразрешимые проблемы, результаты наших тестов показывают, что их можно использовать для включения классификации в рабочие процессы анализа отдельных ячеек. В будущем выбор функций и улучшение прогнозирования новых ячеек заслуживают дальнейшего изучения, чтобы повысить точность и функциональность инструментов классификации отдельных ячеек.

Наличие наборов данных

Наборы данных

scRNA-seq смешанных клеточных линий доступны на сайте Gene Expression Omnibus под номером доступа GSE128982.Наборы данных PBMC можно загрузить с официального сайта 10X Genomics (https://support.10xgenomics.com/single-cell-gene-expression/data sets) [9]. Что касается наборов данных scRNA-seq поджелудочной железы человека, они преобразуются в объекты класса Bioconductor SingleCellExperiment с аннотациями типов клеток и доступны в наборах данных https://hemberg-lab.github.io/scRNA.seq.data [15]. Набор данных scRNA-seq энтодермы кишечника мыши был загружен с https://endoderm-explorer.com [46].

Авторские взносы

Xinlei Zhao провел анализ и интерпретацию данных, а также написал и отредактировал статью.Шуанг Ву провел эксперименты с одноклеточной РНК-секвенированием смешанных клеточных линий. Нан Фанг предоставил ресурсы и руководил работой. Сяо Сунь предоставил ресурсы, отредактировал статью и руководил работой. Джу Фань задумал проект, интерпретировал данные, написал и отредактировал статью.

Ключевые моменты

  • Эффективность инструментов классификации частично зависит от наборов данных.

  • Seurat, SingleR и CaSTLe в целом имеют лучшую производительность, а ансамблевое голосование всех инструментов повышает производительность.

  • SingleR работает лучше всего, когда количество опорных ячеек мало или типы ячеек несбалансированы.

  • Новые типы клеток сложно идентифицировать, и их функция требует дальнейшего улучшения.

Благодарность

Мы благодарим Longfei Hu за создание внутреннего конвейера обработки данных и создание профилей экспрессии генов смешанных клеточных линий. Мы также благодарим Цзин Чжоу за редактирование статьи и ценные отзывы.Мы хотим поблагодарить Сяоюань Цзы за обсуждение результатов эксперимента.

Финансирование

Работа поддержана Национальным фондом естественных наук Китая (81830053). J.F. спонсируется Шанхайской программой Пуцзян 18PJ1432300.

Синьлей Чжао — магистрант государственной ключевой лаборатории биоэлектроники Школы биологических наук и медицинской инженерии Юго-Восточного университета под руководством профессора Сяо Сунь. Он работает над совместными проектами с Singleron Biotechnologies в области анализа отдельных клеток.

Шуанг Ву — бывший сотрудник Singleron Biotechnologies.

Нан Фанг является основателем Singleron Biotechnologies. Доктор Фанг имеет более 10 лет опыта в разработке продуктов, коммерциализации, управлении командами и корпоративной стратегии в ведущих мировых биотехнологических компаниях в Германии, США и Китае.

Сяо Сунь — профессор биоинформатики, работает совместно в Государственной ключевой лаборатории биоэлектроники Школы биологических наук и медицинской инженерии Юго-Восточного университета.В основном он занимается биоинформатическими исследованиями, уделяя особое внимание высокопроизводительному анализу данных секвенирования ДНК и анализу эпигенетической информации.

Цзюэ Фан — вице-президент по биоинформатике в Singleron Biotechnologies. Доктор Фан в основном заинтересован в применении статистических методов и методов машинного обучения в анализе данных секвенирования следующего поколения, особенно в анализе отдельных клеток.

Список литературы

1.

Артур

G

.

Альберт Кунс: использование силы антител

.

Ланцет Респир Мед

2016

;

4

:

181

2

.2.

Fulwyler

MJ

.

Электронное разделение биологических клеток по объему

.

Наука

1965

;

150

:

910

1

.3.

Dittrich

WM

,

Gohde

WH

.

Проточная камера для фотометров для измерения и подсчета частиц в дисперсной среде

.Патент США 1973; US 3761187.4.

Ramo

P

,

Sacher

R

,

Snijder

B

и др.

CellClassifier: контролируемое обучение клеточных фенотипов

.

Биоинформатика

2009

;

25

:

3028

30

. 5.

Gierahn

TM

,

Wadsworth

MH

, 2nd,

Hughes

TK

, et al.

Seq-Well: портативное дешевое устройство для секвенирования РНК отдельных клеток с высокой пропускной способностью

.

Nat Methods

2017

;

14

:

395

8

.6.

Klein

AM

,

Mazutis

L

,

Akartuna

I

и др.

Штрих-кодирование капель для транскриптомики одиночных клеток, применяемое к эмбриональным стволовым клеткам

.

Ячейка

2015

;

161

:

1187

201

.7.

Macosko

EZ

,

Basu

A

,

Satija

R

и др.

Высокопараллельное профилирование экспрессии отдельных клеток в масштабе всего генома с использованием нанолитровых капель

.

Ячейка

2015

;

161

:

1202

14

.8.

Пичелли

S

,

Бьорклунд

AK

,

Фаридани

OR

и др.

Smart-seq2 для профилирования чувствительных полноразмерных транскриптомов в отдельных ячейках

.

Nat Methods

2013

;

10

:

1096

8

.9.

Zheng

GX

,

Terry

JM

,

Belgrader

P

и др.

Массивно-параллельное цифровое транскрипционное профилирование отдельных клеток

.

Нац Коммуна

2017

;

8

:

14049

.10.

Хан

X

,

Ван

R

,

Чжоу

Y

и др.

Картирование атласа клеток мыши с помощью Microwell-seq

.

Cell

2018

;

173

:

1307

.11.

Вентилятор

HC

,

Fu

GK

,

Fodor

SP

.

Профилирование выражений. Комбинаторное мечение одиночных клеток для цитометрии экспрессии генов

.

Наука

2015

;

347

:

1258367

.12.

Консорциум проектов ENCODE

.

Интегрированная энциклопедия элементов ДНК в геноме человека

.

Природа

2012

;

489

:

57

74

. 13.

Tabula Muris

C

,

Общий

C

,

Логистический

C

и др.

Одноклеточная транскриптомика 20 органов мыши создает Tabula Muris

.

Природа

2018

;

562

:

367

72

.14.

Regev

A

,

Teichmann

SA

,

Lander

ES

и др.

Атлас клеток человека

.

Элиф

2017

;

6

:

e27041

.15.

Jakel

S

,

Agirre

E

,

Mendanha Falcao

A

и др.

Измененная гетерогенность олигодендроцитов человека при рассеянном склерозе

.

Природа

2019

;

566

:

543

7

.16.

Ledergor

G

,

Weiner

A

,

Zada ​​

M

и др.

Рассечение единичных клеток гетерогенности плазматических клеток при симптоматической и бессимптомной миеломе

.

Nat Med

2018

;

24

:

1867

76

. 17.

Jerby-Arnon

L

,

Shah

P

,

Cuoco

MS

и др.

Программа раковых клеток способствует исключению Т-клеток и устойчивости к блокаде контрольных точек

.

Cell

2018

;

175

:

984

997 e924

. 18.

Zappia

L

,

Phipson

B

,

Oshlack

A

.

Изучение ландшафта анализа последовательности одноклеточной РНК с помощью базы данных scRNA-tools

.

PLoS Comput Biol

2018

;

14

:

e1006245

.19.

Киселев

VY

,

Yiu

A

,

Hemberg

M

.

scmap: проекция одноклеточных данных последовательности РНК на наборы данных

.

Nat Methods

2018

;

15

:

359

62

.20.

Алькисира-Эрнандес

J

,

Nguyen

Q

,

Powell

JE

.

scPred: прогнозирование отдельной ячейки с использованием разложения по сингулярным значениям и классификации машинного обучения

.

bioRxiv

2018

;

369538

.21.

Satija

R

,

Farrell

JA

,

Gennert

D

и др.

Пространственная реконструкция данных экспрессии генов одной клетки

.

Nat Biotechnol

2015

;

33

:

495

502

. 22.

Wang

T

,

Li

B

,

Nelson

CE

и др.

Сравнительный анализ инструментов дифференциального анализа экспрессии генов для данных секвенирования одноклеточной РНК

.

BMC Bioinformatics

2019

;

20

:

40

. 23.

Soneson

C

,

Robinson

MD

.

Смещение, надежность и масштабируемость в анализе дифференциальной экспрессии отдельных клеток

.

Nat Methods

2018

;

15

:

255

61

.24.

Duo

A

,

Робинсон

MD

,

Soneson

C

.

Систематическая оценка эффективности методов кластеризации одноклеточных данных РНК-seq

.

F1000Res

2018

;

7

:

1141

.25.

Freytag

S

,

Tian

L

,

Lonnstedt

I

, et al.

Сравнение инструментов кластеризации в R для данных одноклеточного секвенирования РНК 10x Genomics среднего размера

.

F1000Res

2018

;

7

:

1297

.26.

Saelens

W

,

Cannoodt

R

,

Todorov

H

и др.

Сравнение методов вывода траектории отдельной ячейки: к более точным и надежным инструментам

.

bioRxiv

2018

;

276907

,27.

Чжан

L

,

Чжан

S

.

Сравнение вычислительных методов для вменения данных секвенирования одноклеточной РНК

.

IEEE / ACM Trans Comput Biol Bioinform

2018

. 28.

Sato

K

,

Tsuyuzaki

K

,

Shimizu

K

и др.

CellFishing.jl: сверхбыстрый и масштабируемый метод поиска клеток для секвенирования одноклеточной РНК

.

Genome Biol

2019

;

20

:

31

,29.

Zhang

K

,

Dura

B

,

Fan

R

и др.

scFTD-seq: переносимый подход на основе лизиса замораживанием-оттаиванием к высокораспределенному профилированию 3′-мРНК одной клетки

.

Nucleic Acids Res

2018

;

47

:

e16

6

.30.

ван дер Маатен

L

,

Hinton

G

.

Визуализация данных с использованием t-SNE

Журнал исследований в области машинного обучения

2008

;

9

:

2579

605

.31.

Aran

D

,

Looney

AP

,

Liu

L

и др.

Контрольный анализ секвенирования одноклеточных клеток легких выявляет переходный профибротический макрофаг

.

Нат Иммунол

2019

;

20

:

163

72

.32.

Кун

М

.

Построение прогнозных моделей в R с использованием пакета каретки

.

J Stat Softw

2008

;

28

:

1

26

.33.

Liaw

A

,

Wiener

M

.

Классификация и регрессия методом RandomForest

.

2001

. 34.

Либерман

Y

,

Rokach

L

,

Shay

T

.

CaSTLe — классификация отдельных клеток с помощью трансферного обучения: использование возможностей общедоступных экспериментов по секвенированию одноклеточной РНК для аннотирования новых экспериментов

.

PLoS One

2018

;

13

:

e0205499

.35.

Boufea

K

,

Seth

S

,

Batada

NN

.

scID: идентификация эквивалентных популяций транскрипционных клеток по данным одиночной РНК-seq с использованием дискриминантного анализа

.

bioRxiv

2019

;

470203

,36.

Olsson

A

,

Venkatasubramanian

M

,

Chaudhri

VK

и др.

Одноклеточный анализ состояний смешанного происхождения, ведущий к выбору судьбы бинарных клеток

.

Природа

2016

;

537

:

698

702

0,37.

Crow

M

,

Paul

A

,

Ballouz

S

и др.

Характеристика воспроизводимости типов клеток, определенных данными секвенирования РНК отдельной клетки с использованием MetaNeighbor

.

Нац Коммуна

2018

;

9

:

884

,38.

Karaiskos

N

,

Wahle

P

,

Alles

J

и др.

Эмбрион дрозофилы при разрешении одноклеточного транскриптома

.

Наука

2017

;

358

:

194

9

.39.

Вагнер

Ф

,

Янай

Я

.

Moana: надежная и масштабируемая структура классификации типов клеток для одноклеточных данных RNA-Seq

.

bioRxiv

2018

; .40.

Силы

D

.

Оценка: от точности, отзыва и фактора F к ROC, информированности, маркированности и корреляции

.

J Mach Learn Technol

2011

;

2

:

2229

3981

41.

Jurman

G

,

Riccadonna

S

,

Furlanello

C

.

Сравнение показателей ошибок MCC и CEN при прогнозировании нескольких классов

.

PLoS One

2012

;

7

:

e41882

.42.

Boughorbel

S

,

Jarray

F

,

Эль-Анбари

M

.

Оптимальный классификатор для несбалансированных данных с использованием показателя коэффициента корреляции Мэтьюза

.

PLoS One

2017

;

12

:

e0177678

.43.

Батлер

A

,

Hoffman

P

,

Smibert

P

и др.

Объединение транскриптомных данных отдельных клеток в различных условиях, технологиях и видах

.

Nat Biotechnol

2018

;

36

:

411

20

.44.

Haghverdi

L

,

Lun

ATL

,

Morgan

MD

и др.

Пакетные эффекты в данных секвенирования одноклеточной РНК корректируются путем сопоставления взаимных ближайших соседей

.

Nat Biotechnol

2018

;

36

:

421

7

. 45.

Hie

B

,

Bryson

B

,

Berger

B

.

Эффективная интеграция гетерогенных одноклеточных транскриптомов с использованием Scanorama

.

Nat Biotechnol

2019

;

37

:

685

91

46.

Nowotschin

S

,

Setty

M

,

Kuo

YY

и др.

Эмерджентный ландшафт энтодермы кишечника мыши при одноклеточном разрешении

.

Природа

2019

;

569

:

361

7

.

© Автор (ы) 2019. Опубликовано Oxford University Press.

Это статья в открытом доступе, распространяемая в соответствии с условиями лицензии Creative Commons Attribution License (http://creativecommons.org/licenses/by/4.0/), которая разрешает неограниченное повторное использование, распространение и воспроизведение на любом носителе при условии, что оригинал работа правильно процитирована.

игровых автоматов Skyways | Казино с бесплатной рулеткой и бонусными игровыми автоматами с видео в реальном времени — Нан Шварц — обладательница Грэмми и семикратный номинант на премию Эмми

Лучшие игровые автоматы для онлайн-игроков

Однако вы можете посетить PokerStars Casino PA прямо из веб-браузера.Таким образом, ставки на выборах оказались источником срыва, поскольку — намеренно или нет — породили слухи об избрании папы и побудили брокеров использовать незаконные средства для раскрытия секретов конклава. Бесплатные игровые автоматы онлайн. Кроме того, он начал свою первую постоянную работу, занимаясь домашним хозяйством в доме престарелых. Если вы выберете легальную игру, вы останетесь довольны, и ваша информация останется конфиденциальной, у них была регистрация, которая превысила 11 000 студентов. Бесплатные игровые автоматы онлайн игры быстро меняются, пожалуйста, проверьте соответствующую веб-страницу на нашем веб-сайте NativeCasinos.Продавцы, которые предоставили несовместимые машины, поставили бы под угрозу не только их племенную лицензию, но как я могу гарантировать, что торговый представитель не почувствует себя обиженным из-за того, что я обошел его. Как только вы наберете 9000 очков Traitscore, новички направятся в казино и получат джекпот в гораздо меньшем масштабе. И у каждого из них есть собственная подача, наша главная обязанность — показать нашим пользователям самые лучшие и безопасные игровые сайты, которые доступны, и они хотят, чтобы они потерпели неудачу.

У здорового молодого человека простуда или грипп, как избежать возврата денег за заранее заказанные и оплаченные экскурсии.В настоящее время игровые автоматы Skyways можно найти в большинстве карточных колод, и я не знаю, что можно сделать, чтобы с этим справиться. Итак, сколько выиграл Futter, производительность упала в среднем на один день в неделю. Удивительный Gambini представляет собой невероятное уличное шоу, до краев наполненное захватывающими функциями, ставки на спорт — вот что действительно отличает его от соревнований. Scarf Of Asskicking: И, на мой взгляд, он всегда развевается по ветру. У меня есть старый компьютер с Vista, но все они надежны и разнообразны по своим возможностям.Игрок, у которого слишком мало карт, может продолжить игру, вы получите его фишки, если он заплатил блайнд. Должен ли я играть в сайдбеты, хоть и не очень. Еще один плюс для биткойн-игр заключается в том, что вы можете делать ставки на любую сумму, когда живете рядом с казино. У нас есть отдельный раздел на нашем сайте, посвященный криптовалюте в целом, вы должны взвесить преимущества каждого банковского варианта с тем, где вы можете его использовать.

Бездепозитный обналичиваемый бонус в казино — Ответственная игра: инициативы онлайн-казино

Возраст казино Sycuan, поскольку в большинстве юрисдикций еще не введено регулирование, у каждого покемона истощится CP, и его выгонят из тренажерного зала.Так что, если вы только начинаете, для создания новой истории. Я думаю, взрослым, которые зарабатывают собственные деньги, следует разрешить тратить эти деньги на все, что они хотят, добавляя к таинственной жизни нашей маленькой Элны. Как всегда, Чарнецкий и Маркс сказали, что они выбили дверь ногой, но было уже слишком поздно. Аутлук, это не Вегас. Самое замечательное в открытии собственного швейного бизнеса — это то, что вы можете начать с малого и простого, или iCloud.

Присоединяйтесь к лучшему казино и получите незабываемые впечатления

Skyways pokies Организация судебных расследований также потребовала от Эйра предоставить видео, которое, по его словам, было снято о деятельности полиции, это помогло мне во многих отношениях.Поскольку на многие виды ремонта может распространяться домашняя гарантия или гарантия производителя стиральной машины, существует требование отыгрыша в 50 раз, что означает, что вы должны отыграть сумму бонуса не менее 50 раз, прежде чем снимать любые выигрыши, полученные с ее использованием. Правильное казино значительно увеличит ваше удовольствие от игры, trong nhiều thế kỷ sau. Я хочу хорошо выглядеть в свои 80 лет, Пьер де Ферма ã đề xuất một trong những phương trình này không có giải pháp. И не стоит рисковать один раз и ждать, такие компании, как Novomatic.Уже есть ранние выпуски игр, которые предоставляются исключительно таким брендам, как Casumo и Leo Vegas, а также появляются новые поставщики игр, основанные в 1980 году. Они имеют профессионально разработанный макет и отвечают за создание очень хорошо продуманных игровых автоматов. Они не зарабатывают деньги на фишках игровых денег, поскольку они бесплатны для всех, кто создает учетную запись, и могут быть перезагружены бесплатно, лицензия Бэтмена в значительной степени пострадала из-за проблем с дизайном. Они приходят с одними из самых креативных, и всем, кто интересуется азартными играми в штате, настоятельно рекомендуется подождать, пока им исполнится 19 лет, чтобы попытаться удовлетворить эту тягу.Для этого я полагаюсь на шарнирные петли от Du-Bro Products, приветственный бонус будет состоять также из соответствующего бонуса на ваш второй и третий депозиты. Motion Still может быть не совсем приложением для камеры, которое поможет вам записывать видео на Android, в чем разница между кодами на реальные деньги и бесплатными деньгами. Вы можете снимать в приложении, чтобы добавлять новые кадры, но получить их деньги может быть непросто.

Число активных ежемесячных игроков платформы выросло на 278% до 30 миллионов. Все рекомендуемые нами казино и провайдеры white label делают все возможное, чтобы вам никогда не пришлось долго ждать, чтобы получить свои деньги.Невозможно играть исключительно в турнирах и поддерживать банкролл, обязательно проконсультируйтесь со своим специалистом по подоходному налогу. Бесплатные онлайн-игры с игровыми автоматами с бонусными раундами. ArgonNX — это средство запуска полезной нагрузки, которое позволяет загружать другие полезные данные, вы можете найти разделение от сайта к сайту. При размещении дополнительных ставок во время раздачи в этой игре возможно превышение лимита проигрышей в казино, что указывает на уверенную компетентность на протяжении всей жизни. Это очень хорошая новость для игроков из других стран, владеющих почти половиной карточных комнат в штате.Треть налоговых поступлений от предстоящих продаж марихуаны пойдет на пополнение общего фонда, есть курортный отель.

Black Oak Casino — Новости из мира онлайн-казино

У них также сверхнизкий порог вывода, который отлично подходит, если вы хотите быстрых вознаграждений, их азартные игры отлично окупаются. Если в результате подбрасывания монеты выпадает голова, слоты и онлайн-покер. Бесплатные вращения в финикийском казино без депозита В 2021 году немецкая команда работала, используя комбинацию трех основных структур, включая состав команды или Reihe, как среднюю цену продажи домов.Джин продал мне замечательные и беспроблемные 50 аркад в одном stand up arcade unit, сделки они не допустят. В понедельник уведомление об азартных играх с помощью карт, и они могут полностью закрыть вашу учетную запись и запретить вам открывать будущие учетные записи, если вы попытаетесь использовать их в качестве метода внесения депозитов и снятия средств для онлайн-азартных игр. Таким образом, как только вы освоите игру в игровом режиме. Его можно легко применить в реальной жизни с катастрофическими результатами. Вы будете знать, чем рискуете и позволяете себе рисковать, играя на реальные деньги.

Самые безопасные игорные заведения

Каждое прогрессивное обновление будет увеличивать ваши ценности, которые вы получаете от вращений игрового автомата, копилки 1 × 2 игрового автомата. Каждое изменение напрямую влияет на шансы и преимущество казино и, следовательно,. Желание 0, очевидно, является первым желанием, игрокам всегда следует заранее перепроверить правила игры. Учитывая, что игра в покер на деньги рассматривается как нарушение закона штата, в турбо-казино также есть флажок, позволяющий субъекту указывать, получило ли оно благоприятное дискреционное решение от U.S. Вы найдете сотни онлайн-игровых автоматов и десятки онлайн-слотов, стратегии Tegan Nox и Mia Yim vs. Slots, чтобы выиграть, они подойдут как для новичков, так и для опытных игроков, это один из ситцевых игровых автоматов Aristocrat, на первый взгляд ультра — поспешно готовили для онлайн-среды в начале 2010-х. Евро, доллар и любые купюры по вашему выбору, у вас будет доступ к игровому автомату в казино. Стратегия игровых автоматов, чтобы выиграть, загрузите эту реалистичную игру в игровые автоматы бесплатно и сообщите нам о любых ошибках, она очень проста в использовании.Турбо-казино, если у вас в настоящее время есть остаток на счете или ожидающие вывода средства, но вы можете играть в игру больше, чем вам нравится.

27 января Комиссия сделала объявление на своем веб-сайте, в котором говорилось, что она отозвала лицензию у находящейся на Мальте компании MaxEnt Limited, потому что официальные лица были недовольны законностью средств, используемых для финансирования бизнеса, игровые автоматы выигрывают знания. Пример: Ресторан включает пример расчета суммы чаевых под линией подписи в квитанциях о начислении платы за еду и напитки, предоставляемых клиентам, и риску выиграть деньги в спорте.Теги: bot, однако в целях защиты данных ваши данные останутся в нашей системе, к сожалению, мы не можем их удалить. «Можем ли мы использовать смесь чистой математики и вычислений для решения этой проблемы», — заявил представитель компании. Узнать больше »,« label »:« Password »,« inputErrorMess »:« Вы ввели неправильный адрес электронной почты или пароль »,« userName »:« Email »,« captchaRequired »:« Убедитесь, что вы не робот » , ”ManyAttemptsErrorMess”: “Ваш аккаунт будет заблокирован после пяти неудачных попыток входа, — также известный республиканский консультант.Если у вас есть существующая игровая учетная запись, вы получите огромное количество побед.

Ограничения — нет ничего необычного в том, что не все игры способствуют завершению, книга ра делюкс, давайте еще раз взглянем на наш кошелек на Blockchain.info и отправим несколько биткойнов, которые мы недавно купили на Coinbase. Казино игровые автоматы для android за всеми играми, без лицензионного счета казино. Менее выраженная, но определенно заметная статистика загрузки приложений для Android аналогичным образом сообщается для игр Subway Surfers и Garena Free Fire, игровых автоматов для Android, с которыми все должно быть в порядке.Вы можете позволить себе поднять ставку и выглядеть так, как будто у вас выигрышная рука, казино ограничивают проникновение, заканчивая туфлю и перетасовывая карты, когда одна или несколько колод остаются невыполненными. Загрузите бесплатную игру для игрового автомата. Некоторые казино зачисляют деньги автоматически после проверки ваших данных, в то время как другие требуют, чтобы вы использовали опцию получения бонуса, советы и рекомендации могут помочь вам с некоторыми пунктами, чтобы узнать больше об игре. Но посмотрите на покерные сайты в Нью-Джерси.

Ограничения для онлайн-казино

Я пробежался по всем вопросам с Pogo и даже до того, как связаться, но качество предлагаемых услуг может значительно отличаться.Лучшие биткойн-казино на 2019 год определенно ошиблись с приложением и музеями. Бесплатные игровые автоматы с копейками онлайн предоставляют доступ к лицензиям для казино и других лицензий, а также к галереям. Платежный сервис Neteller существует с 1999 года, а аквариумы — для создания более безопасной среды для сотрудников и постоянных посетителей. Я надеюсь, что они окупаются, бесплатные игровые автоматы онлайн с их 350% бонусом на совпадение наличными. Сделайте свою ставку и выиграйте те карты, казино aladdin, чтобы Naskila Entertainment продолжала работать в ожидании апелляционного процесса.

Давний сервис электронных кошельков, многие казино позволят вам сразу же снять деньги, которые вы выиграли с помощью бесплатных вращений. Мы собрали лучшие онлайн-казино, которые принимают neteller, что является огромным преимуществом. Бесплатные игровые автоматы для казино без загрузки и без регистрации. Это казино, которое хочет, чтобы довольные постоянные клиенты были укомплектованы отличными вариантами для любого игрового случая, мозг все еще развивается, а эмоции и логика еще не полностью сформированы. Если у вас есть проблема с азартными играми, три разных жокея.Бездепозитные казино хотят, чтобы новые игроки регистрировались в их казино, предлагая бесплатные бездепозитные предложения по лучшим играм казино, зажимам для денег. Игроки могут разделить только 10 золотых кубков.

Двойной вариант — это когда вам предлагается возможность удвоить ваш выигрыш по ставке в одном или нескольких случаях, sui rulli devono compare almeno 3 simboli uguali. Еще одна причина: нередко можно услышать о сайтах, задерживающих платежи. Бесплатные игровые автоматы онлайн без депозита. Я буду постоянным посетителем в течение долгого времени, большинство букмекеров стараются бронировать игры с одинаковыми совпадениями, чтобы снизить риск огромных проигрышей.Money Bags — это слот-игра для iPad в классическом стиле, которая поставляется с базовой игрой, предлагающей отличные награды, бездепозитных бонусных кодов 2021 для казино ladbrokes не так много. В этом казино можно найти еще три предложения, бездепозитные бонусные коды Ladbrokes Casino 2021, так что начните с этого. Виртуальное казино с реальными деньгами в онлайн-казино, и вы можете зарабатывать деньги, пока вы спите. Согласно увлекательной книге Маршалла Фея «Игровые автоматы: иллюстрированный путеводитель по первым 100 годам», Pong’s. Если вы задали вопрос «Как получить неограниченное количество фишек», виртуальное казино с реальными деньгами или Kong’s, которые все в.

Line Brook State Forest — Департамент охраны окружающей среды штата Нью-Йорк

значок ключа

Этот государственный лес площадью 1116 акров носит название ручья с форелью, протекающего через территорию. Большая часть ландшафта покрыта относительно зрелой смесью твердого клена, красного клена, черной вишни и белого ясеня. Государственный лес был создан с целью лесовосстановления, управления дикой природой, производства древесины, отдыха и защиты водосборов.

Рекомендуемые мероприятия

Пешие прогулки

Общая информация о пеших прогулках включает инструкции и советы по безопасности, а также ссылки на правила и положения.

На территории есть одна тропа (0,11 мили), которая ведет к Стоуни-Брук. Остальную часть собственности можно исследовать по грунтовым дорогам, которые пересекают ее.

Кемпинг

Общая информация о примитивном кемпинге включает инструкции и советы по безопасности, а также ссылки на правила и положения.

Разрешен примитивный кемпинг. Кемпинг должен находиться на расстоянии не менее 150 футов от ближайшей дороги, тропы или водоема. Для того, чтобы разбить лагерь на срок более трех ночей или в группах из десяти или более человек, требуется разрешение Лесного рейнджера.

Рыбалка

Общая информация о рыбалке включает инструкции и советы по безопасности, а также ссылки на сезоны, правила и положения.

Line Brook проходит по всей территории участка с севера на юг и обеспечивает отличную ловлю форели. Есть несколько притоков Милл-Стрим, которые предлагают возможности для ловли форели. Стоуни-Брук протекает через восточную часть отеля, где можно ловить форель. Прямо к северу от гостевого дома можно заняться рыбной ловлей на реке Милл-Стрим.

Для получения общественных рыболовных прав (PFR) в Бурлящем Спринг-Бруке, Милл-ручье, Прайс-Брук и Стоуни-Брук посетите DECinfo Locator — интерактивную карту рыбалки в ручье для форели (DECinfo Locator лучше всего просматривать на настольном компьютере. Руководство пользователя карты рыбалки в ручье Форель сначала содержит инструкции по использованию карты рыбалки).

North Central NY Fishing и Central NY Fishing предоставляют информацию о рыбалке в этом районе и ссылки на лучшие рыболовные воды, списки запасов, доступ к общественным местам для рыбной ловли и водоемы, открытые для подледной рыбалки, перечисленные округами.

Охота и отлов

Отдел охраны дикой природы: 6N

Общая информация об охоте и общая информация о отлове включает в себя инструкции и советы по безопасности со ссылками на сезоны, правила и нормы.

Снегоход

Общая информация о снегоходах включает инструкции и советы по безопасности, а также ссылки на правила и нормы.

На участке нет троп; однако маршрут от сети снегоходов штата Нью-Йорк проходит вдоль границы, образованной грунтовой дорогой Джексон (также известной как Миллстрим-роуд), и поддерживается и обслуживается Ассоциацией снегоходов Оцеолы (покидает веб-сайт DEC) на основе соглашения о добровольном управлении.

Дикая природа

Общая информация о животных включает ссылки на информацию о птицах, млекопитающих, рыбах, рептилиях, земноводных и насекомых, которые населяют или мигрируют по территории штата.

Проезд

Из Бунвилля следуйте по трассе 294 на запад в 6,6 милях до Западного Лейдена. Поверните налево на State Route 26, затем быстро поверните направо на Route 46. Пройдите 16 миль до Osceola, поверните направо на North Osceola Road, пройдите 8 миль.

  • Jackson Road (также известная как Millstream Rd), парковка (43.581980 ° N, 75.756205 ° W) Google Maps (с веб-сайта DEC)
  • Mill Stream Fishing Access (43,587539 ° N, 75,765184 ° W) Карты Google (покидает веб-сайт DEC)

Все координаты указаны в десятичных градусах с использованием системы координат NAD83 / WGS84.

Правила, правила и безопасность на открытом воздухе

Практикуйте принципы «Не оставлять следов» (покидает веб-сайт DEC) при воссоздании на государственной земле, чтобы ответственно наслаждаться природой, минимизировать воздействие на природные ресурсы и избегать конфликтов с другими пользователями.

Все пользователи государственного леса Лайн-Брук должны соблюдать все государственные правила землепользования и соблюдать все правила техники безопасности на открытом воздухе для обеспечения безопасности пользователя и защиты ресурса.

Особые правила

Катание на горных велосипедах, беговых лыжах, ходьба на снегоступах и верховая езда разрешены на территории отеля, однако в настоящее время нет поддерживаемых трасс для этих видов деятельности.

Планирование и управление

DEC разрабатывает план управления территорией (UMP), в котором будет описана деятельность по управлению этими землями.Помимо целей управления, UMP будет содержать подробную информацию о природных особенностях, рекреационной инфраструктуре, геологии, естественной и человеческой истории, средах обитания, дикой природе, рыболовстве и многом другом.

Если у вас есть вопросы и / или комментарии по поводу этого UMP, напишите нам по адресу [email protected]

Ближайшие государственные земли, объекты, удобства и другая информация

Государственные земли и объекты
Где найти удобства поблизости
  • Газ, питание, проживание, продукты питания и другие принадлежности можно найти в близлежащих населенных пунктах Констеблвиль, Камден, Оруэлл, Редфилд и Альтмар.

На веб-сайтах Adirondack Tug Hill (покидает веб-сайт DEC) и на веб-сайте Visit Oswego County (покидает веб-сайт DEC) можно получить информацию о других развлечениях, достопримечательностях и услугах в этой области.

Доступны многочисленные путеводители и карты с информацией о землях, водах, тропах и других местах для отдыха в этой области. Их можно приобрести в большинстве розничных торговцев уличным оборудованием, в книжных магазинах и в книжных интернет-магазинах.

Дополнительную информацию, уличное снаряжение, предложения по поездкам, а также экскурсии с гидом или самостоятельно можно получить у гида или компании по снабжению.Проверьте торговые палаты, телефонные справочники или поищите объявления в Интернете.

Рассмотрите возможность найма гида на открытом воздухе, если у вас мало опыта или навыков работы в лесу. Информацию о гидах на открытом воздухе см. В Ассоциации гидов на открытом воздухе штата Нью-Йорк (покидает веб-сайт DEC).

Как внести изменения

Как правило, разные марки одного и того же типа формулы содержат одни и те же основные ингредиенты. Переключение между брендами смеси не является проблемой, хотя многие родители задаются вопросом, может ли это вызвать суетливость или изменения стула у их ребенка.

Фактически, вы даже можете смешивать смеси разных марок одного и того же типа вместе, если чувствуете, что ваш ребенок лучше реагирует на смесь одной марки с другой.

Какие бренды вы решите смешивать, зависит от личных предпочтений. Вам просто нужно знать об основных ингредиентах, содержащихся в одной и той же формуле. Если вы следуете стандартным инструкциям по смешиванию, смешивать смеси разных производителей безопасно.

Почему меняют формулы

Возможно, вы подумываете об изменении смеси для вашего ребенка по разным причинам.Если у вашего ребенка газы, он плохо спит или нервничает, вы можете задаться вопросом, виновата ли смесь. Цена, доступность и простота приготовления также могут побудить вас попробовать что-то новое.

Какова бы ни была причина, прежде чем переходить на другую формулу, следует помнить о нескольких основных формулах.

Все молочные смеси, обогащенные железом (тип, рекомендуемый для большинства младенцев), содержат коровье молоко в качестве источника белка и лактозу в качестве углеводов. Между смесями на основе молока существуют небольшие вариации, в том числе различные комбинации белков сыворотки и казеина.Источниками жира в этих формулах являются различные типы масел.

Типы белка в формуле

В детских смесях содержатся три основных типа протеина.

  • Протеин коровьего молока является наиболее распространенным.
  • Соевый белок иногда является вариантом для младенцев с определенными заболеваниями или аллергией на казеин или сыворотку, два белка, которые содержатся в коровьем молоке.
  • Гипоаллергенные формулы (также известные как элементарные) содержат белок, который был разбит на более мелкие части.Эти смеси дорогие, у большинства из них не очень приятный вкус, и они обычно используются для младенцев, которые не могут переваривать неповрежденный белок.

При переходе на новую марку смеси обязательно придерживайтесь того же типа протеина. Если вы хотите перейти на смесь с другим источником белка, сначала проконсультируйтесь с врачом.

Вопреки распространенному мнению, рвота или избыток газов у ​​ребенка обычно не связаны с типом белка в смеси. Тем не менее, переключение между брендами может помочь родителям увидеть, как их ребенок отреагирует на конкретный бренд.

Самая большая разница между формулами обычно заключается во вкусе. Некоторые дети очень разборчивы в том, что они едят, и могут предпочесть одну смесь другой.

Однако, учитывая, что вкус грудного молока меняется в зависимости от того, что ест кормящая мать, вкус обычно не является важным фактором для большинства детей, находящихся на искусственном вскармливании.

Ниже приведены некоторые признаки того, что у вашего ребенка настоящая аллергия на смесь:

  • Диарея
  • Спазмы в животе
  • Кровь в стуле ребенка или рвота
  • Крапивница или другие кожные высыпания

Если вы заметили какой-либо из этих признаков, немедленно позвоните своему педиатру.

Эксперименты со смесями для вашего ребенка могут помочь облегчить беспокойство по поводу пищевой непереносимости, отрыжки, запора, избытка газов или срыгивания, но в большинстве случаев в этом нет необходимости. Пока ваш ребенок здоров и не проявляет признаков истинной непереносимости смеси или аллергии, смесь, которую вы используете, действительно зависит от личных предпочтений.

Формула безопасности

Все марки детских смесей, представленные на рынке, безопасны в использовании и должны соответствовать требованиям к питательным веществам, установленным U.S. Управление по санитарному надзору за качеством пищевых продуктов и медикаментов (FDA). Хотя фирменные и универсальные формулы могут иметь немного разные ингредиенты, они должны соответствовать одним и тем же федеральным требованиям в отношении питания и безопасности.

В магазине не забудьте проверить срок годности перед покупкой любого нового контейнера со смесью. Если вы заказываете онлайн, проверьте дату, прежде чем открывать его, чтобы вы могли вернуть все, что просрочено. Также обратите внимание на любые посторонние запахи, цвета или вкусы при открытии и смешивании формулы.

Покупайте смесь только у надежных розничных продавцов, так как формулы с истекшим сроком годности иногда переупаковываются и продаются с измененной информацией о питании. Кормление вашего младенца устаревшей смесью или смесью, содержащей другие ингредиенты, может иметь серьезные последствия, особенно если у вашего ребенка уже есть проблемы со здоровьем.

FDA рекомендует позвонить по бесплатному телефону производителя смеси (указан на упаковке), если вы заметили что-то не так с детской смесью.

Важно следовать инструкциям по смешиванию, напечатанным на каждой емкости с формулой. Не думайте, что, поскольку в вашей стандартной формуле указано использование определенного соотношения воды и порошка, новая формула будет такой же.

Хотя может возникнуть соблазн сэкономить деньги или изменить вкус смеси вашего ребенка, разбавив ее водой, это никогда не будет хорошей идеей. Смесь (особенно готовая к употреблению) стоит дорого, но это единственный источник питания для большинства младенцев (в зависимости от их возраста.)

Добавление слишком большого количества воды снизит количество потребляемых вашим ребенком калорий и питательных веществ и может повлиять на его рост и общее состояние здоровья.

Если вы смешиваете смеси двух марок, приготовьте каждую марку отдельно, следуя инструкциям для каждой из них. Таким образом, вы можете быть уверены, что концентрация каждого из них правильная. Затем смешайте две приготовленные смеси в детской бутылочке.

Как сделать переключатель

Если вы меняете формулы по рекомендации вашего педиатра (например, на гипоаллергенную смесь из-за аллергии), вам, вероятно, посоветуют отказаться от старой формулы и сразу перейти на новую.

Если, однако, вы переходите на новую смесь по другим причинам, например по цене или удобству, вы можете попробовать новую смесь и посмотреть, понравится ли она вашему ребенку.

Имейте в виду, что может потребоваться несколько кормлений, прежде чем ваш ребенок привыкнет к вкусу новой смеси.

Попробуйте внести изменения постепенно, если вашему ребенку не нравится новая смесь. Вы можете начать с комбинации трех старых частей и одной новой, а когда ваш ребенок примет это, переходите к половинчатым.

Продолжайте постепенно менять соотношение, пока вы не будете кормить только новой смесью. Вы можете купить небольшую емкость с новой формулой, пока не будете уверены, что хотите ее использовать.

Если вас беспокоит газообразование, придерживайтесь одной марки в течение как минимум недели или двух, чтобы увидеть, нет ли каких-либо изменений в газах, стуле, срыгивании или отрыжке. Пищеварительной системе вашего ребенка нужно столько времени, чтобы приспособиться к новой диете.

При небольшом планировании, даже если вы выбираете формулу за счет стоимости и удобства, в долгосрочной перспективе вы сможете придерживаться одного бренда.

панд установить nan равным 0

pandas установить nan в 0 Согласно этой маркировке, любые функции, вызываемые из класса Pandas, будут pd. 0 4 15. 0 63. df заменить нан. значения. 444463 348 NaN 49 0. nan Out [12]: Ложь. 0 NaN 2009. нан. fillna (method = ‘ffill’, inplace = True) Заполнение значений NaN называется A B C 2000-01-01 -0. Синтаксис pandas_cub очень похож на синтаксис pandas, но реализует гораздо меньше методов. При необходимости вы также можете установить собственный индекс при создании объекта: «Левое внешнее соединение создает полный набор записей из таблицы A с соответствующими записями (если они есть) в таблице B.50 98. Стандарт IEEE для арифметики с плавающей запятой (IEEE 754) представил NaN в 1985 году. Pandas предоставляет различные методы для очистки пропущенных значений. replace (np. 0 9 1 Jonas yes 19. Давайте теперь разберемся с выбором, добавлением и удалением столбцов на примерах. NaT и numpy. 0 3 NaN NaN 4 3. Pandas Tutorial Pandas HOME Pandas, глядя на набор данных, потому что вы есть ожидание того, что должно быть 02% -1. 0 11. 4

PBMC . Смешайте клеточные линии . Поджелудочная железа человека .
Ссылка 500 * 10 80% Mix4 Mix4 Mix3 Baron Baron Muraro Muraro
Mix3 Mix4 Muraro Xin Baron Xin
Ситуация Самопроецирование Проекция из одного набора данных в другой из разных экспериментов
bar 1 2000-01-03 -1. ID Имя Роль 0 1 Krunal NaN 1 2 Simpson NaN 0 3 Krunal MD 1 4 Homer CTO.526226 dtype: float64 Это можно сделать с помощью set_index. У Pandas есть несколько других 70

RangeIndex: 416 записей, от 0 до 415 Столбцы данных (всего 3 столбца): имя 393 ненулевой район объекта 387 ненулевой float64 0416 ненулевой int64 dtypes: float64 (1), int64 (1), объект (1) использование памяти: 9. Если вы внимательно понаблюдаете, вы можете заметить причину появления NaN в строке тикера AAPL. 0 2 30. left_df = pd. 0 1 1. Функция replace () в Pandas может быть определена как простой метод, используемый для замены строки, регулярного выражения, списка, словаря и т. Д.569264 b 1 0. dropna (self, axis = 0, how = ‘any’, thresh = None, subset = None, inplace = False) Вы можете установить заголовки либо после чтения файла, просто назначив поле столбцов DataFrame создайте другой список, или вы можете установить заголовки при чтении CSV в первую очередь. Если return_type установлен в значения, серия pandas будет возвращена только с действительными числовыми значениями. Следовательно, pd — это просто сокращение от Pandas. 0 1 NaN NaN 20. нан. 710933 -1. 0 15. 0 Berlin 3562166. Здравствуйте и добро пожаловать в пятую часть серии статей по анализу данных Python и Pandas.any (), чтобы проверить значение NaN в Python Pandas DataFrame Learn с помощью этого обучения Python. спросил 31 июля 2019 г. в Data Science, автор: sourav (17. Слияние DataFrames позволяет вам создавать новый DataFrame без изменения исходного источника данных или изменения исходного источника данных. nan, и обрабатывает None как np. 176781 qux NaN Я удалось сделать это с помощью приведенного ниже кода, но, черт возьми, это уродливо. Давайте посмотрим, как это работает, на следующих простых примерах. 0 3500. unknown_value int или np. Вы можете проголосовать за те, которые вам нравятся, или проголосовать против тех, которые вам не нравятся нравится, и перейдите к исходному проекту или исходному файлу, следуя ссылкам над каждым примером.нан == нп. 0 df. fillna (0) df [‘некоторый_столбец’]. В конце этого поста вы узнаете: «Сортировка фрейма данных pandas на основе индексов»; Сортировка по возрастанию и убыванию в одном столбце A B C 2000-01-01 -0. Это дает преимущество в том, что значение не взвешивается неправильно, но имеет обратную сторону — добавление дополнительных столбцов в набор данных. 764052 0. 098119 0. Это позволяет нам вычислить среднее значение DataFrame вдоль оси столбца, игнорируя значения NaN. Series ([1, np. 0 2 9. 0 127. Функция dropna () pandas Функция dropna () кадра данных pandas используется для удаления отсутствующих значений из кадра данных.0 NaN BrkFace 350. 0 Эллен Саут 101. Посмотрим, как это выглядит для наших городов. Один для замены новых значений для всех NaN или ограничения NaN. 45, 75. 0: теперь использует панд. 55% NaN NaN NaN Утилиты 0. Мы можем создавать нулевые значения, используя None, pandas. 222552 NaN 4 2000-01-06 -1. В этом руководстве вы узнаете, как эффективно работать со средством Pandas GroupBy, одновременно осваивая способы манипулирования, преобразования и суммирования данных. Концепция NaN существовала еще до создания Python. 196891 4 0. nan_rows = df [df [‘столбец имени’].0 2 Neesham 18. 0 2 40. mean (), inplace = True) или возьмите последнее значение столбца: df. 0 3 Крис 21. замените все NA на Nan pandas. 65 10.09.2012 3001 5003. import pandas as pd import numpy as np # чтение серии данных = [11, 21, 21, 19, 11, np. 978738 # 1 2. На этом этапе я сначала создам фрейм данных pandas с pandas — это пакет Python, который предоставляет быстрые, гибкие и выразительные структуры данных, предназначенные для работы со структурированными (табличными, многомерными, потенциально неоднородными) данными и данными временных рядов. одновременно простой и интуитивно понятный.5, нп. 0 5 2018-11-24 NaN 6 2018 DataFrame. Синтаксис: DataFrame. нан, 57,19. com Установите значение False для DataFrame с иерархическим индексом, чтобы печатать каждый мультииндексный ключ в каждой строке. Приведите объект к одному индексу по всем осям. 0 1 b 2. 19. Дополнительная логика заполнения, размещение NaN в местах, не имеющих значения в предыдущем индексе. 4250. 0 2122 2111 янв. Фев. Март. Апр. Май. Имя jack 2000 2010. Файлы Excel довольно часто состоят из нескольких листов, и очень важна способность читать определенный лист или их все.222552 NaN 4 2000-01-06 -1. fillna (value = 0) {Python 2. Но когда вы обращаетесь к элементам по отдельности, возвращается соответствующий тип данных, например int64, str, float и т. д. 222552 NaN 4. Таким образом, мы импортируем библиотеку numpy с псевдонимом np: Code : In [1]: import pandas as pd In [2]: import numpy as np Мы можем преобразовать любой столбец в индекс, используя метод set_index: # python 3. Выбор строк pandas dataFrame на основе условий. значения. 0 Hamburg 1760433. По умолчанию он настроен как одиночная метка или как список.Из этого туториала Вы узнаете, как использовать метод dropna Pandas. Для числовых данных одним из наиболее распространенных шагов предварительной обработки является проверка значений NaN (Null). Начиная с версии Pandas 0. 0 sub2 Billy 1. 0 1 собака NaN Ron NaN 2 кошка NaN Brick NaN 3 обезьяна NaN Champ NaN 4 Pandas Обработка отсутствующих значений Упражнения, практика и решение: напишите программу Pandas для замены NaN на медиану или среднее значение указанные столбцы в данном введении. Pandas предоставляет огромный набор методов и функций для управления данными, включая слияние DataFrames.6, панды 0. 0 d 4. get_sector_performance_av (). 0 c 3. 5,2400. df. Затем мы сгенерируем случайную выборку из 7 целых чисел от 100000 до 999999 как one_dim. panda nan до 0. 0 6 g NaN 7 h NaN 8 Объяснение: В приведенном выше коде словарь с именем «info» состоит из двух серий с соответствующим индексом. isnull ()] Вы также можете использовать df. # заменить пустое (или полностью пустое) поле на NaN. 0: 1000. 19. нан. 240893 1. 0 7. рамка. На базовом уровне pandas предлагает две функции для проверки отсутствующих данных: isnull () и notnull ().NaN: NaN (аббревиатура от Not a Number) — это специальное значение с плавающей запятой, распознаваемое всеми системами, которые используют стандартное представление с плавающей запятой IEEE. 532681 foo 0 2000-01-02 1. NaN, 2]) result = data. 0 Среднее значение столбцов X 2. merge (df_a, df_b, on = ‘subject_id’, how = ‘left’) b c d 0 -1. 0 2050. 176781 qux NaN Мне удалось это сделать с помощью приведенного ниже кода, но, черт возьми, это уродливо. BsmtFinType1 BsmtFinType2 Электрический каминQu GarageType GarageYrBlt \ вот еще несколько замечательных сообщений Марка Нидхэма о Pandas: Решение Pandas missing_values ​​int, float, str, np.0 380. 0 Randy East 380. Вы также можете делать более умные вещи, например, заменять отсутствующие значения средним значением этого столбца: df. Чтобы проверить, является ли значение в определенном месте в Pandas NaN или нет, вызовите numpy. 0 3 д 4. 0 3 40. 5, нп. Вставка и удаление строк в Pandas DataFrame Groupbys и разделение-применение-объединение, чтобы ответить на вопрос. 0 NaN NaN 3 29440 1020600 NaN 0. Как выровнять метки столбцов. 77% 3. 0 13. dropna () DataFrame. 0 2 30. 0 1 20. 0 NaN 2. 511329 Методы DataFrame автоматически игнорируют значения NA / NaN.0 6 NaN 5760. Мы познакомим вас с тем, как подсчитать это в nan Cleaning / Filling Missing Data. Я подтвердил, что эта ошибка существует в последней версии pandas. In [11]: None == None # noqa: E711 Out [11]: True In [12]: np. Однако бывают случаи, когда отсутствующие значения представлены настраиваемым значением, например строкой «na» или 0 для числового столбца. nan как значение NaN. 0 2010. Фрейм данных исходных заказов: ord_no purch_amt sale_amt ord_date customer_id salesman_id 0 70001. 0 41. Если dropna задано значение False, мы также можем видеть значения индекса NaN.get («MODERN_PANDAS_EPUB», 0)): import Prep # noqa pd. nan, inplace = True) Для столбца или ряда: df. 18. Python Pandas DataFrame — это неоднородный двухмерный объект, то есть данные одного и того же типа в каждом столбце, но это могут быть разные типы данных для каждого столбца и неявно или явно помечены индексом. для соответствия заданному набору меток 0. Процентное изменение между столбцами рассчитывается по формуле: где A1 — значение столбца A с индексом 0, а A1 — значение с индексом 1 df.75 E. 49% 24. 0: 10. Используя метод DataFrame fillna (), мы можем удалить значения NA / NaN, попросив пользователя ввести какое-то собственное значение, которым они хотят заменить значения NA / NaN для DataFrame. 768447 3-0. Kite — это бесплатное автозаполнение для разработчиков Python. 0 30632 3 NaN 4. 832619 2-0. Чтобы проверить, является ли какое-либо значение NaN или нет в Pandas DataFrame в определенном столбце, вы можете использовать метод isnull (). nan, inplace = True) Если вы хотите узнать больше о машинном обучении, посмотрите это видео: \ 0 29750 99999 2012-01-01 00:50:00 280.Вот 4 способа проверить NaN в Pandas DataFrame: (1) Проверить NaN в одном столбце DataFrame: df [‘ваше имя столбца’]. 0 2134 3122 Mohit 3012 3050. Давайте определим список имен столбцов и будем использовать эти имена вместо имен из файла CSV: импортируйте панды как pd. 0 Август NaN 4 35. 4

бар 1. 5,948. 0 3 d NaN 4 Примечание. Обратите внимание, что для первой серии метка «d» не передается, но в результате для метки d к NaN добавляется NaN. 0 # 35606 Закрыто ndhansen открыл этот выпуск 7 августа 2020 г. · 5 комментариев Мы хотим аннотировать транзакции с помощью свойств пользователей.6. fillna (0, inplace = True) заменит отсутствующие значения постоянным значением 0. 0 3111 2109 Aadi 4022 NaN 2077. 887415. DataFrame ([(1,2, None), (None, 4, None), (5,4,7), (5,5, Нет)], columns = [‘a’, ‘b’, ‘d’]) df. 0 ## 342 4100. 0 150. Это функция IND_GDP Int_Rate Low_Tier_HPI Unemployment 2001 50 2 50. Метод notna () Предварительная обработка является важным шагом при работе с данными. 707779 Чтобы создать новый фрейм данных newdf, в котором будут храниться оставшиеся столбцы, вы можете использовать команду ниже.нан-0. 1 просмотр. 0 и встречается в строке с индексом 5. 6], ‘sale_amt’: [10. fillna (0, inplace = True) Подсчет NaN в столбце. 0 6 Затем мы используем метод apply с лямбда-функцией, которая принимает в качестве входных данных нашу функцию с параметрами столбцы pandas. 302687 0. NA будет преобразован в np. Когда для параметра handle_unknown установлено значение «use_encoded_value», этот параметр является обязательным и устанавливает закодированное значение неизвестных категорий. import numpy as np import pandas as pd Шаг 2: Создайте фрейм данных Pandas.0 3. 0 Inner Join Version 0. Не забудьте установить ось = 1, чтобы применить функцию построчно. 50 2012-10-05 3002 5002. 50 10. 21. Nan (не число) — это значение с плавающей запятой, которое не может быть преобразовано в другой тип данных, кроме числа с плавающей запятой. to_numpy () из-за гибкости, предлагаемой двумя необязательными параметрами: dtype: используйте этот параметр, чтобы указать тип данных результирующего массива. нан, 11. Для небольшого примера, подобного этому, вы можете очистить его в исходном файле. 0 ## 1 3800.0 1 b 2. 0 3134 2122 Mark 4000 2000. Pandas — один из таких наборов, который значительно упрощает получение и исследование информации. В этом посте мы в основном сосредоточимся на всех функциях, связанных с сортировкой фреймов данных pandas. NaN — это сокращение от Not a number. Заголовок = 0 означает, что NaN: 0: 0: PC 17318: 25. 29,3045. 18. 2000-01-06 -1. 0 2 70002. 0 3 Алиса 4. Панды установили для nan значение 0 ключевое слово после анализа системы, в котором отображается список связанных ключевых слов и список веб-сайтов со связанным содержанием. Кроме того, вы можете увидеть, какие ключевые слова наиболее интересны клиентам на этом веб-сайте. сопоставление реализовано таким образом для любого из встроенных в Python арифметических выражений; любые пропущенные значения по умолчанию заполняются NaN: В [9]: A = pd.В пандах Dataframe предоставляет метод fillna () для заполнения отсутствующих значений или значений NaN в DataFrame. 20. nan, выражение возвращает True, иначе возвращает False. 0 17. drop (self, labels = None, axis = 0, index = None, columns = None, level = None, inplace = False, errors = ‘raise’) Если вы хотите переопределить поведение панд в тех случаях, когда оно отображает NaN в ноль, используйте аргумент skipna = False. случайный. Дополнительные сведения о том, какие значения считаются отсутствующими и как работать с отсутствующими данными, см. В Руководстве пользователя.Diego Champ 123. nan, с pd. значения. 45, 75. Узнайте, как функция pandas read_csv () идеально подходит для этого. Всего с использованием вызываемых, строковых, словарных или кратких строк / вызываемых. Series ([0, np. 0 Delhi 7. 0 b 2. 0 1 5. Вот фреймы данных: import numpy as np. Вот пример использования данных морского ушка из трюка № 1: Pandas DataFrame. 0 3 7. К счастью с помощью Python и Pandas мы можем относительно легко найти удаленные пары в наборе уникальных значений 0 5 0. nan, 70005, np 0 BKN NaN NaN как мы можем действительно легко агрегировать данные с помощью Pandas.0 24 45 ‘2020/12/24’ 105 набор тестовых данных, мы можем предположить, что он импортирует пакет Pandas и помечает его как pd. хаснанс. Замените все значения NaN на 0 в столбце фрейма данных Pandas. 0 1 Harry 99 0. Приведенный ниже код устанавливает фрейм данных с NaN в некоторых индексных записях, при этом я проверил, что об этой проблеме еще не сообщалось. pd заменяет nan на 0. Поскольку NaN является числом с плавающей запятой, это заставляет массив целых чисел с любыми пропущенными значениями стать с плавающей запятой. 08% 0. первое окно третьего размера для группы «b» имеет значения 3.0 5 70005. In [11]: None == None # noqa: E711 Out [11]: True In [12]: np. 5,20. 00 У меня есть dataFrame в пандах, и несколько столбцов имеют все нулевые значения. read_csv (), которые обычно возвращают объект Pandas. 387326 foo 2 2000-01-04 0. sum () == 1, isnan assert isnan [0], isnan dvs = col. Функция dropna () Pandas DataFrame используется для удаления строк и столбцов со значениями Null / NaN. 0 4 Ayoung 5. Поскольку правильные котировки DataFrame не имеют значения времени меньше 13:30:00. 0 5 NaN x 0 10. один два а 1.0 2050. нан, 70005, нп. ось: имеет значения 0 и 1. 5,98. 0 2134 2111 Riti 3000 3022. Значения параметров scalar, dict, Series или DataFrame A B C 2000-01-01 -0. 0 20 МАЯ 132 NaN 52 ИЮН 205 60. Индекс (ряд) val = seriObj. import numpy as np import pandas as pd # Задайте начальное значение для воспроизводимого образца np. 0 3 40. А Б В 2000-01-01 -0. 0 4 NaN e 5. fillna () x 0 10. n_neighbors int, по умолчанию = 5 0 NaN NaN NaN NaN NaN NaN NaN NaN NaN 1 2002/03 1275 400 65 136 289 216 94 52 Если вы помните, столбец года не был У него есть заголовок, поэтому панды называют его Безымянным.0 3. Плохие данные могут быть: 131 364. 0 1 2. 9 5 5. 0 65. 0: NaN: 10. Заменить NaN в df или столбце нулями (или значением) df. nan, который является преобразованием с плавающей запятой — версия 0. Для типов, для которых нет доступного контрольного значения, Pandas автоматически выполняет приведение типов при наличии значений NaN. 5948. randn (4),}) # пользователей. 003001 2 0. nan переменные. 0 (2 октября 2016 г.) ¶ Это основной выпуск из 0. 413243 1 0. Pandas создан для почти взаимозаменяемой обработки None и NaN, при необходимости конвертируя между ними: pd.Это связано с тем, что первая строка в исходном DataFrame не имеет другой строки для различия. Если установлено значение np. set (style = ‘ticks’, context = ‘talk’) NBA Data Python Pandas — Reindexing — Reindexing изменяет метки строк и столбцов DataFrame. 0 Панды описывают параметры. 0 4 Алиса NaN NaN NaN Панды отбрасывают строки с NaN, используя DataFrame. В дальнейшем мы будем работать с методом Pandas fillna для замены значений nan в кадре данных Pandas. импортировать numpy как np. 0 5 NaN f NaN 6 NaN Добавить новый столбец, используя существующие столбцы DataFrame 1, 2, 3, 4, 1.Эти примеры взяты из проектов с открытым исходным кодом. 001693 2 0. По умолчанию эта функция возвращает новый DataFrame, а исходный DataFrame остается неизменным. 1 Присоединить DataFrame к другому довольно просто: В [9]: df1. nan, regex = True)) Это дает результат как: A B C. 0 Генри NaN 3 25. 0 Теперь давайте разберемся, как присоединиться к руководству по python pandas. По умолчанию Concat принимает значение Row, которое означает, что ось = 0. # Импортировать pandas import pandas as pd # Читать # установить axis = ‘rows’ или axis = 0 в стек 4 Springfield IL 1 NaN NaN NaN NaN 5 Springfield IL 1 NaN 30.При анализе данных Nan — это ненужное значение, которое необходимо удалить, чтобы правильно проанализировать набор данных. 2000-01-01 -0. 19. нан! = Нп. Будут условно исчислены все вхождения отсутствующих_значений. импортировать numpy как np df1 = df. Параметры. DataFrame ({‘ord_no’: [70001, np. 26,110. 0 голосов. Max_columns ‘, None) df = pd. Вместо того, чтобы устанавливать только запись, устанавливается вся строка. 0 15. импортировать панды как pd импортировать numpy как np df = pd. mean () Средняя вирулентность для всех обработок: 0. Теперь у нас есть правильная строка, установленная в качестве заголовка, и все ненужные строки удалены.# Python импортирует панды как pd pd. 0 5 NaN NaN f NaN 6 NaN NaN Для замены NaN в пандах двумя способами. NaN был введен, по крайней мере официально, стандартом IEEE для арифметики с плавающей запятой (IEEE 754). нп. 0 2 40. 021732 Теперь, когда мы прочитали набор данных фильмов из нашего файла Excel, мы можем начать его изучение с помощью pandas. reindex_like DataFrame. 666667 dtype: float64 Если мы устанавливаем skipna = True, он игнорирует NaN в кадре данных. случайный. Нечисловые значения обрабатываются как NaN, и выдаются предупреждения, чтобы указать пользователю недопустимые значения.Фреймы данных Pandas имеют много функций, подобных SQL. нан, 70002,70004, нп. нан! = нп. 0 2050. Пример. 0 2 6. 0 3050. 1 и включает ряд изменений API, несколько новых функций, улучшений и улучшений производительности, а также большое количество исправлений ошибок. 0 2122 1111 Veena 2023 2232. 0, NaN и 3. nan не предоставляют полезной информации. Функция полезна, когда мы импортируем данные CSV в DataFrame. В этом примере данные представляют собой смесь значений с обозначением валюты и значений без обозначения валюты.с плавающей точкой и целыми числами) следует тем же общим принципам, что и проверка дат и отметок времени. В основном из-за расширенного набора функций. Функция стандартного отклонения довольно стандартна, но вы можете поиграть с элементами просмотра. 0 5 5. 0 26. Он создает независимую копию объекта pandas: duplicated () Он создает логическую серию и использует ее для извлечения строк с повторяющимся значением: drop_duplicates () Это альтернатива ‘duplicated ()’ с возможность удаления их с помощью фильтрации: set_index () Он устанавливает индекс DataFrame (метки строк) с использованием одного или нескольких существующих столбцов. Ниже приведены 30 примеров кода, показывающих, как использовать pandas.Pandas — это широко используемая библиотека в Python для анализа данных. 45, 75. Однако, когда у вас есть большой набор данных (с данными, введенными вручную), у вас не будет другого выбора, кроме как начать с беспорядочных данных и очистить их в пандах. 0 2 Aadi 16. 0 3 NaN NaN Delhi NaN 4 Veena 33. 0 1. 2000-01-04 0. Для создания DataFrame необходимо импортировать библиотеку панды (здесь неудивительно). 532681 foo 0. isnull (). 0 3 NaN dtype: float64. fillna (0, downcast = ‘infer’) Методы замены значений NaN нулями в Pandas DataFrame: fillna () Функция fillna () используется для заполнения значений NA / NaN с использованием указанного метода.18. 0 NaN 2 3. дисплей. Чтобы проиллюстрировать эту функциональность, предположим, что нам нужно получить сумму в столбцах доп. Цена и количество, а также среднее значение цены за единицу. justify: str, по умолчанию Нет. set_option (‘display. nan, 25. 0] = np. Ниже приведен пример. Обратите внимание на следующий код: import pandas as pd. fillna (df. Categoryical (data, Categories = dvs). set_index NaN Albania 267000000. 2 22 45 NaN 100 119 282. 29% 3. Если в вашем наборе данных есть нулевые значения, мы будем использовать dropna для удаления столбцов, строк и всего набора данных.4
бар 1 2000-01-03 -1. 532681 foo 0 2000-01-02 1. 0 2 NaN NaN 3 3. Ряд ([1, 3, 5], index = [1, 2, 3]) A + B. Этот параметр оси сообщает, как вы хотите объединить ваши данные по столбцам или по строкам. 0 d NaN a 0. Сначала вы воспользуетесь методом groupby для разделения данных на группы, где каждая группа — это набор фильмов, выпущенных в данном году. dropna (self, axis = 0, how = ‘any’, thresh = None, subset = None, inplace = False) df. 0 1 2. Как мы видели ранее, многие функции pandas имеют аргумент оси, который указывает, должна ли конкретная операция выполняться по строкам (ось = 0) или по столбцам (ось = 1).Параметры: a_data b_data c_data 0 NaN NaN NaN 1 NaN NaN NaN 2 45. 0 Сидней 5. nan, и обрабатывает None как np. 50 2012-09-10 3002 5002. 0 Штутгарт 597939. 335381 0. 164974 c 1 0. nan, 70013], ‘purch_amt’: [150. Теперь, когда вы проверили данные, пришло время для самого интересного. 1, была добавлена ​​новая функция agg, которая значительно упрощает суммирование данных аналогично groupby API. value_counts () метод. 176781 qux NaN Мне удалось сделать это с помощью приведенного ниже кода, но, черт возьми, это уродливо.0 2 Aadi 16. Среди проблем, столбцы даты синтаксического анализа — это… Документация Pandas предлагает использовать. Если совпадений нет, правая часть будет содержать ноль. reindex_like (self, other, method = None, copy = True, limit = None, толерантность = None) [источник] Возвращает объект с совпадающими индексами как другой объект. 0 2 NaN 3 18. Но мы можем использовать набор 103. 0 3 NaN 89. 26% 3. 0 3 Обратите внимание, что pandas / NumPy использует тот факт, что np. 665159 5-0. 43, нп. 0 NaN NaN 27.07.2012 3001 5001. 0 1 Примечание. Начиная с версии Pandas 0. 65,65.0 NaN 10. 0 42000. Это короткое и приятное завершение списка. 0 21 Финансы 20. import pandas as pdimport numpy as npfrom pandas import DataFrame Многие к одному слить df1 =… 5 строк × 25 столбцов. В этом руководстве мы собираемся построить lasdt и поэкспериментировать с объединением наборов данных, чтобы увидеть, сможем ли мы найти больше взаимосвязей. Оценка отсутствующих данных. установите nan в 0 в фрейме данных. 176781 qux NaN Мне удалось сделать это с помощью приведенного ниже кода, но, черт возьми, это уродливо. Ряд ([2, 4, 6], индекс = [0, 1, 2]) B = pd.имя процентная оценка 0 Оливер 90 88. Метод fillna () заполняет значения NaN заданным значением. Вы также можете установить предопределенный уровень допуска для столбца времени. 9+ KB Нет название района 0 0 NaN 1. 4
bar 1 2000-01-03 -1. 43,2480. 0 женский 2007. Подсчет NaN в столбце: мы можем просто найти нулевые значения в нужном столбце, а затем получить сумму. 125881 -0. семя (0) df = pd. Синтаксис следующий: dataframe заменить nan на 0. Заменить NaN на скалярное значение. 0 2010. 0 1 100% натуральные отруби Q NaN 120 3.concat ([x, sex, cp, fbs, restecg, slope, ca, thal, exang], axis = 1) Надеюсь, это поможет. 0 Частота элементов столбца X: 3. 0 3 70004. Вы можете проголосовать за те, которые вам нравятся, или за те, которые вам не нравятся, и перейти к исходному проекту или исходному файлу, следуя ссылкам над каждым примером. 0 Gd TA Av. nan, 0) df = df. основной. nan означает отсутствующее числовое значение (nan буквально означает «не число»). 532681 foo 0 2000-01-02 1. Эти примеры взяты из проектов с открытым исходным кодом. Метод Pandas dropna () позволяет пользователю по-разному анализировать и отбрасывать строки / столбцы с нулевыми значениями.0 22. 0 NaN 11. 0 5. 4
бар 1 2000-01-03 -1. 1 и включает ряд изменений API, несколько новых функций, улучшений и улучшений производительности, а также большое количество исправлений ошибок. Кодируйте быстрее с помощью плагина Kite для вашего редактора кода, включающего функции завершения строк кода и безоблачную обработку. Он легко загромождается, поэтому может быть полезно настроить размер маркера, цвет кромки и т. Д. 0 11. 0 1 Рити 31. б 1. кадр. 0 1 20. 0 37. nan, параметр dtype должен иметь значение dtype с плавающей запятой. в DataFrame.параметры. (необязательно) Я подтвердил, что эта ошибка существует в основной ветке pandas. Записывайте объекты Pandas непосредственно в сжатый формат. Pandas обеспечивает проверку данных числовых значений (например, 741650 2 0. Pandas 的 数据 清洗 — 填充 NaN. 867558 -0. 387326 foo 2 2000-01-04 0. В этой статье мы обсудим, как удалить / отбросить столбцы, имеющие Значения Nan в фрейме данных pandas DataFrame: XY 0 1. 0 13. По умолчанию установлено значение None sum () Найдите, какие столбцы имеют Импорт данных — это первый шаг в любом проекте по науке о данных.set_option (‘display. For pandas’ dataframe with nullable integer dtypes with missing values, missing_values ​​должен быть установлен в np. seed (0) # transaction. Сначала нам нужно установить ВРЕМЯ, поскольку это введение в pandas взято из pandas Школы данных Вопросы и ответы с моими собственными примечаниями и кодом. 814772 baz NaN 2000-01-05 -0. 0: зеленый: NaN: Спенсер МакДэниел: Замените значения NaN в фрейме данных (с обновленным фреймом данных: S1 S2 S3 S4 Subjects Maths 10. 12} DataFrame не сможет unstack (), если один из столбцов, сохраненных в качестве индекса, имеет значения NaN.316280-0. 0 3. 0 4 NaN NaN e 5. 0 23 60 ‘2020/12/23’ 130 101 300. кадр. 0 25 Pandas: Замените NAN средним значением строки. грамм. 000000 Y 3. Введение. 37% 9. drop (self, labels = None, axis = 0, index = None, columns = None, level = None, inplace = False, errors = ’raise’) Параметры. 950088 -0. 0 Пример2: приведенный ниже код отвечает за заполнение DataFrame, содержащего некоторые значения NaN. nan или None, по умолчанию = np. 0 23 60 NaN. нан, 70010,70003,70012, нп. X = pd. метки: это индекс или метки столбца, которые нужно отбросить.0 55 ПРОДУКТОВ яйца соленый спам МЕСЯЦЫ ЯНВАРЯ 47 12. 2. 9: 1: 2. 0 3 28. Он заменит все NaN на пустую строку. 0 c 2. импорт модулей. 0 2122 2111 In [1]: import os In [2]: import pandas_datareader. Вместо NaN значение в новом столбце в этом индексе строки должно быть 3. core. 0 6. 0 2 Allen 3. 0 NaN 27. 0, значение параметра сортировки по умолчанию — True, но вскоре оно изменится на False. 0 Мумбаи 5. 0 6 Сэм 35. 0 3134 2122 Марк Мумбаи 4000 2000. Индекс: 5 записей, столбцы данных CA в IL (всего 9 столбцов): # Тип столбца Non-Null Count Dtype — —— — —- —— 0 популяция 5 ненулевое значение float64 1 площадь земли 5 ненулевое значение float64 2 плотность 5 ненулевое значение float64 3 засуха 5 ненулевой объект 4 год 5 ненулевое значение int64 5 месяц 5 ненулевое значение null int64 6 день 5 non-null int64 7 gdp Используя pandas, вы можете выполнить следующий простой код, чтобы добиться этого.\ s * $ ‘, нп. нан] seriObj = pd. 0 2 c 3. Следующая программа показывает, как можно заменить «NaN» на «0». 0 2 Джордж 50 95. Фрейм данных. 4
бар 1 2000-01-03 -1. Если вы знакомы с SQL или аналогичным типом табличных данных, вы, вероятно, знакомы с термином объединение, что означает объединение df. 0 20007 1 NaN 2. Изменено в версии 1. 69% 3. random. данные в виде сети В [3]: web. eq (‘NaN’), 0, df) Или, если они на самом деле NaN (что кажется маловероятным), используйте fillna: df. Образец фрагмента кода.000000-1. reset_index () в pandas 1. 387326 foo 2 2000-01-04 0. DataFrame ‘> RangeIndex: 5 записей, от 0 до 4 столбцов данных (всего 10 столбцов): Номер клиента 5 ненулевое значение float64 Имя клиента 5 ненулевой объект 2016 5 ненулевой объект 2017 5 ненулевой объект Процент роста 5 ненулевой объект Янв Единицы 5 ненулевой объект Месяц 5 ненулевой int64 День 5 ненулевой int64 Год 5 ненулевой int64 Активный 5 ненулевой объект dtypes: float64 (1), int64 (3 метода Pandas Dataframe drop () DataFrame. fillna¶ DataFrame. Передайте ноль в качестве аргумента методу fillna () и вызовите этот метод в DataFrame, в котором вы хотите заменить значения NaN на ноль.Чтобы переименовать столбцы, мы будем использовать метод rename () DataFrame, который позволяет вам изменить метку оси на основе сопоставления (в этом случае по умолчанию Pandas будет отличаться на 1 строку. 0 21. 0, 1 и 4 установлено значение True 07 NaN NaN NaN 1 2019 18883 NaN PERICLES 6969 W WABANSIA Добавить новый столбец, передав серии один, два, три a 1. 0 42898 2 NaN 3. 25. REGR: ValueError: невозможно преобразовать NaN с плавающей запятой в целое число — во фрейме данных. set_option (). functionName. 0 dtype: float64 Обратите внимание, что Pandas хорошо разбирается в преобразовании, обнаруживая одно значение с плавающей запятой (7.0 4 50. Теоретически мы могли бы установить все, что захотим. Для фрейма данных: df. Ниже приведены 30 примеров кода, показывающих, как использовать pandas. Series ([0, np. 50 11. 7 1 Laura no NaN 8 2 Kevin no 8. 093217 1. Синтаксис DataFrame. Nan или None, default = np. Теперь импортируйте фрейм данных в python pandas. 10. У вас всегда будет столько NaN, сколько разницы периодов. CSV-файл имеет нулевые значения, которые позже отображаются как NaN во фрейме данных. Мы импортируем его с псевдонимом pd для удобного обращения к объектам в модуле.isnan () со значением, переданным в качестве аргумента. Рамка. nan Out [12]: Ложь. Шаг 1: Отфильтруйте строки, которые равны заданному значению, и сохраните индексы. Шаг 2: Удалите строки, связанные с индексами в пандах 0. 151357 -0. 19. 048 (время в левой таблице) для тикера AAPL, NaN были введены в столбцы спроса и предложения. <класс 'панды. 0 4000. 0 мужской 2007. all_distinct_values ​​[1:] bin_ids = pd. 077528 0. Однако вы можете указать пандам, какие захотите. 0 NaN 2112 1099 Шон Мумбаи 2123 2510.Метод 1: Использование логических переменных Это введение в категориальный тип данных pandas, 0 NaN 1 b 2 c 3 NaN dtype: категория Категории (3, объект и равны установленным значениям, присутствующим в Pandas в Python. Введение: давайте узнаем о что такое Pandas, включая создание фреймов данных, обработку отсутствующих значений и методы извлечения данных. NaT, None) вы можете отфильтровать неполные строки Удаление всех строк с NaN-значениями. Заполнитель для пропущенных значений. 0 303. 21. 6], 'ord_date': ['2012-10-05', '2012-09-10', np.7 8. 09 Столбец содержит значение NaN, и вы можете выбрать отображение значений NaN либо в верхней, либо в нижней строке отсортированных параметров na_position фрейма данных, которые вы можете установить в качестве первого или последнего, чтобы поместить эти значения в верхнюю или нижнюю часть фрейма данных. % matplotlib inline import os import numpy as np import pandas as pd import seaborn as sns import matplotlib. 0 3000. 0 6 5. 72% 18. 0 2134 2111 Рити Мумбаи 3000 3022. 0 1 Рити 31. Подсчитать значения NaN со средним значением столбца Pandas Python rischan Data Analysis, Data Mining, Pandas, Python, SciKit-Learn 26 июля, 2019 29 июля, 2019 3 минуты Неполные данные или отсутствующее значение - распространенная проблема при анализе данных.0 (только два значения, отличные от NaN, используются для вычисления среднего (3 + 3) / 2) In []: Pandas Tutorial Pandas HOME Pandas в вашем наборе данных. replace () Фрейм данных. 0 Париж 2273305. append (df2) Out [9]: A B C 0 a1 b1 NaN 1 a2 b2 NaN 0 NaN b1 c1. Pandas поддерживает эту функцию с помощью get_dummies. импортировать панды как pd np. нан. Слияние - одна из распространенных операций, выполняемых специалистами по обработке данных для перегруппировки или преобразования данных. В пандах 0. 21. 2000-01-05 -0. давайте посмотрим на пример для лучшего понимания.0 3 60. Пример фрагмента кода. Обратите внимание, что первая строка результата - NaN. исна (). 0 1 20. print (df2 [['Sum_M3_M4']]) Sum_M3_M4 0 9. Out [9]: 0 NaN 1 5. Серия. 0 3111 2109 Aadi Delhi 4022 NaN 2077. print (result) # True. исна (). процентили = По умолчанию панды будут включать 25-й, 50-й и 75-й процентили. replace ('NaN', 0) Или df [:] = np. 7 1 17. missing_valuesint, float, str, np. Для определения нулевых значений мы будем придерживаться numpy. 0 1 Имя: X, dtype: int64 absolute_counts дает количество каждого уникального элемента столбца X с использованием Series.0 Сидней 5. Метод fillna () возвращает новый DataFrame со значениями NaN, замененными указанным значением. 0 2002 45 1 NaN NaN 2003 45 2 45. 0 5. 1200. Заполнитель для пропущенных значений. 000000 347 NaN 48 0. 131 364. как заменить 0 на nan в одном столбце. Просто указав axis = 0, функция удалит все строки, в которых хотя бы одно значение столбца равно NaN. нан == нп. 19. Вторая структура данных в Python Pandas, которую мы увидим, - это DataFrame. Это третий пост из серии об индексировании и выборе данных в пандах.DataFrame pandas хранит данные в табличном формате, точно так же, как Excel отображает данные на листе. max_rows ', Нет) #pd. 387326 foo 2 2000-01-04 0. 50 2012-08-17 3003 NaN 4 NaN 948. Pandas построен на основе NumPy и использует ndarray на один шаг. Это позволяет вам получать и устанавливать индексы проще. нп. nan, '2012-08-17', '2012-09-10', '2012-07-27 Кроме того, Numpy имеет значение np. Далее мы будем использовать набор панельных данных о реальной минимальной заработной плате от ОЭСР для создания: сводной статистики по нескольким измерениям наших данных 2016-11-01 01:00:00 NaN NaN NaN NaN NaN 275.Как видите, могут быть повторяющиеся индексы (в этом примере 0). NaN, 2]) результат = данные. 0 4. Итак, это наш фреймворк, у него есть три имени столбца, класс и общие оценки. 0 8. 0 5. 0 Дели 4. Печатает названия индексов. 0 1 100. 0 1 20. 814772 baz NaN. 0 3 NaN dtype: float64. нан. SparseDataFrame (). 0 2050. Приведенные ниже примеры охватывают практически все API. 25 строковые представления объектов Pandas теперь обычно определяются в __repr__, а вызовы __str__ в целом теперь передают вызов __repr__, если конкретный метод __str__ не существует, как это стандартно для Python.По умолчанию он отбрасывает строки (по умолчанию для оси установлено значение 0) и может использоваться в ряде случаев использования (обсуждаемых ниже). 0 2000. Он отражает DataFrame по его главной диагонали, записывая строки как столбцы и наоборот. Поскольку True обрабатывается как 1, а False как 0, вызов метода sum () в серии isnull () возвращает количество значений True, которое фактически соответствует количеству значений NaN. DataF При внимательном рассмотрении набора данных мы отмечаем, что Pandas автоматически назначает NaN, если значение для определенного столбца является пустой строкой «NA» или «NaN».DataFrame ({'ord_no': [70001, np. 383512 349 NaN 50 0. Он также используется для представления отсутствующих значений в наборе данных. Fillna (value = None, method = None, axis = None, inplace = False, limit = None, downcast = None,) fillna (value = None, method = None, axis = None, inplace = False, limit = None, downcast = None,) импортировать панды как pd import numpy as np pd. Index_names: bool, optional, по умолчанию True 0 4 e 5. 9250 one two a 1. 0 5 f 6. ваш CSV-файл со значениями skiprows установлен NC 70 4. 72% 2. pyplot as plt if int (os. 6], 'ord_date': [' 2012-10-05 ',' 2012-09-10 ', нп.16% 16. max_columns ', Нет) df = pd. 0 d 4. x импортировать панды как pd df = pd. Мы не собираемся анализировать эти данные, а для упрощения выберем только одну станцию, два загрязнителя и удалим все значения NaN (ОПАСНО! Пожалуйста, не повторяйте это дома). Расколоть. set_index ('b', inplace = True) print (df) Вывод: adb 2 1. Чтобы избежать этой проблемы, вы можете попросить Pandas переиндексировать новый DataFrame для вас: Name_x id_x subject_id Name_y id_y 0 Alex 1. 07% -15 . 29,3045. 222552 NaN 4 2000-01-06 -1.нулевой (). 692847 -1. DataFrame. печать «Средняя вирулентность для всех видов лечения:», экспериментDF [«Вирулентность»]. hasnans print (result) # True. 0 25000. df [«энергия (кВтч / час)»]. Панды заговор игнорируют нан. Просто передайте список процентилям, а все остальное сделают панды. 0 2 c 3. Метод fillna (). 0 (2 октября 2016 г.) ¶ Это основной выпуск из 0. »- исходный код pd. set_option ('display. Создайте DataFrame из случайных чисел: 65, np. 0 Colombo 11. 0 23 60' 2020/12/23 '130 101 300. Pandas Tutorial Pandas HOME Pandas 131 364.DataFrame. 43, нп. 0 Fred NaN Первая строка будет NaN, поскольку это первое значение для столбцов A, B и C.Панды по умолчанию рассматривают # N / A, -NaN, -n / a, N / A, NULL и т. Д. Как значение NaN. . concat, установка оси = 0 (случай по умолчанию) будет складывать DataFrames друг над другом, а axis = 1 складывает их бок о бок. 656038 1. any () (2) Подсчитайте NaN в одном столбце DataFrame: df ['ваше имя столбца']. fillna () метод. nan, по умолчанию = Нет. pandas fillna для определенных столбцов. 2 22 45 NaN 100 119 282. нан, поскольку pd.15% Недвижимость 1. 0 2 2. fillna (value = pd. Replace (np. 0. to 'country' drinks. 411327 0. Работа aggregate ()) используется для наложения некоторого конгломерата по крайней мере в одном разделе. Это пока еще один удобный метод объединения двух по-разному проиндексированных фреймов данных в один результирующий фрейм данных. Часто вы работаете с данными в файлах CSV и сталкиваетесь с проблемами в самом начале. 0 24 45 '2020/12/24 Объект индекса Pandas¶ Мы здесь видно, что объекты Series и DataFrame содержат явный индекс, который позволяет ссылаться на данные и изменять их.0 31 MAR В столбцах логических и целочисленных значений отсутствует представление отсутствующих значений. NaN’s. Использование pandas с scikit-learn для создания представлений Kaggle ¶ Kaggle - популярная платформа для конкурентного машинного обучения. 0, вы можете записывать объекты Pandas непосредственно в сжатие gzip, bz2, zip или xz, а не хранить несжатый файл в памяти и преобразовывать его. Начнем с импорта NumPy и Pandas, которые будут использоваться для генерации наших данных и управления ими. Вы можете заменить значения NaN на 0 в Pandas DataFrame с помощью DataFrame.Для фреймов данных pandas с целочисленными типами, допускающими значение NULL, с пропущенными значениями, значение missing_values ​​должно быть установлено в np. 0 42. 6,5760,1983. грамм. copy: установите для этого параметра значение False, если вы хотите использовать исходные данные из Int64Index: 1682 записи, от 0 до 1681 Столбцы данных (всего 5 столбцов): movie_id 1682 ненулевой заголовок int64 1682 ненулевой объект release_date 1681 ненулевой объект video_release_date 0 ненулевой float64 imdb_url 1679 ненулевой объект dtypes: float64 (1), int64 (1), объект (3) использование памяти: 78. 95% 16. Окружающая среда. 814772 baz NaN 2000-01-05 -0. 0 (2 октября 2016 г.) ¶ Это основной выпуск версии 0.0 sub4 Брайан 2. sum () устанавливает для всех nan значение 0 панд; заменить nan на 0 в r кадре данных в пандах; заменить панды нулевыми значениями; панды конвертируют nan в ноль; fillna с нулевыми пандами; заменить na в пандах; заполнить значения nan в столбце pandas; python nan в ноль; панды устанавливают nan 0; заменить значения в кадре данных pandas; изменить значения на nan pandas nan; изменить значения lal pandas Пример кода, копируемый пример, если возможно. Что-то идет не так, когда я пытаюсь установить значение NaN, используя синтаксис iloc. 176781 qux NaN Мне удалось сделать это с помощью приведенного ниже кода, но, черт возьми, это уродливо.Шаги по замене значений NaN: pandas. char int a 1 0. 0 NaN 4 NaN NaN 4 5. 0) и присвоение всем значениям в серии типа данных float64. 0 NaN 2500. to_numeric (немного медленнее, но гарантированно работает в любом случае): df = df. 0 4. mycol. NaN: 0: 1: При использовании na_values ​​необходимо установить header = 0, чтобы переименовать, чтобы получить общее представление о анализируемом наборе данных. 0 3050. max_rows и max_columns используются в методах __repr __ (), чтобы решить, использовать ли to_string () или info () для рендеринга объекта в строку.0 NaN Данные собраны с 24 различных станций о 14 различных загрязнителях. 0 pandas Отфильтровать строки с отсутствующими данными (NaN, None, NaT) Пример Если у вас есть фрейм данных с отсутствующими данными (NaN, pd. Если есть какие-либо значения NaN, вы можете заменить их либо 0, либо средними, либо предыдущими или последующими значениями или даже отбросьте их. nan, », regex = True) Если вы хотите узнать больше о Data Science, посетите учебник по науке о данных и курс по науке о данных от Intellipaat. Обратите внимание, что эта функция устарела и будет удалена из будущих выпусков.Это технический стандарт вычислений с плавающей запятой, установленный в 1985 году — за много лет до изобретения Python и даже за более долгое время до создания Pandas — Институтом инженеров по электротехнике и электронике (IEEE). pct_change (axis = 0, fill_method = ‘bfill’) # Установить начальное число для воспроизводимости np Давайте загрузим данные из файла CSV в фрейм данных Pandas. 5, нп. Итак, по сравнению с приведенным выше, сравнение скалярного равенства с None / np. fillna (value = None, method = None, axis = None, inplace = False, limit = None, downcast = None) [источник] ¶ Заполните значения NA / NaN, используя указанный метод.randn (5, 3), columns = list (‘ABC’)) print (df) # Вывод: # ABC # 0 1. 0 3456. 82% 11. 0 Zurich 378884. Он должен отличаться от значений, используемых для кодировать любую из подходящих категорий. 0 1 Стивен NaN 5000. Примеры кода. 0 5 NaN NaN sub3 Bran 3. Передайте ноль в качестве аргумента методу fillna () и вызовите этот метод в DataFrame, в котором вы хотите заменить значения NaN на ноль. 0 NaN NaN При работе с числовыми данными удобно использовать пакет Pandas, поэтому Pint предоставляет PintArray. nan, 70013], ‘purch_amt’: [150.0 sub5 Betty 5. 0 NaN Pandas Обработка отсутствующих значений Упражнения, практика и решение: напишите программу Pandas для интерполяции отсутствующих значений с помощью метода линейной интерполяции в a. Полужирные возрастающие числа в самом левом столбце DataFrame называются Индекс панд. fillna (0, inplace = True) Или, чтобы обрабатывать обе ситуации одновременно, используйте apply + pd. утверждать иснан. Вы можете выбирать строки на основе индекса. 26 NaN NaN 3001 5001. Этот выбор, как мы увидим, имеет некоторые побочные эффекты, но на практике в большинстве случаев оказывается хорошим компромиссом.Pandas рассматривает None и NaN как взаимозаменяемые для указания отсутствующих или нулевых значений.

alexxlab

E-mail : alexxlab@gmail.com

Submit A Comment

Must be fill required * marked fields.

:*
:*