1
0
Fork 0
mirror of https://github.com/nickpoida/og-aws.git synced 2025-03-09 15:40:06 +00:00

Update ru.md

This commit is contained in:
Nikolay Poida 2020-03-06 23:14:14 +06:00 committed by GitHub
parent 5eac56416f
commit ab21787c5b
No known key found for this signature in database
GPG key ID: 4AEE18F83AFDEB23

View file

@ -1912,26 +1912,26 @@ Redshift
EMR
---
### EMR Basics
### Основы EMR
- 📒 [Homepage](https://aws.amazon.com/emr/) ∙ [Release guide](http://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/) ∙ [FAQ](https://aws.amazon.com/emr/faqs/) ∙ [Pricing](https://aws.amazon.com/emr/pricing/)
- **EMR** (which used to stand for Elastic Map Reduce, but not anymore, since it now extends beyond map-reduce) is a service that offers managed deployment of [Hadoop](https://en.wikipedia.org/wiki/Apache_Hadoop), [HBase](https://en.wikipedia.org/wiki/Apache_HBase) and [Spark](https://en.wikipedia.org/wiki/Apache_Spark). It reduces the management burden of setting up and maintaining these services yourself.
- 📒 [Домашняя страница](https://aws.amazon.com/emr/) ∙ [Информация о выпуске](http://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/) ∙ [ЧаВо](https://aws.amazon.com/emr/faqs/) ∙ [Расценки](https://aws.amazon.com/emr/pricing/)
- **EMR** (раньше обозначал Elastic Map Reduce, но не теперь, поскольку теперь он далеко выходит за пределы функции map-Reduce) - это сервис, который предлагает управляемое развертывание [Hadoop](https://en.wikipedia.org/wiki/Apache_Hadoop), [HBase](https://en.wikipedia.org/wiki/Apache_HBase) и [Spark](https://en.wikipedia.org/wiki/Apache_Spark). Он уменьшает бремя самостоятельного управления и настройки этих сервисов.
### EMR Alternatives and Lock-in
### Альтернативы EMR и привязки
- ⛓Most of EMR is based on open source technology that you can in principle deploy yourself. However, the job workflows and much other tooling is AWS-specific. Migrating from EMR to your own clusters is possible but not always trivial.
- ⛓Большая часть EMR основана на технологии с открытым исходным кодом, которую вы, в принципе, можете развернуть самостоятельно. Однако рабочие процессы и многие другие инструменты зависят от AWS. Переход от EMR к вашим собственным кластерам возможен, но не всегда тривиален.
### EMR Tips
### Советы по EMR
- EMR relies on many versions of Hadoop and other supporting software. Be sure to check [which versions are in use](https://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/emr-release-components.html).
- ⏱Off-the-shelf EMR and Hadoop can have significant overhead when compared with efficient processing on a single machine. If your data is small and performance matters, you may wish to consider alternatives, as [this post](http://aadrake.com/command-line-tools-can-be-235x-faster-than-your-hadoop-cluster.html) illustrates.
- Python programmers may want to take a look at Yelps [mrjob](https://github.com/Yelp/mrjob).
- It takes time to tune performance of EMR jobs, which is why third-party services such as [Quboles data service](https://www.qubole.com/mapreduce-as-a-service/) are gaining popularity as ways to improve performance or reduce costs.
- EMR опирается на многие версии Hadoop и другого вспомогательного программного обеспечения. Не забудьте проверить [какие версии используются](https://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/emr-release-components.html).
- ⏱Развернутые EMR и Hadoop могут иметь значительный оверхэд по сравнению с эффективным процессингом на одной машие. Если у вас немного данных и производительность имеет значение, вам стоит рассмотреть альтернативы, как например в этой [публикации](http://aadrake.com/command-line-tools-can-be-235x-faster-than-your-hadoop-cluster.html).
- Разработчики на Python также могли б обратить внимание на [mrjob](https://github.com/Yelp/mrjob) от Yelp.
- Требуется определенное время для тонкой настройки производительности задач EMR, именно поэтому сторонние сервисы, такие как [Quboles data service](https://www.qubole.com/mapreduce-as-a-service/) завоевывают популярность, как метод повышения производительности и снижения затрат.
### EMR Gotchas and Limitations
### Ошибки и ограничения, связанные с EMR
- 💸❗**EMR costs** can pile up quickly since it involves lots of instances, efficiency can be poor depending on cluster configuration and choice of workload, and accidents like hung jobs are costly. See the [section on EC2 cost management](#ec2-cost-management), especially the tips there about Spot instances. [This blog post](https://aws.amazon.com/blogs/big-data/strategies-for-reducing-your-amazon-emr-costs/) has additional tips, but was written prior to the shift to per-second billing.
- 💸 Beware of “double-dipping”. With EMR, you pay for the EC2 capacity and the service fees. In addition, EMR syncs task logs to S3, which means you pay for the storage and **PUT requests** at [S3 standard rates](https://aws.amazon.com/s3/pricing/#Request_Pricing). While the log files tend to be relatively small, every Hadoop job, depending on the size, generates thousands of log files that can quickly add up to thousands of dollars on the AWS bill. YARNs [log aggregation](http://hortonworks.com/blog/simplifying-user-logs-management-and-access-in-yarn/) is not available on EMR.
- 💸❗**Затраты на EMR** могут быстро накапливаться, так как используется множетсво инстансов, кроме того, эффективность может быть низкой, в зависимости от конфигурации кластера и выбора рабочих нагрузок, кроме того, инциденты вроде зависших задач могут быть весьма дорогостоящими. Посмотрите[раздел управления затратами EC2](#ec2-cost-management), особенно советы относительно спотовых инстансов. [Эта публикация](https://aws.amazon.com/blogs/big-data/strategies-for-reducing-your-amazon-emr-costs/) также дает дополнительные советы, однако была написана до перехода на посекундную тарификацию.
- 💸 Опасайтесь “двойных затрат”. С EMR вы платите за вычислительную емкость EC2 и сервисные платежи. В дополнение, EMR синхронизирует логи задач с S3, что означает, что вы платите за хранилище и **PUT запросы** по [расценкам S3 standard](https://aws.amazon.com/s3/pricing/#Request_Pricing). Хотя лог файлы имеют обыкновение быть относительно мелкими, каждая задача Hadoop, в зависимости от размера генерирует тысячи лог файлов, которые легко могут накинуть тысячи долларов к вашему счету от AWS. [Аггрегация логов YARN](http://hortonworks.com/blog/simplifying-user-logs-management-and-access-in-yarn/) не доступна в EMR.
Kinesis Streams
---