<div dir="ltr"><div>Hi Dan. I do not know much about distcp, but if it is the case that it uses a PUT (copy) operation to transfer data then distcp will not currently work with RiakCS. Support for that operation is on our roadmap, but it is not done yet unfortunately.<br>
<br></div><div>Kelly<br> </div></div><div class="gmail_extra"><br><br><div class="gmail_quote">On Wed, Jul 10, 2013 at 6:20 AM, Sajner, Daniel G <span dir="ltr"><<a href="mailto:dsajner@cas.org" target="_blank">dsajner@cas.org</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">





<div link="blue" vlink="purple" lang="EN-US">
<div>
<p class="MsoNormal"><span style="color:#1f497d">Hi.<u></u><u></u></span></p>
<p class="MsoNormal"><span style="color:#1f497d"><u></u> <u></u></span></p>
<p class="MsoNormal"><span style="color:#1f497d">Sorry about the “fake sender” in the subject of the original message.  Our mail security system is funny like that…<u></u><u></u></span></p>
<p class="MsoNormal"><span style="color:#1f497d"><u></u> <u></u></span></p>
<p class="MsoNormal"><span style="color:#1f497d">Anyhow, we discovered that distcp puts a temp file name in place and then tries to do a PUT (copy) that copy the file to the permanent name.  From the documentation that doesn’t appear to be supported by Riak.
</span><a href="http://docs.basho.com/riakcs/latest/references/apis/storage/RiakCS-PUT-Object-Copy/" target="_blank">http://docs.basho.com/riakcs/latest/references/apis/storage/RiakCS-PUT-Object-Copy/</a><u></u><u></u></p>

<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal">I still would like to hear if anyone else has had success with distcp.  Maybe there is another version out there that works differently.<u></u><u></u></p>
<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal">Thanks,<u></u><u></u></p>
<p class="MsoNormal">Dan<u></u><u></u></p>
<p class="MsoNormal"><span style="color:#1f497d">  </span><u></u><u></u></p>
<p class="MsoNormal"><span style="color:#1f497d"><u></u> <u></u></span></p>
<div>
<div style="border:none;border-top:solid #b5c4df 1.0pt;padding:3.0pt 0in 0in 0in">
<p class="MsoNormal"><b><span style="font-size:10.0pt;font-family:"Tahoma","sans-serif"">From:</span></b><span style="font-size:10.0pt;font-family:"Tahoma","sans-serif""> riak-users [mailto:<a href="mailto:riak-users-bounces@lists.basho.com" target="_blank">riak-users-bounces@lists.basho.com</a>]
<b>On Behalf Of </b>Sajner, Daniel G<br>
<b>Sent:</b> Tuesday, July 09, 2013 7:56 AM<br>
<b>To:</b> '<a href="mailto:riak-users@lists.basho.com" target="_blank">riak-users@lists.basho.com</a>'<br>
<b>Subject:</b> [PMX:FAKE_SENDER] Using Hadoop distcp to load data into Riak-CS<u></u><u></u></span></p>
</div>
</div><div><div class="h5">
<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal">Hi.<u></u><u></u></p>
<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal">I’m trying to load data from a Hadoop cluster using distcp.  Distcp supports the S3 API, but I’m running into issues.<u></u><u></u></p>
<p class="MsoNormal">Has anyone tested/had success with this process?  Any help is appreciated!  Details below…<u></u><u></u></p>
<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal">Thanks,<u></u><u></u></p>
<p class="MsoNormal">Dan<u></u><u></u></p>
<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal">Here’s my setup:<u></u><u></u></p>
<p class="MsoNormal">Hadoop cluster with a small text file in hdfs.<u></u><u></u></p>
<p class="MsoNormal">Jets3t.properties file configured to use a proxy host.<u></u><u></u></p>
<p class="MsoNormal">Proxy host running Varnish basically to serve as a load balancer at this point.  All caching is currently disabled.<u></u><u></u></p>
<p class="MsoNormal">Riak-CS/Riak running on a 6 server cluster.<u></u><u></u></p>
<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal">Here’s the scenario:<u></u><u></u></p>
<p class="MsoNormal">I’m running this command…<u></u><u></u></p>
<p class="MsoNormal"><u></u> <u></u></p>
<p><u></u><span style="font-size:10.0pt;font-family:Wingdings"><span>Ø<span style="font:7.0pt "Times New Roman""> 
</span></span></span><u></u><span style="font-size:10.0pt;font-family:"Courier New"">hadoop distcp -libjars ./jets3t-config.jar hdfs://hadoop.node.address/user/dan/test.txt s3n://riak-user-key:riak-secret@testing/<u></u><u></u></span></p>

<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal">I see many requests and responses in the varnishlog so I know communication is succeeding.  The distcp process throws an exception and I see empty files and directories left on my Riak system.<u></u><u></u></p>

<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal">The exception looks like this:<u></u><u></u></p>
<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Courier New"">13/07/08 15:52:42 INFO tools.DistCp: sourcePathsCount=1<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Courier New"">13/07/08 15:52:42 INFO tools.DistCp: filesToCopyCount=1<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Courier New"">13/07/08 15:52:42 INFO tools.DistCp: bytesToCopyCount=93.0<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Courier New"">13/07/08 15:52:42 INFO mapred.JobClient: Running job: job_201307031542_0023<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Courier New"">13/07/08 15:52:43 INFO mapred.JobClient:  map 0% reduce 0%<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Courier New"">13/07/08 15:52:50 INFO mapred.JobClient: Job complete: job_201307031542_0023<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Courier New"">13/07/08 15:52:50 INFO mapred.JobClient: Counters: 6<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Courier New"">13/07/08 15:52:50 INFO mapred.JobClient:   Job Counters<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Courier New"">13/07/08 15:52:50 INFO mapred.JobClient:     SLOTS_MILLIS_MAPS=6980<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Courier New"">13/07/08 15:52:50 INFO mapred.JobClient:     Total time spent by all reduces waiting after reserving slots (ms)=0<u></u><u></u></span></p>

<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Courier New"">13/07/08 15:52:50 INFO mapred.JobClient:     Total time spent by all maps waiting after reserving slots (ms)=0<u></u><u></u></span></p>

<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Courier New"">13/07/08 15:52:50 INFO mapred.JobClient:     Launched map tasks=1<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Courier New"">13/07/08 15:52:50 INFO mapred.JobClient:     SLOTS_MILLIS_REDUCES=0<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Courier New"">13/07/08 15:52:50 INFO mapred.JobClient:     Failed map tasks=1<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Courier New"">13/07/08 15:52:50 INFO mapred.JobClient: Job Failed: NA<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Courier New"">With failures, global counters are inaccurate; consider running with -i<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Courier New"">Copy failed: java.io.IOException: Job failed!<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Courier New"">        at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1246)<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Courier New"">        at org.apache.hadoop.tools.DistCp.copy(DistCp.java:667)<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Courier New"">        at org.apache.hadoop.tools.DistCp.run(DistCp.java:881)<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Courier New"">        at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Courier New"">        at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:79)<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Courier New"">        at org.apache.hadoop.tools.DistCp.main(DistCp.java:908)<u></u><u></u></span></p>
<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal">And Riak is left like this:<u></u><u></u></p>
<p><u></u><span style="font-size:10.0pt;font-family:Wingdings"><span>Ø<span style="font:7.0pt "Times New Roman""> 
</span></span></span><u></u><span style="font-size:10.0pt;font-family:"Courier New"">s3cmd ls s3://testing         
<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Courier New"">                       DIR   s3://testing/_distcp_logs_7bhq3z/<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Courier New"">                       DIR   s3://testing/_distcp_logs_j9re3f/<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Courier New"">2013-07-09 03:54         0   s3://testing/_distcp_logs_7bhq3z_$folder$<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Courier New"">2013-07-09 00:03         0   s3://testing/_distcp_logs_j9re3f_$folder$<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Courier New"">2013-07-08 19:52         0   s3://testing/test.txt<u></u><u></u></span></p>
<p class="MsoNormal"><u></u> <u></u></p>
<p><strong><span style="font-size:7.5pt;font-family:"Arial","sans-serif"">Confidentiality Notice</span></strong><span style="font-size:7.5pt;font-family:"Arial","sans-serif"">: This electronic message transmission, including any attachment(s),
 may contain confidential, proprietary, or privileged information from Chemical Abstracts Service (“CAS”), a division of the American Chemical Society (“ACS”). If you have received this transmission in error, be advised that any disclosure, copying, distribution,
 or use of the contents of this information is strictly prohibited. Please destroy all copies of the message and contact the sender immediately by either replying to this message or calling <a href="tel:614-447-3600" value="+16144473600" target="_blank">614-447-3600</a>.</span><span style="font-family:"Arial","sans-serif""><u></u><u></u></span></p>

</div></div></div><div><div class="h5">

<div style="font-family:Arial,Helvetica,sans-serif">
<p><font face="Arial" size="1"> 
<strong>Confidentiality Notice</strong>: This electronic message transmission, including any attachment(s), may contain confidential, proprietary, or privileged information from Chemical Abstracts Service (“CAS”), a division of the American Chemical Society (“ACS”). If you have received this transmission in error, be advised that any disclosure, copying, distribution, or use of the contents of this information is strictly prohibited. Please destroy all copies of the message and contact the sender immediately by either replying to this message or calling <a href="tel:614-447-3600" value="+16144473600" target="_blank">614-447-3600</a>.</font></p>

</div>

</div></div></div>

<br>_______________________________________________<br>
riak-users mailing list<br>
<a href="mailto:riak-users@lists.basho.com">riak-users@lists.basho.com</a><br>
<a href="http://lists.basho.com/mailman/listinfo/riak-users_lists.basho.com" target="_blank">http://lists.basho.com/mailman/listinfo/riak-users_lists.basho.com</a><br>
<br></blockquote></div><br></div>