The Effect of Transitive Closure on the Calibration of Logistic Regression for Entity Resolution

نویسندگان

  • John Talburt Prof., Department of Information Science, University of Arkansas at Little Rock, Arkansas, USA.
  • Yumeng Ye MSC, Department of Information Quality Program, University of Arkansas at Little Rock, Arkansas, USA.
چکیده مقاله:

This paper describes a series of experiments in using logistic regression machine learning as a method for entity resolution. From these experiments the authors concluded that when a supervised ML algorithm is trained to classify a pair of entity references as linked or not linked pair, the evaluation of the model’s performance should take into account the transitive closure of its pairwise linking decisions, not just the pairwise classifications alone. Part of the problem is that the measures of precision and recall as calculated in data mining classification algorithms such as logistic regression is different from applying these measures to entity resolution (ER) results.. As a classifier, logistic regression precision and recall measure the algorithm’s pairwise decision performance. When applied to ER, precision and recall measure how accurately the set of input references were partitioned into subsets (clusters) referencing the same entity. When applied to datasets containing more than two references, ER is a two-step process. Step One is to classify pairs of records as linked or not linked. Step Two applies transitive closure to these linked pairs to find the maximally connected subsets (clusters) of equivalent references. The precision and recall of the final ER result will generally be different from the precision and recall measures of the pairwise classifier used to power the ER process. The experiments described in the paper were performed using a well-tested set of synthetic customer data for which the correct linking is known. The best F-measure of precision and recall for the final ER result was obtained by substantially increasing the threshold of the logistic regression pairwise classifier.

برای دانلود باید عضویت طلایی داشته باشید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

“the effect of risk aversion on the demand for life insurance: the case of iranian life insurance market”

abstract: about 60% of total premium of insurance industry is pertained?to life policies in the world; while the life insurance total premium in iran is less than 6% of total premium in insurance industry in 2008 (sigma, no 3/2009). among the reasons that discourage the life insurance industry is the problem of adverse selection. adverse selection theory describes a situation where the inf...

15 صفحه اول

the effect of taftan pozzolan on the compressive strength of concrete in the environmental conditions of oman sea (chabahar port)

cement is an essential ingredient in the concrete buildings. for production of cement considerable amount of fossil fuel and electrical energy is consumed. on the other hand for generating one tone of portland cement, nearly one ton of carbon dioxide is released. it shows that 7 percent of the total released carbon dioxide in the world relates to the cement industry. considering ecological issu...

the washback effect of discretepoint vs. integrative tests on the retention of content in knowledge tests

در این پایان نامه تاثیر دو نوع تست جزیی نگر و کلی نگر بر به یادسپاری محتوا ارزیابی شده که نتایج نشان دهندهکارایی تستهای کلی نگر بیشتر از سایر آزمونها است

15 صفحه اول

the effect of traffic density on the accident externality from driving the case study of tehran

در این پژوهش به بررسی اثر افزایش ترافیک بر روی تعداد تصادفات پرداخته شده است. به این منظور 30 تقاطع در شهر تهران بطور تصادفی انتخاب گردید و تعداد تصادفات ماهیانه در این تقاطعات در طول سالهای 89-90 از سازمان کنترل ترافیک شهر تهران استخراج گردید و با استفاده از مدل داده های تابلویی و نرم افزار eviews مدل خطی و درجه دوم تخمین زده شد و در نهایت این نتیجه حاصل شد که تقاطعات پر ترافیک تر تعداد تصادفا...

15 صفحه اول

the effect of consciousness raising (c-r) on the reduction of translational errors: a case study

در دوره های آموزش ترجمه استادان بیشتر سعی دارند دانشجویان را با انواع متون آشنا سازند، درحالی که کمتر به خطاهای مکرر آنان در متن ترجمه شده می پردازند. اهمیت تحقیق حاضر مبنی بر ارتکاب مکرر خطاهای ترجمانی حتی بعد از گذراندن دوره های تخصصی ترجمه از سوی دانشجویان است. هدف از آن تاکید بر خطاهای رایج میان دانشجویان مترجمی و کاهش این خطاها با افزایش آگاهی و هوشیاری دانشجویان از بروز آنها است.از آنجا ک...

15 صفحه اول

the effect of the instruction of metadiscourse maekers on iranian efl learners persuasive writing proficiency

چکیده مهارت نوشتار یکی از مهمترین مهارتهای فرآیند یادگیری و تدریس زبان برای زبان آموزان و مدرسین می باشد. در تحقیق حاضر، تاثیر آموزش نشانه های فراکلام روی مهارت نوشتار متقاعدکننده زبان آموزان سطح متوسط ایرانی مورد بررسی قرار گرفت. این تحقیق 40 زبان آموز داشت که توسط آزمون نوشتار تافل(2005) همسان سازی شدند و سپس به دو گروه آموزشی و خطا تقسیم شدند. در ابتدای پژوهش معیارهای نوشتار متقاعدکننده به ...

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


عنوان ژورنال

دوره 10  شماره 4

صفحات  1- 11

تاریخ انتشار 2019-01-01

با دنبال کردن یک ژورنال هنگامی که شماره جدید این ژورنال منتشر می شود به شما از طریق ایمیل اطلاع داده می شود.

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023